Corso di Webmaster PROGETTAZIONE DEL SITO Prof. Molteni Jonathan Linee guida consigli per consentire ai motori di ricerca di trovare indicizzare classificare il tuo sito evitare trucchi per migliorare il posizionamento: cloaking: non sottoporre ai motori di ricerca (MdR) contenuti diversi da quelli mostrati agli utenti doorway: pagine di scarsa qualità ottimizzate per una determinata frase o parola chiave pageRank : link progettati per migliorare la posizione del tuo sito Struttura e contenuti -1 link comprensibili ogni pagina raggiungibile da almeno un link testuale mappa del sito con link che rimandano alle sezioni più importanti (vedi esempio) se la mappa del sito contiene molti link, suddividerla in più pagine limitare il numero di link in una pagina descrizione chiara e accurata dei contenuti includere nelle pagine le parole che gli utenti potrebbero digitare per trovare il tuo sito Struttura e contenuti - 2 utilizzare del testo anziché immagini per visualizzare: nomi contenuti link il crawler dei MdR non riconosce il testo contenuto nelle immagini utilizzare l'attributo "ALT" per includere parole di testo descrittivo nelle immagini tag “title” e attributi “ALT” descrittivi e precisi verificare l'eventuale presenza di link non funzionanti Immagini Non incorporare testo nelle immagini: i MdR non sono in grado di leggere il testo incorporato nelle immagini utilizzare il formato HTML standard Fornire tutte le informazioni possibili sull'immagine Assegnare alle immagini nomi file dettagliati e informativi: il nome file offre ai MdR indizi sul soggetto dell'immagine Esempio: “il-mio-nuovo-gattino-nero.jpg” più informativo di “IMG00023.JPG” Immagini: l’attributo ALT ALT importante perché: determina l'immagine migliore da restituire per la query di un utente nei MdR utenti con problemi visivi utilizzano screen reader utenti che dispongono di connessioni a bassa velocità Immmagini: esempi Visualizzazione non ideale: <img src="cucciolo.jpg" alt=""/> Visualizzazione migliore: <img src="cucciolo.jpg" alt="cucciolo"/> Visualizzazione ottimale: <img src="cucciolo.jpg" alt="Cucciolo dalmata che gioca"> Da evitare <img src="puppy.jpg" alt="cucciolo cane cagnolino cagnetto cagnetti cuccioli cagnolini cucciolata cane retriever labrador wolfhound setter pointer cucciolo jack russell terrier cuccioli cibo per cani economico cibo per cuccioli alimenti per cani"/> Immmagini: indicazioni troppe parole chiave nel testo alternativo riduce la qualità del servizio fornito all'utente e può far sì che il tuo sito venga percepito come spam. contenuti utili e ricchi di informazioni con parole chiave appropriate e nel contesto provare i contenuti con un browser, Lynx, testuale Istruzioni tecniche esaminare il sito con Lynx: gli spider dei MdR rilevano il sito come Lynx Se funzioni come JavaScript,ID di sessione, frame, DHTML o Flash impediscono di visualizzare l'intero sito in un browser di testo, anche gli spider dei MdR potrebbero riscontrare problemi durante la scansione del sito. HTTP If-Modified-Since Assicurarsi che il server web supporti l'intestazione HTTP If-Modified-Since: comunica ai MdR se il contenuto è stato modificato dall'ultima scansione del tuo sito consente di limitare l'uso di larghezza di banda e di ridurre il sovraccarico Robots (Advanced) Utilizzare il file robots.txt sul tuo server web: questo file indica ai crawler su quali directory è possibile eseguire la scansione assicurati che il file sia aggiornato, in modo da non bloccare involontariamente il crawler Crawler, spider o robot: software che analizza i contenuti di una rete in modo automatizzato per conto di un MdR, acquisisce una copia testuale di tutti i documenti visitati e le inseriscono in un indice. File robots.txt – 1 (Advanced) il file robots.txt risede nella directory principale del dominio i bot, prima di accedere alle pagine di un sito, effettuano un controllo per verificare la presenza di un file robots.txt che impedisce loro di accedere a determinate pagine alcuni spammer ignorano i file robots.txt per posizionare annunci pubblicitari online senza dover pagare alcun costo. Per questo è necessario proteggere mediante password le informazioni riservate file robots.txt solo se sul sito vi sono contenuti che si desidera escludere dall'indicizzazione dei MdR Approfondimento Bot: programma che accede alla rete attraverso lo stesso tipo di canali utilizzati dagli utenti (pagine Web, invia messaggi in chat, si muove nei videogiochi...). Programmi legati all'automazione di compiti che sarebbero troppo gravosi o complessi per gli utenti umani. Spam: da un autore conosciuto si generano messaggi identici contenti pubblicità indesiderata. Istruzioni tecniche Eseguire dei test del sito affinché venga visualizzato correttamente nei diversi browser Monitorare le prestazioni del sito e ottimizzare i tempi di caricamento Monitorare regolarmente le prestazioni dei siti utilizzando: Page Speed: http://code.google.com/intl/it/speed/page-speed/ Yslow: http://developer.yahoo.com/yslow/ WebPagetest: http://www.webpagetest.org/ Compatibilità del browser Ciascun browser interpreta i codici del sito web in maniera leggermente differente il sito può apparire diverso ai visitatori a seconda del browser utilizzato evitare di basarsi sul comportamento specifico di un browser eseguire test del sito su più browser possibili progettato il sito, controllare "visualizzazione" e "funzionalità" su diversi browser per assicurarsi che i visitatori usufruiscano del servizio desiderato eseguire i test sul processo di sviluppo il prima possibile versioni diverse dello stesso browser possono visualizzare il sito in modo differente Diffusione dei browser: dicembre 2010 Statistiche browser Distribuzione versioni di IE Codice HTML chiaro ed efficace utilizzare codici HTML e CSS e eseguirne il test su più browser CSS separa la presentazione dai contenuti e velocizza il caricamento e la visualizzazione delle pagine Strumenti di convalida: MarkupValidation Service: http://validator.w3.org/ CSSValidation Service: http://jigsaw.w3.org/css-validator/ messi a disposizione dal Consorzio W3 strumenti di pulizia facili e veloci: Tidy , http://www.w3.org/People/Raggett/tidy/ corregge gli errori tipici in cui si occorre durante lo sviluppo di codice web Fattore accessibilità non tutti gli utenti hanno JavaScript attivato sui propri browser: inserire lo stesso contenuto di JavaScript in un tag noscript accertarsi che i contenuti siano identici a quelli in JavaScript tecnologie come Flash e ActiveX potrebbero non consentire una corretta visualizzazione su tutti i browser, eseguire sempre il test su Lynx fornire alternative di testo ai contenuti multimediali: per i MdR sarà più semplice la scansione e l'indicizzazione del sito sito più accessibile alle tecnologie alternative (screenreader) Testo & motori di ricerca i MdR si basano su testo, per poter essere sottoposti a scansione e indicizzati, i contenuti devono essere in formato testo Non tutti i MdR sono in grado di indicizzare i contenuti testuali presenti nei file Flash contenuti multimediali (Flash, Silverlight o video) dovranno essere disponibili anche in formato testo, altrimenti non saranno accessibili ai MdR Googlebot & Flash Googlebot: indicizza il testo visibile dei file SWF Flash e lo utilizza per abbinare termini di query nelle ricerche Google rintraccia gli URL nei file SWF e segue tali link non è garantita la scansione o l'indicizzazione di tutti i contenuti Flash o di altro tipo eccetto testo non è possibile allegare contenuti caricati dai file Flash: se un file Flash carica un altro file, viene indicizzato il contenuto di tale file, ma non è fa parte del sorgente Flash Googlebot Googlebot effettua due tipi di scansione del web: Deep-crawl: una volta al mese, viene scansionato tutto il web pagina per pagina aggiornando indici Fresh-crawl: quasi tutti i giorni, aggiorna le pagine che già sono presenti nell'indice e aggiunge quelle create dopo l'ultima Deep-crawl Indicizzazione file Flash: consigli solo alcuni motori di ricerca indicizzano i contenuti dei file Flash, è preferibile utilizzare Flash per l'abbellimento del sito (menu, gallerie immagini ..) e il codice HTML per contenuti e navigazione sito più adatto al crawler e accessibile a più utenti lettori che necessitano di screen reader utenti che utilizzano browser obsoleti o non standard utenti che utilizzano cellulari o dei dispositivi mobili Silverlight e i formati multimediali MdR incontrano problemi nel gestire i contenuti multimediali: Silverlight (visualizza all'interno applicazioni multimediali ad alta interattività) I rob leggono alcuni file multimediali e estraggono testo e link in essi contenuti, ma mancano struttura e contesto utilizzo contenuti multimediali è possibile che i MdR tralascino parole chiave importanti i contenuti vengono inclusi nell’indice dei MdR, ma potrebbero mancare testo, contenuti e link Video I rob non eseguono la scansione dei contenuti dei file video fornire informazioni sui video inclusi nel sito descrizione del video all'interno del codice HTML pubblicarli su Google Video,YouTube o altri provider di servizi di hosting video Best practice utilizzare formati multimediali solo dove necessario servirsi HTML per i contenuti e la navigazione fornire versioni di testo delle pagine se Silverlight è utilizzato nella home page accertarsi che la pagina iniziale contenga un link HTML standard a una pagina di testo da cui è possibile esplorare il sito senza utilizzare il formato multimediale Tipi di file indicizzati dai MdR (advanted) Adobe Portable Document Format (.pdf), Adobe PostScript (.ps), Autodesk Design Web Format (.dwf), Codice Basic (.bas), C/C++ Codice (.c, .cpp, .cxx, .h, .hpp), Flash (.swf), Google Earth (.kml, .kmz), HTML (.htm, .html), Perl (.pl), Python (.py), Codice sorgente Java (.java), Microsoft Excel (.xls, .xlsx), Microsoft PowerPoint (.ppt, .pptx), Microsoft Word (.doc, .docx), Testo OpenOffice (.odt), Presentazioni OpenOffice (.odp), Fogli di calcolo OpenOffice (.ods), Rich Text Format (.rtf, .wri), Testo (.ans, .asc, .cas, .txt, .text), XML (.xml), Wireless Markup Language (.wml, .wap) Non tutti gli URL e le pagine hanno l'estensione di file .html: alcune pagine non utilizzano alcuna estensione (http://www.google.com) alcune hanno estensione che non corrisponde al loro tipo di file Limitando la ricerca a un tipo di file specifico si ottengono pagine con tale estensione ottenendo meno risultati pertinenti. Uso di parole chiave in eccesso parole chiave in eccesso: consiste nel sovraccaricare una pagina web di parole chiave nel tentativo di modificare il posizionamento di un sito nei risultati di ricerca peggiora del servizio offerto e il posizionamento del sito contenuti ricchi di informazioni che utilizzino le parole chiave appropriate e nel contesto evitare elenchi di parole chiave ripetute a caso le parole chiave possono presentarsi sotto forma di testo nascosto o nei tag “title” o negli attributi “alt” Norme sulla qualità: Princìpi di base progettare per utenti e non per i motori di ricerca non sottoporre ai MdR contenuti diversi da quelli proposti agli utenti, cloaking evitare i link a siti di spam, influisce negativamente sul posizionamento del sito non utilizzare programmi non autorizzati per inviare pagine Norme sulla qualità - Norme specifiche Evita testo o link nascosti Non utilizzare il cloaking o comandi di reindirizzamento non ammessi Non inviare query automatizzate Non creare più pagine, sottodomini o domini dai contenuti duplicati Evita le "pagine doorway" create appositamente per i motori di ricerca o altri approcci mirati alla soppressione dei cookie, come i programmi affiliati con contenuto originale scarso o nullo. Testo e link nascosti testo e link nascosti fa sì che il sito venga ritenuto inaffidabile il testo può essere nascosto in diversi modi: testo bianco su uno sfondo bianco testo dietro un'immagine CSS per nascondere il testo impostando la dimensione del carattere su 0 il sito viene rimosso dall'indice dei MdR non compare nei risultati di ricerca Cloaking Presentare agli utenti contenuti o URL diversi da quelli presentati ai motori di ricerca. Esempi: HTML ai MdR immagini o Flash agli utenti se il sito contiene elementi non sottoponibili a scansione da parte dei MdR( file multimediali) non fornire contenuti mascherati risultati diversi a seconda dello user-agent provoca l'identificazione del sito come ingannevole e la sua conseguente rimozione dall'indice Query automatizzate i MdR non consentono l'invio al sistema di query automatizzate di alcun tipo senza il previo consenso esplicito dei MdR stessi. query automatizzate utilizzano sw per stabilire il posizionamento di un sito o una pagina web nei risultati di ricerca dei MdR per varie loro query Contenuti duplicati blocchi di contenuti all'interno o tra i domini identici o molto simili pratica all'origine NON ingannevole: forum di discussione pagine destinate a dispositivi mobili archivi visualizzati o collegati tramite più URL distinti versioni stampabili delle pagine web I MdR cercano di indicizzare informazioni distinte; Esempio: il sito contiene una versione "regolare" e una "stampabile" e nessuna di esse è bloccata con un metatag noindex (impedisce l'indicizzazione della pagina), i MdR ne scelgono una sola In alcuni casi i contenuti vengono deliberatamente duplicati per manipolare il posizionamento per conquistare un traffico maggiore. peggiora il servizio offerto agli utenti: contenuti ripetuti in un insieme di risultati di ricerca sito rimosso dall'indice Pagine doorway pagine di scarsa qualità dove ciascuna pagina è ottimizzata per una determinata frase o parola chiave scritte per ottenere posizionamento distribuite su più domini o presenti in un uno solo pratiche volte a manipolare i MdR e a ingannare gli utenti indirizzandoli a siti diversi da quelli selezionati Assenza o scarsa presenza di contenuti originali Pagine generate automaticamente ,esempi: Siti affiliati poveri di contenuti: raccolgono entrate pay- per-click (PPC) inviando i visitatori ai siti di programmi affiliati. contenuti generati automaticamente a livello di programmazione: paragrafi di testo casuali che non hanno alcun senso per il lettore, che contengono parole chiave di ricerca Contenuti di altri siti: contenuti tratti da altri siti più affidabili, supponendo erroneamente che aumentare il volume di pagine web con contenuti non pertinenti rappresenti una buona strategia Sitemap Invialo a Google alla pagina http://www.google.com/addurl.html Invia una Sitemap consentono di comunicare ai motori di ricerca informazioni sulle pagine del tuo sito è un elenco delle pagine del tuo sito web. permette di conoscere la struttura del tuo sito e aumentare la copertura delle tue pagine web. Importante verifica che tutti i siti potenzialmente interessati alle tue pagine siano a conoscenza della presenza online del tuo sito. Link per creare site map: http://www.xml-sitemaps.com/ Verifica in google: file HTML home di Strumenti per i Webmaster clic su Verifica questo sito accanto al sito desiderato. Scegli il metodo di verifica seleziona Carica file HTML, segui le istruzioni. Carica il file sul tuo server web nel percorso indicato Conferma facendo clic sul link fornito. Dopo aver caricato, fai clic su Verifica Non eliminare il file dal server perché in tal caso verrà annullata la verifica del sito. Aggiungi il tuo URL all'indice di Google Aggiungere all'indice il nuovo sito o aggiorniamo quelli già presenti. Non vengono aggiunti all'indice tutti i siti suggeriti né vengono fornite garanzie su quando e se il sito verrà aggiunto. Vai alll'URL http://www.google.com/addurl/?continue=/addurl Inserisci l'URL del tuo sito comprensivo del prefisso http:// Se lo desideri, aggiungi commenti o parole chiave che descrivono i contenuti della tua pagina Sito non indicizzato: motivi Il sito potrebbe essere indicizzato con un dominio diverso. Esempio: indicizzato come http://example.com anziché come http://www.example.com. Se il sito è recente, il MdR non ha ancora eseguito la scansione e l'indicizzazione. Segnala il tuo sito al MdR. Centro webmaster google Ricevi dati su scansione, indicizzazione e traffico di ricerca. Ricevi notifiche in merito a problemi sul tuo sito. Link: http://www.google.com/webmasters/