Corso di Webmaster
PROGETTAZIONE DEL SITO
Prof. Molteni Jonathan
Linee guida
 consigli per consentire ai motori di ricerca di
 trovare
 indicizzare
 classificare il tuo sito
 evitare trucchi per migliorare il posizionamento:
 cloaking: non sottoporre ai motori di ricerca (MdR) contenuti
diversi da quelli mostrati agli utenti
 doorway: pagine di scarsa qualità ottimizzate per una
determinata frase o parola chiave
 pageRank : link progettati per migliorare la posizione del tuo
sito
Struttura e contenuti -1
 link comprensibili
 ogni pagina raggiungibile da almeno un link testuale
 mappa del sito con link che rimandano alle sezioni più
importanti (vedi esempio)
 se la mappa del sito contiene molti link, suddividerla in
più pagine
 limitare il numero di link in una pagina
 descrizione chiara e accurata dei contenuti
 includere nelle pagine le parole che gli utenti
potrebbero digitare per trovare il tuo sito
Struttura e contenuti - 2
 utilizzare del testo anziché immagini per visualizzare:
 nomi
 contenuti
 link
 il crawler dei MdR non riconosce il testo contenuto nelle
immagini
 utilizzare l'attributo "ALT" per includere parole di testo
descrittivo nelle immagini
 tag “title” e attributi “ALT” descrittivi e precisi
 verificare l'eventuale presenza di link non funzionanti
Immagini
 Non incorporare testo nelle immagini: i MdR non sono
in grado di leggere il testo incorporato nelle immagini
 utilizzare il formato HTML standard
 Fornire tutte le informazioni possibili sull'immagine
 Assegnare alle immagini nomi file dettagliati e
informativi: il nome file offre ai MdR indizi sul soggetto
dell'immagine
 Esempio:
“il-mio-nuovo-gattino-nero.jpg” più informativo di “IMG00023.JPG”
Immagini: l’attributo ALT
ALT importante perché:
 determina l'immagine migliore da restituire per la
query di un utente nei MdR
 utenti con problemi visivi utilizzano screen reader
 utenti che dispongono di connessioni a bassa velocità
Immmagini: esempi
 Visualizzazione non ideale:
 <img src="cucciolo.jpg" alt=""/>
 Visualizzazione migliore:
 <img src="cucciolo.jpg" alt="cucciolo"/>
 Visualizzazione ottimale:
 <img src="cucciolo.jpg" alt="Cucciolo dalmata che gioca">
 Da evitare
 <img src="puppy.jpg" alt="cucciolo cane cagnolino cagnetto
cagnetti cuccioli cagnolini cucciolata cane retriever labrador
wolfhound setter pointer cucciolo jack russell terrier cuccioli
cibo per cani economico cibo per cuccioli alimenti per
cani"/>
Immmagini: indicazioni
 troppe parole chiave nel testo alternativo riduce la
qualità del servizio fornito all'utente e può far sì che il
tuo sito venga percepito come spam.
 contenuti utili e ricchi di informazioni con parole
chiave appropriate e nel contesto
 provare i contenuti con un browser, Lynx, testuale
Istruzioni tecniche
 esaminare il sito con Lynx:
 gli spider dei MdR rilevano il sito come Lynx
 Se funzioni come JavaScript,ID di sessione, frame,
DHTML o Flash impediscono di visualizzare l'intero
sito in un browser di testo, anche gli spider dei MdR
potrebbero riscontrare problemi durante la scansione
del sito.
HTTP If-Modified-Since
Assicurarsi che il server web supporti l'intestazione
HTTP If-Modified-Since:
 comunica ai MdR se il contenuto è stato modificato
dall'ultima scansione del tuo sito
 consente di limitare l'uso di larghezza di banda e di
ridurre il sovraccarico
Robots (Advanced)
Utilizzare il file robots.txt sul tuo server web:
 questo file indica ai crawler su quali directory è
possibile eseguire la scansione
 assicurati che il file sia aggiornato, in modo da
non bloccare involontariamente il crawler
Crawler, spider o robot: software che analizza i
contenuti di una rete in modo automatizzato per
conto di un MdR, acquisisce una copia testuale di
tutti i documenti visitati e le inseriscono in un
indice.
File robots.txt – 1 (Advanced)
 il file robots.txt risede nella directory principale del
dominio
 i bot, prima di accedere alle pagine di un sito, effettuano un
controllo per verificare la presenza di un file robots.txt che
impedisce loro di accedere a determinate pagine
 alcuni spammer ignorano i file robots.txt per posizionare
annunci pubblicitari online senza dover pagare alcun costo.
Per questo è necessario proteggere mediante password le
informazioni riservate
 file robots.txt solo se sul sito vi sono contenuti che si
desidera escludere dall'indicizzazione dei MdR
Approfondimento
 Bot: programma che accede alla rete attraverso
lo stesso tipo di canali utilizzati dagli utenti
(pagine Web, invia messaggi in chat, si muove nei
videogiochi...). Programmi legati all'automazione
di compiti che sarebbero troppo gravosi o
complessi per gli utenti umani.
 Spam: da un autore conosciuto si generano
messaggi identici contenti pubblicità indesiderata.
Istruzioni tecniche
 Eseguire dei test del sito affinché venga visualizzato correttamente nei
diversi browser
 Monitorare le prestazioni del sito e ottimizzare i tempi di
caricamento
 Monitorare regolarmente le prestazioni dei siti utilizzando:
 Page Speed: http://code.google.com/intl/it/speed/page-speed/
 Yslow:
http://developer.yahoo.com/yslow/
 WebPagetest: http://www.webpagetest.org/
Compatibilità del browser
 Ciascun browser interpreta i codici del sito web in maniera






leggermente differente
il sito può apparire diverso ai visitatori a seconda del browser
utilizzato
evitare di basarsi sul comportamento specifico di un browser
eseguire test del sito su più browser possibili
progettato il sito, controllare "visualizzazione" e "funzionalità" su
diversi browser per assicurarsi che i visitatori usufruiscano del
servizio desiderato
eseguire i test sul processo di sviluppo il prima possibile
versioni diverse dello stesso browser possono visualizzare il sito in
modo differente
Diffusione dei browser: dicembre
2010
Statistiche browser
Distribuzione versioni di IE
Codice HTML chiaro ed efficace
 utilizzare codici HTML e CSS e eseguirne il test su più browser
 CSS separa la presentazione dai contenuti e velocizza il
caricamento e la visualizzazione delle pagine
 Strumenti di convalida:
 MarkupValidation Service: http://validator.w3.org/
 CSSValidation Service: http://jigsaw.w3.org/css-validator/
messi a disposizione dal Consorzio W3
 strumenti di pulizia facili e veloci:
 Tidy , http://www.w3.org/People/Raggett/tidy/
 corregge gli errori tipici in cui si occorre durante lo sviluppo di
codice web
Fattore accessibilità
 non tutti gli utenti hanno JavaScript attivato sui propri browser:
 inserire lo stesso contenuto di JavaScript in un tag noscript
 accertarsi che i contenuti siano identici a quelli in JavaScript
 tecnologie come Flash e ActiveX potrebbero non consentire una
corretta visualizzazione su tutti i browser, eseguire sempre il test su
Lynx
 fornire alternative di testo ai contenuti multimediali:
 per i MdR sarà più semplice la scansione e l'indicizzazione del sito
 sito più accessibile alle tecnologie alternative (screenreader)
Testo & motori di ricerca
 i MdR si basano su testo, per poter essere sottoposti a
scansione e indicizzati, i contenuti devono essere in
formato testo
 Non tutti i MdR sono in grado di indicizzare i
contenuti testuali presenti nei file Flash
 contenuti multimediali (Flash, Silverlight o video)
dovranno essere disponibili anche in formato testo,
altrimenti non saranno accessibili ai MdR
Googlebot & Flash
Googlebot:
 indicizza il testo visibile dei file SWF Flash e lo
utilizza per abbinare termini di query nelle ricerche
Google
 rintraccia gli URL nei file SWF e segue tali link
 non è garantita la scansione o l'indicizzazione di tutti
i contenuti Flash o di altro tipo eccetto testo
 non è possibile allegare contenuti caricati dai file
Flash:
 se un file Flash carica un altro file, viene
indicizzato il contenuto di tale file, ma non
è fa parte del sorgente Flash
Googlebot
Googlebot effettua due tipi di scansione del web:
 Deep-crawl: una volta al mese, viene scansionato
tutto il web pagina per pagina aggiornando indici
 Fresh-crawl: quasi tutti i giorni, aggiorna le
pagine che già sono presenti nell'indice e aggiunge
quelle create dopo l'ultima Deep-crawl
Indicizzazione file Flash: consigli
 solo alcuni motori di ricerca indicizzano i contenuti dei
file Flash, è preferibile utilizzare Flash per l'abbellimento
del sito (menu, gallerie immagini ..) e il codice HTML
per contenuti e navigazione
 sito più adatto al crawler e accessibile a più utenti
 lettori che necessitano di screen reader
 utenti che utilizzano browser obsoleti o non standard
 utenti che utilizzano cellulari o dei dispositivi
mobili
Silverlight e i formati multimediali
 MdR incontrano problemi nel gestire i contenuti multimediali:
Silverlight (visualizza all'interno applicazioni multimediali ad alta interattività)
 I rob leggono alcuni file multimediali e estraggono testo e link
in essi contenuti, ma mancano struttura e contesto
utilizzo contenuti multimediali
 è possibile che i MdR tralascino parole chiave importanti
 i contenuti vengono inclusi nell’indice dei MdR, ma
potrebbero mancare testo, contenuti e link
Video
 I rob non eseguono la scansione dei contenuti dei file
video
fornire informazioni sui video inclusi nel sito
 descrizione del video all'interno del codice HTML
 pubblicarli su Google Video,YouTube o altri
provider di servizi di hosting video
Best practice
 utilizzare formati multimediali solo dove necessario
 servirsi HTML per i contenuti e la navigazione
 fornire versioni di testo delle pagine
 se Silverlight è utilizzato nella home page accertarsi che
la pagina iniziale contenga un link HTML standard a
una pagina di testo da cui è possibile esplorare il sito
senza utilizzare il formato multimediale
Tipi di file indicizzati dai MdR
(advanted)
 Adobe Portable Document Format (.pdf), Adobe PostScript (.ps), Autodesk Design Web
Format (.dwf), Codice Basic (.bas), C/C++ Codice (.c, .cpp, .cxx, .h, .hpp), Flash (.swf),
Google Earth (.kml, .kmz), HTML (.htm, .html), Perl (.pl), Python (.py), Codice sorgente
Java (.java), Microsoft Excel (.xls, .xlsx), Microsoft PowerPoint (.ppt, .pptx), Microsoft
Word (.doc, .docx), Testo OpenOffice (.odt), Presentazioni OpenOffice (.odp), Fogli di
calcolo OpenOffice (.ods), Rich Text Format (.rtf, .wri), Testo (.ans, .asc, .cas, .txt, .text),
XML (.xml), Wireless Markup Language (.wml, .wap)
 Non tutti gli URL e le pagine hanno l'estensione di file .html:
 alcune pagine non utilizzano alcuna estensione
(http://www.google.com)
 alcune hanno estensione che non corrisponde al loro tipo di file
 Limitando la ricerca a un tipo di file specifico si ottengono pagine con
tale estensione ottenendo meno risultati pertinenti.
Uso di parole chiave in eccesso
parole chiave in eccesso: consiste nel sovraccaricare una
pagina web di parole chiave nel tentativo di modificare il
posizionamento di un sito nei risultati di ricerca
peggiora del servizio offerto e il posizionamento del sito
 contenuti ricchi di informazioni che utilizzino le parole
chiave appropriate e nel contesto
 evitare elenchi di parole chiave ripetute a caso
 le parole chiave possono presentarsi sotto forma di testo
nascosto o nei tag “title” o negli attributi “alt”
Norme sulla qualità: Princìpi di base
 progettare per utenti e non per i motori di ricerca
 non sottoporre ai MdR contenuti diversi da quelli
proposti agli utenti, cloaking
 evitare i link a siti di spam, influisce negativamente sul
posizionamento del sito
 non utilizzare programmi non autorizzati per inviare
pagine
Norme sulla qualità - Norme specifiche
 Evita testo o link nascosti
 Non utilizzare il cloaking o comandi di reindirizzamento non
ammessi
 Non inviare query automatizzate
 Non creare più pagine, sottodomini o domini dai contenuti
duplicati
 Evita le "pagine doorway" create appositamente per i motori di
ricerca o altri approcci mirati alla soppressione dei cookie, come i
programmi affiliati con contenuto originale scarso o nullo.
Testo e link nascosti
testo e link nascosti fa sì che il sito venga ritenuto
inaffidabile
 il testo può essere nascosto in diversi modi:
 testo bianco su uno sfondo bianco
 testo dietro un'immagine
 CSS per nascondere il testo
 impostando la dimensione del carattere su 0
 il sito viene rimosso dall'indice dei MdR
 non compare nei risultati di ricerca
Cloaking
Presentare agli utenti contenuti o URL diversi da quelli
presentati ai motori di ricerca. Esempi:
 HTML ai MdR  immagini o Flash agli utenti
 se il sito contiene elementi non sottoponibili a scansione da
parte dei MdR( file multimediali) non fornire contenuti
mascherati
risultati diversi a seconda dello user-agent provoca
l'identificazione del sito come ingannevole e la sua conseguente
rimozione dall'indice
Query automatizzate
i MdR non consentono l'invio al sistema di query
automatizzate di alcun tipo senza il previo consenso
esplicito dei MdR stessi.
query automatizzate utilizzano sw per stabilire il
posizionamento di un sito o una pagina web nei
risultati di ricerca dei MdR per varie loro query
Contenuti duplicati
 blocchi di contenuti all'interno o tra i domini identici o molto simili
 pratica all'origine NON ingannevole:
 forum di discussione
 pagine destinate a dispositivi mobili
 archivi visualizzati o collegati tramite più URL distinti
 versioni stampabili delle pagine web
 I MdR cercano di indicizzare informazioni distinte; Esempio:
 il sito contiene una versione "regolare" e una "stampabile" e nessuna di
esse è bloccata con un metatag noindex (impedisce l'indicizzazione della
pagina), i MdR ne scelgono una sola
In alcuni casi i contenuti vengono deliberatamente duplicati per manipolare il
posizionamento per conquistare un traffico maggiore.
peggiora il servizio offerto agli utenti:
contenuti ripetuti in un insieme di risultati di ricerca sito rimosso dall'indice
Pagine doorway
 pagine di scarsa qualità dove ciascuna pagina è ottimizzata per
una determinata frase o parola chiave
 scritte per ottenere posizionamento
 distribuite su più domini o presenti in un uno solo
 pratiche volte a manipolare i MdR e a ingannare gli utenti
indirizzandoli a siti diversi da quelli selezionati
Assenza o scarsa presenza di contenuti originali
Pagine generate automaticamente ,esempi:
 Siti affiliati poveri di contenuti: raccolgono entrate pay-
per-click (PPC) inviando i visitatori ai siti di programmi
affiliati.
 contenuti generati automaticamente a livello di
programmazione: paragrafi di testo casuali che non hanno
alcun senso per il lettore, che contengono parole chiave di
ricerca
 Contenuti di altri siti: contenuti tratti da altri siti più
affidabili, supponendo erroneamente che aumentare il
volume di pagine web con contenuti non pertinenti
rappresenti una buona strategia
Sitemap
 Invialo a Google alla pagina
http://www.google.com/addurl.html
 Invia una Sitemap
 consentono di comunicare ai motori di ricerca informazioni
sulle pagine del tuo sito
 è un elenco delle pagine del tuo sito web.
 permette di conoscere la struttura del tuo sito e aumentare la
copertura delle tue pagine web.
 Importante verifica che tutti i siti potenzialmente interessati alle
tue pagine siano a conoscenza della presenza online del tuo sito.
 Link per creare site map:
 http://www.xml-sitemaps.com/
Verifica in google: file HTML
home di Strumenti per i Webmaster
 clic su Verifica questo sito accanto al sito desiderato.
 Scegli il metodo di verifica




seleziona Carica file HTML, segui le istruzioni.
Carica il file sul tuo server web nel percorso indicato
Conferma facendo clic sul link fornito.
Dopo aver caricato, fai clic su Verifica
 Non eliminare il file dal server perché in tal caso verrà
annullata la verifica del sito.
Aggiungi il tuo URL all'indice di Google
 Aggiungere all'indice il nuovo sito o aggiorniamo quelli
già presenti.
 Non vengono aggiunti all'indice tutti i siti suggeriti né
vengono fornite garanzie su quando e se il sito verrà
aggiunto.
 Vai alll'URL
 http://www.google.com/addurl/?continue=/addurl
 Inserisci l'URL del tuo sito comprensivo del prefisso http://
 Se lo desideri, aggiungi commenti o parole chiave che
descrivono i contenuti della tua pagina
Sito non indicizzato: motivi
 Il sito potrebbe essere indicizzato con un dominio diverso.
Esempio:
 indicizzato come http://example.com anziché come
http://www.example.com.
 Se il sito è recente, il MdR non ha ancora eseguito la
scansione e l'indicizzazione.
 Segnala il tuo sito al MdR.
Centro webmaster google
 Ricevi dati su scansione, indicizzazione e traffico di ricerca.
Ricevi notifiche in merito a problemi sul tuo sito.
 Link:
 http://www.google.com/webmasters/
Scarica

test - corso