Più volte nei post pubblicati su questo blog, ti abbiamo consigliato di inserire dei link all’interno delle pagine, di creare dei redirect per non incorrere in errori 404 e di generare file robots.txt nella directory principale del sito. Ma qual è la vera importanza di queste operazioni, e soprattutto come funzionano i link e i robots.txt agli occhi dei motori di ricerca?
In questo post voglio illustrarti, aiutandomi con dei grafici ricreati da Jenny Halasz (presidente di una società di marketing e SEO) come avviene la scansione, da parte dei motori di ricerca, delle pagine del tuo sito, per farti comprendere l’importanza di una buona ottimizzazione SEO.
Il lavoro dei crawler
L’indicizzazione di un sito web ha inizio a partire dal lavoro dei crawler. Quando questi visitano un sito, la prima cosa che prendono in esame è il file robots.txt. Supponiamo che questo non esista o che indichi al motore di ricerca di procedere con la scansione del sito. Il crawler allora passerà al setaccio tutte le pagine alla ricerca di informazioni da memorizzare nei database. Durante questo lavoro raccoglie l’elenco di tutte le pagine che sono linkate. Nel caso di link interni, il crawler con molta probabilità li seguirà spostandosi su altre pagine. Per i link esterni li registrerà all’interno di un database per processarli più tardi.
Come vengono processati i link dai motori di ricerca
Al termine dell’operazioni che ti ho illustrato al passo precedente, il motore di ricerca prenderà tutti i link che sono stati memorizzati all’interno dei database e li collegherà in una sorta di grafico, assegnando ad ogni pagina un valore relativo. Il punteggio verrà valutato in base alla tipologia della pagina.
Prendiamo in considerazione ad esempio una pagina di spam. A essa viene associato certamente un punteggio negativo (S = spam). Se questa pagina risulta collegata ad altre pagine, anche queste saranno segnate con un punteggio negativo.
Supponiamo ora di prendere in considerazione una pagina non spam (G = good). Questa otterrà un punteggio positivo, e tutte le pagine ad essa collegate potranno godere di conseguenza di un punto favorevole. Ogni pagina, quindi, al termine di questo processo, sarà interessata da diversi punteggi. Se la somma dei punti favorevoli supera quella dei punti negativi , allora la pagina otterrà un punteggio complessivo positivo. Al contrario se i punti negativi superano quelli positivi la pagina sarà valutata come spam. A complicare maggiormente le cose, c’è da dire che i punteggi positivi G e quelli negativi S non hanno tutti lo stesso peso.
Quando i robots.txt bloccano le pagine
Facciamo un passo indietro e supponiamo che il file robots.txt indichi al motore di ricerca di non accedere ad una determinata pagina. Il crawler non scansionerà i suoi contenuti, ma registrerà comunque i collegamenti che derivano da altre pagine. Di conseguenza alla pagina bloccata sarà associato un valore relativo, che peserà nel complesso su tutto il dominio.
Il comportamento dei motori di ricerca in caso di pagine rimosse
Supponiamo ancora che il file robots.txt non introduca alcun blocco ed una delle pagine del sito venga completamente rimossa. In tal caso il crawler andrà alla ricerca della pagina, ma otterrà un chiaro messaggio (errore 404) che gli indicherà l’assenza di ciò che stava cercando.
Quando verrà elaborato il grafico, la pagina sarà rimossa, ma verranno memorizzate le informazioni all’interno dei database qualora la stessa dovesse tornare disponibile.
A questo punto tutto è pronto per l’indicizzazione.
Come funziona l’indicizzazione delle pagine
L’indice ha la funzione di identificare le parole e gli elementi contenuti all’interno di una pagina con le parole e gli elementi memorizzati all’interno del database. Se effettuiamo una ricerca con le parole Internet post, otterremo dei risultati che hanno a che fare con le parole internet, post e internet post, oltre che con tutte le altre parole che possono essere direttamente correlate a queste (come ad esempio web può essere correlata a Internet).
Il motore di ricerca utilizza un algoritmo molto particolare per determinare la posizione delle pagine nei risultati della ricerca. Avrai intuito, per quanto ti ho fin’ora detto, che per prima cosa il motore di ricerca verificherà gli indici delle pagine (filtrerà solo le pagine che sono collegate alle parole ricercate), poi valuterà il punteggio delle singole pagine, il punteggio del dominio nel suo complesso, e tutta una serie di altri parametri, per giungere infine ad una classifica dei risultati che verrà riproposta nelle pagine di search.
Ora che hai capito come funziona il meccanismo di indicizzazione da parte dei motori di ricerca, sono certo comprenderai meglio l’importanza di applicare delle semplici regole SEO per migliorare il posizionamento del tuo sito su Internet.