Soluzioni dalla Rete: Come Funziona il File Robots.txt

Il file robots.txt è di sicuro il primo che i motori di ricerca vanno a controllare nella web root di dominio per verificarne i dati.

All’interno di questo file, è possibile dare informazioni sulla indicizzazione del sito per evitare che le directory non siano scansionate come interessa a noi o ancora vengano snobbate dal sistema di riconoscimento del motore di ricerca.

Vediamo allora insieme come creare questo file e caricarlo nella nostra web root del sito.

Come prima cosa apriamo un nuovo documento di Blocco Note e salviamolo con il nome file “robots.txt” senza le virgolette ed all’interno scriviamo:

User-agent: *
Allow: /

Con questi parametri diamo al nostro motore di ricerca, la possibilità di andare a scansionare tutta la directory del sito, senza tralasciare nulla.

Qui, facendo attenzione allo User-agent, possiamo decidere quali motori di ricerca far avere accesso, ad esempio potremmo inserire Google ed evitare Yahoo!.

Inoltre possiamo utilizzare (come nel nostro caso) il carattere “*” per dare informazioni generali. Un file di esempio del sito internet istituzionale potrebbe essere questo qui:

User-agent: *
Disallow: /administrator/
Disallow: /utenti/

In questo metodo, noi stiamo dicendo che il nostro sito può essere scansionato in tutte le ricerche, ma deve evitare di prelevare link e file dalle due sotto cartelle di dominio di amministrazione e degli utenti. Proprio in questo caso specifico, sarebbe inutile far scansionare la directory dell’amministratore.

L’indicizzazione ed i tempi della stessa on line, sono dati dal parametro Crawl-Delay che si usa nel seguente modo:

User-agent: *
Disallow: /administrator/
Disallow: /utenti/
Crawl-delay: 10

Qui, abbiamo indicato di utilizzare un intervallo di 10 secondi tra una indicizzazione e l’altra per effettuare una scansione nuova.

Un errore da non fare è sicuramente l’utilizzo di questo file robots.txt come uno strumento per evitare lo scanning perché il file è pubblico e da accesso a chiunque (contrariamente a quanto le voci dicono). Per limitare il traffico del bot, bisogna semplicemente indicare manualmente quali indicazioni vanno filtrate. Le informazioni personali non vanno mai inserite in questo file perché è pubblico.

Questo file è definibile un “elegante accompagnatore” che permette ai motori di ricerca di accedere al vostro sito internet, evitando inutilmente di consumare banda sul server e di dare comunque ad ogni sito la possibilità di conoscere l’indicizzazione senza che ogni volta bisogna interrogare il database per cercare nuove query, secondo quelle definite in anticipo.

L’utilizzo di questo file non è comune a tutti i siti, ma si rispetta una convenzione etica tra i programmatori.

Soluzioni dalla Rete

domenica 28 giugno 2015

Come Funziona il File Robots.txt

Nessun commento:

Posta un commento