I file robots.txt e gli spider

Come creare e analizzare un file robots.txt

Il file robots.txt è uno strumento indispensabile per il nostro sito, al servizio del nostro sito e di quanto di esso desideriamo non  far conoscere ai motori di ricerca. È una sorta di porta posta davanti a esso, che decide quali spider ispettivi dei motori di ricerca possano entrarci dentro, e quindi quali pagine possano essere indicizzate. Un regolatore di crawler quindi, un’entità capace di limitarne l’incisività e le indagini.

Nonostante la rilevante mole delle sue possibilità e delle sue capacità, il robots.txt è un semplice file di testo .txt appunto, di agevole compilazione e di agevole implementazione nella root principale del nostro sito.

È nato a detta comune e da pensiero condiviso nel web nel 1994, e da quel momento, dopo l’approvazione della cosiddetta “Robots mailing list” e dopo la nascita del

Robots Exclusion Standard

viene tacitamente accettato come norma nella programmazione, anche se in realtà non esiste una vera a propria regola che ne obblighi il rispetto. Gran parte, i maggiori bot, spider dei motori di ricerca più noti rispettano le indicazioni dei file robots.txt, ma potrebbero comunque essercene altri che ignorano, invece, le indicazioni.

Per questo motivo non bisogna confondere un robots.txt come un metodo di protezione di dati riservati, per i quali pass e codici sono sempre consigliati.

Robots Exclusion standard. Ovvero standard per l’esclusione dei robots, dei bot. Come si intuisce già da tale definizione la peculiarità massima del file robots.txt risiede nella capacità di negazione. Il robots.txt infatti dice allo spider dove non deve andare, lasciando invece al silenzio assenso le altre pagine. Può quindi soltanto dire: questi dati, queste categorie e queste pagine non devi vederle, le altre non indicate da me si.

Attenzione: il file robots.txt non va creato soltanto in caso di necessità, ma va, a nostro avviso, sempre applicato al sito, anche se dovesse dire: via libera su tutto.

Come si posiziona e dove.

Il file robots.txt va applicato nella directory principale del sito, creando quindi una URL simile a questa /robots.txt.

Grammatica del file.

Cosa contiene di solito un file robots.txt? Di solito contiene due campi. Il campo “User agent” e il campo “Disallow”.

User agent si riferisce direttamente ai vari spider in giro per il web, come ad esempio Googlebot. Si può scegliere di riferirsi a dei dettagliati bot o come spesso capita riferirsi a tutti gli spider. In questo caso si usa la cifra *.

E si scriverà: User-agent: *

Il “Disallow” quindi, che è il campo nel quale, una volta indicati i destinatari tramite “User agent” si scrive il messaggio. Ovvero si indica dove gli spider non devono andare. Non vogliamo che vadano per esempio in un’ipotetica cartella segreti seo? Scriveremo quindi Disallow:/segreti-seo/.

Attenzione L’indicazione Disallow è un intervento potremmo dire “drastico”, non va quindi utilizzato come se fosse “zucchero a velo” ma, invece, come “sale” perché a usarne troppo e troppo spesso ci si rimette la salute..del sito-

Questa la grammatica basica, basilare per la scrittura di un file robots.txt. Esistono poi ovviamente alcuni specifici dettagli accettati da alcuni spider, ma qui può bastare indicare intanto cosa sia il robots.txt, cosa serve e dove vada inserito.

Come creare il file.

Prima di segnalarvi alcuni modi migliori per generare il vostro file robots.txt e successivamente analizzarlo, indichiamo alcuni dei maggiori robots in giro per il web e alcuni bots specifici. Google ha googlebot e poi MSN Search- msnbot, Yahoo yahoo – slurp,  Ask/Teoma teoma,  Cuil twiceler, GigaBlast – gigabot, Scrub The Web – scrubby, DMOZ Checker – robozilla, Nutch nutch, Alexa/Wayback -ia_archiver, Baidu baiduspider, Naver – naverbot. Bots: Google Image     – googlebot-image, Google Mobile – googlebot-mobile, Yahoo MM-  yahoo-mmcrawler, MSN PicSearch – psbot, SingingFish – asterias, Yahoo Blogs – yahoo-blogs/v3.9.

Dunque. Un file robots.txt può essere agevolmente scritto a mano su un file di testo e poi una volta verificato e rivisto, aggiunto alla route principale del proprio sito. Esistono però dei generatori di robots.txt che permettono di depennare le voci corrispondenti alle proprie necessità e ottenere una volta spuntato quanto necessario il proprio file da applicare.

Uno dei maggiori adesso, e ovviamente molto utilizzati e “brandizzati” è il Generatore file robots.txt di Google. Si trova negli “Strumenti per webmaster” o meglio detti su scala planetaria “Web master tools”.

E cosi va utilizzato (citazione da Guida di Strumenti per i Webmaster Google):

“Nella home page degli Strumenti per i Webmaster, fai clic sul sito desiderato. Sotto Configurazione sito, fai clic su Accesso crawler. Fai clic sulla scheda Genera file robots.txt. Scegli l’accesso al robot predefinito. Ti consigliamo di consentire tutti i robot e utilizzare il passaggio successivo per escludere eventuali bot a cui desideri non consentire l’accesso al tuo sito. In tal modo eviterai problemi di blocco accidentale dell’accesso al tuo sito da parte di crawler essenziali. Specifica le eventuali regole aggiuntive.

Ad esempio, per bloccare la scansione di Googlebot in tutti i file e in tutte le directory del tuo sito, procedi nel seguente modo: nell’elenco Azione seleziona Disallow; nell’elenco Robot fai clic su Googlebot. Nella casella File o directory digita /; fai clic su Aggiungi. Il codice del file robots.txt viene generato automaticamente.

Per salvarlo, scarica il file o copia il contenuto in un file di testo e salvalo come robots.txt. Salva il file nella directory di primo livello del tuo sito. Il file robots.txt deve risiedere nella directory principale del dominio e deve essere denominato “robots.txt”. Un file robots.txt posizionato in una sottodirectory non è valido, in quanto i bot lo cercano solo nella directory principale del dominio”.

Blocco o rimozione di pagine utilizzando un file robots.txt

Analizzare il file.

Allo stesso modo, ancora Google, offre contemporaneamente la possibilità di analizzare il nostro  file robots.txt. Citiamo  ancora Webmaster Tools.

“Per analizzare il file robots.txt di un sito, procedi nel seguente modo: nella home page degli Strumenti per i Webmaster, fai clic sul sito desiderato. Sotto Configurazione sito, fai clic su Accesso crawler. Se non è già selezionata, fai clic sulla scheda Analizza robots.txt. Copia i contenuti del tuo file robots.txt e incollali nella prima casella. Nella casella URL, indica il sito da analizzare. Nell’elenco User-agent, seleziona gli user-agent desiderati. Qualsiasi modifica apportata in questo strumento non verrà salvata. Per salvare le eventuali modifiche, dovrai copiare e incollare i contenuti nel tuo file robots.txt.”

Come palese Google dà ovviamente priorità ai suoi Googlebot, ma da quanto appare evidente dell’elenco, permette anche di selezionare diversi User-agent sui quali e per i quali indagare.

Questo invece un Robots.txt checker, tra i più noti nel web:

Robots.txt Checker.