Spieghiamo perche' esiste l'archivio robots.txt e come si costruisce.
Per inziare commentiamo cosa sono i robots e che lavoro svolgono nella rete.
Un robot e' un programma che si dedica a visitare pagine web, copiarle in una database e seguire i links che queste pagine contengono verso altre pagine dello stesso dominio o di domini differenti.
Questo lavoro ci puo' beneficiare pero' ci puo' anche pregiudicare, dato che a volte non ci conviene o non vogliamo che alcune pagine vengano visitate ed indicizzate.
Attualmente i robots funzionano in modo tale che la prima cosa che fanno e' cercare se nella radice del dominio esiste un archivio chiamato robots.txt, se lo trovano lo leggono e ne seguono le istruzioni che questo contiene, altrimenti visita tutto il contenuto del dominio.
Per questo motivo e' importante creare bene questo archivio e valutare bene quali sono le pagine che vogliamo che vengano visitate e quelle che vogliamo che rimangano riservate.
Questo archivio e' molto facile da costruire dato che le regole da utilizzare sono poche e semplici, inoltre puo' essere fatto in modo che funzioni solo con alcuni robots.
Vediamo un esempio pratico:
User-agent: * #applicabile a tutti i robots Disallow: / #impedisce la indicizzazione di tutte le pagine
Secondo questo esempio, i robots non podranno indicizzare nessuna pagina del dominio.
User-agent dice a quali robots devono essere applicate le regole che seguono successivamente. Se utilizziamo * stiamo dicendo che queste regole sono applicabili a tutti i robots. Pero' possiamo creare regole per determinati robots, come in questo esempio:
User-agent: lycra User-agent: BadBot Disallow: /
In questo esempio i robots lycra e BadBot non potranno indicizzare nessuna pagina del dominio.
Disallow ci dice quali archivi e cartelle non vogliamo che siano rese pubbliche. In questo modo potremmo fare un archivio come questo:
In questo esempio cio' che facciamo e' proibire la indicizzazione dlla carttella logs e della pagina prova.html a tutti i robots.
Solo con questi semplici comandi potremmo realizzare un archivio robots.txt perfettamente valido, pero' esistono anche altri comandi per determinare in quali ore vogliamo che i robots visitino le nostre pagine. La sintassi per utilizzarli e' la seguente:
Visit-time: 0300-0400 #questo comando obbliga i robots a visitare le pagine solo dalle 3 alle 4 della mattina
Bisogna ricordarsi che l'orario da utilizzare e' quello di Greenwitch.
Possiamo anche dire ad un robot ch eindicizzi una pagina o varie ogni X tempo, per fare questo si utilizza questa sintassi:
Request-rate: 1/30
Essendo 1 il numero di documenti da visitare e 30 il tempo che deve trascorrere da una visita all'altra.
E' molto importante sapere che non bisogna lasciare linee in bianco dato che non funzionerebbe, nel momento in cui appare una linea vuota, il robot smette di leggere.
Un altro aspetto molto importante e' che i commenti devono essere preceduti da un #.
Questa sequenza di comandi permette a tutti i robots di visitare tutte le pagine del dominio, eccetto la pagina prova.html e la cartella logs, pero' solo dalle 3 alle 4 am.