Entendiendo el archivo robots.txt

Ramón Rautenstrauch 1 agosto 2011 BUSCADORES, GOOGLE Comentarios desactivados en Entendiendo el archivo robots.txt

Esta semana Chema Alonso ha publicado una nueva entrada sobre el archivo robots.txt, lo que nos ha hecho retomar el tema y volver a recordar algunos temas importantes de los mismos.

Uno de los puntos que siempre genera problemas es la inclusión de las directivas ALLOW:

La wikipedia ofrece una explicación al funcionamiento de Allow bastante clara. Parece ser que algunos robots implementan Allow, como Google y Bing, pero lo evalúan de forma diferente.

Google evalúa primero todos los Allow y luego, una vez indexados, se encarga de todo menos lo marcada por Disallow.
Bing, por el contrario, aplica la directiva más específica, es decir:
- Disallow: /casa & Allow:/casa/puerta -> El contenido de casa no se indexa peró sí el de puerta se indexa
- Allow:/casa & Disallow:/casa/puerta -> El contenido de casa se indexa, pero no el de puerta.

Sin embargo, como el estándar es que se aplica el primer match, es decir, la primera regla de coincidencia, pueden existir algunos robots que se encuentren: Allow: / & Disallow:/casa. Y como la primera coincidencia coincide, pues será la que vale todo se indexa.

Otro de los puntos que genera problemas es intentar evitar la indexación de determinado tipo de archivos:

En el archivo robots.txt de RTVE.ES, que quiere prohibir la indexación de archivos *.flv, *.mp3 y *.inc.

Archivo robots.txt de RTVE. Fuente: Blog www.elladodelmal.com

Una búsqueda en Google muestra que esto no funciona del todo:

Búsqueda por archivos flv en la web de RTVE. Fuente: Blog www.elladodelmal.com

¿Por qué? Pues porque el comodín * solo puede utilizarse en el USER-Agent de los ficheros robots.txt, es decir, no es interpretado.

Y por último el tema de las carpetas: Esto si es parte del formato más común de los ficheros robots.txt, pero no hay que olvidar nunca que los más curiosos van a probar entrar a todas ellas, por lo que nunca deberían de revelar su contenido. Y además nunca vamos a poder asegurarnos al 100% que el buscador no lo va a indexar.

En el caso de RTVE.ES se ha prohibido el acceso a scdweb, pero aparece en los resultados de búsqueda: