Cómo bloquear los bots de archive.org en WordPress

Hace unos días publicamos una entrada sobre Cómo eliminar una web de archive.org bloqueando sus bots a través de robots.txt. Hoy os explicamos como bloquear los bots de archive.org en WordPress.

Cómo muchos de vosotros utilizáis WordPress no es muy cómodo tener que subir un archivo robots.txt personalizado a través de FTP para bloquear los bots de archive.org. Además que de esta forma se pierden las carpetas y archivos que automáticamente WordPress bloquea y deja acceso.

Por esta razón hemos creado un plugin de WordPress para hacernos la vida más fácil. Hay dos opciones para bloquear los bots de archive.org:

  1. Os instaláis el plugin desde el repositorio oficial buscando por: «Block Archive.org via WordPress robots.txt«. Se instala y se activa. No tiene ajustes.
  2. Añadís las siguientes líneas de código al archivo functions.php de vuestro child theme (si no sabéis que es esto, usar la opción 1 que seguro os funcionará):
add_filter( 'robots_txt', 'apa_block_archive_org_robots_txt', 10, 2 );
function apa_block_archive_org_robots_txt( $output, $public ) {
	if ( '1' == $public ) { // Checks whether the site is considered "public".
		$output .= "# Block archive.org bots" . "\n" . "User-agent: ia_archiver" . "\n" . "Disallow: /" . "\n" . "User-agent: archive.org_bot" . "\n" . "Disallow: /" . "\n" . "User-agent: ia_archiver-web.archive.org" . "\n" . "Disallow: /";
	}
	return $output;
}

De esta forma el robots.txt estándar generado automáticamente por WordPress:

Robots.txt estándar de WordPress

Se convierte en este:

Robots.txt estándar de WordPress incluyendo bloqueo bots de archive.org

Si queréis verificar que el plugin funciona, lo que os tiene que aparecer en el robots.txt es la segunda imagen.

P.D. El plugin y el código pegado en el functions.php solo funcionan si NO existe un archivo físico de robots.txt en el directorio raíz del dominio. Y también solo funciona si WordPress está instalado en el directorio raíz del directorio. Si está instalado en un subdirectorio no funciona.

OJO: Esto elimina la web en la que se activa de archive.org y se pierde su histórico (que no se puede recuperar). Por tanto tener cuidado a la hora de utilizarlo y solo activarlo si lo que queréis es que vuestra web se desindexe de archive.org y los bots no la sigan visitando.

Página bloqueada en archive.org por directivas de robots.txt

Descubre porqué somos Apasionados del Marketing

Mira también

Cómo saber el stock de un producto en Amazon (truco)

Hoy os quiero presentar un truco que llevamos usando desde hace tiempo y que a …