Cómo eliminar una web de archive.org

Ramón Rautenstrauch 31 julio 2018 Curiosidades y varios 4 comentarios

Hoy una publicación breve pero muy útil sobre como eliminar una web de archive.org.

Contenidos

Cómo todos sabéis en el Wayback Machine de archive.org se guardan copias de páginas web y luego se puede ir viendo como han evolucionado estas páginas web en el tiempo. Es útil por ejemplo si registramos un dominio expirado y queremos ver el contenido que había anteriormente en el mismo.

El Internet Archive (Archivo de Internet) es una biblioteca digital gestionada por una organización sin ánimo de lucro dedicada a la preservación de archivos, capturas de sitios públicos de la Web, recursos multimedia y también software. La Wayback Machine que tiene 40 mil millones de páginas de internet grabadas desde 1996. Se puede ver la primera versión de IMDb y de la famosa página de ventas por Internet Amazon, así como también una sección especial que cataloga noticias en su versión original de dichas fechas. No almacena todas las páginas web que existen en toda la red, sino las más importantes y las que previamente se ha solicitado almacenar. Fuente: Wikipedia

Facebook en Wayback Machine de Archive.org (febrero 2010)

¿Cómo guardar una web en archive.org?

Si queréis guardar una web propia o de la competencia en archive.org podéis ir a la home de web.archive.org y en SAVE PAGE NOW pegar la URL y hacer click en SAVE PAGE. O construir una URL del tipo:

https://web.archive.org/ + SAVE + / + URL_QUE_SE-QUIERA_GUARDAR

Por ejemplo para guardar la página de Facebook sería:

https://web.archive.org/SAVE/https://www.facebook.com

¿Cómo eliminar una página de Wayback Machine de archive.org?

Pero no siempre nos interesa que una página web esté guardada en archive.org y que otras personas puedan ver el contenido que había anteriormente en la misma o la evolución del diseño. Y por tanto puede darse el caso de que queramos que web.archive.org elimine nuestra web de su base de datos.

Para que la eliminación sea rápida (2 a 5 días) hace falta que tengamos acceso al dominio porque tendremos que subir un archivo robots.txt que bloquee los bots de archive.org. El contenido del archivo robots.txt tiene que parecido a este (puede ser que haya alguna redundancia porque ia_archiver ya incluye el ia_archiver-web.archive.org pero este nos funciona y así vamos sobre seguro):

User-agent: ia_archiver
Disallow: /
User-agent: archive.org_bot
Disallow: /
User-agent: ia_archiver-web.archive.org 
Disallow: /

También podemos ir más a saco y bloquear todos los bots (incluido el Google bot):

User-agent: *
Disallow: /

Y ahora se supone que si le decimos a Archive.org que guarde una copia de la web no debería hacerlo por el robots.txt que debería de bloquear su acceso. Pues no. Archive.org guarda la página aunque haya un robots.txt que le impida el guardado. Y se puede comprobar fácilmente con lo que os explicaba anteriormente sobre cómo guardar una página en archive.org.

Y ¿entonces como eliminamos la web de archive.org si no hace caso al robots.txt?

Una vez tengamos el archivo robots.txt subido hay que enviar un email a info@archive.org pidiendo que eliminen la web del archivo.

El texto puede ser algo así como (obviamente hay que cambiar DOMAIN.COM por el dominio al que hacemos referencia):

ASUNTO: Remove site DOMAIN.com

Hi there,

Could you please remove our site DOMAIN.com from archive.org. We placed a robots.txt so that you don’t crawl it and remove the old copies.

Archive.org URL: http://web.archive.org/web/*/DOMAIN.com

Thanks.

Eso da igual de donde se envíe porque lo que comprueban es que realmente se haya subido el archivo robots.txt que bloquee a su bot. Si lo encuentran, eliminan la web de su índice en 2 a 5 días (normalmente):

Archive.org Wayback Machine: Web eliminada

Y entonces en vez de la web aparecerá un mensaje de que la web no se puede mostrar debido al robots.txt.

Útil, ¿no?

Si vais a dejar expirar un dominio, a lo mejor antes habría que plantearse si es interesante eliminar su contenido de archive.org.

[ACTUALIZACIÓN 03/AGOSTO/2018]

Desde que hemos publicado este artículo ha habido algunos cambios porque ahora archive.org pide documentación para eliminar páginas. Este email nos ha llegado hoy (después de haber eliminado unos cientos de páginas anteriormente):

Hello,
The Internet Archive can exclude websites from the Wayback Machine (web.archive.org), but we first respectfully request that you help us verify that you are the site owner or content author by doing any one of the following: 
* post your request on the current version of the site (and send us a link).
* send your request from the main email contact listed on the site (if one is present).
* send a request from the registrant’s email (if publicly viewable on a WHOIS lookup) or webmaster’s email listed on the site.
* point us to where your personal information (name, point of contact, image of self) appears on the site in a way that identifies you as owner of the site or author of the content you wish to have excluded – in this instance, we ask to verify your identity via a scan of a valid photo ID (sensitive info such as birth date, address, or phone number can be blacked out).
* forward to us communication from a hosting company or registrar addressed to you as owner of the domain.
If none of these options are available to you, please let us know in a reply to this email.
We would be grateful if you would help us preserve as much of the archive as possible. Therefore, please let us know if there are only specific URLs or directories about which you are concerned so that we may leave the rest of the archives available.
As you may know, Internet Archive is a non-profit digital library, seeking to maintain via the Wayback Machine a freely accessible historical record of the Internet. The material in the archives are not exploited by Internet Archive for commercial profit.
—
The Internet Archive Team

Ahora quieren que se publique la petición en la web, que se envíe la petición de una dirección de email que se muestra en la web, que se envíe a través del email del titular del dominio (esto hoy en día con el GDPR ya no vale pero no se han dado cuenta), enviar el DNI o pasaporte para eliminar cierto contenido sobre una persona o enviar un comunicado de una empresa de hosting que nos identifique como propietarios de la web.

De todas formas: Todo esto no hace falta. Se coloca el robots.txt. Se pide que se guarde la web. En 48 horas la web ha desaparecido (si no se quita el robots.txt en ese tiempo).

[/ACTUALIZACIÓN 03/AGOSTO/2018]

4 comentarios

Toni
11 abril 2019 en 23:53

Hola!!

No entendí bien lo último… Entonces¿? hace falta mandar dni y todo eso que te solicitan o bien sin hacerlo en y mandando un email desde cualquier mail de ese dominio (sin ser el principal) lo deben eliminar?

Gracias!
- Apasionados del Marketing
  12 abril 2019 en 18:22
  
  Según archive.org ahora tienes que mandar documentación:
  
  * post your request on the current version of the site (and send us a link).
  * send your request from the main email contact listed on the site (if one is present).
  * send a request from the registrant’s email (if publicly viewable on a WHOIS lookup) or webmaster’s email listed on the site.
  * point us to where your personal information (name, point of contact, image of self) appears on the site in a way that identifies you as owner of the site or author of the content you wish to have excluded – in this instance, we ask to verify your identity via a scan of a valid photo ID (sensitive info such as birth date, address, or phone number can be blacked out).
  * forward to us communication from a hosting company or registrar addressed to you as owner of the domain.
  
  Pero lo que hemos descrito del robots.txt sigue funcionando. Por tanto nosotros utilizaríamos este método. No es rápido porque tardan algunas semanas pero siempre nos funciona.
- Plez
  2 junio 2020 en 11:27
  
  Se puede solo con enviar un correo, pero el correo debe de ser del mismo dominio que deseas eliminar.
- Apasionados del Marketing
  7 junio 2020 en 18:40
  
  Lo más sencillo es subir el archivo robots.txt al dominio y te olvidas de trámites.