Los bots o arañas web pueden suponer un serio problema de rendimiento en las instalaciones de WordPress, pero también nos ayudan a que nuestras páginas aparezcan en los buscadores. Por estas razones es importante encontrar un equilibrio y controlar todos estos accesos.
Nos interesa que el acceso de los rastreadores o bots de los buscadores sea elevado (sin pasarnos como veremos luego) y que el acceso de los bots «malignos» que consumen nuestros recursos sin darnos nada a cambio (o si nos dan algo, solo nos dan spam) sea el menor posible.
Os presentamos dos (más uno) plugins para conseguir estos dos objetivos.
¿Qué es un bot? / ¿Qué es una araña web?
Un bot es un programa informático que imita el comportamiento de un humano. En castellano bot se podría traducir como robot. Una especie de bot es la que más nos debe de preocupar a la hora de administrar una página web: Las arañas web (en inglés: Internet bot). Son un programa que inspecciona las páginas del World Wide Web de forma metódica y automatizada. De forma simplificada las arañas web comienzan visitando la página principal de un dominio, identificando todos los enlaces para visitarlos y seguir buscando nuevos enlaces, hasta haber visitado todas las páginas de un dominio.
Dos plugins para el control de acceso de los bots
Hay dos plugins que utilizamos habitualmente en proyectos web donde queremos controlar la indexación de los nuevos contenidos y donde queremos evitar el acceso de bots indeseados.
Tenemos un plugin gratuito (SeoCrawlytics) y uno de pago (Spyder Spanker), pero muy aconsejables los dos.
Por un lado está Seo Crawlytics by Elevatelocal para controlar el acceso de los robots de Google y Bing a los contenidos publicados en el WordPress. Solo tiene el problema de la elevada cantidad de datos que puede llegar a recoger si hay muchos usuarios, pero esto se puede solucionar con el plugin Seo Crawlytics Export & Delete.
Y por otro lado Spyder Spanker o la versión Pro Spyder Spanker Pro para controlar e impedir el acceso de los bots que no queremos que nos visiten.
La combinación de ambos plugins nos dan la información sobre la indexación de nuestros contenidos, además de impedir el acceso de los bots indeseados.
Pasemos a ver ambos con más detalles.
Seo Crawlytics: Estadísticas de acceso de arañas web a WordPress
SeoCrawlytics es un plugin para WordPress gratuito que está en el repositorio de WordPress y que analiza el acceso a la web de los bots que definamos en la configuración. Por defecto vienen:
- GoogleBot / googlebot / googlebot.com
- BingBot / bingbot
Pero se pueden añadir todos los que queramos. Más abajo hay un listado de las arañas web.
Seo Crawlytics se puede utilizar para diagnosticar y obtener estadísticas de cómo se comportan los robots de los buscadores en nuestra página web.
El plugin nos muestra información sobre:
- Cuáles son las categorías y páginas más visitadas por los bots.
- Cuándo se producen los accesos de los robots.
- Detalles de las visitas de los robots e historial de sus visitas.
Incluso podemos configurar alertas por email y recibir un email cada vez que un robot viste la página web. Esto puede ser interesante en algunos momentos y una locura si se tiene activado de continuo y el WordPress es popular.
En el caso de que activéis las alertas por email de SeoCrawlytics recomendamos utilizar la siguiente configuración, ya que os dará mucha más información que las alertas estándar:
Asunto: {bot} ha visitado tu web Dominio.es
Contenido del email:
Un rastreador ha visitado tu web!
Rastreador: {bot}
Mask: {mask}
Url: {url}
Hora: {time}
Refer: {refer}
IP: {ipaddress}
Y se puede configurar si las alertas son instantáneas (cuando el robot acceda) o un resumen diario. El email al que lo envía por defecto es el de la instalación de WordPress (definido en Ajustes / General) y aunque cambiemos ese email, en el plugin no cambia, por lo que hay que cambiarlo a mano (lo cual tiene cierta lógica, pero puede ser un quebradero de cabeza si no nos acordamos de este detalle).
Lo que nos parece más interesante es la posibilidad de ver en cada entrada y página publicada cuando los bots configurados accedieron. Se puede ver todo el historial de accesos que ha tenido una entrada o página desde la instalación del plugin.
Y justamente esto puede traernos problemas de rendimiento: Si el WordPress tiene muchas visitas, es popular y los robots de los buscadores pasan a menudo a visitarlo, la tabla de datos de Seo Crawlytics aumenta mucho de tamaño. De hecho en algunos casos hemos tenido tablas de varios GB de tamaño, que finalmente acaban ralentizando el funcionamiento de la web.
La solución también viene en forma de plugin: «Seo Crawlytics Export & Delete«. Este plugin permite exportar los datos de la tabla de SeoCrawlytics y eliminar todos los datos más antiguos al último mes. De esta forma tenemos las estadísticas de acceso más recientes en el panel del plugin; que de todas formas solo muestra esos datos allí. El incoveniente de ese plugin es que también elimina todo el historial de acceso de los robots a las publicaciones y páginas, por lo que para las mismas solamente tendremos disponibles los datos de los últimos 30 días. No obstante para nosotros es un tema que podemos asumir, ya que lo que más nos interesa no es tener el historial, sino lo que os explicamos en el siguiente párrafo.
Seo Crawlytics nos sirve sobre todo para saber cuando se produce la indexación de un contenido, además del tiempo que pasa entre la publicación del contenido y su primera indexación.
Spyder Spanker: Evitar el acceso a WordPress de bots «malignos»
Spyder Spanker es un plugin de WordPress de pago, pero tiene un precio interesante para la funcionalidad que ofrece. La versión básica (para webs ilimitadas propias) ahora mismo vale 37 USD (aproximadamente 27 EUR), la versión PRO (para webs ilimitadas propias) ahora mismo vale unos 44 USD (aproximadamente 32 EUR) y la versión PRO DEVELOPER (para webs ilimitadas propias y de clientes) ahora mismo vale unos 66 USD (aproximadamente 47 EUR). Las versiones PRO y PRO DEVELOPER van cambiando de precio, aunque no hay fluctuaciones importantes.
Por la diferencia de precio siempre recomendamos comprar directamente la versión PRO DEVELOPER.
En un mundo perfecto, donde los bots hicieran caso a las directrices del archivo robots.txt, no haría falta. Pero como no vivimos en un mundo perfecto, necesitamos una herramienta para bloquear determinados bots.
La funcionalidad básica de Spyder Spanker es justamente esa: Bloquear el acceso a la web de los bots que seleccionemos e incluso permite ajustar la frecuencia en la cual dejamos que acceden a la web.
Por defecto incluye una lista de bots permitidos y una lista bastante extensa de bots bloqueados (más de 100). Nada más instalar el plugin, lo primero que deberíamos de hacer es revisar esas listas para no bloquear nada que nos interese.
En la web «User Agent String» hay un listado muy extenso de los agentes de usuario, que utilizamos para hacer los análisis estadístico de logs del servidor, pero en este caso nos sirve para ampliar las listas que incluye Spyder Spanker. La lista de los bots o rastreadores oficial de Google está aquí y los de Bing aquí. Hay que tener mucho cuidado con no bloquear los bots de Google y Bing, ya que esto podría afectar al posicionamiento de una web.
La versión PRO permite bloquear IPs, además de agentes de usuario (en inglés los llamados useragents). Muchas veces puede ser interesante bloquear no solo los agentes de usuario, sino también las IPs, ya que los bots malignos pueden cambiar fácilmente de agente de usuario para evitar el bloqueo de los mismos.
Otro de las opciones de la versión PRO es que permite obtener actualizaciones de las IPs y bots bloqueados por cualquier otro usuario del plugin. Esto puede ser interesante, aunque muy peligroso y por eso normalmente no lo usamos. Aunque en algún que otro blog lo tenemos configurado y vamos controlando que IPs y agentes de usuario bloquean los demás usuarios del plugin.
Una ventaja adicional (y la más interesante para nosotros) de la versión PRO es que incluye los agentes de usuario de los programas SEO de búsqueda de enlaces más conocidos (Ahrefs, Majestic Seo, etc) e impide que los mismos encuentren los enlaces en las webs con el plugin. Esto incluye los enlaces hacia otras webs de monetización y también impide que los competidores puedan descubrir fácilmente redes de blogs entrelazadas. Actualmente hay algunos problemas con los bots de MOZ / OpenSiteExplorer, ya que parece que el nombre del agente de usuario va cambiando y dependiendo del servidor del bot, también son distintos; la única solución que hay es bloquear el rango de IPs de MOZ (aunque por lo visto también cambian y por tanto hay que controlarlo).
Y la última ventaja de la versión PRO es que la configuración puede compartirse entre todos los blogs que tengan el plugin instalado. El cambio en un blog se propaga al resto. Esta opción tampoco la utilizamos, porque nos parece muy peligrosa y no tenemos del todo claro que los creadores del plugin no puedan tener los datos de todos los blogs que tengan configurado el mismo usuario para compartir los datos.
Controla los rastreadores y bloqueda los indeseados en WordPress
Instalando los dos plugins: Seo Crawlytics + Spyder Spanker y el plugin adicional Seo Crawlytics Data Exporte & Delete para ir vaciando la tabla de Seo Crawlytics, podremos tener los rastreadores controlados, además de obtener datos muy interesantes sobre el comportamiento de los bots de los buscadores en nuestras webs.
Recuerda que aquí tienes el acceso a la descarga de estos plugins.
Esperamos que os haya parecido interesante. Como siempre os pedimos un ME GUSTA o un +1. También lo podéis compartir en las redes sociales o dejarnos un comentario de vuestra experiencia con estos plugins o cualquier duda que os haya surgido.
Hola, felicidades por su labor de informar y formar a ignorantes del tema como yo.
No se si es el lugar correcto pero tengo una duda sobre WordPress, tengo un blog sencillo y sin casi registros de usuarios, pero en los últimos meses sistemáticamente se registran muchos «usuarios» que claramente son robots o no se muy bien quien… el caso es que he probado numerosos plugins (gratuitos) para evitar el spam pero nada… mi pregunta es:
¿Para que alguien (robots) se registra en mi web como usuario sistematicamente si no hacen comentarios (spam) ni se «aprovechan de mi web para nada» tan solo recibo mails de nuevo usuario ejemplo: livelysinger86ck693 @ outlook.com? y ya de paso ¿cómo evitar esto?. Ahora mismo tengo un capcha que incluso yo tengo que resolver para acceder…
Hola Nacho. Habría que ver como tienes construido el formulario de alta de usuarios y dónde lo tienes ubicado. Normalmente en el caso que nos relatas, o bien el robot confunde el formulario con un formulario para dejar un comentario o similar y por eso lo rellena o por otro lado está intentando hackear tu web mediante la creación de un usuario.
Lo dicho: Habría que mirarlo para darte una respuesta concluyente.
¿Puede ser que el uso de estos plugins en un hosting compartido afecte de forma importante a la velocidad de carga del mismo?
Si los tengo activados, mi blog se ralentiza muchísimo :-(.
Hola Lauro. Efectivamente si estás en un hosting compartido con poca memoria y pocos recursos a disposición de tu página web puede ralentizarse todo. Aunque tampoco debería de ralentizarse en exceso, a no ser que estés dentro de la pantalla de monitorización a tiempo real de Spyder Spanker.
Gracias por la información. El plugin de Seo Crawlytics ya me lo he instalado. ¿El otro es tan bueno como para hacer el desembolso? No lo veo nada claro.
Hola David. Depende de tu página web. Si es una página web de la cual obtienes ingresos o quieres obtenerlos, yo lo compraría sin duda alguna. La inversión es reducida y es muy efectivo.
Yo llevo varios meses con mi blog, intentando darlo a conocer.
Al principio creé los usuarios principales, pero para el administrador no uso
la cuenta admin, y además, quité el acceso a la administración de la página prinicipal.
Debo impedir que se registren de forma predeterminada como subscriptor??,
¿cual sería la mejor forma de evitar estos registro indeseados?
gracias.
Buenas tardes Miguel Ángel,
Si tienes registros no deseados pero quieres que los usuarios se registren para comentar, yo usaría un plugin que pida un captcha para realizar el registro. Por ejemplo el plugin llamado CAPTCHA.
Hola socio. Quiero comprarme el plugin Spyder Spanker Pro developer, pero es un poco confuso todo esta en ingles. De casualidad tienes algun video tutorial o algo para saber configurarlo. Gracias
Muito obrigado pelas dicas , estava com algumas dúvidas e agora foram sanadas.
Obrigado pela informação era isso que estava procurando .
Hola amigo.
Tengo una web la cual trabajo con Adsense para ganar dinero y me gustaría controlar las rañas esas y los robot.
Me gustaría que fueras tan amable de darme tu skype o cualquier red social en la cual podamos hablar personalmente. Me gustaría mucho. Compraría lo que tenga que comprar siempre y cuando funcione, pero me gustaría que me enseñaras a usarlo esas herramientas.
Buenos días Cristofer,
Gracias por ponerte en contacto con nosotros.
El software que se menciona en el post desde hace unos días ya no está disponible. Actualmente no conocemos otro software que tenga las mismas funcionalidades. No obstante estamos investigando. En cuanto tengamos alternativas publicaremos otro post explicándolas.