Contenido duplicado en Google, Bing y Yahoo (SMX EAST)

Ramón Rautenstrauch 10 octubre 2009 BUSCADORES Comentarios desactivados en Contenido duplicado en Google, Bing y Yahoo (SMX EAST)

En la Search Marketing Expo (SMX) East en Nueva York, representantes de los mayores tres buscadores (Google: Joachim Kupke, Yahoo: Cris Pierry, y Bing: Sasi Parthasarathy) hablaron sobre su forma de manejar contenido duplicado. Adjunto un resumen de WebProNews de lo que se dijo.

Contenido duplicado en Google
La manera de la cual Google maneja el contenido duplicado ha sido muy discutida, sobre todo desde que se publicó un video de Greg Grothaus, en el cual hablaba de la forma en la cual Google maneja contenidos duplicados.
Joachim Kupke (Senior Software Engineer – Google’s Indexing Team) confirmó lo dicho por Grothaus, añadiendo que Google tiene una infraestructura inmensa para la eliminación de contenido duplicado:

Redirecciones.
Detección de repeticiones de patrones URL (habilidad de aprender repeticiones de los patrones URL para encontrar contenido duplicado).
Contenidos actuales.
Versión más reciente indexada.
Contenido anterior.
Contenido menos cosas que no cambian en una web.

Kupke apunta que lo mejor es no usar URLs dinámicas, además de utilizar el CANONICAL TAG si todo lo demás falla (es como una navaja suiza para el contenido duplicado).
Google dice que el uso del CANONICAL TAG ha sido todo un éxito, su crecimiento ha sido exponencial y su uso cambia la decisión orgánica de Google en 2 de cada 3 casos.
Uno de los errores típicos es designar un 404 como CANONICAL, lo cual ocasiona enlaces relativos innecesarios.
Por otro lado hay que evitar cambiar las páginas con atributo CANONICAL y evitar el uso del atributo CANONICAL para las redirecciones permanentes.
Además no hay que utilizar el DISALLOW en robots.txt para evitar contenido duplicado; lo correcto es utilizar el CANONICAL TAG.
También añadió que el uso de CANONICAL funciona, pero que hay que tener paciencia para que todo el índice del buscador se actualice en función de los rel=canonical.
En SMX EAST, Google anunció que a antes de finales de año, el rel=canonical podrá utilizarse entre distintos dominios.

Contenido duplicado en Bing
Bing ve el contenido duplicado según la intención, si la intención es manipular el buscador, será penalizado.
Sasi Parthasarathy (Progam Manager de Bing) dijo que Bing de momento no utilizaba el atributo CANONICAL como factor de ranking, pero que si que se utilizaba.
También apuntó que un 30% de los atributos CANONICAL apuntan al mismo dominio (OK) y un 9% a otros dominios. Esto podría ser un error o manipulación. Bing dice que utiliza otros factores para determinar esa intención.
Bing dice que el uso del atributo CANONICAL debería de ser como consejo y no como directiva, que no debe reemplazar nunca a un buen diseño web. Además de quitar las extensiones en las páginas web, utilizar redirecciones 301, usar el atributo rel=nofollow para páginas no relevantes y usar el archivo robots.txt para evitar que determinado contenido sea indexado.

Contenido duplicado en Yahoo
Cris Pierry (Senior Director of Search) dijo que hay que utilizar URLS descriptivas, fácilmente legibles y que no es una buena idea cambiar las URLS todos los años. Además de usar el atributo CANONICAL hay que evitar el uso de nombres con distinción de mayúsculas/minúsculas, IDs de sesión y parámetros.
Yahoo quiere que se usen sitemaps y que se envíen utilizando Yahoo Site Explore. Que se mejore la indexación con el uso del archivo robots.txt, que se use el Site Explorerr para eliminar URLS que no se quieren indexadas por Yahoo y finalmente que se reporte las páginas web con enlaces spam.

Publicado por Mike McDonald de WebProNews: Duplicate Content on Google, Bing & Yahoo (By Chris Crum – Sat, 10/10/2009 – 10:21 )