🎉 Estamos de vuelta! Después de 7 años sin estar en línea, MarlexSystems ha regresado • Lee más aquí

WordPress, el Contenido Duplicado y cómo Corregirlo

Por Patrick D'appollonio
Publicado el 19 de agosto del 2007
3 minutos de lectura • 565 palabras

Este artículo está probablemente obsoleto

Este artículo fue publicado hace más de 10 años (el 19 de agosto del 2007, para ser exactos). La información contenida puede estar muy desactualizada o ya no ser relevante.

El artículo existe como archivo de este sitio y de la antigüedad del mismo. Este blog existe en el Internet desde el 2007!

Algunos o todos los enlaces de este artículo pueden haber sido removidos o estar rotos debido a la antigüedad del mismo. Te pedimos las disculpas por cualquier inconveniente que esto pueda causar.

Cómo corregir el Contenido Duplicado en WordPress
Una de las cosas que preocupan a la hora de posicionar es el Contenido Duplicado, en lo que WordPress es el amo y señor. La idea para Google es que privilegiará el contenido que encuentre primero -si, a veces ni siquiera el contenido que haya sido escrito primero-, por lo que muchas veces es bueno “darle la Orden” de que indexe sólo lo que necesitamos para poder Posicionarnos.

Para eso existen algunos Plugins como “Duplicate Content Cure” que nos “desactivará” las páginas que pueden, eventualmente, ser tomadas como Contenido Duplicado en nuestro Blog que, aunque no lo uso, estimo que desactive algunas páginas que no se necesiten posicionar.

Pero nuestro problema va más allá y hoy veremos porqué existe Contenido Duplicado en WordPress y como asegurarnos de que nunca exista en los índices de Google. A Simple vista, puede parecernos que WordPress es el Padre por excelencia de los Blogs, pero también el Padre del Contenido Duplicado.

Una de las cosas que se espera corregir para las Próximas versiones de WordPress es el hecho de que el Contenido no es fijo entre las páginas de WordPress, por lo que un Post que hoy puede estar en www.marlex.org/pagina/4 en unos días más lo podremos encontrar en www.marlex.org/pagina/23, cosa que es malo para nuestro posicionamiento, porque cuando Google descubra que el mismo contenido fue encontrado en Dos URL, posiblemente o nos penalize o nos envíe a Contenido Suplementario de su Índice.

Otro de los problemas que surgen por ahí es que podemos llegar a un Post X de nuestro Blog por diferentes lugares, donde igualmente estará nuestro Post que, a los ojos de Google, estará “duplicado”.

Veámoslo en un Ejemplo Práctico. Haremos un Seguimiento de un Post X en MarlexSystems para ver a través de qué rutas actualmente podemos llegar a el. Haremos el seguimiento de este Post: “Redes de Telefonía colapsan en Argentina por el Día del Amigo” por el Blog MarlexSystems, veamos ahora desde dónde podemos encontrarlo…

  1. http://www.marlex.org/categoria/internet/pagina/9/

  2. http://www.marlex.org/categoria/servidores/pagina/2/

  3. http://www.marlex.org/categoria/tecnologia/pagina/6/

  4. http://www.marlex.org/categoria/telefonia/

  5. http://www.marlex.org/categoria/novedades/pagina/10/

  6. http://www.marlex.org/categoria/curiosidades/pagina/10/

Eso sin contar el Contenido duplicado que pueden generar los Feeds, los Comentarios o el Archivo del Blog. Como ven, son muchas las maneras que tiene el GoogleBot -y también nos otros buscadores- de encontrar una Misma Publicación en WordPress.

Solución

Lo que haremos será “desactivar para Google” todas las páginas de nuestro Blog, incluyendo las Categorías, Archivo por Mes, los Feeds y los Trackbacks, donde sólo exceptuaremos nuestras entradas, así nos aseguraremos que sólo se publicarán en Google nuestros resultados.

Para realizar esto, lo único que debemos hacer es agregar a nuestro Robots.txt diferentes cadenas que nos permitirán ordenar a Google que desactive esas URLs:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tag/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /category/
Disallow: /page/
Disallow: /2007/0*
Disallow: /2007/1*
Disallow: /2006/
Disallow: */feed/
Disallow: */trackback/

Con esto ordenamos a Google que ya no indexe más el resto de las Páginas, ya que, como sabemos, lo único que necesitamos posicionar son los Posts que son los que el Usuario final verá, y no necesariamente las Categorías, el Archivo o los Feeds, eso se lo dejamos a los Lectores habituales que quieren recorrer nuestros posts. 😀

Es importante destacar que si los Buscadores ya han indexado algunas páginas como las que mencionábamos anteriormente, el Archivo Robots.txt no evitará que sigan indexadas, sino, por el contrario, el cambio se aplicará desde aquí en adelante. Comentarios, Críticas y Sugerencias son Bienvenidas.

Continúa Leyendo