Lo último que necesitas es que Google te penalice. Por desgracia, puede que en ocasiones tu web muestre contenido duplicado sin que tú lo sepas. Algunos de esos contenidos pueden haber sido generados por consumidores, como cuando los clientes relatan experiencias con sus productos en sus reseñas. En este artículo definimos lo que es el contenido duplicado, por qué es importante, qué lo provoca y cómo solucionarlo. El artículo te servirá como guía definitiva sobre el contenido duplicado y el SEO.

¿Qué es el contenido duplicado?

El contenido duplicado puede definirse como aquel que es el mismo en dominios diferentes o dentro de un mismo dominio. A veces el contenido puede ser simplemente demasiado similar. En tal caso, Google sólo muestra uno de los dominios que lo poseen en sus resultados de búsqueda. El contenido duplicado se convirtió en una seria preocupación para las webs en 2011, cuando Google lanzó la primera actualización de su algoritmo Panda. Por sentido común, ya nadie debería tener contenido duplicado. Pero, ¿deberías preocuparte por el contenido duplicado actualmente?

¿Por qué el contenido duplicado sigue siendo un asunto importante?

Google deja fuera los contenidos duplicados en sus resultados de búsqueda.

Google indexa y muestra información claramente diferenciada en sus resultados de búsqueda. Los bots trabajan en base al concepto de filtrado, según el cual, cuando hay contenido duplicado, por ejemplo, un mismo artículo en distintas URLs, Google sólo muestra una de esas páginas en sus resultados. La segunda URL no se considera necesaria. Ese contenido no hará que tu web suba en el ranking de los resultados de búsqueda. Demasiado contenido duplicado en un dominio puede de hecho suponer una baja posición en el ranking, e incluso la retirada de tu web del índice de Google.

Screenshot_2020-02-20_at_12.08.20.png

¿Cómo se produce el contenido duplicado?

Mientras que algunos procedimientos SEO intentan usar contenido duplicado para manipular a Google y que indexe tus webs con prioridad, la mayor parte del contenido duplicado es accidental, resultante de problemas técnicos en la web. Estos problemas pueden ser difíciles de identificar, por lo que un rastreador SEO como el Site Crawl de WooRank será aquí tu mejor aliado.

Ahondemos en estos problemas:

1. La URL

En la base de datos de una web se puede acceder a un artículo utilizando diferentes URLs. Sin embargo, este artículo posee un identificador único en la base de datos. Al artículo puede accederse mediante distintas URLs, pero los motores de búsqueda, en este caso, equiparán cada URL a un único artículo. Si bien la realidad es que sólo existe un artículo en la base de datos, los motores de búsqueda "piensan" que las diversas URLs que conducen a él son contenido duplicado. Incluso si las URLs dirigen a un único artículo, y no a dos con el mismo contenido.

Screenshot_2020-02-20_at_12.06.58.png

Para resolver este problema, puedes explicarle esta diferencia a tu desarrollador web a fin de que compruebe si hay diferentes URLs que señalen hacia el mismo contenido en la base de datos. Deberías también asegurarte de que el enlazado interno es consistente. No es necesario enlazar para tener links, por ejemplo, a http://www.abc.com/page/ y http://www.example.com/page/index.htm.

2. Páginas imprimibles

Hay sistemas de gestión de contenidos que crean diferentes versiones del mismo contenido, por lo general una versión "estándar" y otra imprimible. Si enlazas las versiones imprimibles, por ejemplo, Google indexará estas páginas. Si no has bloqueado ninguna de las versiones con una metaetiqueta "noindex", Google indexará ambas versiones. A veces, por tanto, las dos versiones pueden ser indexadas, generando un contenido duplicado.

Veamos cómo puedes tú resolver éstos y otros problemas relacionados con el contenido duplicado.

Cómo resolver los problemas del contenido duplicado

1. Canonicalización de la página de inicio

La canonicalización implica señalar una URL preferida allá donde existan páginas con contenidos idénticos. Es muy probable que tengas contenido duplicado en tu página de inicio. También es mucho más probable que la gente enlace tu página de inicio más que cualquier otra. La canonicalización de la página de inicio es pues muy importante. Hay muchas maneras de realizar la canonicalización. Veámoslas a continuación:

a) El elemento de enlace "rel=canonical"

El "rel=canonical" también es conocido como "etiqueta canónica". La etiqueta les dice a los motores de búsqueda que una página debe ser considerada como la copia de una URL específica (por ejemplo, la página de inicio). Los buscadores, por tanto, otorgarán todos los factores de posicionamiento en el ranking a la página de inicio en este caso.

La etiqueta canónica es parte de la cabecera HTML de su página web. Pídele a tu desarrollador web que añada "rel=canonical" a la cabecera HTML donde haya páginas duplicadas. Hay que sustituir la URL de la página original por un link a la página canónica.

Aquí tienes un modelo genérico de cómo aparece el código:

<head>
...[otro código que pueda encontrarse en la cabecera HTML de su documento]...
<link href="URL DE LA PÁGINA ORIGINAL" rel="canonical" />
...[otro código que pueda encontrarse en la cabecera HTML de su documento]...
</head>

Sustituye "URL DE LA..." por el link a la página canónica (el link original)

Si utilizas WordPress, usar un plugin de cabecera y pie de página puede ayudarte a añadir la etiqueta HTML a la sección de cabecera.

b) Redirecciones 301

Es la otra manera de lidiar con el contenido duplicado mediante la canonicalización. Una redirección 301 se crea desde la página con contenido duplicado hacia la original. Esta técnica "combina" todas las páginas duplicadas en una sola, creando una señal de relevancia y popularidad más potente que puede ayudar a tu web a escalar en el ranking de los motores de búsqueda.
Capture_d_e_cran_2018-04-27_a__14.29.50.png
Para establecer redirecciones 301, crea una instrucción permanente de redirección 301 a nivel del servidor. Usa archivos .htaccess en Apache, y la consola de administración en IIS. También puede ser una buena jugada registrar los cambios que realices en tu web en Google Webmaster Tools.

2. HTTPs y el linking relativo

Para comprender estos conceptos, necesitamos entender algo sobre las URLs. Puedes tener una URL que comience con HTTP y otra con HTTPS. La primera va precedida por "www". La segunda no va acompañada de www.
Capture_d_e_cran_2018-04-27_a__14.31.26.png
Comprender esta distinción es importante porque se trata de una de las fuentes de contenido duplicado. Si la versión de tu URL sin www no redirecciona hacia la versión con www, tendrás dos versiones de la URL de tu web a ojos de los motores de búsqueda. Lo mismo ocurre cuando tu HTTPS no redirecciona hacia tu HTTP y viceversa. Esto significa que tu web también tendrá dos versiones. También significa que es posible tener hasta cuatro versiones de una misma web, lo que provocaría un serio problema de contenido duplicado.

¿Dónde entran los links relativos? El enlazado interno puede resolver el mencionado problema de contenido duplicado. Hay dos tipos de enlazado interno: el relativo y el absoluto. Distingamos ambos y veamos cómo contribuyen a duplicar contenidos.

Usas una URL absoluta cuando utilizas la dirección web completa de la página que enlaza en el link. Durante el desarrollo web, los links internos se codifican como URLs relativas. Por ejemplo, una página se representa por "/página". Se supone que el buscador "entiende que la URL relativa apunta a una página que se encuentra en el mismo dominio" (en tu sitio web).

El enlazado interno es lo que resulta al tener cuatro versiones diferentes de tu web, como se comentó arriba. Esto significa que necesitarías construir cuatro veces tantos enlaces como tengas la página del mismo nivel de autoridad. Recuerda que la gente va a enlazar cualquiera de tus cuatro versiones, y que Google puede escoger cualquiera de ellas para mostrarla en sus resultados de búsqueda.

El otro problema afecta al crawler de Google. Con cuatro versiones, es menos probable que Google rastree con mayor profundidad y frecuencia tu web. Eso les cuesta dinero, y no querrán seguir gastándolo en un solo sitio web. Si el crawler pasa menos veces por tu web, ésta aparecerá en los puestos bajos de los resultados de búsqueda.

¿Cómo solucionar entonces el problema de los links relativos?

Lo primero que debes hacer es asegurarte de que las cuatro versiones de tu web se conviertan en una. La mejor versión es la HTTPS sin www. Dice Google que es la mejor. Lo segundo será convertir tus URLs relativas en URLs absolutas. Aquí también ayudará la canonicalización si es que los links internos no se van a arreglar.

3. Sitios web espejo

Los mirror sites, sitios o webs espejo o simplemente espejos, son copias de un sitio web bajo una URL diferente. Básicamente poseen los mismos contenidos a excepción de un pequeño detalle, como un número de contacto o una dirección de e-mail. Normalmente se crean para aliviar el tráfico del servidor, y se utilizan para diferentes ubicaciones en un contexto SEO geográficamente diferenciado.

Las webs espejo generan problemas de contenido duplicado. Google no sabe qué URL indexar. La mejor manera de tratar con los sitios espejo es usando dominios de máximo nivel en los que el contenido sea específico para cada país: http://www.abc.de indica que el contenido está centrado en el público alemán. Aún mejor: en lugar de "copiar pegar" el mismo contenido bajo diferentes dominios, crea contenidos específicos según la localización. La idea es comunicarse de forma diferente con personas en diferentes localizaciones.

4. Etiquetas y categorías

WordPress es el principal culpable cuando se trata del contenido duplicado generado por etiquetas y categorías. WordPress crea un gran número de páginas, y si no utilizas las categorías y etiquetas de forma adecuada, o si las páginas archivadas no se indexan correctamente, podría generarse contenido duplicado.

Screenshot_2020-02-20_at_12.18.39.png

Las etiquetas y categorías crean contenido duplicado de varias maneras:

Archivos con publicaciones que son copia exacta del original
Categorías y etiquetas similares que resultan en contenido idéntico
Múltiples índices de categoría que se copian multitud de veces al utilizar extractos
Publicaciones con sobre etiquetado
No utilizar extractos en páginas de archivo, por lo que contienen artículos completos

Cómo resolver los problemas del contenido duplicado causado por las etiquetas y categorías:

Utiliza el plugin Term Management Tools para fusionar etiquetas y categorías
Si tienes etiquetas asociadas a un único artículo, elimínalas y agrupa publicaciones en etiquetas más genéricas aplicables a varios contenidos
redirección 301
Indica a los motores de búsqueda que no indexen los archivos de categorías y etiquetas

5. Paginación de páginas de búsqueda

La paginación hace referencia a la división de contenidos en diversas páginas y a la creación de enlaces, generalmente en la parte inferior, con los que se puede ir a la página o sección siguiente o anterior. A veces se puede elegir el número de página que se desea consultar; un buen ejemplo son los resultados de búsqueda de Google. La paginación se utiliza a menudo en blogs y sitios de comercio electrónico. Muchas veces existe la opción de "ver todo", con la que se puede ver el contenido de una página.

Las versiones por separado del mismo contenido paginado y en modo "ver todo" generan contenido duplicado. Hay diversos modos de resolver esto:

a) Canonicalización de la versión "ver todo"

Si la serie paginada tiene una versión "ver todo", Google intenta detectar ésta. Las páginas paginadas se des duplicarán en lugar de la página "ver todo". La mejor forma de hacerlo es canonicalizar el conjunto de páginas paginadas a una versión "ver todo".

b) Indicar la paginación con marcas de edición HTML

Utilizar las marcas rel=next y rel=prev es una buena alternativa si no posee la opción "ver todo" o si prefiere que los motores de búsqueda aterricen en una página paginada. Google utiliza estas marcas para detectar e indexar contenidos paginados como una secuencia de páginas en vez de como páginas individuales. Utilizando las marcas de edición, Google rastrea e indexa tantas páginas paginadas como sea posible. Luego ofrecerá una única página que considera la más relevante para las consultas en el buscador, por lo general, la página primera.

Una alternativa a la paginación es el scroll infinito. En cualquier caso, también se necesita una URL paginada equivalente. Los motores de búsqueda utilizarán el backup de la URL paginada durante el rastreo del sitio web. Usar JavaScript permite que cuando el usuario se desplace por el scroll, la URL de la barra de direcciones se ajuste según la URL paginada. La página ofrecida por el buscador incluirá enlaces "normales" a las páginas paginadas, lo que permite el rastreo y uso normal de la web.

6. Nombres de producto similares

En las webs de comercio electrónico hay productos muy, muy similares, casi con el mismo nombre. Por ejemplo: pastel de chocolate con nueces y pastel de chocolate con avellanas. Es muy fácil que esos títulos sean identificados como duplicados, aunque de hecho se refieran a productos diferentes. La mejor manera de evitarlo sería encontrando títulos y descripciones de producto únicos. Otra forma sería agrupando los productos similares en una única página y permitiendo a los usuarios seleccionar el que desean en un menú desplegable.

Otra opción es escoger una versión del producto, hacerla "canónica" y utilizar la etiqueta rel=canonical para que los demás productos similares señalen a ésta. De este modo, sólo tendrás que redactar un texto único para el producto canónico.

En resumen

Esta guía definitiva SEO sobre contenido duplicado muestra de dónde procede el contenido duplicado, desde la etapa de desarrollo web hasta la redacción de textos, pasando por los procedimientos para focalizar a distintos públicos en diferentes plataformas o ubicaciones geográficas. De vez en cuando necesitarás hacer un análisis de contenidos duplicados en tu sitio web. Una vez identificado cualquier problema, tendrás a mano las soluciones arriba propuestas.

Identifica contenidos duplicados y pobres