¿De verdad penaliza el contenido duplicado?

two young and stylish sisters standing in a cafe and using the phone

Durante muchos años hemos oído pestes sobre el contenido duplicado: que si te va a hundir en los motores de búsquedas, que si arruinas tu SEO, que si… ¿qué hay de cierto en esto? ¿No será solo una leyenda urbana? Vamos a verlo en esta guía que hemos escrito junto con Nementio.

¿Qué es exactamente el contenido duplicado?

El contenido duplicado es lo que su propio nombre indica: varias copias del mismo texto en distintas páginas. Las puedes haber creado tú intencionadamente, por ejemplo, puedes haber escrito un artículo en tu blog y luego lo has puesto en un foro. O quizá tu sitio las duplica por una mala configuración. O quizá algún bot automático (o una persona con mala intención) ha copiado tu texto y lo ha publicado en otro sitio, etc.

¿Qué importancia tiene el contenido duplicado?

A priori uno puede pensar: “Pues mejor, ¿no? Así llega a más gente”.

Visto así podría parecer algo bueno, llega a más gente, pero ¿desde dónde llega?

Imagínate que escribes un artículo de un éxito abrumador. El artículo más leído de tu blog que, a buen seguro, te va a traer miles de visitas que pueden convertirse en leads.

¿Qué pasaría si fuera contenido duplicado? Y, sobre todo, ¿por qué va a ser contenido duplicado?

Distintos modos de crear contenido duplicado

El contenido puede estar duplicado porque lo hayas duplicado tú mismo, queriendo o sin querer o porque lo duplique otra persona.

Por ejemplo, tienes una página con tu post y tu sistema de gestión de contenidos (Content Management System, CMS) publica otra página con el mismo texto, ya sea por un problema con la paginación o con las versiones móviles u otro montón de razones. También es muy común que el artículo aparezca en tu dominio con las tres uves dobles y otra sin ellas. O una versión está en tu dominio con https y la otra sin ella.

Si está en tu propio servidor, ¿Cuál es el problema? El problema es que el bot de Google (o de cualquier otro buscador) va a descartar todas las copias y se va a quedar con la original.

No suena mal, pero puede que Google no interprete bien cuál es la original y publique una página que no quieres que se posicione y la que quieras que posicione no aparezca: Google no penaliza las páginas duplicadas, directamente las filtra y no las muestra. Google sólo muestra la que interpreta como la original.

También va a pasar que el bot rastreador pierda tiempo visitando el contenido duplicado y visite las páginas importantes con menos frecuencia.

Y peor aún: si tu contenido es muy enlazado, los enlaces van a distribuirse entre las distintas páginas duplicadas, con lo que los esfuerzos se van a dividir.

Sin embargo, puede que lo copies tú mismo y lo coloques fuera de tu servidor: una sindicación RSS, una red de distribución de contenidos (contentdeliverynetwork, CDN), o a lo mejor publicas tu contenido en Reddit, etc. En este caso es fácil que el contenido externo posicione mejor, sea más enlazado y su origen, que es tu página, se pierda en el olvido y no reciba ninguna visita.

Por supuesto, puede darse el caso de que sea contenido duplicado y no hayas sido tú:

Podría ser que lo copiara un bot y lo pusiera en una página automatizada, cosa también muy posible. O que lo copiara alguien queriendo aprovecharse de tu contenido: pensemos que lo publica, por ejemplo, en una web de éxito que copia artículos de otros: olvídate de que conozcan que el contenido viene de tu página a partir de entonces: si la página que plagia es más famosa que tu página, todo el mundo va a enlazar esa página en vez de la tuya, Google va a tomarlo como contenido original, se va a crear un círculo vicioso y habrás perdido la posibilidad de recibir visitas.

¿Qué soluciones hay?

Pues depende. Depende de cómo se te haya duplicado el contenido y de cómo de controlado lo tengas.

Si el contenido está en tu servidor:

La opción más adecuada es hacer redireccionamientos permanentes (los llamados redireccionamientos 301) en el htaccess (o equivalente) para apuntar al contenido correcto.

La segunda opción es usar dominios de nivel superior. Google va a dar más prioridad a ejemplo.cl que a ejemplo.com/chile o a cl.ejemplo.com.

Esto puedes reforzarlo más todavía si usas Google SearchConsole, que deberías: puedes indicar a Google cuales son las páginas canónicas, o sea, con el contenido original. También puedes usar la herramienta de SearchConsole “Parámetros de URL”, pero tienes que usarla con precaución porque podrías borrar fácilmente todo rastro de tu página de los resultados de Google. El primer criterio que considerar es que tu sitio web tenga más de 1000 páginas.

Si el dominio no está en tu servidor:

Si no está en tu servidor, procura que donde esté tu contenido duplicado, ya sea Reddit o una revista o quien sea, incluya un enlace al contenido original o que tengan la etiqueta noindex para que los motores de búsqueda no indexen su contenido. Todavía mejor, pide que incluyan solo un extracto y que enlacen a tu página. Normalmente aceptarán.

Si no aceptan, queda la opción de hacer una solicitud DMCA a Google para que retiren las páginas que copian tu contenido de sus búsquedas. Es importante resaltar que si se hace una reclamación de este estilo con datos falsos, puedes tener problemas legales serios, por lo que no debe usarse esta herramienta con otros fines.

Así pues: el contenido duplicado es un problema para el SEO, pues confunde a los buscadores y a los usuarios y puede hacer que no se indexen las páginas que tú quieres, pero hay muchas soluciones.

Comentarios