Contenido duplicado – contenido copiado
Se habla mucho del contenido duplicado y como evitarlo para que Google no nos penalice. A mi me parece que todo este rollo es una cortina de humo, llevamos años con rumores e historias sobre el contenido duplicado aunque no siempre se concreta que es referido al problema de tener dos páginas iguales en la misma Web (dos urls distintas para la misma página) .
Recientemente Matt Cutts y su lindo gattito nos explicaron esto:
¿ Qué es el contenido duplicado ?
El contenido duplicado se refiere a bloques de contenido, dentro o entre dominios, que son completamente idénticos o muy similares. La mayoría de las veces no es intencionado o al menos no tiene un fin malicioso(copiar contenidos dentro de tu web puede ser considerado malicioso por Google!!!) : foros o blogs con versiones para móviles, productos de tienda online con distintas urls.En algunos casos el contenido es duplicado entre dominios con la intención de manipular los resultados de búsqueda o aumentar el tráfico vía búsquedas populares o búsquedas residuales (long tail).
De ese contenido duplicado se ha hablado ya mucho, pero no se habla apenas del contenido copiado, nadie los diferencia claramente cuando se habla de como funciona y que problemas tiene el copiar contenidos.
Estoy convencido que Google es incapaz de detectar el contenido copiado si no hay una relación directa entre los contenidos que se copian (un enlace, misma ip, mismo propietario, salen en primeras posiciones por la misma búsqueda etc…)
Si, hay herramientas para localizar el contenido copiado. Pero no te dejes engañar, es una búsqueda o conjunto de búsquedas de las frases exactas de tu web para ver que resultados aparecen.
Ahora nos podemos preguntar ¿por qué si hay herramientas para buscar contenido copiado no las ha de poder usar google? La respuesta es sencilla, cualquiera que haya trabajado con bases de datos sabe que buscar un parrafo completo en miles de registros implica un gran consumo de recursos, simplemente prueba a buscar una frase larga en Google (o pulsa este link ) verás que la busqueda de una frase se acerca bastante a 1 segundo de tiempo de proceso en primer lugar porque esa búsqueda no estará cacheada y en segundo lugar porque buscar textos largos requiere más ciclos de cpu que buscar textos cortos (al menos en todas las bases de datos que conozco).
Entonces… si cada comparación cuesta un segundo de trabajo y en una página podríamos sacar 10 frases de media para buscar duplicados y en el 2008 Google alcanzó 1,000,000,000,000 de páginas indexadas necesitariamos 10,000,000,000,000 segundos para comparar todas contra todas lo que me da 317.097 años de uso de CPU. Vale, podemos hacer miles de búsquedas simultaneas, ¿cientos de miles? ya lo dudo un poco. Aún pudiendo dedicar 300.000 búsquedas simultáneas a la tarea de localizar duplicados pasaría todo un año antes de haber terminado el recorrido.
Que hace Google para detectar contenido duplicado. Imagino que mayoritariamente verificar las denuncias de contenido copiado y posiblemente buscar duplicados para filtrarlos entre webs de la misma ip. Y mantener la cortina de humo diciendo claramente que el copiar contenidos se penaliza, aunque no tengan forma de verificarlo sin colaboración externa.
Artículos relacionados:
- Relevancia en el posicionamiento de la extensión del dominio y los dominios con tilde [IDN] Con este test seo pretendo descubrir si los dominios con acento/eñe [IDN] posicionan mejor o peor que los dominios sin carácteres especiales y analizar la...
- Conseguir enlaces Nadie duda de la importancia que tienen los enlaces en el posicionamiento web. Una gran parte del trabajo de un seo es conseguir enlaces relevantes...
- Comprar enlaces Cualquiera que quiera hacer posicionamiento Web sabe que ha de conseguir enlaces hacia su web. El problema surge cuando no se explica como hacerlo y...
- Seo Spam La incógnita es ésta: ¿estamos solos? ¿Son los seres humanos los únicos con ojos que exploran las profundidades del Universo? ¿Los únicos constructores de dispositivos...
- Artículo sobre google en el 2001 En el 2001 escribiamos este artículo para nuestra web y hoy lo rescato del anonimato. Me ha hecho gracia ver como lo que entonces se...
Si has llegado hasta aquí y no comentas nada Google mata un gatito y sin gatitos no habrá seo. Sobre tu conciencia queda.

Tan costoso crees que es? Está claro que comparar lo es bastante más que simplemente indexar para luego buscar pero optimizando los algoritmos no se… Cómo hace si no copyscape por ejemplo? Detecta sólo contenido duplicado “aleatorio”?
Sin “pistas” como misma ip o denuncias o similares es infumable. Copyescape compara una parte de la web con el resto no todo con todo.
El contenido duplicado penaliza ¿? Porque he chequeado Copyscape una de mis web, y veo que registra contenido duplicado.. : ( no se si debe cambairlo, modeificarlo, dar un toque de atención…
Tienes contenido duplicado o copiado?
Ambos son indeseables pero el duplicado es muy fácilmente detectable por Google y suele dar problemas.
duplicado: (dos o más urls dentro de tu sitio web con el mismo contenido).
copiado: El mismo contenido en dos webs distintas.
Creo que se puede hacer mejor. Tú propones para cada frase de cada página hacer una búsqueda. El método que propones tiene una complejidad de n^2, o más; pero estoy convencido que almacenando las frases en ún vector asociativo, o un hash, se puede conseguir una complejidad de n log n, con lo que sí sería asequible detectar duplicados.
Haz la cuenta, igualmente te sale un coste en CPU desorbitado.
“porque” (y las palabras que le siguen) se ignoró porque limitamos las consultas a 32 palabras.
Ese mensaje me sale cuando realizo una búsqueda por párrafo, lo mismo 32 palabras son aún demasiadas para realizar la búsqueda, pero cuando haces esa búsqueda x las 32 o menos palabras, sí que te entrega un resultado rapidito, así que no sé hoy día que pasará con contenido copiado. Me imagino que al detectarlo simplemente penalizará al copión y chao pescao.
(0,62 segundos) tarda en generar el resultado mientras que para busquedas mas simples anda en 0,15 -0,20 segundos) sigue llevándole más trabajo aunque solo compare 32 palabras.
La penalizacion la hacen las arañas de google cuando pasan por tu web, no es en el momento de busqueda. Es más, poco se hace en el momento de busqueda, todo la información esta ya indexada en los data centers de google, dias antes.
Las arañas te visitan y se llevan tu informacion. Luego el algoritmo de google verifica esa informacion en el data center y te dan un puntaje o rank. Si verifica que tienes contenido copiado, te da un rank bajo.
Si alguien busca tu contenido, el proceso de busqueda verifica quien tiene mejor rank.
mercadder ¿te has leido el articulo?
no te he marcado como spam porque es contenido relacionado pero no me escribas respecto al titulo sin leer el articulo porque la próxima vas a la papelera.
Una pregunta, si yo duplico una tienda online, con un nombre de dominio distinto, Google lo consideraría como contenido duplicado? En caso afirmativo, me penalizaría?
Gracias por adelantado (por tu blog y por la respuesta).
Saludos,