Se habla mucho del contenido duplicado y como evitarlo para que Google no nos penalice. A mi me parece que todo este rollo es una cortina de humo, llevamos años con rumores e historias sobre el contenido duplicado aunque no siempre se concreta que es referido al problema de tener dos páginas iguales en la misma Web (dos urls distintas para la misma página) .

Recientemente Matt Cutts y su lindo gattito nos explicaron esto:

¿ Qué es el contenido duplicado ?
El contenido duplicado se refiere a bloques de contenido, dentro o entre dominios, que son completamente idénticos o muy similares. La mayoría de las veces no es intencionado o al menos no tiene un fin malicioso(copiar contenidos dentro de tu web puede ser considerado malicioso por Google!!!)  : foros o blogs con versiones para móviles, productos de tienda online con distintas urls.En algunos casos el contenido es duplicado entre dominios con la intención de manipular los resultados de búsqueda o aumentar el tráfico vía búsquedas populares o búsquedas residuales (long tail).

contenido copiadoDe ese contenido duplicado se ha hablado ya mucho, pero no se habla apenas del contenido copiado, nadie los diferencia claramente cuando se habla de como funciona y que problemas tiene el copiar contenidos.

Estoy convencido que Google es incapaz de detectar el contenido copiado si no hay una relación directa entre los contenidos que se copian (un enlace, misma ip, mismo propietario, salen en primeras posiciones por la misma búsqueda etc…)

Si, hay herramientas para localizar el contenido copiado. Pero no te dejes engañar, es una búsqueda o conjunto de búsquedas de las frases exactas de tu web para ver que resultados aparecen.

Ahora nos podemos preguntar ¿por qué si hay herramientas para buscar contenido copiado no las ha de poder usar google? La respuesta es sencilla, cualquiera que haya trabajado con bases de datos sabe que buscar un parrafo completo en miles de registros implica un gran consumo de recursos, simplemente prueba a buscar una frase larga en Google (o pulsa este link ) verás que la busqueda de una frase se acerca bastante a 1 segundo de tiempo de proceso en primer lugar porque esa búsqueda no estará cacheada y en segundo lugar porque buscar textos largos requiere más ciclos de cpu que buscar textos cortos (al menos en todas las bases de datos que conozco).

Entonces… si cada comparación cuesta un segundo de trabajo y en una página podríamos sacar 10 frases de media para buscar duplicados y en el 2008 Google alcanzó 1,000,000,000,000 de páginas indexadas necesitariamos 10,000,000,000,000 segundos para comparar todas contra todas lo que me da 317.097 años de uso de CPU. Vale, podemos hacer miles de búsquedas simultaneas, ¿cientos de miles? ya lo dudo un poco. Aún pudiendo dedicar 300.000 búsquedas simultáneas a la tarea de localizar duplicados pasaría todo un año antes de haber terminado el recorrido.

Que hace Google para detectar contenido duplicado. Imagino que mayoritariamente verificar las denuncias de contenido copiado y posiblemente buscar duplicados para filtrarlos entre webs de la misma ip. Y mantener la cortina de humo diciendo claramente que el copiar contenidos se penaliza, aunque no tengan forma de verificarlo sin colaboración externa.