Contenido duplicado – contenido copiado

Se habla mucho del contenido duplicado y como evitarlo para que Google no nos penalice. A mi me parece que todo este rollo es una cortina de humo, llevamos años con rumores e historias sobre el contenido duplicado aunque no siempre se concreta que es referido al problema de tener dos páginas iguales en la misma Web (dos urls distintas para la misma página) .

Recientemente Matt Cutts y su lindo gattito nos explicaron esto:

¿ Qué es el contenido duplicado ?
El contenido duplicado se refiere a bloques de contenido, dentro o entre dominios, que son completamente idénticos o muy similares. La mayoría de las veces no es intencionado o al menos no tiene un fin malicioso(copiar contenidos dentro de tu web puede ser considerado malicioso por Google!!!)  : foros o blogs con versiones para móviles, productos de tienda online con distintas urls.En algunos casos el contenido es duplicado entre dominios con la intención de manipular los resultados de búsqueda o aumentar el tráfico vía búsquedas populares o búsquedas residuales (long tail).

contenido copiadoDe ese contenido duplicado se ha hablado ya mucho, pero no se habla apenas del contenido copiado, nadie los diferencia claramente cuando se habla de como funciona y que problemas tiene el copiar contenidos.

Estoy convencido que Google es incapaz de detectar el contenido copiado si no hay una relación directa entre los contenidos que se copian (un enlace, misma ip, mismo propietario, salen en primeras posiciones por la misma búsqueda etc…)

Si, hay herramientas para localizar el contenido copiado. Pero no te dejes engañar, es una búsqueda o conjunto de búsquedas de las frases exactas de tu web para ver que resultados aparecen.

Ahora nos podemos preguntar ¿por qué si hay herramientas para buscar contenido copiado no las ha de poder usar google? La respuesta es sencilla, cualquiera que haya trabajado con bases de datos sabe que buscar un parrafo completo en miles de registros implica un gran consumo de recursos, simplemente prueba a buscar una frase larga en Google (o pulsa este link ) verás que la busqueda de una frase se acerca bastante a 1 segundo de tiempo de proceso en primer lugar porque esa búsqueda no estará cacheada y en segundo lugar porque buscar textos largos requiere más ciclos de cpu que buscar textos cortos (al menos en todas las bases de datos que conozco).

Entonces… si cada comparación cuesta un segundo de trabajo y en una página podríamos sacar 10 frases de media para buscar duplicados y en el 2008 Google alcanzó 1,000,000,000,000 de páginas indexadas necesitariamos 10,000,000,000,000 segundos para comparar todas contra todas lo que me da 317.097 años de uso de CPU. Vale, podemos hacer miles de búsquedas simultaneas, ¿cientos de miles? ya lo dudo un poco. Aún pudiendo dedicar 300.000 búsquedas simultáneas a la tarea de localizar duplicados pasaría todo un año antes de haber terminado el recorrido.

Que hace Google para detectar contenido duplicado. Imagino que mayoritariamente verificar las denuncias de contenido copiado y posiblemente buscar duplicados para filtrarlos entre webs de la misma ip. Y mantener la cortina de humo diciendo claramente que el copiar contenidos se penaliza, aunque no tengan forma de verificarlo sin colaboración externa.

Share and Enjoy:
  • Bitacoras.com
  • Meneame
  • BarraPunto
  • Facebook
  • Google Bookmarks
  • Add to favorites
  • email
  • Digg
  • Technorati
  • Yahoo! Bookmarks
  • LinkedIn
  • del.icio.us

Artículos relacionados:

  1. Relevancia en el posicionamiento de la extensión del dominio y los dominios con tilde [IDN] Con este test seo pretendo descubrir si los dominios con acento/eñe [IDN] posicionan mejor o peor que los dominios sin carácteres especiales y analizar la...
  2. Seo Spam La incógnita es ésta: ¿estamos solos? ¿Son los seres humanos los únicos con ojos que exploran las profundidades del Universo? ¿Los únicos constructores de dispositivos...
  3. Search congress I Cosas aprendidas. Tengo mucho que comentar sobre el search congress de bilbao y no se por donde empezar. Así que empezaré por lo más importante, cosas que...
  4. backlinks de dominios caducados y recomprados. Hace poco me encontré un dominio abandonado con una key bastante competida. Estaba navegando y al pulsar sobre la key que me gustaría estar posicionado...
  5. Los 200 criterios que usa google para elegir el orden de las páginas web Arranco este artículo con la intención de numerar los 200 criterios que usa Google para elegir la posición de los resultados. Este es un ejercicio...

Esta entrada fue publicada en SEO y etiquetada , , , , . Guarda el enlace permanente.

2 respuestas a Contenido duplicado – contenido copiado

  1. Javier Lorente dice:

    Tan costoso crees que es? Está claro que comparar lo es bastante más que simplemente indexar para luego buscar pero optimizando los algoritmos no se… Cómo hace si no copyscape por ejemplo? Detecta sólo contenido duplicado “aleatorio”?

  2. Kico dice:

    Sin “pistas” como misma ip o denuncias o similares es infumable. Copyescape compara una parte de la web con el resto no todo con todo.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

*

Puedes usar las siguientes etiquetas y atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>