Se habla mucho del contenido duplicado y como evitarlo para que Google no nos penalice. A mi me parece que todo este rollo es una cortina de humo, llevamos años con rumores e historias sobre el contenido duplicado aunque no siempre se concreta que es referido al problema de tener dos páginas iguales en la misma Web (dos urls distintas para la misma página) .
Recientemente Matt Cutts y su lindo gattito nos explicaron esto:
¿ Qué es el contenido duplicado ?
El contenido duplicado se refiere a bloques de contenido, dentro o entre dominios, que son completamente idénticos o muy similares. La mayoría de las veces no es intencionado o al menos no tiene un fin malicioso(copiar contenidos dentro de tu web puede ser considerado malicioso por Google!!!) : foros o blogs con versiones para móviles, productos de tienda online con distintas urls.En algunos casos el contenido es duplicado entre dominios con la intención de manipular los resultados de búsqueda o aumentar el tráfico vía búsquedas populares o búsquedas residuales (long tail).
De ese contenido duplicado se ha hablado ya mucho, pero no se habla apenas del contenido copiado, nadie los diferencia claramente cuando se habla de como funciona y que problemas tiene el copiar contenidos.
Estoy convencido que Google es incapaz de detectar el contenido copiado si no hay una relación directa entre los contenidos que se copian (un enlace, misma ip, mismo propietario, salen en primeras posiciones por la misma búsqueda etc…)
Si, hay herramientas para localizar el contenido copiado. Pero no te dejes engañar, es una búsqueda o conjunto de búsquedas de las frases exactas de tu web para ver que resultados aparecen.
Ahora nos podemos preguntar ¿por qué si hay herramientas para buscar contenido copiado no las ha de poder usar google? La respuesta es sencilla, cualquiera que haya trabajado con bases de datos sabe que buscar un parrafo completo en miles de registros implica un gran consumo de recursos, simplemente prueba a buscar una frase larga en Google (o pulsa este link ) verás que la busqueda de una frase se acerca bastante a 1 segundo de tiempo de proceso en primer lugar porque esa búsqueda no estará cacheada y en segundo lugar porque buscar textos largos requiere más ciclos de cpu que buscar textos cortos (al menos en todas las bases de datos que conozco).
Entonces… si cada comparación cuesta un segundo de trabajo y en una página podríamos sacar 10 frases de media para buscar duplicados y en el 2008 Google alcanzó 1,000,000,000,000 de páginas indexadas necesitariamos 10,000,000,000,000 segundos para comparar todas contra todas lo que me da 317.097 años de uso de CPU. Vale, podemos hacer miles de búsquedas simultaneas, ¿cientos de miles? ya lo dudo un poco. Aún pudiendo dedicar 300.000 búsquedas simultáneas a la tarea de localizar duplicados pasaría todo un año antes de haber terminado el recorrido.
Que hace Google para detectar contenido duplicado. Imagino que mayoritariamente verificar las denuncias de contenido copiado y posiblemente buscar duplicados para filtrarlos entre webs de la misma ip. Y mantener la cortina de humo diciendo claramente que el copiar contenidos se penaliza, aunque no tengan forma de verificarlo sin colaboración externa.
Tan costoso crees que es? Está claro que comparar lo es bastante más que simplemente indexar para luego buscar pero optimizando los algoritmos no se… Cómo hace si no copyscape por ejemplo? Detecta sólo contenido duplicado «aleatorio»?
Sin «pistas» como misma ip o denuncias o similares es infumable. Copyescape compara una parte de la web con el resto no todo con todo.
El contenido duplicado penaliza ¿? Porque he chequeado Copyscape una de mis web, y veo que registra contenido duplicado.. : ( no se si debe cambairlo, modeificarlo, dar un toque de atención…
Tienes contenido duplicado o copiado?
Ambos son indeseables pero el duplicado es muy fácilmente detectable por Google y suele dar problemas.
duplicado: (dos o más urls dentro de tu sitio web con el mismo contenido).
copiado: El mismo contenido en dos webs distintas.
Creo que se puede hacer mejor. Tú propones para cada frase de cada página hacer una búsqueda. El método que propones tiene una complejidad de n^2, o más; pero estoy convencido que almacenando las frases en ún vector asociativo, o un hash, se puede conseguir una complejidad de n log n, con lo que sí sería asequible detectar duplicados.
Haz la cuenta, igualmente te sale un coste en CPU desorbitado.
«porque» (y las palabras que le siguen) se ignoró porque limitamos las consultas a 32 palabras.
Ese mensaje me sale cuando realizo una búsqueda por párrafo, lo mismo 32 palabras son aún demasiadas para realizar la búsqueda, pero cuando haces esa búsqueda x las 32 o menos palabras, sí que te entrega un resultado rapidito, así que no sé hoy día que pasará con contenido copiado. Me imagino que al detectarlo simplemente penalizará al copión y chao pescao.
(0,62 segundos) tarda en generar el resultado mientras que para busquedas mas simples anda en 0,15 -0,20 segundos) sigue llevándole más trabajo aunque solo compare 32 palabras.
La penalizacion la hacen las arañas de google cuando pasan por tu web, no es en el momento de busqueda. Es más, poco se hace en el momento de busqueda, todo la información esta ya indexada en los data centers de google, dias antes.
Las arañas te visitan y se llevan tu informacion. Luego el algoritmo de google verifica esa informacion en el data center y te dan un puntaje o rank. Si verifica que tienes contenido copiado, te da un rank bajo.
Si alguien busca tu contenido, el proceso de busqueda verifica quien tiene mejor rank.
mercadder ¿te has leido el articulo?
no te he marcado como spam porque es contenido relacionado pero no me escribas respecto al titulo sin leer el articulo porque la próxima vas a la papelera.
Una pregunta, si yo duplico una tienda online, con un nombre de dominio distinto, Google lo consideraría como contenido duplicado? En caso afirmativo, me penalizaría?
Gracias por adelantado (por tu blog y por la respuesta).
Saludos,
Hola Miguel, a dia de hoy (nov 2012) ¿sigues pensando que es google es incapaz de detectar contenido copiado? lo pregunto porque te oí hablar en el e-show de madrid hace poco e hiciste mucho incapié en no poner contenido copiado. Un trabajo de chinos (con perdón) para los ecommerce que quieran tener un amplio catálogo.
En el eShow hice mucho hincapié en no poner contenido duplicado. El contenido copiado no lo detecta tan facilmente como el duplicado.
La idea de este post sigue siendo válida pero google tampoco necesita identificar todos los contenidos copiados, solo tiene que analizar patrones concretos (cojo las 10 primeras webs de esta keyword y miro si se han copiado el contenido entre ellas). La copia de contenidos sigue funcionando para posicionar (hazlo bajo tu propia responsabilidad, yo me remito a que lo he probado con experimentos), lo que es un FAIL es tener contenido duplicado en tu web.
Hola,
Yo estoy trabajando en una web de comercio online y tengo dos preguntas: (Ej. Tienda deportes)
1.- Copio la descripcion de NIKE de un producto a la ficha del producto de mi tienda? o lo redacto de nuevo? Penaliza dicha copia (segun tu creo que no)?
2.- Si tengo varias prendas de NIKE cuya descripción seria la misma, que hago? Las agrupo en un mismo productos y permito elegir colores, etc o creo varios productos y modifico de alguna forma sus descripciones para que no se detecte que es igual?
Muchas gracias
P.D.: Me encantaron tus intervenciones con SEO Clinic Barcelona.
1.- Mejor si lo redactas de nuevo o amplias el contenido de generico.
2.- Échale imaginación (mira melopasogoma y alucina con las descripciones para el mismo producto con distintos colores) En general si es un solo producto es más positivo agruparlo en un solo producto y dedicarle el esfuerzo combinado para que tenga el mejor contenido posible.
Gracias por comentar y disculpar el retraso en las respuestas pero voy bastante liado :D