Hola, tengo un problema con las url y es que resulta que en las Herramientas para webmasters de google me aparece una cantidad enorme de contenido duplicado. La url limpia (/taxonomy/term/xx), la url antigua(/?q=taxonomy/term/xx) y el alias de url!! (/alias-url.html). He bloqueado en el archivo de robots.txt las url que no quiero que indexe y he comprobado que el archivo de robots está bien. Pero por lo visto google no hace ni caso y el contenido duplicado de mi web está aumentando vertiginosamente.
¿Hay alguna forma de evitar el contenido duplicado en Drupal? un módulo por ejemplo, no sé, me enfrento a una inminente penalización y me veo IMPOTENTE ante ésta situación.
Necesito vuestra ayuda de forma urgente amigos.
Gracias por vuestra atención.
No entiendo a que te
No entiendo a que te refieres por contenido duplicado.. por ejemplo, supongamos que tu tienes un nodo que es el nodo 125.. ese nodo tiene un url llamado "minoticia"... el nodo es 1 solo y puedes tener mil aliases o urls desde las cuales puedes acceder al nodo 125.. por ejemplo:
supong uqe itenes:
"nodo125"
"minoticia"
"nodominoticia"
"minoticianodo"
"noticianoticianodo"
y todos esos se redirigen al nodo 125.. por lo tanto no tienes contenido duplicado, podrás tener un desastre en las urls, (usa pathauto)... fuera de esto no sé a qué te refieres.. lógicamente google va a indexar todas las urls que tengas, en este caso google indexará:
"nodo125"
"minoticia"
"nodominoticia"
"minoticianodo"
"noticianoticianodo"
y todas se irán al nodo 125 pero nuevamente solo tienes un solo nodo 125...
lo que puedes hacer es borrar todas las urls, alias etc.. y después volver a regenerarlas, para esto necesitarás pathauto... nunca lo he hecho, no debería de haber grandes problemas pero yo realizaría un respaldo de la base de datos primero antes de hacer esto, en caso contrario yy si algo sale mal podrás perder el sitio..
por último me surge una pregunta: ¿cuál es elp roblema en que google indexe tantas urls? ¿ese no es acaso problema de google y no problema tuyo? o no sé a que te refieres con "inminente penalización"... pero sería intveresante saber
Saludos
Luis
http://www.asimonterrey.com.mx
Bueno, pues resulta que
Bueno, pues resulta que google lo toma como "Etiquetas de título duplicadas" ya que son distintas url con el mismo título. Además, en mi caso se puede acceder tanto por la ruta del alias como por la antigua con lo cuál eso es para google contenido duplicado. He usado el Pathauto. ¿Viene alguna opción para que deshabilite la url antigua?
Y bueno, Google penaliza esto y cada vez parece que lo está haciendo más
path_redirect
Creo que si tienes path_redirect instalado cuando cambias un alias, automaticamente te hace el redirect de la vieja a la nueva, sin borrarla.
Respecto a tu problema, yo creo que en algun momento google te ha indexado las url que comentas y se las ha "guardado". Te puede costar trabajo que estas url desaparezcan de los indices de google.
Tu sitemap parece correcto (solo hay algunas url sin alias).
Como dice ruharen quiza global_redirect te ayude, yo siempre le he tenido respeto, pero no se exactamente por qué.
Felipe
---------------------------------------------------
Where is the wisdom we have lost in knowledge?
Where is the knowledge we have lost in information?
T.S.Elliot
Usa el módulo "Global
Usa el módulo "Global redirect"
Por otro lado, si google está indexando páginas q el robots.txt no le permite, es porque no está leyendo el robots.txt o el robots.txt no está bien configurado.
Aparte, puedes modificar el .htaccess que trae el drupal, usando el mod_rewrite, para impedir que se pueda acceder a tus páginas desde las url 'limpias' y también desde las 'no limpias'.