El archivo robots.txt perfecto NO existe

El archivo robots.txt es un elemento que se incluye en la raíz de la web. Todos y cada uno de ellos conforman un protocolo que cumple dos funciones: por un lado, indica a los motores de búsqueda las normas de rastreo que deben seguir y, por otro, bloquea el acceso a la web de los bots o arañas de los buscadores.

Muchas webs utilizan estos archivos robots.txt para añadir mensajes curiosos -véase el de Tripadvisor– o también para promocionarse y mejorar su SEO. Pero sobre todo, y esto va dirigido a vosotros, empresas y usuarios que os promovéis con vuestras webs, para tener una ventaja extra sobre una competencia que no valore suficientemente las virtudes y el control que aporta este archivo.

También muchos os preguntaréis ¿por qué voy a impedir que Google u otros buscadores accedan a alguna de mis páginas? Muy sencillo, o bien porque no tienen contenido suficiente para acceder a un posicionamiento decente, porque hay algún fallo de programación, porque es una información de un ámbito más privado… En este post no queremos enseñar a crear el dichoso archivo, pero sí queremos:

  • Mostrar sus ventajas y beneficios.
  • Las utilidades que puede ofrecer el hecho de controlar nuestro robots.txt y estimular a los que leéis esta publicación a que os deis cuenta de lo importante que puede ser este archivo para optimizar vuestro posicionamiento SEO de las páginas (categorías, productos, imágenes, etc.) de nuestra web.
archivo robots.txt

El archivo robots.txt es uno de los aspectos a tener en cuenta en toda checklist de un proyecto SEO.

Archivo Robots.txt: utilidad y ventajas

  • Impedir acceso a robots determinados: aunque parezca contradictorio, algunos robots no son de buscadores, e incluso algunos robots no son ni amigos.
  • Reducir la sobrecarga del servidor: podrás controlar el flujo de algunos robots. Muchos de ellos pueden ser un descontrol de peticiones, que pueden incluso llegar a saturar tu servidor.
  • Prohibir zonas: también nos podría interesar tener disponible una zona en nuestra web accesible para determinados usuarios, pero que no figure en las listas de los buscadores.
  • Eliminar contenido duplicado: si eliminamos la duplicidad de contenido, los buscadores nos valorarán muy alto, aumentando el movimiento de las visitas.
  • Fijar mapas del sitio: también es posible acoplar un sitemap para indicar el buen camino a los robots.

Detalles a considerar en nuestro archivo Robots.txt

  • Solo puede existir un archivo robots.txt para cada web y siempre debe estar en el directorio raíz.
  • El archivo robots.txt no elimina una página del índice de los motores de búsqueda si esta ya ha sido indexada.
  • Los robots de búsqueda solo siguen lo que has especificado en tu robots.txt
  • ¡Atentos al shift! Los robots son sensibles a las mayúsculas y minúsculas.
  • La información de tu robots.txt es pública y cualquiera puede acceder a ella tecleando la URL según la estructura habitual.

Para orientar a los archivos robots.txt, existen algunas reglas a seguir. Los comandos principales para un archivo básico utiliza se rigen por los siguientes patrones:

  • User-agent: identifica para qué mecanismo de rastreo son las instrucciones que se incluyen
  • Disallow: informa qué páginas no deben ser analizadas por los rastreadores.
  • Allow: informa qué páginas deben ser analizadas por los rastreadores.
  • Sitemap: muestra la localización del sitemap de tu web.
  • Crawl-delay: indica al robot el número de segundos que debe esperar entre cada rastreo.

Estos términos serán los que más te acompañen a la hora de confeccionar el posicionamiento SEO de tu sitio web. Además, también podemos jugar con los siguientes comodines para optimizar la búsqueda y sus restricciones:

  • Asterisco (*): vale por una secuencia cualquiera de caracteres.
  • Dólar ($): indica el final de un URL.

En conclusión, hay que mentalizarse de que no hay un archivo robots.txt perfecto. Todo depende de la configuración de tu web, así que es posible que a menudo necesites incluir, modificar o eliminar restricciones. Tal vez el robots.txt perfecto podamos compararlo con Teruel: existe, pero de vez en cuando deben recordarnos que está ahí 🙂

Comparte:

Escrito por

Equipo de redacción de Solo pienso en TIC, el blog de SIAG Consulting.

Deja un comentario