Guía sobre el Robots.Txt. ¿Qué es y pará qué sirve?
- ¿Qué es el archivo robots.txt?
- ¿Qué hace el archivo robots.txt?
- Para que sirve el robots.txt en SEO
- ¿Cómo debería ser el archivo robots.txt?
- ¿Qué se puede indicar en el archivo robots.txt? ¿Cómo redactar el Robots.txt?
- ¿Qué se puede bloquear en el archivo robots.txt?
- ¿Qué no se puede bloquear en el archivo robots.txt?
- ¿Cómo enviar el archivo robots.txt a Google?
- Herramientas para crear y probar archivos robots.txt
- Mejores prácticas para optimizar el archivo robots.txt
- Relación entre el archivo robots.txt y el sitemap
- ¿Por qué Google no obedece el Robots.txt y Rastrea páginas bloqueadas?
- Para que se usa el archivo robots.txt de forma avanzada.
- Consideraciones sobre el Robots.txt
¿Qué es el archivo robots.txt?
El robots.txt es un archivo de texto plano que se coloca en la raíz de un sitio web. Su función principal es proporcionar instrucciones a los robots de los motores de búsqueda (como Googlebot) sobre qué partes del sitio pueden rastrear y cuáles no.
Es un protocolo de exclusión que permite a los webmasters controlar el acceso de los robots a su sitio.
¿Qué hace el archivo robots.txt?
- Indica qué páginas pueden ser rastreadas: Especifica las URL que los robots pueden visitar y analizar.
- Bloquea secciones del sitio: Impide que los robots accedan a ciertas áreas, como directorios internos, archivos temporales o contenido duplicado.
- Mejora la eficiencia del rastreo: Al limitar el alcance del rastreo, se reduce la carga en el servidor y se optimiza el uso de los recursos.
- Protege la privacidad: Permite ocultar contenido que no se desea que sea indexado por los motores de búsqueda.
Para que sirve el robots.txt en SEO
- Controlar el presupuesto de rastreo: Al indicar qué páginas son importantes y cuáles no, ayudas a los motores de búsqueda a optimizar su tiempo de rastreo, centrándose en el contenido más relevante.
- Ocultar contenido no deseado: Puedes evitar que se indexen páginas de prueba, duplicadas, de administración o cualquier otro contenido que no quieras que aparezca en los resultados de búsqueda.
- Proteger recursos: Impides que los robots accedan a archivos grandes o que requieran muchos recursos, como imágenes de alta resolución o vídeos, lo que puede mejorar la velocidad de carga de tu sitio.
- Organizar el rastreo: Puedes guiar a los robots hacia las páginas más importantes de tu sitio web, facilitando su indexación.
¿Cómo debería ser el archivo robots.txt?
Un archivo robots.txt debe ser un archivo de texto plano, sin formato, y se guarda con la extensión .txt. Debe estar ubicado en la raíz de tu dominio (ej: [se quitó una URL no válida]).
¿Qué se puede indicar en el archivo robots.txt? ¿Cómo redactar el Robots.txt?
Para poder redactar un Robots.txt de forma correcta, es importante entender la sintaxis del Robots.txt. Pongamos como ejemplo el Robots.txt de Semrush:
Fuente: https://www.semrush.com/robots.txt
Vemos que los espacios entre una regla y el user-agent van separando indicaciones especificas para cada uno de esos user-agents. Veamos que significa cada una de los elementos del Robots.txt:
- User-agent: Especifica el robot al que se dirigen las instrucciones (ej: Googlebot). En el ejemplo de Semrush, vemos los siguientes user-agents 008; SiteAuditBot; Semrushbot-SI; Yahoo Pipes 2.0; Facebot; facebookexternalhit; Bingbot; BingPreview; LinkedInBot; Twitterbot y finalmente * (que son reglas que aplica a todos los robots.
Luego tenemos 2 indicaciones claves:
- Disallow: Indica las URL o directorios a los que el robot no debe acceder.
- Allow: Indica las URL o directorios a los que el robot sí puede acceder.
- Crawl-delay: Aunque en el Robots.txt de Semrush, no se observa, es un comando que puede usarse para darle un respiro al servidor e indicarle al bot que haga una breve pausa al momento de analizar y leer el Robots.txt. Esta indicación, es ideal para no sobrecargar el servidor y genere problemas que ralenticen la web.
Esta indicación del Crawl-delay Google no la interpreta, pero otros robots si que pueden interpretarla.
- Sitemap: Por regla general, también incluimos en el Robots.txt Proporciona la URL del sitemap de tu sitio.
- Comentarios en el Robots.txt: En la segunda
¿Qué se puede bloquear en el archivo robots.txt?
- Directorios internos: Carpetas que contienen archivos temporales, copias de seguridad o contenido no público.
- Archivos de sistema: Archivos como .htaccess, index.php, etc.
- Páginas de búsqueda: Páginas con parámetros de búsqueda (ej: ?s=).
- Contenido duplicado: Páginas con contenido idéntico o muy similar.
- Páginas de administración: Áreas restringidas del sitio web.
¿Qué no se puede bloquear en el archivo robots.txt?
El archivo robots.txt solo puede impedir que los robots accedan a una página, no puede impedir que sea indexada si un robot la encuentra a través de otro enlace. Además, el archivo robots.txt no influye directamente en el posicionamiento de una página en los resultados de búsqueda.
Ejemplo de archivo robots.txt:
User-agent: *
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /includes/
Sitemap: https://dobleo.com/sitemap.xml
En este ejemplo:
Se bloquea el acceso a los directorios /admin/, /cgi-bin/, /images/ e /includes/ y ademas, se indica la ubicación del sitemap.
¿Cómo enviar el archivo robots.txt a Google?
En realidad, no es necesario «enviar» el archivo robots.txt a Google. Los robots de Google exploran constantemente la web y, si encuentran un archivo robots.txt en la raíz de un sitio, lo leerán automáticamente y seguirán las instrucciones que contiene.
En el caso que necesites forzar las reglas del robots.txt y quieres que Google lo tenga, puedes usar la herramienta de Robots.txt de Google Search Control
Herramientas para crear y probar archivos robots.txt
Puedes crear un archivo robots.txt usando cualquier editor de texto plano, como el Bloc de notas de Windows o TextEdit en macOS. Simplemente abre un nuevo documento, escribe las instrucciones y guarda el archivo como «robots.txt» en la raíz de tu sitio. Sin embargo, aunque puedes crear un archivo robots.txt con cualquier editor de texto, existen herramientas que facilitan este proceso y te ayudan a evitar errores:
- Generadores de robots.txt: Estas herramientas te ofrecen plantillas predefinidas y te guían paso a paso en la creación de tu archivo. Algunos ejemplos son:
- GoogieHost: Ofrece un generador gratuito con opciones básicas y avanzadas.
- Yoast SEO (para WordPress): Este plugin popular incluye un generador de robots.txt que se adapta a las necesidades de tu sitio WordPress.
- Probadores de robots.txt: Estas herramientas te permiten verificar si tu archivo robots.txt funciona correctamente y si hay algún error en la sintaxis o en las reglas que has definido. Algunos ejemplos son:
- Herramienta de inspección de URL de Google Search Console: Te permite ver cómo Google interpreta tu archivo robots.txt para una URL específica.
- Probadores de robots.txt online: Existen numerosas herramientas en línea gratuitas que te permiten introducir tu archivo robots.txt y analizarlo.
Informe de Robots.Txt en Google Search Console (GSC)
Esta herramienta no es mas que una forma de verificar si Google ha visto o no el sitemap y te permite ver las indicaciones que tiene cacheada y la última fecha en la que entró.
Mejores prácticas para optimizar el archivo robots.txt
Aquí dejamos algunas recomendaciones para que tu Robots.txt sea fácil de gestionar y de entender por todos los robots:
- Mantenlo simple: Evita reglas demasiado difíciles, complejas o redundantes. Mientras mas conciso sea el archivo, será más fácil de entender y mantener.
- Prioriza las páginas importantes: Permite que los robots accedan fácilmente a las páginas que quieres que se indexen.
- Bloquea contenido no deseado: Evita que se indexen páginas de prueba, duplicadas o de baja calidad.
- Utiliza el sitemap: Combina el robots.txt con un sitemap XML para proporcionar a los motores de búsqueda una visión completa de tu sitio. De hecho, este punto requiere de otro post mas especifico, porque es necesario no entrar en conflictos y contradicciones entre las indicaciones que damos en el Robots.txt y el Sitemap.xml.
- Prueba y monitorea: Utiliza herramientas de prueba para verificar que tu archivo funciona correctamente y monitorea regularmente el rendimiento de tu sitio en los resultados de búsqueda.
- Sé específico: En lugar de bloquear directorios enteros, intenta bloquear solo las páginas específicas que no quieres que se indexen, así evitas problemas de rastreo.
- Comenta tu código: Añade comentarios a tu archivo robots.txt para explicar las razones de cada regla y facilitar su comprensión en el futuro. Por lo general vienen acompañado de #
Relación entre el archivo robots.txt y el sitemap
El archivo robots.txt y el sitemap cumplen funciones complementarias:
- Robots.txt: Indica qué partes del sitio puede ser rastreado.
- Sitemap: Proporciona un mapa de tu sitio para que los robots puedan encontrar más fácilmente las páginas importantes.
Es importante tener ambos archivos para optimizar el rastreo y la indexación de tu sitio, sin generar conflictos ni contradicciones entre ambos documentos, ya que esto llevará a que hayan páginas que no queremos se posiciones, indexadas o viceversa y afectar el Crawl Budget.
¿Por qué Google no obedece el Robots.txt y Rastrea páginas bloqueadas?
Esto aunque muchos digan que ocurre, no es cierto.
Para Google es prácticamente mandato divino lo que esté indicado en el Robots.txt, sin embargo, deja muy claro que el robots.txt no es la mejor manera de evitar que una página se indexe, ya que para eso, recomienda el uso de no index.
Fuente: https://developers.google.com/search/docs/crawling-indexing/robots/intro
Veamos algunas razones por las que Google podría entrar a páginas bloqueadas en tu Robots.txt:
Esta mal escrito el Robots.txt
Muchos sitemaps en nuestra experiencia SEO, vienen mal redactados y es porque no se entiende la forma en la que Google puede leer dicho documento.
- Google lee siempre desde el principio de la ruta, por lo que si queremos bloquear: /personal/documentos/privados no podemos usar la siguiente indicación:
Disallow: /documentos/privados
Sino que tendremos que usar:
Disallow: /personal/documentos/privados o Disallow: /*/documentos/privados
- En otras ocasiones, hemos encontrado sitemaps que no usan el primer / en la declaración, esto puede afectar el rastreo (aunque Google si no lo ve lo pone él). En todo caso, mejor poner la / al principio de la regla.
- Diferentes reglas para diferentes user-agents. Si tienes diferentes reglas para diferentes user-agents, lo mejor es repetir las reglas para cada uno de los user-agent dando asi las indicaciones de cada uno, por ejemplo:
User-agent: Googlebot
Disallow: /categoria1/
Disallow: /categoria2/
User-agent: Googlebot-Image
Disallow: /videos.html
User-agent: DuckandGo
Disallow: /privados/*
En este ejemplo, estamos dando indicaciones a cada bot, y no están relacionadas las indicaciones, es decir, Google Bot solo no puede entrar a /categoria1 y /categoria2 y Googlebot-Image solo tiene prohibida la entrada a /videos, por lo tanto Google Bot si puede entrar a videos y Googlebot-Image si puede entrar a /categoria1 y /categoria2 y DuckandGo puede entrar a todos lados, menos a la carpeta de /privados/
Es importante entender que los user-agents son únicos y no se combinan las indicaciones que damos en el Robots.txt.
Fallas en el Servidor
Si ocurren fallas en el servidor, justo cuando el bot entra a leer nuestro robots.txt y no puede entender las indicaciones que ahí le damos, entonces puede darse el caso de que entre a alguna de las páginas que teníamos bloqueadas, sin embargo, Google intentará nuevamente entrar al Robots.txt y al entender la indicación dejará de rastrear dicha página.
Si por ejemplo, cuando Google entra a nuestra web y quiere entrar al Robots.txt y se encuentra con:
- Status code 200: El Google bot entra sin problemas al Robots.txt y obedece las reglas ahí plasmadas.
- Status code 300: Aquí el bot va a la página a la que ha sido redirigido sin problemas y lee el sitemap como si fuera la ruta original sin problemas.
- Status code 40X: Aquí el bot aterriza en una página vacía, sin reglas, por lo tanto, hará lo que mejor le parezca, entrará a todas las páginas independientemente de tu estrategia de rastreo.
- Status code 50X: Aquí pueden ocurrir varias cosas. Si robots.txt reporta un error 50X de forma continua, después de 30dias el bot de Google usará la última copia de robots.txt almacenada en caché y si ésta no está disponible, Google supone que no hay restricciones de rastreo.
Fuente: https://developers.google.com/search/docs/crawling-indexing/robots/robots_txt?hl=es-419#http-status-codes
Rastreo no es Indexación
Algo que no nos cansamos de repetir los SEOs, es que no hay indexación sin rastreo pero si puede haber rastreo sin indexación, el detalle está en que el rastreo no necesariamente viene desde el Robots.txt.
Cuando Google decide indexar y mostrar en las SERP una página bloqueada en el robots.txt, es porque ha visto la URL en algún otro lado o porque ya estaba indexada.
Por lo tanto, en este caso, no es que «Google indexa sin entrar«; sino que «si que ha entrado por otra vía, y por eso la ha indexado«
La URL que queremos Bloquear tiene Backlinks
Lo comentado anteriormente, si por alguna razón Google identifica enlaces de calidad hacia alguna página, puede darse el caso de que la indexe, incluso sin rastrearla. Estos casos son curiosos y poco frecuentes, pero Google podría indexarla incluso sin verla si considera que esos enlaces son indicadores suficientes de que el contenido es de calidad, aunque Google no pueda rastrearla.
Estas páginas no alcanzarán buenos rankings, porque al final Google no ha podido rastrearla.
Frecuencia de Rastreo y Cambios en el Robots.txt
Aquí hablamos que Google cachea las indicaciones del robots.txt 24h. Si Google lee nuestro robots.txt a las 9am, y a las 10am hacemos cambios en nuestra web, si Google vuelve a las 10pm se quedará con la indicación vista en el robots.txt y verá o no verá dicha página; pero si en el cambio de las 10am, cambiamos el robots.txt y ahora la indicación es otra, igualmente se quedará con lo que tiene cacheado, haciendo que rastree una página que a las 10am hemos decidido que no rastreara.
Para evitar este tipo de cosas, es importante pedirle nuevamente a Google que rastree nuestro sitemap a través de GSC:
Clicar en REQUEST A RECRAWL
Para que se usa el archivo robots.txt de forma avanzada.
- Gestión de contenido duplicado: Puedes utilizar el robots.txt para bloquear versiones duplicadas de una página, como las versiones para móviles.
- A/B testing: Si estás realizando pruebas A/B, puedes bloquear temporalmente las versiones que no están listas para ser indexadas.
- Protección de contenido premium: Puedes restringir el acceso a contenido de pago o suscriptores mediante el archivo robots.txt.
- Bloqueo de bots maliciosos: Aunque el robots.txt no es una solución completa para proteger tu sitio de bots maliciosos, puede ayudar a reducir el tráfico no deseado.
- Optimización para diferentes motores de búsqueda: Puedes personalizar las reglas para diferentes motores de búsqueda, si es necesario.
Consideraciones sobre el Robots.txt
Consideraciones Generales sobre el Robots.txt
- No es una barrera infranqueable: Aunque el robots.txt indica a los motores de búsqueda qué partes de tu sitio pueden rastrear, no es una garantía de que una página no sea indexada. Si un robot encuentra un enlace a una página bloqueada, podría indexarla de todos modos.
- Complementa el sitemap: El robots.txt y el sitemap trabajan en conjunto. El primero indica qué se puede rastrear, mientras que el segundo proporciona un mapa detallado de tu sitio.
- Actualízalo regularmente: A medida que tu sitio evoluciona, es esencial actualizar el robots.txt para reflejar los cambios.
- Sé específico: En lugar de bloquear directorios enteros, intenta bloquear solo las páginas específicas que no quieres que se indexen.
- Comenta tu código: Añade comentarios a tu archivo robots.txt para explicar las razones de cada regla y facilitar su comprensión en el futuro.
- Consideraciones Técnicas
- Sintaxis: Asegúrate de que la sintaxis de tu archivo sea correcta. Un error tipográfico o una coma en el lugar equivocado puede invalidar todo el archivo.
- Mayúsculas y minúsculas: Las directivas son sensibles a las mayúsculas y minúsculas. Por ejemplo, «User-agent» es diferente de «user-agent».
- Códigos de estado: Los robots de búsqueda pueden seguir enlaces a páginas bloqueadas por robots.txt y recibir un código de estado 403 (Prohibido). Esto puede ser interpretado como un error por parte de los motores de búsqueda.
- Directivas avanzadas: Existen directivas más avanzadas como Crawl-delay, Request-rate, y Noindex que te permiten controlar con mayor precisión el rastreo de tu sitio. Utilízalas con precaución y solo si es necesario.
- No abuses del archivo robots.txt: Bloquear demasiadas páginas puede dificultar la indexación de tu sitio.
- Verifica tu archivo robots.txt: Utiliza herramientas como el «Herramienta de inspección de URL» de Google Search Console para comprobar si tu archivo robots.txt funciona correctamente.
- Mantén tu archivo robots.txt actualizado: A medida que tu sitio evoluciona, es posible que debas modificar el archivo robots.txt para reflejar los cambios.
Consideraciones de SEO sobre el Robots.txt
- Presupuesto de rastreo: Al bloquear secciones de tu sitio, estás limitando el presupuesto de rastreo que los motores de búsqueda dedican a tu sitio. Asegúrate de que las páginas más importantes tengan prioridad.
- Canibalización de palabras clave: Si tienes páginas muy similares y bloqueas una de ellas, podrías estar causando canibalización de palabras clave.
- Experiencia de usuario: Al bloquear secciones importantes de tu sitio, podrías estar perjudicando la experiencia del usuario.
Consideraciones Específicas sobre el Robots.txt
- CMS: Si utilizas un CMS, es posible que tenga opciones integradas para gestionar el archivo robots.txt, por ejemplo, Yoast.
- Sitios web dinámicos: Los sitios web dinámicos con muchas URL pueden requerir un archivo robots.txt más complejo.
- Sitios web multi-idioma: Si tienes un sitio web en varios idiomas, debes tener cuidado de no bloquear accidentalmente contenido en un idioma específico.
Casos Especiales sobre el Robots.txt
- Bloqueo de bots maliciosos: Aunque el robots.txt puede ayudar a reducir el tráfico de bots maliciosos, no es una solución completa.
- A/B testing: Si estás realizando pruebas A/B, puedes utilizar el robots.txt para bloquear temporalmente las versiones que no están listas para ser indexadas.
- Contenido premium: Puedes restringir el acceso a contenido de pago o suscriptores mediante el archivo robots.txt.
Espero que les sea útil, y ya sabes, si te gustó… guarda comenta y comparte que quizás a alguien le pueda ayudar.
Por Alexis Petit – COO de dobleO Agencia de Marketing.