bg
Inicio | Robots.txt: qué es y para qué sirve este archivo

Robots.txt: qué es y para qué sirve este archivo

Robots.txt

En este post queremos explicarte qué es y cómo funcionan las configuraciones que se pueden realizar a través del archivo robots.txt, un sencillo archivo de texto que puede decir muchas cosas de nuestro sitio web a los motores de búsqueda y que puede afectar al posicionamiento SEO de tu web.

¿Qué es el archivo robots.txt?

Se trata de un simple archivo de texto plano, que puedes crear con cualquier editor de código. Este archivo permite especificar configuraciones útiles para los motores de búsqueda, como Google, sobre el comportamiento que queremos que realice a la hora de indexar las páginas del sitio.

El archivo robots.txt ofrece información sobre si queremos que se indexen o no las páginas del sitio, si alguna sección en particular se debe ignorar y otras cosas similares. Por tanto, se trata de una configuración valiosa tanto para tu sitio, para mantener la privacidad de ciertas secciones, como para que los buscadores gasten el tiempo estrictamente necesario a la hora de reconocer e indexar el contenido.

¿Cómo funciona el robots.txt?

Es muy sencillo. Cuando los buscadores entran a tu sitio web para analizarlo lo primero que harán será consultar si existe un archivo robots.txt en la raíz del dominio. En caso de que exista leerán su contenido para comportarse tal como se indique.

Por tanto, puedes entender a robots.txt como una plataforma de comunicación con la que puedes personalizar el comportamiento de los buscadores y pedirle que hagan cosas diversas al reconocer tu sitio web. No es nada del otro mundo y verás que las configuraciones que puedes indicar en el archivo son bastante fáciles de entender.

Por qué es importante el archivo robots.txt

Este archivo es fundamental para conseguir una optimización del comportamiento de nuestro sitio en buscadores. Básicamente porque cada sitio web, según su importancia, tiene una cantidad de procesamiento asignado por el buscador para reconocer e indexar el contenido.

Si tenemos secciones del sitio que no son interesantes para buscadores, o incluso que no deberían indexar, es fundamental que bloqueemos el acceso a esas áreas para que nuestra cuota de indexación no se gaste inútilmente y el buscador se dedique a indexar el contenido que nosotros consideramos esencial.

¿Qué elementos nos encontramos en el robots.txt?

Ahora vamos a analizar más a fondo el contenido que puedes incluir dentro del archivo robots.txt.

Comandos

Los comandos son las reglas que queremos especificar al buscador dentro del archivo robots.txt para poder direccionar su comportamiento. Todo comando contiene una serie de bloques que deben ser indicados de manera separada:

User-agent

Este bloque indica qué buscador debe de leer esta regla. Algunos user agent son «Googlebot», «Bingbot» o «DuckDuckBot». Existen otros user agent como «Baiduspider» o «Applebot» que pueden también interesarnos dependiendo del tipo de contenido que estemos distribuyendo.

También tienes el user agent con el valor «*» para referirte a todos los posibles motores de búsqueda. Enseguida veremos ejemplos.

Disallow

Mediante este bloque debemos decirle qué contenidos no queremos que se indexen. Es como una especie de lista negra de contenidos que no deben ser accedidos por el buscador.

Veamos algunos ejemplos:

User-agent: *
Disallow: /

Si el contenido de nuestro archivo robots.txt es el anterior, estaremos bloqueando la indexación de todo el sitio web para todos los posibles bots. Esta configuración puede ser útil cuando el archivo se encuentra en construcción. Sin embargo, es muy importante acordarse de quitarla cuando publiquemos el sitio web.

User-agent: Googlebot
Disallow: /admin

En esta configuración estamos indicando, exclusivamente para Googlebot, que no indexe el contenido que hay bajo la ruta «admin».

Allow

Este comando permite poner en verde una de las secciones que se habían bloqueado con otras reglas. Por ejemplo, podrías tener una zona de administración bloqueada a los motores, pero quizás una de las secciones de ésta la quieres poner disponible para su indexación.

User-agent: *
Disallow: /admin
Allow: /admin/photos

Dentro de admin no se indexará nada. Sin embargo, la zona de administración de fotos estaría abierta a su indexación.

También podemos agrupar varios bots para luego especificar un comando válido para todos ellos:

user-agent: Googlebot
user-agent: Bingbot
disallow: /privacy.html

Además existen algunos comodines que podemos indicar en las rutas.

  • El caracter «*» indica cero o más caracteres en una ruta
  • El caracter «$» indica el final de una URL

Otros valores útiles y comentarios relevantes:

  • «/» indica la raíz del sitio y todo el contenido que haya a continuación (todas las URL)
  • «/ruta» incluiría todo lo que haya dentro de la carpeta «ruta» que cuelga de la raíz. Valdrían rutas como «/ruta», «/ruta/», «/ruta/index.php», «/ruta/otra»…
  • «/ruta*» validría como todas las rutas anteriores y otras como «/ruta_interna», «/rutaexterna.html»,
  • /* el comodín final en una ruta después de una barra es como si no pones nada
  • Colocar una barra al final de la ruta excluye la ruta en sí. Es decir «/ruta/» no incluye «/ruta» pero sí «/ruta/» o cosas como «/ruta/otra» «/ruta/1.html».

Otros comandos

Tienes además el comando «sitemap», con el que puedes indicar el sitemap de tu sitio web. 

Sitemap: https://example.com/sitemap.xml

El comando «craw-delay», que permite decirle a los bot que se tomen un tiempo entre página y página consultada, de modo que se sobrecargue el sitio con muchas solicitudes seguidas. Este comando no lo reconoce Google y podrías configurarlo en Search Console.

User-agent: *
Crawl-delay: 3

Elementos o patrones

Existen algunos patrones de configuración típicos de robots.txt. Por ejemplo, es normal comenzar por unas reglas que se establecen para todos los bots y luego sobreescribir algunas de ellas para un bot en particular.

User-agent: *
Disallow: /site
User-agent: Googlebot
Allow: /site

Así hemos indicado a todos los bots, excepto el de Google, que indexen el contenido de la carpeta site.

¿Cómo crear o actualizar un archivo robots.txt?

Para crear el archivo robots.txt nada más tienes que colocar un archivo con texto plano en la carpeta raíz de tu dominio. En él puedes colocar todas las reglas que quieras.

Si lo quieres actualizar nada más tienes que editar su contenido y volverlo a subir a la carpeta raíz de tu dominio.

¿Cómo probar un archivo robots.txt?

Existen en Internet multitud de servicios que pueden testear tu archivo robots.txt, a fin de verificar que la sintaxis es correcta. Puedes hacer una simple búsqueda en Google para encontrarlos. Sin embargo, te recomendamos usar el Testeador del Archivo Robots.txt de Google.

¿Dónde se incluye el archivo robots.txt en el sitio web?

Ya lo hemos mencionado, pero el archivo robots.txt lo tienes que colocar en la carpeta raíz de tu dominio, donde está el index principal. Esa carpeta puede tener varios nombres dependiendo de tu servicio de alojamiento, como «htdocs», «html», «www», «httpdocs», etc.