¡Lección fundamental! El Robots.txt es un archivo importantísimo en cualquier web, pero debes saber muy bien para qué sirve, cómo se utiliza y qué opciones tienes para configurarlo.

¿Qué es el archivo Robots.txt y para qué sirve?

Se trata de un archivo alojado en tu web que indica a las arañas de los motores de búsqueda, qué páginas no deben rastrear, con el objetivo de centrar la atención de los crawlers en las URLs que deseas.

Salvo que le digas lo contrario, mediante Robots.txt, una araña entrará en una web a rastrear todo el contenido que encuentre, que no tiene por qué ser todo, claro.

Por lo tanto el Robots.txt es un archivo que sirve para bloquear el acceso de los motores de búsqueda a una determinada página de una web o una parte específica, como por ejemplo, directorios enteros o archivos PDF.

Con el bloqueo conseguimos que los motores de búsqueda no indexen esas páginas, por lo tanto, está aceptado decir que el Robots.txt sirve para desindexar, como consecuencia del bloqueo.

El robots.txt es un archivo que una vez creado, es público a cualquier que introduzca la ruta en un navegador:

midominio.com/robots.txt

Ten en cuenta esto de cara a introducir algunas URLs. Piensa que no es el mejor lugar para esconder algo 🙂

 

Comandos que utilizarás en el Robots.txt

Antes de ver cómo configurar el Robots.txt desde cero, te deben sonar los comandos que se suelen utilizar para dar las órdenes correctas y conseguir los resultados que uno quiere.

Los comandos más utilizados y que más verás en cualquier robots.txt son los siguientes:

-User-agent:

Este comando indica a qué motores de búsqueda afectan las órdenes que le siguen. Por ejemplo, puedes configurar una parte de tu robots.txt para Google, otra parte para Bing, otra para Yandex, etc.

Verás que muchos archivos tienen “User-agent:*. Ese asterisco quiere decir que las órdenes afectan a cualquier motor de búsqueda que vaya a rastrear tu web. En el caso de que quieras que afecte a un determinado buscador, lo harías así:

User-agent: Googlebot

User-agent: msnbot

 

-Disallow

El otro comando importante es “Disallow:”

Éste sirve para indicar la URL, la página, directorio o cualquier otro elemento que quieras bloquear a los motores de búsqueda.

Por ejemplo:

Disallow: /author/

 

-Allow: 

Este comando funciona al contrario que el “Disallow”. Indica que el acceso está permitido a los motores de búsqueda. No es el más utilizado pero puedes utilizarlo para permitir el acceso a ciertas partes de un directorio.

Imagina que quiero bloquear, de las seis categorías de un blog, cinco de ellas. Podría hacerlo de la siguiente manera:

Disallow: /category*/

Allow: /category/gatos

De esta forma con el Allow, estaría contradiciendo al Disallow, pero sólo para una de las categorías.

 

-Sitemap:

Es recomendable que en tu Robots.txt indiques la URL de tu Sitemap. De la siguiente forma:

Sitemap: https://dominio.com/sitemap.xml

Lección 16: crea y configura tu Sitemap XML


-Crawl Delay: 

Se utiliza cuando quieres decirle a los robots el tiempo que deben esperar entre el rastreo de las distintas páginas. Se utiliza en ocasiones en las que se quiere limitar la carga del servidor.

 

Desindexar con Robots.txt

 

Vamos a comenzar por lo básico:

¿Cómo configuras el Robots.txt?

¿Desde dónde creas el archivo y cómo se hace?

¿Cómo lo editas?

 

Cómo crear del archivo Robots.txt

Antes de crearlo comprueba que el Robots.txt no esté creado todavía. Para ello, añade al final de tu dominio /robots.txt.

Si tras introducir la URL en el navegador te devuelve el archivo Robots.txt significa que está creado. Si de lo contrario llegas a un error 404, no tienes archivo Robots.txt

Si te encuentras en el segundo caso, tienes varias opciones:

-En el caso de que tengas WordPress, lo más fácil es crearlo con Yoast SEO o All in One SEO. Aunque ambos plugins suelen generarlo automáticamente.

Si tienes Yoast SEO, en la barra lateral de tu WordPress sigue SEO > Herramientas > Editor de archivos. Ahí tendrás el Robots.txt, para crearlo o editarlo.

editor archivos robots.txt

 

-Créalo tú mismo y súbelo a tu servidor.

Si quieres hacerlo de forma artesanal, a mano, puedes hacerlo de varias formas. Lo más sencillo es utilizar un bloc de notas, para crear un archivo con extensión .txt, los de toda la vida.

Si no quieres, puedes recurrir a herramientas como esta o esta.

Cuando tienes generado el archivo debes subirlo al raíz de tu web. Puedes hacerlo a través de cliente FTP, con programas como Filezilla o bien, y dependiendo de tu hosting, a través de CPanel.

Por ejemplo, en el caso de que utilices un hosting con Cpanel como puede ser Webempresa o Raiola, tendrías que realizar lo siguientes pasos:

  1. Acceder a Cpanel
  2. Administrador de archivos
  3. Carpeta Public_html (comprueba que estás en la carpeta de la web sobre la que quieres subir el Robots.txt, en el caso de que tengas varias instalaciones hechas en el mismo servidor).
  4. Sube tu archivo Robots.txt a través de ‘Cargar’.
  5. Cuando lo hayas subido, puede que por defecto no se muestre, es porque está oculto. Arriba a la derecha verás ‘Configuración’. Accede y marca “Mostar archivos ocultos (dotfiles)” y guarda. Ahora verás archivos como el Robots o el .htaccess.

 

¿Cómo editar el archivo Robots.txt una vez creado?

Para editar tantas veces como quieras el archivo tienes que acceder de la forma que puedas o más te guste de las que hemos visto justo antes.

En el caso de que tu archivo esté creado con Yoast, desde la misma ruta SEO > Herramientas > Editor de archivos puedes editarlo.

Si te decantas por esta opción, la más cómoda y rápida, no debes preocuparte por editarlo luego desde FTP o CPanel, ya que se actualiza.

 

También puedes editarlo a través de FTP o CPanel. Tienes que localizar el archivo, editar y guardar.

 

¿Cómo configurar el Robots.txt para bloquear lo que necesitas?

A priori es sencillo bloquear páginas de tu web mediante el robots.txt, pero pueden darse casos de que haya que incluir algún parámetro adicional. Vamos a ver los casos más comunes para que generes tu Robots.txt con garantías.

  • User-agent:*De esta forma indicas que las líneas que vienen después afectan a todos los motores de búsqueda.
  • User-agent: GooglebotLas líneas siguientes sólo afectan a los robots de Google (tanto móvil como escritorio).
  • Disallow: /De esta forma bloqueas el acceso a toda una web.
  • Disallow: /url/Bloqueo una página o URL concreta de tu web.
  • Disallow: /url.htmlBloqueas el acceso a una página o URL que acaba en .html
  • Disallow: /url.phpBloqueas el acceso a una página o URL que acaba en .php
  • Disallow: /directorio/ Bloqueas el acceso a un directorio concreto.
  • Disallow: /tag*/Bloqueas el acceso a un directorio que comienza por “tag”. En este ejemplo sería para bloquear el rastreo y desindexar las etiquetas de un blog en WordPress.
  • Disallow: /*.pdf$De esta forma bloqueas el acceso de los robots a archivos PDF subidos a tu servidor.
  • Allow: /tag/twitter/Permites el acceso a un subdirectorio concreto de un directorio bloqueado.
  • Sitemap: https://dominio.com/sitemap.xml Indicas la URL del sitemap de la web con las URLs que sí deben rastrear las arañas.

 



Comprueba tu Robots.txt en Search Console

Es importante y siempre insisto en ello, comprobar si los ajustes que haces en el Robots.txt cumplen con la función o con lo que quieres bloquear. Es útil para descubrir si estás denegando el acceso a aquello que quieres y no bloqueas alguna parte de tu web que quieres que sea accesible.

Recomiendo hacer esto con aquellos bloqueos del Robots que te generan dudas.

¿Cómo lo puedes hacer?


Dentro de tu Search Console verás un apartado que pone Rastreo > Probador de Robots.txt

Aquí deberás en primer lugar, si no aparece ya, enviar tu archivo Robots.txt a Search Console. Cuando aparezca la información que introdujiste, y que contiene tu Robots, podrás comprobar si una URL concreta, está BLOQUEADA o PERMITIDA.

Sólo tienes que introducir en el espacio inferior esa URL, y te dirá si está Permitida o si por lo contrario está Bloqueada, además de señalarte qué línea del Robots.txt está bloqueando esa URL.

probar robots search console

Ahora ya sabes qué papel juega el Robots.txt en el SEO, cómo crearlo, configurarlo y comprobar si los cambios que haces están bien ejecutados. ¡Si tienes dudas sobre el proceso, deja un comentario abajo y te contestare!