Si has llegado a este post seguramente ya tengas claro qué es la desindexación y por qué quieres acometerla en algunas de tus páginas. El objetivo de este post es diferenciar bien entre el robots.txt y la etiqueta «noindex», llamar a cada cosa por su nombre y no tener ningún tipo de confusión.
En este post podrás leer:
Objetivo principal: la desindexación
Si has llegado a este post seguramente ya tengas claro qué es la desindexación y por qué quieres acometerla en algunas de tus páginas.
Lo más probable es que tengas dudas acerca de qué método utilizar para conseguirlo, ya que sabes que existen ambos pero no sabes qué implica cada uno, cuál es mejor, si utilizarlos simultáneamente…
Tranquilo, el objetivo final lo vas a conseguir: desindexar. Ahora bien, te voy a explicar cuál de los dos métodos te conviene más en cada caso y las diferencias entre ellos.
¿Qué es el Robots.txt?
El archivo robots.txt es un archivo de texto que debes almacenar en el raíz de tu web. Este archivo sirve para dar órdenes a los diferentes motores de búsqueda con el objetivo de bloquear o permitir el acceso de las arañas o bots a una URL, directorio o web. Se sobre entiende que una página que está bloqueada por robots.txt no debería ser rastreable al no poder acceder un bot, y por lo tanto no debería ser indexable.
Cuando en el archivo robots incluimos una línea con un disallow: seguido de una URL o un directorio, le estamos diciendo a un motor de búsqueda que no queremos que sus bots accedan a dicho lugar. Se trata de una puerta completamente cerrada al rastreo, aunque con salvedades.
¿Qué conseguimos con ese ‘disallow’?
Si una determinada página está marcada con disallow, GoogleBot no accederá y por consecuencia no podrá ni almacenarla ni analizarla, lo que tiene como efecto la desindexación o directamente la no indexación de una página. Esto último es fácil, desindexamos cuando una página ha estado indexada en algún momento de su vida, y si una página ‘nace’ directamente en disallow, no se indexará nunca (o no debería).
Si has entendido estos últimos párrafos entenderás por qué me gusta decir que el robots.txt no es una herramienta creada para desindexar. ¿Whaaat? Sí, siendo correctos y más papistas que El Papa, es así. Es una herramienta que permite elegir qué partes de una web rastrean los bots, solo que una de las consecuencias del disallow, es la no indexación de esas paginas.
¿Cómo utilizar el Robots.txt?
Al robots.txt se puede acceder de varias formas, siempre y cuando esté generado, claro.
Si tienes WordPress como CMS, puedes editar el robots.txt fácilmente con el plugin SEO by Yoast. Aquí tienes un tutorial completo de Yoast SEO. También lo puedes hacer con otros plugins de SEO como Rank Math [Lee esta comparativa entre Rank Math y Yoast]
Dentro de la configuración del plugin, ve a Herramientas > Editor de archivos. Dentro verás las líneas que conforma el robots.txt.
Desde aquí directamente puedes añadir los disallow que desees. Escribe manualmente:
Disallow: /url/
De esta forma estarás bloqueando el acceso a los motores de búsqueda a esa URL.
Recuerda que puedes elegir a qué motores de búsqueda das las indicaciones mediante el ‘User-agent’.
Otra forma de acceder al robots.txt es mediante FTP, o incluso dependiendo del hosting, a través de Cpanel. El archivo estará en el raíz de la web y desde ahí lo puedes editar. Añade las líneas y los disallows que sean necesarios y guarda los cambios.
Importante: solo debes hacer los cambios en uno de los dos lugares. Si aplicas los cambios por ejemplo mediante un plugin como Yoast, no será necesario que lo hagas a través de FTP. Se actualiza en ambos lugares.¿Qué es la meta etiqueta ‘no index’?
Los llamados ‘meta robots’ son unas etiquetas HTML que se incluye en cada página de una web.
Estas etiquetas indican a Google u otros motores cómo deben proceder con esa página en materia de rastreo e indexación. Sirven para establecer qué URLs se indexan o no en los motores de búsqueda.
Aclaración: no todas las páginas deben contener la meta etiqueta robots. En el caso de que una página no la tenga, se entenderá que esa página es index, follow.Dentro de esta etiqueta podemos incluir hasta cuatro combinaciones diferentes, en función de lo que necesites y de cómo queremos que se comporten los bots:
- Index, follow: con esta combinación indicamos que la página es indexable y queremos que los enlaces que contiene sean seguidos.
- Index, nofollow: la página es indexable pero los enlaces de dicha página no queremos que sean seguidos.
- Noindex, follow: es el más común para desindexar páginas. Indicamos que la página no se debe indexar pero los enlaces sí queremos que sean seguidos.
- Noindex, nofollow: de esta forma indicamos que no queremos que la página se indexe y tampoco que los enlaces sean seguidos.
¿Cómo utilizarla?
Dependiendo de la web que tengas, cómo esté construida, el CMS que utilices puede cambiar el modo de aplicarlo. Lo que nunca cambia es la etiqueta en cuestión:
<meta name="robots" content="noindex, follow">
Esta etiqueta debe estar en la cabecera de cada página en la que quieras dar esas indicaciones.
En el caso de que tengas WordPress y Yoast SEO, sólo debes marcar algunos botones para hacer index o no index, follow o nofollow las páginas, tipos de contenido, taxonomías o archivos que quieras. Esto lo puedes ver paso por paso en la guía de Yoast SEO.
También te dejo por aquí un tutorial para desindexar correctamente con «noindex»
Diferencias entre el Robots.txt y no index
Aunque el objetivo final y el resultado sea el mismo, la desindexación, hacerlo de una forma u otra tiene ciertas diferencias que no hay que pasar por alto, y que deben hacer pensar cuándo utilizas cada una y para qué casos.
¡La mayor diferencia entre ambos reside en el rastreo!
Robots.txt | Meta robots [noindex,follow] |
---|---|
El bot no rastrea la página | El bot sí rastrea la página |
No sigue los enlaces ni transmite autoridad. | Sigue los enlaces y transmite autoridad |
Contenido visible a usuarios | Contenido visible a usuarios |
No indexa* | No indexa |
La gran diferencia entre el robots.txt y el meta robots no index, en el caso de que fuera ‘noindex, follow’ reside en el rastreo.
Una URL en disallow no será rastreada lo más mínimo, es decir, el bot no pierde tiempo es rastrear su contenido. En el caso del noindex, GoogleBot accederá a contenido, y entre otras cosas en ese rastreo, verá la etiqueta meta name robots.
Otra diferencia muy importante es el tema de los enlaces. Con el noindex, follow los enlaces de esa página serán seguidos por los bots y transmitirán autoridad, a no ser que un enlace en concreto cuente con otra etiqueta, rel=»nofollow». Esta es la gran ventaja del meta robots, ya que te permite desindexar una página sin prescindir del rastreo de los enlaces que contiene. Algo realmente útil sobre todo para el enlazado interno.
Por ejemplo, las páginas de categorías de mi blog son ‘noindex, follow’ ya que no quiero indexar las páginas de categoría pero sí quiero que Google descubra y rastree los enlaces internos a artículos que sí quiero indexar.
La desventaja del meta name robots es precisamente ese rastreo que el bot va a realizar. Si lo piensas, estamos diciéndole a GoogleBot que pierda tiempo y emplee recursos en rastrear una página que no vamos a indexar. Entendemos que esto es perjudicial para el llamado presupuesto de rastreo o crawl budget.
En la tabla he puesto con un asterisco el «no indexa» en Robots.txt y es que hay ciertas ocasiones en las que puede no desindexar una página bloqueada con disallow.
Caso concreto: ya lo he visto en varias ocasiones. Si marcamos una URL o directorio con «noindex» en la etiqueta meta name robots y bloqueamos esa URL o directorio con un Disallow en Robots.txt los bots no pueden acceder a dichas URLs y por lo tanto no verán la etiqueta noindex.
¿Qué implica esto? En ocasiones ocurre que Google termina no desindexando esas páginas, a pesar de tener noindex (pero no llega a verlo) y a pesar de estar bloqueadas en Robots.txt.
Cuando ocurre esto, en Search Console, en el informe de Cobertura vemos como en Advertencias aparecen unas URLs marcadas como «Se ha indexado aunque un archivo robots.txt la ha bloqueado». También conviene que veamos este tipo de incoherencias dentro de «Válidas», donde puede aparecer «Indexada, no enviada en sitemap».
Esto es incoherente por varios motivos. El primero porque las URLs que mostramos en Sitemap deberían ser las que queremos indexar. Si tenemos páginas indexadas que no están en el Sitemap, tenemos que revisarlo, bien porque no se han incluido o bien porque se están indexando páginas que no debería indexarse.
¿Cuál utilizo en cada caso?
Ahora que ya entiendes para qué sirve el robots.txt y el noindex, qué implica cada uno y sus diferencias debes pensar y decidir cuál utilizas según qué casos.
¿Merece la pena que GoogleBot pierda tiempo rastreando una URL que no quieres indexar? La respuesta la encontrarás sobre todo, en los enlaces internos. Si esa página que quieres desindexar tiene enlaces internos útiles para tu estrategia, páginas que quieres posicionar, seguramente, merecerá la pena.
Debemos entender que la forma correcta de indicar a Google que una página no debe ser indexada es con el «noindex» en la meta etiqueta robots.
¿Cuándo utilizamos el robots.txt? Debemos utilizarlo con unos objetivos diferentes a la mera desindexación. Debemos bloquear por robots.txt sobre todo aquellas partes una web que no solo no son relevantes para el usuario, sino que no queremos que bajo ningún concepto un motor de búsqueda acceda a ellas.
Hay ciertas páginas que podrías poner en robots.txt, ya que nunca suelen tener utilidad SEO:
- Aviso legal
- Condiciones de compra
- Cookies
- Accesos privados
- Carrito de un ecommerce
- En páginas ya desindexadas, que tienen noindex y quieres evitar que haya rastreo
¿Te ha quedado clara la diferencia entre el robots.txt y el no index? Si tienes alguna duda, deja un comentario y te responderé en el menor tiempo posible.
Creador del blog que estás leyendo. Podcastser en SEO desde Cero. Profesor de SEO en AulaCM y en Nuclio Digital School. Formador para empresas.
Muy importante conocer estas diferencias entre noindex y robots.txt, ayuda mucho a las personas que tienen sus propias páginas webs y que quieren mejorarlas. A veces entender estos conceptos puede ser dificil pero lo explicas muy bien.
-Gustavo Woltmann
Gracias Alex! Me ha servido mucho tu tabla a modo de resumen para entender la diferencia 🙂
En todo caso, quería preguntarte algo. Al hacer site:dominio, me siguen saliendo varias URLs que yo tengo marcadas en el Yoast como No index / No follow; que corresponden a Aviso Legal – Cookies – Privacidad, etc. Pero aún así, Google las sigue enseñando. Tengo entendido que para que Google las desindexe en su totalidad, ha de transcurrir un tiempo… mi pregunta es: El día que ya Google no las enseñe con el site:dominio, ¿las debo de volver a incluir como Disallow/ en el robots.txt y seguir dejando marcado el No Index en Yoast?
Gracias,
Hola Vanessa. Cuando Google desindexe del todo esas URLs debes seguir teniendo el noindex/nofollow en ellas. Lo de ponerlo en robots.txt no es necesario, pero puedes hacerlo y así evitas rastreos en esas URLs.
¡Saludos y muchas gracias por comentar!
Mejor no se podía haber explicado… Muy chulo el post Álex.
Saludetes! 🙂
Muchas gracias pro el comentario, José Luís 🙂 Me alegro que se entienda bien
¡Saludos!
Muy bien explicado, hay gente que opina que el robots.txt no vale para nada, ya que como explicas en el post, si pones la etiqueta «no index» en una URL y bloqueas además por robots, Google no podrá ver esa etiqueta e indexará la URL. También hay que decir que si bloqueamos por robots, pero no tenemos puesta la etiqueta «no Index» en una URL y tenemos enlaces que apuntan a esa URL, Google tendrá acceso a esa URL y al no ver la etiqueta «no Index» finalmente la indexará.
Vamos que no sabe uno cuando utilizar una cosa u otra.
Muy buen post, un saludo.