¡Hola, vamos con una nueva lección SEO! En esta ocasión vamos a hablar de desindexación, pero no de cómo hacerlo, si no con qué método hacerlo. Sabes que puedes desindexar una página con Robots.txt, pero también sabes que puedes hacerlo con la etiqueta ‘noindex’.

¡Pero, Álex!

  • ¿Utilizo los dos la vez?
  • ¿Cuál es mejor?
  • ¿Por qué existen dos métodos?
  • ¿Existen diferencias entre ambos?

Voy a responderte a todas esas preguntas, y tras leer este breve post sabrás qué método utilizar en cada caso.

Objetivo principal: la desindexación

Si has llegado a este post seguramente ya tengas claro qué es la desindexación y por qué quieres acometerla en algunas de tus páginas.

Lo más probable es que tengas dudas acerca de qué método utilizar para conseguirlo, ya que sabes que existen ambos pero no sabes qué implica cada uno, cuál es mejor, si utilizarlos simultáneamente…

Tranquilo, el objetivo final lo vas a conseguir: desindexar. Ahora bien, te voy a explicar cuál de los dos métodos te conviene más en cada caso y las diferencias entre ellos.

 

¿Qué es el Robots.txt?

El archivo robots.txt es un archivo de texto que debes almacenar en el raíz de tu web. Este archivo sirve para dar órdenes a los diferentes motores de búsqueda de lo que deben y no deben rastrear y por lo tanto, almacenar en sus bases de datos, analizar y por último indexar.

Cuando en el archivo robots incluimos una línea con un ‘disallow:’ seguido de una URL o un directorio, le estamos diciendo a un motor de búsqueda que no queremos que sus bots accedan a dicho lugar. Se trata de una puerta completamente cerrada al rastreo.

¿Qué conseguimos con ese ‘disallow’?

Si una determinada página está marcada con disallow, GoogleBot no accederá y por consecuencia no podrá ni almacenarla ni analizarla, lo que tiene como efecto la desindexación o directamente la no indexación de una página. Esto último es fácil, desindexamos cuando una página ha estado indexada en algún momento de su vida, y si una página ‘nace’ directamente en disallow, no se indexará nunca (o no debería).

Si has entendido estos últimos párrafos entenderás por qué me gusta decir que el robots.txt no es una herramienta creada para desindexar. ¿Whaaat? Sí, siendo correctos y más papistas que El Papa, es así. Es una herramienta que permite elegir qué partes de una web rastrean los bots, solo que una de las consecuencias del disallow, es la no indexación de esas paginas.

 

¿Cómo utilizar el Robots.txt?

Aunque tienes una guía para configurar el robots.txt, te refresco la memoria.

Al robots.txt se puede acceder de varias formas, siempre y cuando esté generado, claro.

Si tienes WordPress como CMS, puedes editar el robots.txt fácilmente con el plugin SEO by Yoast.

Dentro de la configuración del plugin, ve a Herramientas > Editor de archivos. Dentro verás las líneas que conforma el robots.txt.

Desde aquí directamente puedes añadir los disallow que desees. Escribe manualmente:

Disallow: /url/

De esta forma estarás bloqueando el acceso a los motores de búsqueda a esa URL.

Recuerda que puedes elegir a qué motores de búsqueda das las indicaciones mediante el ‘User-agent’.

Otra forma de acceder al robots.txt es mediante FTP, o incluso dependiendo del hosting, a través de Cpanel. El archivo estará en el raíz de la web y desde ahí lo puedes editar. Añade las líneas y los disallows que sean necesarios y guarda los cambios.

Importante: solo debes hacer los cambios en uno de los dos lugares. Si aplicas los cambios por ejemplo mediante un plugin como Yoast, no será necesario que lo hagas a través de FTP. Se actualiza en ambos lugares.

 

¿Qué es la meta etiqueta ‘no index’?

Los llamados ‘meta robots’ son unas etiquetas HTML que se incluye en cada página de una web.

Estas etiquetas indican a Google u otros motores cómo deben proceder con esa página en materia de rastreo e indexación. Sirven para establecer qué URLs se indexan o no en los motores de búsqueda.

Aclaración: no todas las páginas deben contener la meta etiqueta robots. En el caso de que una página no la tenga, se entenderá que esa página es index, follow.

Dentro de esta etiqueta podemos incluir hasta cuatro combinaciones diferentes, en función de lo que necesites y de cómo queremos que se comporten los bots:

  • Index, follow: con esta combinación indicamos que la página es indexable y queremos que los enlaces que contiene sean seguidos.
  • Index, nofollow: la página es indexable pero los enlaces de dicha página no queremos que sean seguidos.
  • Noindex, follow: es el más común para desindexar páginas. Indicamos que la página no se debe indexar pero los enlaces sí queremos que sean seguidos.
  • Noindex, nofollow: de esta forma indicamos que no queremos que la página se indexe y tampoco que los enlaces sean seguidos.

 

¿Cómo utilizarla?

Dependiendo de la web que tengas, cómo esté construida, el CMS que utilices puede cambiar el modo de aplicarlo. Lo que nunca cambia es la etiqueta en cuestión:

<meta name=”robots” content=”noindex, follow”>

Esta etiqueta debe estar en la cabecera de cada página en la que quieras dar esas indicaciones. Como ves, dentro de content puedes indicar las cuatro combinaciones que hemos visto arriba.

En el caso de que tengas WordPress y Yoast SEO, sólo debes marcar algunos botones para hacer index o no index, follow o nofollow las páginas, tipos de contenido, taxonomías o archivos que quieras. Esto lo puedes ver paso por paso en la guía de Yoast SEO.

 

Diferencias entre el Robots.txt y no index

Aunque el objetivo final y el resultado sea el mismo, la desindexación, hacerlo de una forma u otra tiene ciertas diferencias que no hay que pasar por alto, y que deben hacer pensar cuándo utilizas cada una y para qué casos.

¡La mayor diferencia entre ambos reside en el rastreo!

Robots.txtMeta robots [noindex,follow]
El bot no rastrea la páginaEl bot sí rastrea la página.
No sigue los enlaces ni transmite autoridad.Sigue los enlaces y transmite autoridad.
Contenido visible a usuariosContenido visible a usuarios
No indexaNo indexa

 

La gran diferencia entre el robots.txt y el meta robots no index, en el caso de que fuera ‘noindex, follow’ reside en el rastreo.

Una URL en disallow no será rastreada lo más mínimo, es decir, el bot no pierde tiempo es rastrear su contenido. En el caso del noindex, GoogleBot accederá a contenido, y entre otras cosas en ese rastreo, verá la etiqueta meta name robots.

Otra diferencia muy importante es el tema de los enlaces. Con el noindex, follow los enlaces de esa página serán seguidos por los bots y transmitirán autoridad, a no ser que un enlace en concreto cuente con otra etiqueta, rel=”nofollow”. Esta es la gran ventaja del meta robots, ya que te permite desindexar una página sin prescindir del rastreo de los enlaces que contiene. Algo realmente útil sobre todo para el enlazado interno.

Por ejemplo, las páginas de categorías de mi blog son ‘noindex, follow’ ya que no quiero indexar las páginas de categoría pero sí quiero que Google descubra y rastree los enlaces internos a artículos que sí quiero indexar.

La desventaja del meta name robots es precisamente ese rastreo que el bot va a realizar. Si lo piensas, estamos diciéndole a GoogleBot que pierda tiempo y emplee recursos en rastrear una página que no vamos a indexar. Entendemos que esto es perjudicial para el llamado presupuesto de rastreo o crawl budget.

 

¿Cuál utilizo en cada caso?

Ahora que ya entiendes para qué sirve el robots.txt y el noindex, qué implica cada uno y sus diferencias debes pensar y decidir cuál utilizas según qué casos.

Una buena forma de llegar a una conclusión es hacerte la siguiente pregunta:

¿Merece la pena que GoogleBot pierda tiempo rastreando una URL que no quieres indexar? La respuesta la encontrarás sobre todo, en los enlaces internos. Si es página que quieres desindexar tiene enlaces internos útiles para tu estrategia, páginas que quieres posicionar, seguramente, merecerá la pena.

Si por el contrario, hablamos de páginas cuyo contenido es completamente inútil a efectos SEO y no tiene enlaces útiles en su interior, la mejor opción será el robots.txt. De esta forma no gastarás recursos ni tiempo, y las arañas podrán dedicarse a rastrear lo que realmente te interesa.

Hay ciertas páginas que podrías poner en robots.txt, ya que nunca suelen tener utilidad SEO:

  • Aviso legal
  • Condiciones de compra
  • Cookies
  • Accesos privados
  • Carrito de un ecommerce

 

¿Te ha quedado clara la diferencia entre el robots.txt y el no index? Si tienes alguna duda, deja un comentario y te responderé en el menor tiempo posible.