Guía desindexación: cómo, cuándo y por qué debes desindexar

¿Qué le puede llevar al ser humano a querer ocultar a los ojos de Google u otros motores de búsqueda una página? Lo lógico es pretender mostrar todos los resultados, posicionar, enviar todas las URLs de una web a Google…

[thrive_leads id=’12560′]

Pero no siempre lo lógico es lo más adecuado. La desindexación o desindexar páginas es una acción importantísima, que debe estar presente o al menos planteársela en el 99,9% de las webs (o quizás en el 100%).

Te interesa:

He creado esta guía, y sí, lo llamo guía porque es una maldita guía (aunque no la típica guía super definitiva), no importa el nivel que tengas, puedes seguirla paso por paso y entenderás no sólo lo que debes hacer, si no cómo hacerlo.

¿Qué es desindexar?

Para entender lo que significa desindexar, primero tenemos que entender el significado de ‘indexación’, ¿no crees?

Si empezamos por lo básico y leemos el significado de ‘indexar’, encontramos algo con bastante sentido (ahí lo tienes, un verbo transitivo).

«Hacer índices» (ojo, sinónimo ‘indizar’, ¿conocías esa palabreja?)

Lo que dice el punto dos es mucho más completo y se acerca al significado de indexar aplicado al SEO.

Siempre hablamos que indexar una página o URL, es que ésta aparece en los resultados de búsqueda y aunque es un poco simple ese planteamiento, no es mentira, aunque falta más verdad.

Una URL que aparece en Google u otro buscador, es una URL indexada. Aparece para una determinada búsqueda, sea cual sea su posición.

Me voy a poner un poco pesado con esto, pero para que comprendas el resto de la guía debes entender muy bien lo que significa indexar.

De acuerdo, indexar significa que una página está en el índice de Google, pero, ¿en qué índice? Cuando pensamos en el índice de Google pensamos en una gran base de datos, con trillones de páginas. Realmente debes pensar en el índice de Google, en el que se van a indexar tus páginas, como si fueran índices o listados según búsquedas.

Una de tus páginas aparece indexada en las SERPs para una búsqueda(s) concreta(s).

Ahora, ¿qué debe ocurrir para que esa página esté indexada?

En primer lugar, una página debe ser rastreable por Google (aunque si nos ponemos, podríamos decir que en algunos casos hay indexación sin rastreo…🤔). Debe encontrarla, poder acceder a ella y ser capaz de analizarla posteriormente.

Para que GoogleBot pueda rastrear esas páginas no debe encontrar escollos u órdenes contrarias, tales como el noindex o un disallow en robots.txt (luego vemos esto, porque hay salvedades).

Daría para otro post y por ello no quiero extenderme mucho más con esto, pero ten en cuenta que para que Google indexe una página no solo basta con que sea ‘rastreable’. Que sea rastreable no implica que sea indexable, entran en juego otros factores.

¿Cuándo puede Google NO indexar una página?

Disallow en Robots.txt

Cuando un bot se topa con un disallow a una URL o a un directorio, no accederá ni habrá rastreo, y por lo tanto podría no haber indexación. Hay casos en los que por mucho que una página esté bloqueada en Robots.txt no evita que sea indexada.

Códigos 3XX

Si el bot intenta rastrear una URL y se topa con que ésta tiene un código 301, 302 o 307, no podrá rastrear dicha página, irá hacia la URL de destino en la redirección y si esa es rastreable e indexable hará lo que corresponde.

Códigos 4XX

Si los bots pueden hacer a una URL con un código 404, 410 o 401, no podrá rastrear el contenido y por lo tanto no habrá indexación.

Etiqueta «noindex»

Si el bot puede acceder a rastrear una URL y dentro de ésta se encuentra la etiqueta meta name robots con un «noindex» no indexará dicha URL.

URL con una canonical hacia otra

Si el bot puede rastrear una URL, accede a ella y ve un rel=canonical hacia otra URL, hacia la canónica, irá a rastrearla, pero también rastreará en cierta medida la canonicalizada. Esto no implica entonces que vaya a ver una desindexación, pero el hecho de que le hayamos indicado a Google que la importante es otra, puede llevar a que esto ocurra.

Otro tipo de páginas

En ocasiones Google decide no indexar algunas URLs por diversos motivos.

Puede darse el caso de que Google, tras rastrear, analizar y evaluar un conjunto de páginas no las indexe porque puedan ser:

Paginaciones (en muchas ocasiones contienen una canonical de forma automática)
Páginas con thin content
Páginas sin autoridad
URLs con parámetros
Páginas difíciles de descubrir por Google: URLs que no tienen enlaces internos, ni externos y tampoco están enviadas en un sitemap.

Entendemos entonces que el resto de casos que no se listan aquí darían como resultado que una página no se indexara. Aunque puede ver casos diferentes como peces en el mar, pero por resumir.

¿Por qué desindexar? Situaciones que pueden llevarte a desindexar páginas

Los motivos son diversos pero para que vayas entendiéndolo, la mayoría de los proyectos tienen ciertas partes, directorios, URLs o tipos de contenido que por el papel que cumplen, es mejor que estén lejos de la vista de Google.

Menos es más

Tampoco es cuestión de desindexar por desindexar, siempre tiene que haber una buena razón para hacerlo y conocer bien los beneficios y consecuencias de esas acciones.

Cada web es distinta y las reglas del juego pueden ser diferentes.

Ahora vamos a ver situaciones que pueden llevarte a la desindexación de páginas pero antes, y para que lo veas de una forma más gráfica, mira este tuit que publicó hace bastante tiempo Luis Villanueva (y es que este post lo empecé a escribir hace mucho tiempo) y que refleja muy bien lo que quiero decir:

Para los que dicen que «cargarte URLs…» no mejora un proyecto… o para los que dicen que «cuantas + URLs + Tráfico» aquí una muestra 🧐🧐🧐🧐
>>MENOS ES MÁS<<
👇👇👇👇👇👇👇 pic.twitter.com/NcblprKfwt

— Luis M. Villanueva (@Lu1sma) 16 de julio de 2018

Thin content

Otra razón para no indexar todo son los problemas relacionados con el contenido poca calidad o thin content. En muchas webs nos encontramos con que hay cientos de URLs que en primer lugar son rastreadas y luego indexadas que cuentan con un contenido pobre, escaso o de mala calidad. Páginas que no ayudan al usuario, no tienen un objetivo y lo que hacen, para que lo entiendas, es restar calidad a la globalidad de la web. Todo esto debe estar lejos de la vista de Google.

Duplicidades

El contenido duplicado, interno y externo, puede aparecer en cualquier proyecto (sobre todo el interno).

Más allá del debate de si puedes ser penalizado o no, tener cualquier tipo de duplicidad no hará muy bien al SEO de tu web, por lo que debes tomar decisiones para reducirlo en la medida de lo posible.

Una de las posibles soluciones, para que esas páginas que generan contenido duplicado no lo hagan es la desindexación. Obviamente también puedes recurrir a la modificación de los contenidos, redirecciones 301/302 o las canonicals (siempre en entredicho).

Cuando se toma la decisión de desindexar páginas para eliminar el problema de las dupliciades suele ser porque esas páginas no van a ser relevantes en el SEO de la web, porque son generadas automáticamente por el CMS de turno o bien porque albergan contenido de otras partes de la web y no te ayudan nada.

Rastreo

Una de las razones por las que más se suelen desindexar páginas es por favorecer el rastreo de las arañas en la web. Llamémoslo favorecer o aprovechar el presupuesto de rastreo (crawl budget) ese término intangible. Si evitamos el rastreo y la indexación de ciertas partes, URLs, directorios de la web que no son relevantes podremos conseguir que Google le preste más atención y se centre en lo que verdaderamente nos interesa.

Seguro que eres consciente de que los bots acceden una web y rastrearán e indexarán todo el contenido que encuentren, siempre y cuando no les digas lo contrario.

Tu web debe estar preparada para cuando eso ocurra. Sólo debes mostrar aquellas URLs que quieres indexar y para ello deben ser rastreadas.

Nunca debes mostrar a las arañas páginas que no son relevantes para el SEO de tu web, bien porque no tienen contenido, porque generan problemas de duplicidades, no trabajan ninguna palabra clave que te interese…

Que Google u otros motores vean estas páginas no es lo mejor, verá páginas con contenido escaso, de poca calidad. Además estarás haciendo que parte de tu presupuesto de rastreo se destine a páginas que no te interesan, perdiendo la oportunidad de que se centre en rastrear aquellas que sí son importantes para tu estrategia.

Canibalizaciones

También es habitual encontrar en muchos proyectos páginas o artículos de un blog que están canibalizando. Hablamos de canibalización cuando 2 o más URLs están trabajando la misma intención de búsqueda y esto puede generar problemas.

No siempre que esto ocurre se genera canibalización, pero puede ocurrir.

La solución para las canibalizaciones no tiene por qué pasar por desindexar, ya que puedes recurrir a otros métodos como modificar esas páginas o utilizar el rel=canonical.

Sin embargo puede darse el caso de que por ejemplo, tengas varios artículos en un blog que trabajan la misma keyword o search intent. Esos artículos son muy antiguos y te están generando más problemas que beneficios. Quizás una opción sea desindexarlos y centrarte en aquel o aquellos que merezcan la pena, ya que están mejor posicionados o tienen más margen de mejora.

Ojo: esto siempre lo digo. Siempre que vayas a tomar decisiones de este tipo debes analizar muy bien si esas desindexaciones son una decisión adecuada, en base a si esas páginas que vas a ‘sacrificar’ puedan estar ya posicionadas o te generen tráfico orgánico de calidad.

¿Cómo saber qué tienes indexado?

Cuando analizas un proyecto debes conocer qué partes se están indexando de esa web para tomar decisiones.

Tienes que encontrar las URLs que Google está analizando y poniendo en su índice, y de todas ellas analizar, concluir y saber cuáles no deberían estar indexándose. Los motivos que hemos visto arriba pueden ayudarte a llegar a esas conclusiones.

¿Qué indexa Google de tu web? ¿Cómo lo puedes saber?

Hay varias formas de saberlo, te voy a contar alguna forma de hacerlo, de forma sencilla y gratis.

Con el comando «site:» en Google

La forma más sencilla, aunque no es la más ortodoxa, fiable ni profesional, es ir a Google directamente y preguntarle. Así sin rodeos.

Para ello, en el propio buscador incluye el comando «site:» seguido del dominio que quieres analizar.

Site:dominio.com

Google te va a mostrar aproximadamente todos los resultados/páginas que tiene en su índice. Todas las URLs que te muestra son URLs que se están indexando, aunque en algunos casos no te muestra todas, tienes que tener eso en cuenta.

Puedes ir pasando página a página descubriendo todas esas URLs.

¿Por qué no es el mejor método?

No es por no fiarnos de Google, si no porque no es el método más cómodo, sobre todo si quieres extraer información y trabajarla en documentos tipo Excel o Google Spread Sheets.

Además ten en cuenta que si tu web tiene muchas URLs, tardarás mucho tiempo en verlas todas incluso puede que Google no te las muestre todas. Si tienes un site pequeñito, puede que este método te venga mucho mejor.

No obstante, para una primera exploración es válido ya que te servirá para detectar rápidamente URLs que empiezan a molestarte, o incluso te llevarás una sorpresa 🙂 (a veces aparece contenido que nadie sabe que existe).

Google Search Console

En Google Search Console tenemos la oportunidad de analizar qué páginas de nuestra web se están indexando y cuáles no. La verdad que en el nuevo Search Console esto es una de las cosas que más me gusta cómo quedaron finalmente.

En dicho informe, si te fijas arriba a la izquierda pone «Todas las páginas conocidas», es decir, el informe está hecho sobre las URLs que ha podido descubrir Google, rastreadas o no.

Dentro de «Válidas» vas a encontrar lo que se supone que tienes indexado tras la última actualización de este informe. En «Excluidas» todo lo que a pesar de descubrirlo, Google no lo ha indexado por algún motivo.

En «Válidas con advertencias» encontrarás URLs que se han indexado pero que cuentan con algo incoherente.

Si analizamos las «Válidas» vemos que 119 en esta web están «Enviadas e indexadas», es decir, están indicadas en el sitemap.xml enviado a Search Console y se han indexado.

Luego encontramos «Indexada, no enviada en sitemap». A pesar de no estar en el sitemap enviado, se han indexado. Habría que ver por qué. Si son URLs que queremos indexar deberían estar en el sitemap, y si son URLs que no queremos indexar y por lo tanto no están enviadas al sitemap hay algún motivo por el cual se ha indexado.

Si miro las «Válidas con advertencias» vemos como hay 9 páginas que se han indexado a pesar de que un archivo robots.txt la ha bloqueado. Habría que revisar por qué pasa esto.

En «Excluidas» podemos ver todas las que no están indexadas y el motivo por el cuál no se han indexado:

¿Cómo saber lo que es indexable de una web?

Una forma de tener de un vistazo todas las URLs de una web y saber si son indexables o no y por qué (robots.txt, noindex, canonical, 3XX, 4XX) es con una de las mejores herramientas SEO que existen, ¿cuál? ¡Screaming Frog!

Admito que al principio puede ser un poco complicada, también por su interfaz pero una vez la controlas un mínimo… es fantástica.

Cuando pasamos una web por Screaming Frog para rastrear todas sus URLS, en la primera pestaña «Internal», vamos a utilizar el filtro y pedirle sólo «HTML».

Ahora verás muchas columnas:

Address
Content
Status Code
Status
Indexability
Indexability Status

Yo lo que suelo hacer para ir más rápido y agrupar las URLS no indexables es ordenar la tabla según «Indexability» y poner las primeras, más arriba, las «no indexables».

Desde la columna «Status code» ya nos puede ayudar a entender no sólo qué URLs no son indexables y el por qué.

En la primera fila vemos que dice Status Code 200, es decir, tiene un código de estado adecuado, pero me dice que no es indexable y no lo es porque tiene un «noindex» como indica la columna «Indexability Status».

En el segundo, vemos un 301 (redirección permanente), dice que no es indexable y el motivo, que está redireccionada.

Este ejercicio es fundamental para saber el estado de indexabilidad de tu web, y también claro para ver anomalías como por ejemplo identificar por qué una URL de tu web que quieres indexar no lo está haciendo.

IMPORTANTE: recuerda que Screaming Frog te va a decir si es indexable o no, no te va a decir si está indexado o no.

Para acabar con SF, si quieres saber si una URL, sea indexable o no, se está indexando y quieres hacerlo de forma rápida, haz click en el botón secundario del ratón sobre esa URL > Check index > Google.

Esta acción abrirá tu navegador, en Google, con el «Site:» seguido de esa URL.

Formas de desindexar una página

Cuando ya has hecho todo el trabajo previo que hemos visto, tendrás la información suficiente para tomar decisiones.

Cuando tomas las decisiones es momento de empezar a ejecutar las desindexaciones, pero, ¿cómo lo haces?

Existen varias formas de desindexar, aunque principalmente se suelen utilizar estas dos. Ambas se pueden hacer desde plugins como Yoast o Rank Math. Te dejo por aquí este completo tutorial de Yoast SEO.

-Etiqueta meta robots

La etiqueta meta name robots es la que permite darle a Google la directiva, acerca de lo que debe hacer con esa página. Es una etiqueta HTML que se encuentra en el código de la página en cuestión y sirve para dar una de estas 4 órdenes posibles:

Index, follow: en este caso se indica que la página se quiere indexar y los enlaces que la contienen deber ser seguidos por las arañas.
Noindex,follow: la página no se debe indexar y los enlaces deben ser seguidos.
Noindex, nofollow: la página no se debe indexar y los enlaces no son seguidos por las arañas.
Index,nofollow: la página se indexa pero los enlaces no son seguidos.

El contenido de la etiqueta determina qué debe hacer Google con esa página y puesto que estamos hablando de desindexar, cualquier de las dos que están en negrita serían válidas. La diferencia entre ellas es si quieres que los enlaces internos y externos de esa página sean seguidos por Google y transmitan autoridad.

👉 ¿Rank Math o Yoast SEO? ¿Cuál es el mejor plugin SEO?

Debes de saber que muchas veces, cuando una página es index, follow, no tiene porqué tener etiqueta. La ausencia de la etiqueta suele suponer que la página es indexable.

¿Cómo desindexar páginas mediante la etiqueta meta name robots? ¡Dentro video! ⬇️

-Robots.txt

El robots.txt es un archivo de texto, alojado en el raíz de la web que utilizan los motores de búsqueda para saber qué tienen que entrar a rastrear y qué no, sobre todo esto último.

Mediante el comando «Disallow» le puedes decir a los bots que no accedan a una página concreta, directorio…

De esta forma, al no acceder y no poder rastrear dicha URL, puede conllevar que no se indexe (aunque no siempre).

¿Quieres saber cómo crear y configurar un archivo Robots.txt? ¡Dentro video! ⬇️

Estas son sólo las formas más comunes de desindexar una página, siendo consciente de lo que se está haciendo.

Hay otros motivos por los que una página puede ser desindexada, como hemos visto más arriba, échale un ojo a este experimento de MJ Cachón para entenderlo mucho mejor.

El papel del Sitemap XML en la desindexación

Aunque conocemos el Sitemap.xml como un elemento para el rastreo y la indexación, también puede sernos de ayuda para desindexar URLs o grupos enteros de ellas.

Por repasar, en un Sitemap.xml normalmente solemos incluir aquello que queremos que sea rastreado e indexado, por lo tanto esas páginas relevantes para nosotros.

Es «incoherente» incluir en el sitemap.xml páginas con una redirección 301, un noindex, bloqueadas en robots.txt, canonicalizadas…

Ahora bien, si por ejemplo hay un conjunto de URLs que han estado indexadas durante mucho tiempo y las marcamos con un «noindex», puede que tarden bastante en desindexarse.

Una forma de acelerar este proceso, aunque pueda sonar raro, es crear un sitemap.xml con esas URLs que queremos desindexar y hemos marcado como «noindex». De esta forma Google las encontrará e irá a rastrearlas a través del Sitemap.xml, y haremos que se dé cuenta antes de que están marcadas de esa forma.

Esto es solo un ejemplo, pero podría haber más casos concretos donde el Sitemap.xml tuviera un papel en la desindexación.

Te dejo aquí un video de mi canal sobre cómo crear y optimizar un sitemap con diferentes herramientas:

Ahora que ya tienes toda esta información sobre la indexación y la desindexación ponte manos a la obra. Analiza y revisa y actúa en consecuencia. ¡Coméntame dudas, sugerencias, lo que quieras, aquí abajo, en los comentarios! 👇👇👇

Álex Serrano

Web

Creador del blog que estás leyendo. Podcastser en SEO desde Cero. Profesor de SEO en AulaCM y en Nuclio Digital School. Formador para empresas.

2 Comments

Javier García dice:

7 abril, 2020 a las 0:18

Buenas, estaba buscando información porque estoy pensando en desindexar como 15 urls de las 110 del que fue mi primer proyecto y que tengo ahí abandonado y he llegado hasta aquí. El caso es que me estaba iniciando y era una web estilo decalaveras que subió mucho hasta finales de octubre llegando a 100k impresiones y que perdió casi todo el tráfico bajando las impresiones por debajo de 10k.

Revisando coinciden 3 cosas: 1º hubo actualización de google aunque diría que fue en septiembre y seguía subiendo, 2º una keyword que pasa de no tener visitas en todo el año a 50k justo ahí a primeros de noviembre y vuelta a no tener visitas, 3º coincide que veo que sube todo como la espuma y meto una sección nueva cambiando el menú, etc con esas 15 ulrs que en principio aunque pueden estar relacionadas no tiene mucho que ver con la temática original.

La verdad es que a día de hoy estoy a otras cosas más productivas, entiendo un poco más del tema y creo que no volvería a hacerla pero me sigue dando unos eurillos que sé que pueden ser más y fue la primera xD. Por probar no pierdo nada porque esas urls no tienen impresiones ni clics ni han generado nada. También puede ser simplemente el impacto tan grande de la keyword de 50k pero es que bajó casi como al inicio.. la cosa es que ya no lo toqué más.

Como dato, las dos webs de la competencia que tengo por encima antes de verano estaban a un nivel similar y subieron imparables. No llegan a 20 urls todo vertical y tienen algún enlace comprado y buena autoridad. La mía no la toqué en ese aspecto, algún enlace gratuito y poco más que no sabía ni de qué iba el tema del linkbuilding.

No descarto que sea un cúmulo de circunstanias ni que toque invertir algo en enlaces y me haya montado una película.. alguna opinión de un entendido desde la lejanía? Gracias por adelantado! Pd: te guardo en favoritos para leer más artículos del blog y de paso dejo constancia de la torta xD

https://uploads.disquscdn.c…

Responder
Jorge dice:

26 febrero, 2023 a las 3:54

Muy buen artículo que he encontrado buscando “como conseguir que google no indexe urls con parámetros por malwere”.

Mi página fue infectada y aparecieron 200 mil urls que no son de mi proyecto. Más allá de limpiar la web de virus, y una vez hecho, me toco mandar las urls a 410. Después me lie a mandar las 200 mil urls en diferentes sitemap hasta que google dio como indexadas las propias del proyecto. Pero claro, google sigue rastreando las 410. Y creo que la lentitud para que deje de rastrearlas va más allá de un tiempo prudencial. Por ello me propongo bloquear parámetros con el Robot esperando que no las rastree; cosa que siempre lleva a la duda pues google puede tratar de indexarlas. Por si acaso lo que voy a hacer es que si trata de indexarla vea que lleva a una página 200 noindex no follow .
En fin, que si tienes alguna idea o consejo te lo agradeceré.
Saludos

Responder

Guía desindexación: todo lo que debes saber para elegir lo que Google indexa de tu web

¿Qué es desindexar?