¿Qué es el archivo robots.txt?

Robots.txt

El archivo robots.txt es un archivo de texto que se ubica en la raíz de un sitio web y sirve para indicar a los bots de los buscadores qué URLs pueden rastrear y cuáles no.

Es una herramienta de control de rastreo, no de indexación.
Esto es clave: bloquear con robots.txt no significa desindexar.


Qué hace realmente (y qué NO hace) robots.txt

En la práctica, robots.txt le dice a Google:

  • por dónde sí vale la pena gastar crawl budget
  • qué secciones no deberían rastrearse
  • qué URLs no aportan valor para el buscador

Lo que no hace:

  • ❌ No elimina páginas del índice
  • ❌ No “oculta” contenido sensible
  • ❌ No mejora rankings por sí solo

👉 Usarlo mal puede generar más problemas que no usarlo.


El error más común con robots.txt (y lo vi muchas veces)

El error más frecuente que encontré en auditorías grandes es este:

Bloquear URLs “para mejorar el SEO” sin entender el impacto real.

Ejemplos típicos:

  • bloquear filtros en eCommerce sin revisar tráfico long tail
  • bloquear URLs que ya estaban indexadas
  • bloquear recursos necesarios para renderizado
  • usar robots.txt como si fuera una solución rápida a problemas de arquitectura

El resultado suele ser:

  • pérdida de visibilidad
  • caída de tráfico difícil de explicar
  • confusión interna entre equipos técnicos y de negocio

Robots.txt, crawl budget y sitios grandes

En sitios chicos, robots.txt suele ser irrelevante.
En sitios grandes (eCommerce, medios, marketplaces), puede ser crítico.

Ahí sí cumple un rol claro:

  • priorizar URLs importantes
  • evitar rastreo innecesario
  • ayudar a Google a entender qué partes del sitio son estratégicas

Pero incluso en estos casos, mi experiencia es clara:
👉 robots.txt nunca reemplaza una buena arquitectura web.


Cómo lo trabajo en proyectos reales

Mi enfoque con robots.txt suele ser conservador:

  1. Primero entiendo el sitio y el negocio
  2. Analizo qué URLs aportan valor real
  3. Recién después decido si algo debería bloquearse

Y siempre con esta premisa:

Si una URL es importante para el usuario, debería ser accesible para Google.

Cuando hay dudas, prefiero:

  • mejorar enlazado interno
  • usar canonical correctamente
  • ordenar la arquitectura

antes que tocar robots.txt “por las dudas”.


Robots.txt no es una herramienta SEO, es una herramienta de control

Uno de los malentendidos más grandes es pensar que robots.txt es una “palanca SEO”.

No lo es.

Es una herramienta técnica que:

  • bien usada, ayuda
  • mal usada, rompe cosas

Por eso, en muchos proyectos maduros:

  • se toca poco
  • se documenta mucho
  • y se cambia solo con criterio claro

En resumen

  • Robots.txt controla rastreo, no indexación
  • Bloquear URLs no siempre mejora el SEO
  • En sitios grandes puede ser clave, en sitios chicos suele ser secundario
  • Antes de usarlo, hay que entender arquitectura y negocio

Especialista en SEO estratégico con más de 10 años liderando eCommerce y medios digitales. Trabajé en proyectos como Grupo Bimbo, Disney, Tommy HilfigerHot Sale + Cyber Monday y Bumeran, enfocando el SEO como motor de crecimiento real.

Además soy co host y productor de El SEO Ha Muerto?, un podcast donde hablamos sobre el SEO y el impacto de la inteligena artificial. También soy founder de MetrIQon, consultora de investigación de mercados digitales.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio