Robots.txt Perfecto en WordPress: Guía con Ejemplos 2025

El robots.txt perfecto en WordPress es el archivo que le indica a Google, Bing y otros buscadores qué directorios pueden rastrear, cuáles deben ignorar y dónde encontrar el sitemap. Si está mal configurado, puedes bloquear páginas clave o exponer contenido que no debería indexarse. Un solo error en este archivo puede costarle visibilidad a todo tu sitio.

¿Qué es el robots.txt y por qué tu WordPress lo necesita bien configurado?

El robots.txt es un archivo de texto plano ubicado en la raíz de tu dominio que actúa como protocolo de comunicación entre tu sitio y los rastreadores web. Le dice a los bots a qué partes del sitio pueden acceder y a cuáles no. Si está mal configurado en WordPress, puedes estar bloqueando páginas que necesitan indexarse, o dejando abierto contenido que no debería aparecer en los resultados de búsqueda. Un error en este archivo puede costarle visibilidad a todo tu sitio de forma silenciosa y difícil de detectar.

Configuración del archivo robots.txt en WordPress para control de rastreo SEO — El archivo robots.txt controla qué partes de tu WordPress rastrean los motores de búsqueda.

Anatomía de un robots.txt perfecto: las directivas que debes dominar

Las cuatro directivas principales de un robots.txt —User-agent, Disallow, Allow y Sitemap— son todas necesarias y deben estar presentes en cualquier WordPress bien configurado. Ninguna es prescindible. Dominarlas te permite controlar con precisión qué rastrean los bots y cómo distribuyen su presupuesto de rastreo en tu sitio.

User-agent, Disallow, Allow y Sitemap explicados con ejemplos reales

Las cuatro directivas principales son todas necesarias. No veo ninguna como sobrevalorada ni prescindible — todas deberían estar en cualquier robots.txt de WordPress, sin excepción.

User-agent define a qué robots aplica la regla. Si usas *, aplica a todos.

Disallow bloquea rutas específicas. Allow las abre explícitamente. Sitemap le dice al bot dónde encontrar el mapa del sitio.

Un ejemplo básico:

User-agent: *
Allow: /
Disallow: /wp-admin/
Disallow: /wp-includes/

Sitemap: https://tusitio.com/sitemap_index.xml

El error de sintaxis más grave que he visto en auditorías —y que me encontré en un proyecto real— fue este:

Disallow: /

Solo eso. Una línea que bloqueaba absolutamente todo el sitio. El Googlebot llegaba al archivo y no podía rastrear ni una sola página. La solución fue simple: cambiarlo por Allow: / y agregar los Disallow específicos que correspondían. El sitio recuperó visibilidad en semanas.

Parece un error imposible de cometer, pero lo he visto.

Crawl-delay y directivas avanzadas: ¿cuándo vale la pena usarlas?

Mi postura sobre el crawl-delay es clara: no le presto mucha atención.

¿Por qué? Porque Google no procesa esa directiva — solo la respetan otros bots como Bing o crawlers de terceros. Y si tu sitio opera principalmente en mercados donde Google tiene el 90-95% del market share (que es casi todos los mercados), optimizar el crawl-delay para el resto es ruido.

Lo que sí hago es manejar el crawl budget desde el sitemap: le doy prioridad a lo que realmente importa indexar y mantengo limpio el robots.txt para que el bot no desperdicie recursos en rutas irrelevantes. Eso me ha dado mejores resultados que cualquier configuración de crawl-delay.

Cómo crear o editar tu robots.txt en WordPress (3 métodos)

Existen tres formas principales de crear o editar el robots.txt en WordPress: manualmente por FTP, desde el administrador de archivos del hosting, o a través de plugins SEO como Yoast o Rank Math. Cada método tiene su contexto ideal, aunque para Andres el control directo sobre el archivo siempre es preferible a depender de intermediarios.

Edición del archivo robots.txt en WordPress mediante FTP y plugins SEO como Yoast — Puedes editar el robots.txt de WordPress por FTP, cPanel o directamente desde Yoast SEO o Rank Math.

Método manual vía FTP o administrador de archivos

Este es el método que prefiero. Siempre.

El robots.txt no es un archivo que debas editar cada semana, pero sí uno donde necesitas control total. Un cambio mal aplicado por un plugin puede bloquearte páginas importantes sin que te des cuenta de inmediato.

Lo que hago es acceder directamente por FTP o desde el administrador de archivos del cPanel, ir a la raíz del sitio y editar el archivo ahí. Si no existe, lo creo. El archivo va en public_html/robots.txt — no en ninguna subcarpeta.

Uso este método especialmente en proyectos nuevos o cuando estoy haciendo una auditoría y quiero tener visibilidad completa de lo que está escrito ahí, sin intermediarios.

Configuración desde Yoast SEO y Rank Math

Entre los dos, mi preferencia es Yoast. Tiene más funciones consolidadas, incorporan actualizaciones relevantes con frecuencia, y su editor de robots.txt me permite gestionar el archivo directamente desde el dashboard sin perder visibilidad de lo que estoy escribiendo.

Rank Math también tiene su propio editor y funciona bien, pero cuando un cliente ya tiene Yoast instalado y bien configurado, no veo razón para migrar solo por esto.

Dicho eso, los plugins tienen una limitación real: si el sitio tiene un robots.txt físico en el servidor, WordPress puede ignorarlo o generar conflictos entre el archivo real y el virtual que gestiona el plugin. Por eso, si vas a usar un plugin para esto, verifica primero si ya existe un archivo en la raíz y decide cuál de los dos va a tomar el control.

Plantillas de robots.txt para distintos tipos de sitios WordPress

No existe un robots.txt universal válido para todos los WordPress. Un blog corporativo, una tienda WooCommerce y un sitio de membresía tienen necesidades de rastreo completamente distintas. A continuación, Andres comparte las plantillas que usa en sus proyectos reales, con el razonamiento detrás de cada regla.

Blog o sitio corporativo vs. tienda WooCommerce

Para un blog o sitio corporativo, esta es la base que uso en casi todos mis proyectos:

User-agent: *
Allow: /
Disallow: /cgi-bin/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-admin/

Sitemap: https://tusitio.com/sitemap_index.xml

Bloqueo plugins, themes e includes porque el bot no necesita rastrear esos archivos — son recursos internos, no contenido indexable. La raíz / siempre en Allow. Y el sitemap siempre al final.

Para WooCommerce, agrego reglas específicas para evitar que el bot rastree URLs que no aportan valor SEO y que desperdician crawl budget:

User-agent: *
Allow: /
Disallow: /cgi-bin/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-admin/
Disallow: /carrito/
Disallow: /checkout/
Disallow: /mi-cuenta/
Disallow: /?add-to-cart=
Disallow: /tienda/?orderby=
Disallow: /tienda/?filter_

Sitemap: https://tusitio.com/sitemap_index.xml

El carrito, el checkout y la cuenta del usuario no deben indexarse. Indexarlos baja la calidad percibida del sitio y le hace perder tiempo al bot en páginas que nunca van a ranquear. Los filtros de búsqueda y los parámetros de ordenación son otro clásico que conviene bloquear.

Para sitios de membresía o foros, la lógica es la misma: todo lo que sea área privada de usuario — perfil, configuración de cuenta, contenido protegido — va con Disallow. El bot no tiene nada que hacer ahí.

Bloquea siempre /wp-admin/, /wp-includes/ y /wp-content/plugins/
En WooCommerce, bloquea /carrito/, /checkout/ y /mi-cuenta/
Bloquea parámetros de filtros y ordenación (?orderby=, ?filter_)
En membresías, bloquea todas las rutas de área privada de usuario
Incluye siempre la directiva Sitemap: apuntando a tu sitemap_index.xml

Plantilla robots.txt para WooCommerce con reglas de bloqueo de carrito y checkout — Las tiendas WooCommerce requieren reglas adicionales en el robots.txt para proteger el crawl budget.

Cómo probar tu robots.txt y depurar errores

Probar el robots.txt antes de darlo por válido es un paso que no se puede omitir. Un archivo con errores de sintaxis o reglas demasiado amplias puede bloquear páginas clave sin que recibas ninguna alerta inmediata. El proceso de validación combina Screaming Frog para el diagnóstico inicial y Google Search Console para el monitoreo continuo.

Testing con Screaming Frog y Search Console

Aquí voy a ser directo: yo no pruebo el robots.txt principalmente desde Google Search Console. Lo pruebo con Screaming Frog.

Lo que hago es correr un crawl del sitio y verificar qué páginas están siendo rastreadas y cuáles están siendo bloqueadas. Busco dos cosas concretas: que las páginas importantes estén siendo rastreadas sin problemas, y que las rutas que bloqueé en el robots.txt no estén apareciendo en el crawl.

Las alertas que me preocupan son páginas de contenido clave marcadas como “blocked by robots.txt” — eso es una señal de que algo en el Disallow está demasiado abierto. Y también páginas que no deberían existir en el crawl y aparecen, lo que me dice que me faltó cubrir alguna ruta.

Google Search Console sí lo uso para revisar el informe de cobertura y detectar si hay URLs importantes excluidas por robots. Pero para el diagnóstico inicial, Screaming Frog me da más control y velocidad.

Accede a Screaming Frog y configura el crawl con la URL de tu sitio
Filtra por “Blocked by robots.txt” en la pestaña de respuesta
Verifica que ninguna página de contenido clave aparezca bloqueada
Confirma que las rutas bloqueadas (wp-admin, carrito, etc.) no aparecen en el crawl
Abre Google Search Console → Cobertura → Excluidas y revisa URLs bloqueadas por robots
Usa la herramienta de inspección de URLs para probar rutas específicas si tienes dudas

¿El robots.txt afecta directamente el posicionamiento en Google?

No directamente, pero sí de forma indirecta. Un robots.txt mal configurado puede bloquear páginas importantes o desperdiciar crawl budget en rutas irrelevantes. Eso afecta qué páginas Google indexa y con qué prioridad, lo que sí impacta el posicionamiento de tu sitio WordPress.

¿WordPress crea un robots.txt automáticamente?

Sí, WordPress genera un robots.txt virtual básico, pero es mínimo. No bloquea rutas sensibles ni incluye el sitemap. Por eso se recomienda crear un archivo físico en la raíz del servidor con las reglas específicas para tu tipo de sitio, en lugar de depender del que genera WordPress por defecto.

¿Puedo bloquear solo ciertos bots y no todos en el robots.txt?

Sí. En lugar de usar User-agent: *, puedes crear bloques específicos por bot. Por ejemplo, User-agent: GPTBot seguido de Disallow: / bloquea el crawler de OpenAI sin afectar a Google. Es útil si no quieres que tu contenido se use para entrenar modelos de inteligencia artificial.

¿El robots.txt protege contenido privado de ser visto por usuarios?

No. El robots.txt solo le dice a los bots qué no rastrear — no es una barrera de seguridad. Un usuario puede acceder manualmente a cualquier URL aunque esté en el Disallow. Para contenido realmente privado, necesitas autenticación o protección a nivel de servidor.

Descarga la plantilla de robots.txt recomendada y pruébala en Google Search Console antes de publicarla en tu sitio. Un par de minutos de validación pueden ahorrarte semanas de problemas de indexación. Si quieres profundizar en otros aspectos del SEO técnico, revisa también nuestra guía de SEO técnico para WordPress, aprende a optimizar tu sitemap XML en WordPress y consulta cómo mejorar el crawl budget de tu sitio.