Kodflux
Kodflux
Crear cuenta gratisIniciar Sesión

TXT / Basico / 2 min

robots.txt optimizado para crawlers IA

Configuración robots.txt que bloquea bots agresivos y permite rastreo a GPTBot, ClaudeBot, PerplexityBot y Googlebot.

En 2026, robots.txt ya no se configura solo para Googlebot. También conviene decidir qué crawlers de IA pueden rastrear tu contenido y cuáles deben quedar bloqueados por volumen, baja utilidad o riesgo de scraping.

Este ejemplo permite bots legítimos de búsqueda e IA, bloquea scrapers agresivos y mantiene rutas sensibles de WordPress fuera del rastreo general.

Guía de Implementación Paso a Paso

  1. Abre el archivo robots.txt en la raíz de tu servidor.
  2. Haz backup del archivo actual antes de reemplazarlo.
  3. Ajusta las rutas bloqueadas según tu estructura real.
  4. Reemplaza los sitemaps de ejemplo por los de tu dominio.
  5. Verifica el resultado en la herramienta de inspección de Google Search Console.
TXT
# ============================================
# robots.txt optimizado para SEO + GEO 2026
# Última actualización: Abril 2026
# ============================================

# --- Motores de búsqueda principales ---
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

User-agent: DuckDuckBot
Allow: /

# --- Crawlers de IA que QUIERES indexar ---
User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: FacebookBot
Allow: /

# --- Crawlers de IA que QUIERES BLOQUEAR ---
User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: AhrefsBot
Disallow: /

User-agent: SemrushBot
Disallow: /

User-agent: MJ12bot
Disallow: /

# --- Reglas globales para todos los demás ---
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /wp-json/
Disallow: /xmlrpc.php
Disallow: /feed/
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /tmp/
Disallow: /staging/
Allow: /wp-admin/admin-ajax.php

# --- Crawl delay para bots secundarios ---
User-agent: ia_archiver
Crawl-delay: 10

# --- Sitemap(s) ---
Sitemap: https://tusitio.com/sitemap.xml
Sitemap: https://tusitio.com/sitemap-posts.xml

Prompt para Codex

TEXT
Genera un archivo robots.txt completo y optimizado para SEO y GEO (Generative Engine Optimization) en 2026.

Requisitos:
- Permite acceso completo a: Googlebot, Bingbot, DuckDuckBot
- Permite acceso completo a crawlers de IA legítimos: GPTBot, ClaudeBot, PerplexityBot, Google-Extended, FacebookBot
- Bloquea scrapers agresivos: Bytespider, CCBot, AhrefsBot, SemrushBot, MJ12bot
- Bloquea para todos los bots (*): /wp-admin/ (excepto admin-ajax.php), /wp-login.php, /wp-json/, /xmlrpc.php, /feed/, /cart/, /checkout/, /my-account/
- Añade Crawl-delay: 10 para ia_archiver
- Incluye dos líneas Sitemap al final

URL del sitio: [TU DOMINIO]
Formato de salida: solo el contenido del archivo robots.txt listo para subir al servidor.

Buscar en Kodflux