Si has llegado hasta aquí, es porque te interesa que las IAs entiendan bien tu web. El archivo llms.txt es probablemente la herramienta menos conocida y con mejor relación esfuerzo/impacto para hacerlo. Se hace en 15 minutos. Funciona desde el primer día. Y va a ir a más cada año.
Te voy a explicar qué es, en qué se diferencia de robots.txt y sitemap, qué tiene que tener para un negocio local, y te dejo una plantilla que puedes adaptar.
Qué es llms.txt exactamente
llms.txt es un archivo en formato Markdown que vive en la raíz de tu web (https://tunegocio.com/llms.txt). Su objetivo: dar a los modelos de lenguaje un resumen estructurado y curado de qué es tu web, qué contenido es importante y dónde encontrarlo.
La propuesta original es de Jeremy Howard (fundador de Fast.ai) en septiembre de 2024, publicada en llmstxt.org. En 18 meses ha pasado de propuesta experimental a estándar de facto adoptado por Anthropic, Perplexity, Mistral, You.com y otros.
La filosofía es simple: una IA con browsing entra en tu web con un presupuesto limitado de tokens. Si lo gasta leyendo tu menú de navegación y el footer, no extrae información útil. Si tu llms.txt le dice «mira esto, esto y esto», la IA aprovecha el presupuesto en lo que importa.
Diferencia con robots.txt y sitemap.xml
Es importante entender que son tres archivos distintos con propósitos distintos:
- robots.txt: dice a los crawlers qué pueden y qué no pueden indexar. Es para control de acceso.
- sitemap.xml: lista exhaustiva de URLs de tu web. Es para indexación completa.
- llms.txt: resumen curado y semántico de tu web. Es para comprensión rápida por IAs.
Un crawler puede usar los tres. Por ejemplo: lee robots.txt para saber qué tiene permiso de acceder, lee sitemap.xml para conocer todas las URLs disponibles, y lee llms.txt para entender qué es importante y qué ignorar.
Por qué importa en 2026
Tres razones que han hecho que pase de «experimento» a «mejor práctica» en menos de 18 meses:
- Adopción de los crawlers principales. Anthropic (Claude), Perplexity, Mistral y Cohere ya lo procesan en sus crawlers. OpenAI sin compromiso oficial pero lo respeta de facto.
- Tokens limitados en browsing. Cuando una IA con búsqueda en vivo visita tu web, tiene un límite de tokens que puede procesar. Sin llms.txt, puede gastarse ese límite en menús y banners. Con llms.txt, va directo al grano.
- Contenido específicamente curado. llms.txt te permite incluir contenido pensado para extracción IA (en formato Markdown limpio) que no tiene que aparecer en tu web visible.
Cómo crear un llms.txt paso a paso
La estructura básica del archivo:
- H1 con el nombre del proyecto/negocio (obligatorio).
- Blockquote con la descripción (recomendado): una frase que resume qué es tu web.
- Párrafos de contexto (opcional): más detalle si hace falta.
- Secciones H2 con listas de enlaces (obligatorio): cada sección agrupa enlaces a contenido relevante.
- Sección H2 «Optional» (recomendado): contenido secundario o legal.
El formato de los enlaces: - [Título](URL): descripción opcional
Plantilla copiable para negocio local
Plantilla real para una clínica dental. Adapta a tu sector y publica en https://tunegocio.com/llms.txt:
# Clínica Dental García
> Clínica dental en Madrid centro (Calle Mayor 12, 28013) especializada en
> implantes, ortodoncia invisible y odontología general. Equipo de 6
> profesionales. Atendemos a 1.200 pacientes activos. Fundada en 2003.
## Información del negocio
- [Sobre nosotros](https://www.tudental.com/sobre): historia, equipo, instalaciones
- [Contacto y horario](https://www.tudental.com/contacto): dirección, teléfono, horario
- [Equipo médico](https://www.tudental.com/equipo): perfiles de los 6 profesionales
## Servicios principales
- [Implantes dentales](https://www.tudental.com/implantes): tipos, precios, casos
- [Ortodoncia invisible](https://www.tudental.com/ortodoncia-invisible): Invisalign, alternativas, presupuesto
- [Endodoncia](https://www.tudental.com/endodoncia): procedimiento, recuperación, precios
- [Estética dental](https://www.tudental.com/estetica): carillas, blanqueamiento
- [Odontopediatría](https://www.tudental.com/ninos): tratamientos para niños
## Preguntas frecuentes
- [FAQ general](https://www.tudental.com/preguntas): preguntas comunes sobre tratamientos
- [Precios y financiación](https://www.tudental.com/precios): tarifas, planes de pago
- [Primera visita](https://www.tudental.com/primera-visita): qué incluye, qué traer
## Blog y guías
- [Cómo elegir clínica dental](https://www.tudental.com/blog/elegir-clinica): guía 2026
- [Cuánto cuestan los implantes](https://www.tudental.com/blog/precio-implantes): precios reales en Madrid
## Optional
- [Aviso legal](https://www.tudental.com/aviso-legal)
- [Política de privacidad](https://www.tudental.com/privacidad)
- [Política de cookies](https://www.tudental.com/cookies)
Notas sobre la plantilla:
- La descripción en blockquote es lo que el LLM lee primero para contextualizar.
- Las secciones H2 son temáticas (información, servicios, FAQs, blog), no técnicas (páginas/posts).
- Los títulos de los enlaces son los H1 reales de cada página destino.
- Las descripciones cortas detrás de los
:son contexto para el LLM, ayudan a entender de qué va la página sin descargarla. - La sección «Optional» es contenido legal que el LLM puede ignorar si no aporta.
llms-full.txt: la versión extendida
Una variante propuesta más recientemente es llms-full.txt, que se publica también en la raíz (https://tunegocio.com/llms-full.txt) y contiene el contenido completo en Markdown de tus páginas más importantes.
¿Para qué sirve? Para que el LLM lea directamente contenido relevante sin tener que visitar y procesar cada URL individual. Es ideal si tu web tiene mucho JavaScript o el contenido principal está oculto detrás de tabs o lazy-loading.
Estructura básica de llms-full.txt:
# Clínica Dental García
[Mismo H1 y descripción que llms.txt]
## /sobre
[Contenido completo de la página /sobre en Markdown]
## /implantes
[Contenido completo de /implantes en Markdown]
## /ortodoncia-invisible
[Contenido completo en Markdown]
...
Recomendaciones para llms-full.txt:
- Solo incluye páginas core (4-8 páginas), no toda la web.
- Mantenlo sincronizado con la versión visible cuando cambies contenido importante.
- No es obligatorio: si tu llms.txt apunta a páginas bien estructuradas, puede ser suficiente.
Cómo validar que funciona
Tres formas de comprobar que tu llms.txt está siendo leído:
1. Validar el archivo
Asegúrate de que es accesible públicamente: abre https://tunegocio.com/llms.txt en una ventana de incógnito. Debe servirse como text/plain o text/markdown (Content-Type), no como HTML.
2. Revisar logs de servidor
Los crawlers identifican su User-Agent. Busca en tus logs las visitas con User-Agent que contenga:
GPTBot(OpenAI)ClaudeBot(Anthropic)PerplexityBot(Perplexity)Google-Extended(Gemini)MistralAI-User(Mistral)
Si ves visitas a /llms.txt con esos agentes, está siendo leído.
3. Test con Perplexity
Pregunta a Perplexity directamente sobre tu negocio: si sus respuestas mejoran en precisión y estructura en las semanas siguientes a publicar llms.txt, es señal de que está aprovechando la información.
Errores comunes
- No publicarlo en la raíz. Tiene que estar en
/llms.txt, no en/.well-known/llms.txtni en subdirectorios. - Servirlo con Content-Type incorrecto (HTML en vez de plain/markdown). Algunos crawlers lo ignoran si llega como HTML.
- Apuntar a URLs que devuelven 404. Mantén el llms.txt actualizado cuando reorganices la web.
- Hacerlo demasiado largo. Es un resumen, no un libro. Ideal: 30-80 enlaces. Más es ruido.
- Mezclar idiomas. Si tu web está en español, todo en español. Si tienes versiones EN/ES, considera tener un llms.txt por idioma (en subdominio o ruta).
- Incluir contenido confidencial pensando que es «solo para IAs». Es público y crawleable por cualquiera.
- Olvidarse de la sección Optional. Sin ella, el LLM no sabe qué es prioritario y qué secundario.
Si quieres llevar tu AEO al siguiente nivel después de montar el llms.txt, te recomiendo seguir con la guía técnica de schema.org y la de cómo conseguir que ChatGPT te recomiende. Juntas, son la base de cualquier setup AEO serio en 2026.
Y si prefieres delegarlo, lo hacemos nosotros en el Plan ChatGPT: te dejamos el llms.txt, el schema y el monitoring funcionando en dos semanas. Sin permanencia.
Preguntas frecuentes
- ¿llms.txt es oficial o es un estándar de la comunidad?
- Es una propuesta abierta iniciada por Jeremy Howard en 2024 (llmstxt.org). No es un estándar W3C, pero está siendo adoptada de facto: Anthropic, Perplexity y varios crawlers de IA ya lo reconocen. OpenAI no lo lee oficialmente todavía pero respeta la idea con sus propias directivas. Conviene tenerlo en 2026.
- ¿Sustituye al sitemap.xml o al robots.txt?
- No, los complementa. robots.txt sigue siendo para crawlers de buscador. sitemap.xml sigue siendo para indexación tradicional. llms.txt es específicamente para crawlers de LLMs y para dar contexto adicional que un buscador no necesita.
- ¿Puede el llms.txt bloquear el entrenamiento de IAs con mi contenido?
- No directamente. Para bloquear entrenamiento usas directivas específicas en robots.txt (Disallow: para User-agent: GPTBot, ClaudeBot, etc.). El llms.txt es para indicar qué contenido queremos que se entienda y cómo, no para bloquear.
- ¿Hay alguna penalización por tener un llms.txt mal hecho?
- No. En el peor caso, simplemente es ignorado por los crawlers. No genera penalización en Google ni en ningún buscador. Pero un llms.txt mal hecho que apunte a páginas inexistentes o incoherentes desperdicia la oportunidad.
