¿llms.txt es oficial o es un estándar de la comunidad?

Es una propuesta abierta iniciada por Jeremy Howard en 2024 (llmstxt.org). No es un estándar W3C, pero está siendo adoptada de facto: Anthropic, Perplexity y varios crawlers de IA ya lo reconocen. OpenAI no lo lee oficialmente todavía pero respeta la idea con sus propias directivas. Conviene tenerlo en 2026.

¿Sustituye al sitemap.xml o al robots.txt?

No, los complementa. robots.txt sigue siendo para crawlers de buscador. sitemap.xml sigue siendo para indexación tradicional. llms.txt es específicamente para crawlers de LLMs y para dar contexto adicional que un buscador no necesita.

¿Puede el llms.txt bloquear el entrenamiento de IAs con mi contenido?

No directamente. Para bloquear entrenamiento usas directivas específicas en robots.txt (Disallow: para User-agent: GPTBot, ClaudeBot, etc.). El llms.txt es para indicar qué contenido queremos que se entienda y cómo, no para bloquear.

¿Hay alguna penalización por tener un llms.txt mal hecho?

No. En el peor caso, simplemente es ignorado por los crawlers. No genera penalización en Google ni en ningún buscador. Pero un llms.txt mal hecho que apunte a páginas inexistentes o incoherentes desperdicia la oportunidad.

llms.txt: el archivo que ChatGPT y Perplexity leen de tu web

Si has llegado hasta aquí, es porque te interesa que las IAs entiendan bien tu web. El archivo llms.txt es probablemente la herramienta menos conocida y con mejor relación esfuerzo/impacto para hacerlo. Se hace en 15 minutos. Funciona desde el primer día. Y va a ir a más cada año.

Te voy a explicar qué es, en qué se diferencia de robots.txt y sitemap, qué tiene que tener para un negocio local, y te dejo una plantilla que puedes adaptar.

Qué es llms.txt exactamente

llms.txt es un archivo en formato Markdown que vive en la raíz de tu web (https://tunegocio.com/llms.txt). Su objetivo: dar a los modelos de lenguaje un resumen estructurado y curado de qué es tu web, qué contenido es importante y dónde encontrarlo.

La propuesta original es de Jeremy Howard (fundador de Fast.ai) en septiembre de 2024, publicada en llmstxt.org. En 18 meses ha pasado de propuesta experimental a estándar de facto adoptado por Anthropic, Perplexity, Mistral, You.com y otros.

La filosofía es simple: una IA con browsing entra en tu web con un presupuesto limitado de tokens. Si lo gasta leyendo tu menú de navegación y el footer, no extrae información útil. Si tu llms.txt le dice «mira esto, esto y esto», la IA aprovecha el presupuesto en lo que importa.

Diferencia con robots.txt y sitemap.xml

Es importante entender que son tres archivos distintos con propósitos distintos:

robots.txt: dice a los crawlers qué pueden y qué no pueden indexar. Es para control de acceso.
sitemap.xml: lista exhaustiva de URLs de tu web. Es para indexación completa.
llms.txt: resumen curado y semántico de tu web. Es para comprensión rápida por IAs.

Un crawler puede usar los tres. Por ejemplo: lee robots.txt para saber qué tiene permiso de acceder, lee sitemap.xml para conocer todas las URLs disponibles, y lee llms.txt para entender qué es importante y qué ignorar.

Por qué importa en 2026

Tres razones que han hecho que pase de «experimento» a «mejor práctica» en menos de 18 meses:

Adopción de los crawlers principales. Anthropic (Claude), Perplexity, Mistral y Cohere ya lo procesan en sus crawlers. OpenAI sin compromiso oficial pero lo respeta de facto.
Tokens limitados en browsing. Cuando una IA con búsqueda en vivo visita tu web, tiene un límite de tokens que puede procesar. Sin llms.txt, puede gastarse ese límite en menús y banners. Con llms.txt, va directo al grano.
Contenido específicamente curado. llms.txt te permite incluir contenido pensado para extracción IA (en formato Markdown limpio) que no tiene que aparecer en tu web visible.

Cómo crear un llms.txt paso a paso

La estructura básica del archivo:

H1 con el nombre del proyecto/negocio (obligatorio).
Blockquote con la descripción (recomendado): una frase que resume qué es tu web.
Párrafos de contexto (opcional): más detalle si hace falta.
Secciones H2 con listas de enlaces (obligatorio): cada sección agrupa enlaces a contenido relevante.
Sección H2 «Optional» (recomendado): contenido secundario o legal.

El formato de los enlaces: - [Título](URL): descripción opcional

Plantilla copiable para negocio local

Plantilla real para una clínica dental. Adapta a tu sector y publica en https://tunegocio.com/llms.txt:

# Clínica Dental García

> Clínica dental en Madrid centro (Calle Mayor 12, 28013) especializada en
> implantes, ortodoncia invisible y odontología general. Equipo de 6
> profesionales. Atendemos a 1.200 pacientes activos. Fundada en 2003.

## Información del negocio

- [Sobre nosotros](https://www.tudental.com/sobre): historia, equipo, instalaciones
- [Contacto y horario](https://www.tudental.com/contacto): dirección, teléfono, horario
- [Equipo médico](https://www.tudental.com/equipo): perfiles de los 6 profesionales

## Servicios principales

- [Implantes dentales](https://www.tudental.com/implantes): tipos, precios, casos
- [Ortodoncia invisible](https://www.tudental.com/ortodoncia-invisible): Invisalign, alternativas, presupuesto
- [Endodoncia](https://www.tudental.com/endodoncia): procedimiento, recuperación, precios
- [Estética dental](https://www.tudental.com/estetica): carillas, blanqueamiento
- [Odontopediatría](https://www.tudental.com/ninos): tratamientos para niños

## Preguntas frecuentes

- [FAQ general](https://www.tudental.com/preguntas): preguntas comunes sobre tratamientos
- [Precios y financiación](https://www.tudental.com/precios): tarifas, planes de pago
- [Primera visita](https://www.tudental.com/primera-visita): qué incluye, qué traer

## Blog y guías

- [Cómo elegir clínica dental](https://www.tudental.com/blog/elegir-clinica): guía 2026
- [Cuánto cuestan los implantes](https://www.tudental.com/blog/precio-implantes): precios reales en Madrid

## Optional

- [Aviso legal](https://www.tudental.com/aviso-legal)
- [Política de privacidad](https://www.tudental.com/privacidad)
- [Política de cookies](https://www.tudental.com/cookies)

Notas sobre la plantilla:

La descripción en blockquote es lo que el LLM lee primero para contextualizar.
Las secciones H2 son temáticas (información, servicios, FAQs, blog), no técnicas (páginas/posts).
Los títulos de los enlaces son los H1 reales de cada página destino.
Las descripciones cortas detrás de los : son contexto para el LLM, ayudan a entender de qué va la página sin descargarla.
La sección «Optional» es contenido legal que el LLM puede ignorar si no aporta.

llms-full.txt: la versión extendida

Una variante propuesta más recientemente es llms-full.txt, que se publica también en la raíz (https://tunegocio.com/llms-full.txt) y contiene el contenido completo en Markdown de tus páginas más importantes.

¿Para qué sirve? Para que el LLM lea directamente contenido relevante sin tener que visitar y procesar cada URL individual. Es ideal si tu web tiene mucho JavaScript o el contenido principal está oculto detrás de tabs o lazy-loading.

Estructura básica de llms-full.txt:

# Clínica Dental García

[Mismo H1 y descripción que llms.txt]

## /sobre

[Contenido completo de la página /sobre en Markdown]

## /implantes

[Contenido completo de /implantes en Markdown]

## /ortodoncia-invisible

[Contenido completo en Markdown]

...

Recomendaciones para llms-full.txt:

Solo incluye páginas core (4-8 páginas), no toda la web.
Mantenlo sincronizado con la versión visible cuando cambies contenido importante.
No es obligatorio: si tu llms.txt apunta a páginas bien estructuradas, puede ser suficiente.

Cómo validar que funciona

Tres formas de comprobar que tu llms.txt está siendo leído:

1. Validar el archivo

Asegúrate de que es accesible públicamente: abre https://tunegocio.com/llms.txt en una ventana de incógnito. Debe servirse como text/plain o text/markdown (Content-Type), no como HTML.

2. Revisar logs de servidor

Los crawlers identifican su User-Agent. Busca en tus logs las visitas con User-Agent que contenga:

GPTBot (OpenAI)
ClaudeBot (Anthropic)
PerplexityBot (Perplexity)
Google-Extended (Gemini)
MistralAI-User (Mistral)

Si ves visitas a /llms.txt con esos agentes, está siendo leído.

3. Test con Perplexity

Pregunta a Perplexity directamente sobre tu negocio: si sus respuestas mejoran en precisión y estructura en las semanas siguientes a publicar llms.txt, es señal de que está aprovechando la información.

Errores comunes

No publicarlo en la raíz. Tiene que estar en /llms.txt, no en /.well-known/llms.txt ni en subdirectorios.
Servirlo con Content-Type incorrecto (HTML en vez de plain/markdown). Algunos crawlers lo ignoran si llega como HTML.
Apuntar a URLs que devuelven 404. Mantén el llms.txt actualizado cuando reorganices la web.
Hacerlo demasiado largo. Es un resumen, no un libro. Ideal: 30-80 enlaces. Más es ruido.
Mezclar idiomas. Si tu web está en español, todo en español. Si tienes versiones EN/ES, considera tener un llms.txt por idioma (en subdominio o ruta).
Incluir contenido confidencial pensando que es «solo para IAs». Es público y crawleable por cualquiera.
Olvidarse de la sección Optional. Sin ella, el LLM no sabe qué es prioritario y qué secundario.

Si quieres llevar tu AEO al siguiente nivel después de montar el llms.txt, te recomiendo seguir con la guía técnica de schema.org y la de cómo conseguir que ChatGPT te recomiende. Juntas, son la base de cualquier setup AEO serio en 2026.

Y si prefieres delegarlo, lo hacemos nosotros en el Plan ChatGPT: te dejamos el llms.txt, el schema y el monitoring funcionando en dos semanas. Sin permanencia.

Preguntas frecuentes

¿llms.txt es oficial o es un estándar de la comunidad?: Es una propuesta abierta iniciada por Jeremy Howard en 2024 (llmstxt.org). No es un estándar W3C, pero está siendo adoptada de facto: Anthropic, Perplexity y varios crawlers de IA ya lo reconocen. OpenAI no lo lee oficialmente todavía pero respeta la idea con sus propias directivas. Conviene tenerlo en 2026.
¿Sustituye al sitemap.xml o al robots.txt?: No, los complementa. robots.txt sigue siendo para crawlers de buscador. sitemap.xml sigue siendo para indexación tradicional. llms.txt es específicamente para crawlers de LLMs y para dar contexto adicional que un buscador no necesita.
¿Puede el llms.txt bloquear el entrenamiento de IAs con mi contenido?: No directamente. Para bloquear entrenamiento usas directivas específicas en robots.txt (Disallow: para User-agent: GPTBot, ClaudeBot, etc.). El llms.txt es para indicar qué contenido queremos que se entienda y cómo, no para bloquear.
¿Hay alguna penalización por tener un llms.txt mal hecho?: No. En el peor caso, simplemente es ignorado por los crawlers. No genera penalización en Google ni en ningún buscador. Pero un llms.txt mal hecho que apunte a páginas inexistentes o incoherentes desperdicia la oportunidad.