Para entender por qué ha surgido CAG (Generación Aumentada por Caché), debemos mirar al pasado reciente. RAG se convirtió en el estándar porque los primeros modelos como GPT-3.5 tenían «ventanas de contexto» muy pequeñas (unos 4,000 tokens). Era imposible meter todo el conocimiento de una empresa en un solo prompt. RAG, al recuperar solo pequeños fragmentos, era la única solución viable.
El Cambio de Paradigma: La Explosión de las Ventanas de Contexto
Hoy, 9 de agosto de 2025, el panorama es radicalmente diferente. Los modelos modernos han pulverizado esos límites:
- Gemini de Google, por ejemplo, ofrece una ventana de contexto de 1 millón de tokens a un coste muy bajo.
Para que te hagas una idea, esto equivale a unas 800,000 palabras. La novela media tiene unas 90,000 palabras. Esto significa que ahora podemos introducir el equivalente a casi diez novelas en un solo prompt.
Esta capacidad masiva ha hecho que una nueva arquitectura, CAG, sea no solo posible, sino extremadamente atractiva.
¿Cómo Funciona CAG (Generación Aumentada por Caché)?
Recordemos la diferencia:
- RAG: Busca y recupera pequeños fragmentos relevantes para cada pregunta.
- CAG: Carga un gran volumen de datos una sola vez al inicio de una sesión.
El truco de CAG está en la palabra «Caché». En lugar de tener que volver a pegar todos los documentos de la empresa en cada pregunta, el sistema los carga una única vez en una memoria temporal o «caché» directamente en el LLM.
Pensemos en una analogía: Imagina que el LLM es un consultor al que contratas para una reunión de una hora.
- Con RAG, cada vez que le haces una pregunta, tu asistente tiene que correr a la biblioteca, buscar el documento relevante y traerle solo la página correcta.
- Con CAG, al inicio de la reunión, le entregas al consultor el dosier completo del proyecto. Él lo tiene sobre su mesa (en la caché) durante toda la reunión. Para cada pregunta, simplemente consulta el dosier que ya tiene a mano, de forma instantánea.
El proceso es mucho más simple:
- Ingesta: Se carga el gran conjunto de datos (ej: un manual completo) en la caché del LLM.
- Consultas: El usuario puede hacer múltiples preguntas. Para cada una, el LLM ya tiene todo el contexto disponible instantáneamente, sin necesidad de un paso de búsqueda externa.
Evaluando CAG: Ventajas y Desventajas
Ventajas 👍
- Configuración Más Sencilla: Elimina la complejidad de la etapa de ingesta de RAG (chunking, embeddings, base de datos vectorial).
- Recuperación Más Rápida: No hay un paso de búsqueda, por lo que la latencia es menor. La respuesta es casi instantánea.
- Potencialmente Más Preciso: Al tener acceso al contexto completo del documento, el LLM puede encontrar relaciones y matices que podrían perderse si solo viera los 5 fragmentos más relevantes, como en RAG.
Desventajas 👎
- Más Difícil de Actualizar: Si un documento cambia, tienes que volver a «ingestar» todo el documento en la caché, en lugar de solo actualizar unos pocos vectores como en RAG.
- No Apto para Conocimiento Extremadamente Grande: Aunque las ventanas de contexto son enormes, siguen teniendo un límite. No funcionará si la base de conocimiento de tu empresa supera el millón de tokens (el equivalente a toda una enciclopedia).
En resumen, CAG es una arquitectura potente y en auge, ideal para casos de uso donde la velocidad es crítica y se trabaja con documentos grandes pero no masivos.