Para que un modelo de lenguaje (LLM) pueda responder preguntas sobre tu negocio, primero debemos proporcionarle el contexto adecuado. El reto es que este contexto—manuales de formación, documentos legales, bases de datos de clientes… —puede ser enorme.
Existen dos formas de gestionar estos datos: una manual y limitada, y otra inteligente y escalable.
Método 1: El enfoque manual (copiar y pegar)
La forma más básica de darle contexto a un LLM es pegar la información directamente en la ventana de chat junto con tu pregunta. Es lo mismo que haces cuando buscas datos en otra pestaña y los pegas en ChatGPT para que los analice.
Este método funciona para pequeñas cantidades de datos, pero fracasa estrepitosamente cuando se aplica a escala empresarial por dos razones fundamentales.
¿Por qué fracasa el método manual?
1. Los límites de tokens 🎟️
Los LLMs no leen palabras, leen «tokens». Cada modelo tiene una «ventana de contexto» o un límite de tokens que puede procesar en una sola consulta.
- GPT-3.5 (un modelo antiguo): Tenía un límite de 4,096 tokens, lo que equivale a unas 3,000 palabras o 6 páginas. Claramente insuficiente para los datos de toda una empresa.
- GPT-4.1 (un modelo más reciente): Tiene un límite mucho mayor de 1,047,576 tokens, unas 750.000 palabras.
Aunque las ventanas de contexto son cada vez más grandes, intentar meter toda la base de conocimiento de tu empresa en un solo prompt es como intentar meter una biblioteca entera en una mochila. Simplemente, no cabe.
2. El coste por token 💸
El segundo problema, y el más importante para un negocio, es el coste. Los servicios de IA cobran por cada token procesado, tanto de entrada como de salida.
- Coste de GPT-4.0 (ejemplo): 2,00 $ por cada millón de tokenes de entrada (la consulta) y 8,00 US$ por cada millón de tókenes de salida (la respuesta)
Si con cada pregunta que haces tienes que volver a «subir» todo el manual de la empresa, el coste se dispara. Estás pagando por procesar la misma información una y otra vez. Para una empresa que gestiona miles de consultas al día, este modelo es económicamente inviable.
La solución inteligente: RAG
Aquí es donde el enfoque tradicional de RAG demuestra su genialidad. En lugar de «meterlo todo» en cada consulta, RAG utiliza un sistema inteligente para encontrar y proporcionar al LLM solo los fragmentos de información más relevantes para la pregunta específica que se está haciendo.
De esta forma, se resuelven los dos problemas:
- Se reduce drásticamente el coste, al minimizar el número de tokens procesados en cada consulta.
- Se respeta el límite de tokens, ya que solo se envía una pequeña porción de los datos. Nunca superaremos el límite de tokens (ventana de contexto)