Introducción
Antes de hablar sobre la Generación Aumentada por Recuperación (RAG), necesitamos entender qué son los Grandes Modelos de Lenguaje (LLMs), ya que son la base de esta tecnología. Los LLMs nos permitirán buscar en bases de datos vectoriales y realizar muchas otras tareas avanzadas.
¿Qué es un LLM?
Un LLM (Large Language Model) es un modelo de inteligencia artificial capaz de entender y generar texto de manera muy similar a como lo haría un humano. No importa qué LLM específico usemos – hay miles disponibles.
Principales LLMs del mercado
Modelos Cerrados (Propietarios):
- ChatGPT (OpenAI)
- Gemini (Google)
- Claude (Anthropic)
- Grok (xAI)
Modelos Abiertos (Open Source):
- Llama (Meta)
- Gemma (Google)
- DeepSeek (China)
- Mistral y muchos más disponibles en plataformas como Ollama
Formas de acceder a los LLMs
- Interfaces Web: ChatGPT, Gemini, Claude
- APIs: OpenAI API, Google AI API, etc.
- Herramientas: FlowWise, n8n
- Localmente: Modelos open source en tu computadora
Anatomía de un LLM: Los dos archivos mágicos
Un LLM es sorprendentemente simple en su estructura básica. Consiste en solo dos archivos:
1. Archivo de Parámetros
- Contiene toda la «inteligencia» del modelo
- Es como un archivo ZIP gigante que comprime conocimiento
- Ejemplo: Llama2 70B tiene 70 mil millones de parámetros
- Tamaño: ~140 GB (comprimido desde 10 TB de texto original)
2. Archivo de Ejecución
- Código simple (generalmente 500 líneas en C o Python)
- Se encarga de «ejecutar» los parámetros
- Es como el programa que lee el archivo ZIP
El Proceso de Entrenamiento: Tres Fases Cruciales
Fase 1: Pre-entrenamiento
¿Qué es? El proceso de comprimir enormes cantidades de texto en el archivo de parámetros.
Recursos necesarios:
- 10 TB de texto de internet (Wikipedia, sitios web, etc.)
- Enormes cantidades de poder de GPU
- Semanas o meses de procesamiento
Resultado: Un modelo que puede predecir la siguiente palabra más probable en una secuencia.
Fase 2: Ajuste Fino (Fine-tuning)
¿Qué es? Enseñar al modelo cómo los humanos queremos que responda.
Proceso:
- Se alimenta con ~100,000 ejemplos de preguntas y respuestas ideales
- Requiere menos GPU que el pre-entrenamiento
- El modelo aprende el estilo y formato de respuesta deseado
Ejemplo:
- Pregunta: «¿Qué debería comer hoy?»
- Respuesta ideal: «Podrías probar un filete con vegetales asados»
Fase 3: Aprendizaje por Refuerzo
¿Qué es? Calificar las respuestas del modelo como «buenas» o «malas».
Proceso:
- Se hace una pregunta al modelo
- Se evalúa la respuesta (👍 o 👎)
- El modelo aprende de esta retroalimentación
Conceptos Clave: Tokens
¿Qué son los Tokens?
Los tokens son la unidad básica que entienden los LLMs. Son números que representan partes de texto.
Regla práctica:
- 1 token ≈ 4 caracteres en español
- 1,500 palabras ≈ 2,048 tokens
Ejemplo Práctico
La frase «¿Qué puedo comer hoy?» se divide en tokens:
- «¿Qué» → Token 1
- » puedo» → Token 2
- » comer» → Token 3
- » hoy» → Token 4
- «?» → Token 5
Límites de Tokens: El Problema de la Memoria
Cada LLM tiene un límite de tokens:
- GPT-4: ~128,000 tokens
- Algunos modelos: hasta 2 millones
- Modelos pequeños: solo 4,000
¿Qué pasa cuando se alcanza el límite? El LLM «olvida» las conversaciones anteriores. Solo recuerda los tokens más recientes dentro de su límite.
Arquitectura Transformer: La Magia Detrás
Los LLMs usan la arquitectura Transformer, que es esencialmente una red neuronal muy sofisticada que:
- Convierte palabras en números (tokens)
- Procesa estos números
- Predice cuál debería ser la siguiente palabra más probable
- Convierte la predicción de vuelta a texto
Ventajas de los Modelos Open Source vs Cerrados
Modelos Open Source (Llama, Mistral, etc.)
Ventajas:
- Máxima seguridad de datos (se ejecutan localmente)
- No requieren conexión a internet
- Sin costos por token
- Puedes modificar y personalizar el modelo
Modelos Cerrados (ChatGPT, Claude, etc.)
Limitaciones:
- Requieren internet
- Cobran por cada token usado
- Los datos pasan por servidores externos
- No puedes descargar ni modificar el modelo
Costos y Consideraciones Prácticas
APIs Pagadas
- Se cobra por cada token procesado
- Costos varían según el modelo y uso
- Ideal para aplicaciones comerciales
Modelos Locales
- Sin costo por uso
- Requieren hardware potente
- Perfecto para experimentación y privacidad
Prompt Engineering: El Arte de Preguntar
La calidad de las respuestas depende directamente de la calidad de nuestras preguntas. Esto se llama Prompt Engineering y es fundamental para obtener buenos resultados.
Resumen Clave
- Un LLM son dos archivos: parámetros (el conocimiento) y ejecución (el código)
- Tres fases de entrenamiento: pre-entrenamiento, ajuste fino, y aprendizaje por refuerzo
- Los tokens son fundamentales: todo se convierte a números para el procesamiento
- Límites de tokens: cada modelo tiene memoria limitada
- Open source vs cerrado: cada uno tiene sus ventajas según el uso
- La calidad de la pregunta determina la calidad de la respuesta
Próximos Pasos
En la siguiente lección, exploraremos cómo funciona la API de OpenAI en detalle, incluyendo costos específicos y ejemplos prácticos de uso.
Esta explicación técnica te da las bases necesarias para trabajar con cualquier LLM y entender cómo implementar tecnologías RAG de manera efectiva.