2.2- LLMs explicados: ChatGPT, Claude, Gemini, Deepseek, Llama, Mistral y más

Por favor, inscríbete o accede para acceder al contenido del curso.

Introducción

Antes de hablar sobre la Generación Aumentada por Recuperación (RAG), necesitamos entender qué son los Grandes Modelos de Lenguaje (LLMs), ya que son la base de esta tecnología. Los LLMs nos permitirán buscar en bases de datos vectoriales y realizar muchas otras tareas avanzadas.

¿Qué es un LLM?

Un LLM (Large Language Model) es un modelo de inteligencia artificial capaz de entender y generar texto de manera muy similar a como lo haría un humano. No importa qué LLM específico usemos – hay miles disponibles.

Principales LLMs del mercado

Modelos Cerrados (Propietarios):

ChatGPT (OpenAI)
Gemini (Google)
Claude (Anthropic)
Grok (xAI)

Modelos Abiertos (Open Source):

Llama (Meta)
Gemma (Google)
DeepSeek (China)
Mistral y muchos más disponibles en plataformas como Ollama

Formas de acceder a los LLMs

Interfaces Web: ChatGPT, Gemini, Claude
APIs: OpenAI API, Google AI API, etc.
Herramientas: FlowWise, n8n
Localmente: Modelos open source en tu computadora

Anatomía de un LLM: Los dos archivos mágicos

Un LLM es sorprendentemente simple en su estructura básica. Consiste en solo dos archivos:

1. Archivo de Parámetros

Contiene toda la «inteligencia» del modelo
Es como un archivo ZIP gigante que comprime conocimiento
Ejemplo: Llama2 70B tiene 70 mil millones de parámetros
Tamaño: ~140 GB (comprimido desde 10 TB de texto original)

2. Archivo de Ejecución

Código simple (generalmente 500 líneas en C o Python)
Se encarga de «ejecutar» los parámetros
Es como el programa que lee el archivo ZIP

El Proceso de Entrenamiento: Tres Fases Cruciales

Fase 1: Pre-entrenamiento

¿Qué es? El proceso de comprimir enormes cantidades de texto en el archivo de parámetros.

Recursos necesarios:

10 TB de texto de internet (Wikipedia, sitios web, etc.)
Enormes cantidades de poder de GPU
Semanas o meses de procesamiento

Resultado: Un modelo que puede predecir la siguiente palabra más probable en una secuencia.

Fase 2: Ajuste Fino (Fine-tuning)

¿Qué es? Enseñar al modelo cómo los humanos queremos que responda.

Proceso:

Se alimenta con ~100,000 ejemplos de preguntas y respuestas ideales
Requiere menos GPU que el pre-entrenamiento
El modelo aprende el estilo y formato de respuesta deseado

Ejemplo:

Pregunta: «¿Qué debería comer hoy?»
Respuesta ideal: «Podrías probar un filete con vegetales asados»

Fase 3: Aprendizaje por Refuerzo

¿Qué es? Calificar las respuestas del modelo como «buenas» o «malas».

Proceso:

Se hace una pregunta al modelo
Se evalúa la respuesta (👍 o 👎)
El modelo aprende de esta retroalimentación

Conceptos Clave: Tokens

¿Qué son los Tokens?

Los tokens son la unidad básica que entienden los LLMs. Son números que representan partes de texto.

Regla práctica:

1 token ≈ 4 caracteres en español
1,500 palabras ≈ 2,048 tokens

Ejemplo Práctico

La frase «¿Qué puedo comer hoy?» se divide en tokens:

«¿Qué» → Token 1
» puedo» → Token 2
» comer» → Token 3
» hoy» → Token 4
«?» → Token 5

Límites de Tokens: El Problema de la Memoria

Cada LLM tiene un límite de tokens:

GPT-4: ~128,000 tokens
Algunos modelos: hasta 2 millones
Modelos pequeños: solo 4,000

¿Qué pasa cuando se alcanza el límite? El LLM «olvida» las conversaciones anteriores. Solo recuerda los tokens más recientes dentro de su límite.

Arquitectura Transformer: La Magia Detrás

Los LLMs usan la arquitectura Transformer, que es esencialmente una red neuronal muy sofisticada que:

Convierte palabras en números (tokens)
Procesa estos números
Predice cuál debería ser la siguiente palabra más probable
Convierte la predicción de vuelta a texto

Ventajas de los Modelos Open Source vs Cerrados

Modelos Open Source (Llama, Mistral, etc.)

Ventajas:

Máxima seguridad de datos (se ejecutan localmente)
No requieren conexión a internet
Sin costos por token
Puedes modificar y personalizar el modelo

Modelos Cerrados (ChatGPT, Claude, etc.)

Limitaciones:

Requieren internet
Cobran por cada token usado
Los datos pasan por servidores externos
No puedes descargar ni modificar el modelo

Costos y Consideraciones Prácticas

APIs Pagadas

Se cobra por cada token procesado
Costos varían según el modelo y uso
Ideal para aplicaciones comerciales

Modelos Locales

Sin costo por uso
Requieren hardware potente
Perfecto para experimentación y privacidad

Prompt Engineering: El Arte de Preguntar

La calidad de las respuestas depende directamente de la calidad de nuestras preguntas. Esto se llama Prompt Engineering y es fundamental para obtener buenos resultados.

Resumen Clave

Un LLM son dos archivos: parámetros (el conocimiento) y ejecución (el código)
Tres fases de entrenamiento: pre-entrenamiento, ajuste fino, y aprendizaje por refuerzo
Los tokens son fundamentales: todo se convierte a números para el procesamiento
Límites de tokens: cada modelo tiene memoria limitada
Open source vs cerrado: cada uno tiene sus ventajas según el uso
La calidad de la pregunta determina la calidad de la respuesta

Próximos Pasos

En la siguiente lección, exploraremos cómo funciona la API de OpenAI en detalle, incluyendo costos específicos y ejemplos prácticos de uso.

Esta explicación técnica te da las bases necesarias para trabajar con cualquier LLM y entender cómo implementar tecnologías RAG de manera efectiva.

Curso RAG Agents: Construye Aplicaciones y GPTs con APIs, MCP, LangChain y n8n

2 – Fundamentos: Explicación de LLMs, RAG, Bases de Datos Vectoriales y la Interfaz de ChatGPT

2.2- LLMs explicados: ChatGPT, Claude, Gemini, Deepseek, Llama, Mistral y más

Introducción

¿Qué es un LLM?

Principales LLMs del mercado

Formas de acceder a los LLMs

Anatomía de un LLM: Los dos archivos mágicos

1. Archivo de Parámetros

2. Archivo de Ejecución

El Proceso de Entrenamiento: Tres Fases Cruciales

Fase 1: Pre-entrenamiento

Fase 2: Ajuste Fino (Fine-tuning)

Fase 3: Aprendizaje por Refuerzo

Conceptos Clave: Tokens

¿Qué son los Tokens?

Ejemplo Práctico

Límites de Tokens: El Problema de la Memoria

Arquitectura Transformer: La Magia Detrás

Ventajas de los Modelos Open Source vs Cerrados

Modelos Open Source (Llama, Mistral, etc.)

Modelos Cerrados (ChatGPT, Claude, etc.)

Costos y Consideraciones Prácticas

APIs Pagadas

Modelos Locales

Prompt Engineering: El Arte de Preguntar

Resumen Clave

Próximos Pasos