2.3- Llamadas a Funciones: Cómo los LLMs se Comunican con Herramientas a través de APIs y usan RAG

Por favor, inscríbete o accede para acceder al contenido del curso.

Introducción a la Multimodalidad

Ya comprendes cómo funciona un LLM básico, ¡excelente trabajo! Ahora vamos a profundizar en conceptos más avanzados: los LLMs pueden realizar llamadas a funciones (function calling) y algunos también son multimodales.

¿Qué significa multimodalidad?

La multimodalidad significa simplemente que el LLM puede procesar no solo texto, sino también:

📸 Imágenes
🎵 Audio
🎥 Video

Esto es posible porque tienen integrados codificadores especializados:

Codificador de audio para procesar sonidos
Codificador de visión (CLIP) para procesar imágenes

La Parte Divertida: Function Calling

Aquí viene lo interesante: no necesitas un LLM multimodal para procesar estos tipos de contenido, gracias a las llamadas a funciones.

El Problema de la Ventana de Contexto

Recuerda que los LLMs tienen una ventana de contexto limitada. Una vez que se llena, el LLM «olvida» las conversaciones anteriores y ya no entiende de qué estás hablando.

La solución: Tecnología RAG (Retrieval-Augmented Generation) + Function Calling

El LLM como Sistema Operativo

Andrew Karpathy creó una analogía brillante que explica perfectamente este concepto:

El LLM es como un nuevo sistema operativo

💻 LLM = Computadora
🧠 RAM = Ventana de contexto
📞 Function Calling = Comunicación con herramientas externas

¿Con qué puede comunicarse un LLM?

A través de function calling, un LLM puede conectarse con:

1. 📁 Sistema de Archivos con Embeddings (Tecnología RAG)

Bases de datos vectoriales
Documentos almacenados
Conocimiento específico de tu empresa

2. 🤖 Otros LLMs

Comunicación a través de APIs
Creación de agentes de IA

3. 🌐 Internet

Búsquedas web en tiempo real
Acceso a información actualizada

4. 🧮 Herramientas de Cálculo

Calculadoras
Intérpretes de Python
Terminales de comandos

5. 🎬 Generación de Contenido

Modelos de generación de video (como VO2 en Gemini)
Herramientas de creación multimedia

6. 🎤 Audio y Video

Procesamiento de voz
Análisis de contenido multimedia

Analogía con una Computadora Tradicional

Siguiendo la analogía de Karpathy:

Componente LLM	Equivalente en Computadora
LLM + RAM	Procesador + Memoria
Sistema de archivos con embeddings	Disco duro
Calculadora/Python	Software tradicional
Audio/Video	Dispositivos periféricos
Navegador web	Conexión Ethernet
Otros LLMs	Agentes de IA

Ejemplos Prácticos con ChatGPT

1. Búsqueda Web en Tiempo Real

Pregunta: «¿Cuál es el precio del Bitcoin hoy?»

Proceso:

ChatGPT detecta que necesita información actualizada
Hace function calling a APIs de búsqueda web
Consulta CoinMarketCap, TradingView, crypto.com
Devuelve el precio actual (~$85,000 en el ejemplo)

2. Procesamiento de Audio

Modo de voz avanzado
Conversaciones naturales de ida y vuelta
Function calling a modelos de texto-a-voz

3. Análisis de Datos y Visualización

Ejemplo: «Tengo $50,000: 50% en acciones, 20% en bonos, el resto en efectivo. Haz un gráfico circular.»

Proceso:

Function calling al intérprete de Python
Genera código automáticamente
Crea visualización interactiva

4. Tecnología RAG en Acción

Cómo crear un GPT personalizado:

Subir documentos de tu empresa/proyecto
Crear instrucciones (system prompts)
Hacer preguntas específicas sobre tu contenido

Ejemplo: «¿Cuántas horas al día trabaja la empresa AI con Arnie?»

El LLM busca en tu base de datos vectorial
Encuentra la respuesta específica de tus documentos
Responde: «24 horas al día, 7 días a la semana»

5. Generación de Imágenes

Solicitud: «Haz una imagen simple sobre tecnología RAG»

Proceso:

Function calling a modelos de generación de imágenes
Crea visualizaciones conceptuales
Muestra cómo funciona RAG visualmente

¿Por qué es Revolucionario?

Antes: LLMs Limitados

Solo procesaban texto
Conocimiento estático hasta la fecha de entrenamiento
Sin acceso a datos específicos de tu negocio

Ahora: LLMs como Plataformas

Conectividad total con herramientas externas
Acceso en tiempo real a información actualizada
Personalización completa con tus datos
Automatización inteligente de tareas complejas

Aplicaciones en el Mundo Real

Para Desarrolladores

Chatbots inteligentes con acceso a bases de datos
Agentes de IA especializados
Automatización de procesos empresariales

Para Empresas

Asistentes virtuales con conocimiento corporativo
Análisis automático de documentos
Atención al cliente personalizada

Lo que Viene

En el próximo video profundizaremos en:

🔍 Bases de datos vectoriales
📊 Embeddings y cómo funcionan
🎯 Resultados Top-K
⚙️ Implementación práctica de RAG

Resumen Clave

Function Calling = Superpoderes para LLMs

Extiende capacidades más allá del texto
Conecta con herramientas externas vía APIs
Resuelve limitaciones de ventana de contexto
Personaliza con datos específicos a través de RAG
Crea experiencias interactivas y dinámicas

No te preocupes si parece complejo ahora. Construiremos este conocimiento paso a paso, y pronto estarás creando tus propios agentes RAG profesionales.

¿Listo para dominar las bases de datos vectoriales? ¡Nos vemos en el siguiente video!

Curso RAG Agents: Construye Aplicaciones y GPTs con APIs, MCP, LangChain y n8n

2 – Fundamentos: Explicación de LLMs, RAG, Bases de Datos Vectoriales y la Interfaz de ChatGPT

2.3- Llamadas a Funciones: Cómo los LLMs se Comunican con Herramientas a través de APIs y usan RAG

Introducción a la Multimodalidad

¿Qué significa multimodalidad?

La Parte Divertida: Function Calling

El Problema de la Ventana de Contexto

El LLM como Sistema Operativo

¿Con qué puede comunicarse un LLM?

1. 📁 Sistema de Archivos con Embeddings (Tecnología RAG)

2. 🤖 Otros LLMs

3. 🌐 Internet

4. 🧮 Herramientas de Cálculo

5. 🎬 Generación de Contenido

6. 🎤 Audio y Video

Analogía con una Computadora Tradicional

Ejemplos Prácticos con ChatGPT

1. Búsqueda Web en Tiempo Real

2. Procesamiento de Audio

3. Análisis de Datos y Visualización

4. Tecnología RAG en Acción

5. Generación de Imágenes

¿Por qué es Revolucionario?

Antes: LLMs Limitados

Ahora: LLMs como Plataformas

Aplicaciones en el Mundo Real

Para Desarrolladores

Para Empresas

Lo que Viene

Resumen Clave