Curso RAG Agents: Construye Aplicaciones y GPTs con APIs, MCP, LangChain y n8n

0 de 63 lecciones completas (0%)

2 – Fundamentos: Explicación de LLMs, RAG, Bases de Datos Vectoriales y la Interfaz de ChatGPT

2.3- Llamadas a Funciones: Cómo los LLMs se Comunican con Herramientas a través de APIs y usan RAG

No tienes acceso a esta lección

Por favor, inscríbete o accede para acceder al contenido del curso.

Introducción a la Multimodalidad

Ya comprendes cómo funciona un LLM básico, ¡excelente trabajo! Ahora vamos a profundizar en conceptos más avanzados: los LLMs pueden realizar llamadas a funciones (function calling) y algunos también son multimodales.

¿Qué significa multimodalidad?

La multimodalidad significa simplemente que el LLM puede procesar no solo texto, sino también:

  • 📸 Imágenes
  • 🎵 Audio
  • 🎥 Video

Esto es posible porque tienen integrados codificadores especializados:

  • Codificador de audio para procesar sonidos
  • Codificador de visión (CLIP) para procesar imágenes

La Parte Divertida: Function Calling

Aquí viene lo interesante: no necesitas un LLM multimodal para procesar estos tipos de contenido, gracias a las llamadas a funciones.

El Problema de la Ventana de Contexto

Recuerda que los LLMs tienen una ventana de contexto limitada. Una vez que se llena, el LLM «olvida» las conversaciones anteriores y ya no entiende de qué estás hablando.

La solución: Tecnología RAG (Retrieval-Augmented Generation) + Function Calling

El LLM como Sistema Operativo

Andrew Karpathy creó una analogía brillante que explica perfectamente este concepto:

El LLM es como un nuevo sistema operativo

  • 💻 LLM = Computadora
  • 🧠 RAM = Ventana de contexto
  • 📞 Function Calling = Comunicación con herramientas externas

¿Con qué puede comunicarse un LLM?

A través de function calling, un LLM puede conectarse con:

1. 📁 Sistema de Archivos con Embeddings (Tecnología RAG)

  • Bases de datos vectoriales
  • Documentos almacenados
  • Conocimiento específico de tu empresa

2. 🤖 Otros LLMs

  • Comunicación a través de APIs
  • Creación de agentes de IA

3. 🌐 Internet

  • Búsquedas web en tiempo real
  • Acceso a información actualizada

4. 🧮 Herramientas de Cálculo

  • Calculadoras
  • Intérpretes de Python
  • Terminales de comandos

5. 🎬 Generación de Contenido

  • Modelos de generación de video (como VO2 en Gemini)
  • Herramientas de creación multimedia

6. 🎤 Audio y Video

  • Procesamiento de voz
  • Análisis de contenido multimedia

Analogía con una Computadora Tradicional

Siguiendo la analogía de Karpathy:

Componente LLMEquivalente en Computadora
LLM + RAMProcesador + Memoria
Sistema de archivos con embeddingsDisco duro
Calculadora/PythonSoftware tradicional
Audio/VideoDispositivos periféricos
Navegador webConexión Ethernet
Otros LLMsAgentes de IA

Ejemplos Prácticos con ChatGPT

1. Búsqueda Web en Tiempo Real

Pregunta: «¿Cuál es el precio del Bitcoin hoy?»

Proceso:

  1. ChatGPT detecta que necesita información actualizada
  2. Hace function calling a APIs de búsqueda web
  3. Consulta CoinMarketCap, TradingView, crypto.com
  4. Devuelve el precio actual (~$85,000 en el ejemplo)

2. Procesamiento de Audio

  • Modo de voz avanzado
  • Conversaciones naturales de ida y vuelta
  • Function calling a modelos de texto-a-voz

3. Análisis de Datos y Visualización

Ejemplo: «Tengo $50,000: 50% en acciones, 20% en bonos, el resto en efectivo. Haz un gráfico circular.»

Proceso:

  1. Function calling al intérprete de Python
  2. Genera código automáticamente
  3. Crea visualización interactiva

4. Tecnología RAG en Acción

Cómo crear un GPT personalizado:

  1. Subir documentos de tu empresa/proyecto
  2. Crear instrucciones (system prompts)
  3. Hacer preguntas específicas sobre tu contenido

Ejemplo: «¿Cuántas horas al día trabaja la empresa AI con Arnie?»

  • El LLM busca en tu base de datos vectorial
  • Encuentra la respuesta específica de tus documentos
  • Responde: «24 horas al día, 7 días a la semana»

5. Generación de Imágenes

Solicitud: «Haz una imagen simple sobre tecnología RAG»

Proceso:

  • Function calling a modelos de generación de imágenes
  • Crea visualizaciones conceptuales
  • Muestra cómo funciona RAG visualmente

¿Por qué es Revolucionario?

Antes: LLMs Limitados

  • Solo procesaban texto
  • Conocimiento estático hasta la fecha de entrenamiento
  • Sin acceso a datos específicos de tu negocio

Ahora: LLMs como Plataformas

  • Conectividad total con herramientas externas
  • Acceso en tiempo real a información actualizada
  • Personalización completa con tus datos
  • Automatización inteligente de tareas complejas

Aplicaciones en el Mundo Real

Para Desarrolladores

  • Chatbots inteligentes con acceso a bases de datos
  • Agentes de IA especializados
  • Automatización de procesos empresariales

Para Empresas

  • Asistentes virtuales con conocimiento corporativo
  • Análisis automático de documentos
  • Atención al cliente personalizada

Lo que Viene

En el próximo video profundizaremos en:

  • 🔍 Bases de datos vectoriales
  • 📊 Embeddings y cómo funcionan
  • 🎯 Resultados Top-K
  • ⚙️ Implementación práctica de RAG

Resumen Clave

Function Calling = Superpoderes para LLMs

  1. Extiende capacidades más allá del texto
  2. Conecta con herramientas externas vía APIs
  3. Resuelve limitaciones de ventana de contexto
  4. Personaliza con datos específicos a través de RAG
  5. Crea experiencias interactivas y dinámicas

No te preocupes si parece complejo ahora. Construiremos este conocimiento paso a paso, y pronto estarás creando tus propios agentes RAG profesionales.


¿Listo para dominar las bases de datos vectoriales? ¡Nos vemos en el siguiente video!

Resumen de privacidad
Logo JeroCuevas.com

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.

Cookies de terceros

Esta web utiliza Google Analytics para recopilar información anónima tal como el número de visitantes del sitio, o las páginas más populares.

Dejar esta cookie activa nos permite mejorar nuestra web.