6. Agentes conversacionales de IA para WhatsApp

0 de 11 lecciones completas (0%)

Evolution API

5. Transcribiendo Audio con OpenAI

Descarga el WorkFlow de la lección:

En la lección anterior, le dimos «ojos» a nuestro agente. Ahora, vamos a darle «oídos». Las notas de voz son una forma de comunicación extremadamente popular en WhatsApp, y un agente de IA robusto debe ser capaz de entenderlas.

El proceso será muy similar al que seguimos con las imágenes: recibiremos el audio en formato Base64, lo convertiremos en un archivo y usaremos un modelo de OpenAI para procesarlo. En este caso, en lugar de describir una imagen, vamos a transcribir el audio a texto.

Objetivos de esta lección:

  • Reutilizar y adaptar nuestro flujo existente para procesar mensajes de audio.
  • Convertir los datos Base64 de un audio a un archivo de formato WAV.
  • Utilizar el modelo Whisper de OpenAI para obtener una transcripción precisa del audio.
  • Formatear la transcripción para que nuestro agente la entienda como una nota de voz.

Paso 1: Duplicar y Adaptar el Flujo de Imagen

Para agilizar el proceso, no construiremos la nueva rama desde cero. Simplemente duplicaremos la que ya creamos para las imágenes y la adaptaremos.

  1. Selecciona los nodos Edit Fields extraer_base64_imagen, el nodo Convert to File convertir_a_imagen y Edit Fields imagen de la rama de Imagen. Puedes mantener presionada la tecla Shift y hacer clic en cada uno.
  2. Copia los nodos (usando Ctrl+C o Cmd+C) y pégalos (Ctrl+V o Cmd+V) en un espacio libre del canvas.
  3. Conecta la salida Audio de tu nodo Switch al primer nodo Edit Fields extraer_base64_imagen que acabas de pegar.
  4. Renombra los nodos para mantener la organización. Es una buena práctica que te ahorrará confusiones:
    • extraer_base64_imagen -> extraer_base64_audio
    • convertir_a_imagen -> convertir_a_audio
    • imagen -> audio

El nodo de análisis de OpenAI no lo duplicamos porque usaremos una operación diferente.

Paso 2: Ajustar la Conversión del Archivo de Audio

Este es el cambio más importante en esta sección. No estamos creando una imagen, sino un archivo de sonido.

  1. Abre el nodo convertir_a_audio.
  2. La configuración es casi idéntica, pero debemos cambiar el Mime Type.
  3. Borra image/png y escribe audio/wav.

¿Por qué WAV? WAV es un formato de audio sin compresión de alta calidad, ideal para obtener las transcripciones más precisas posibles de las APIs de IA.

Paso 3: Transcribir el Audio con OpenAI (Whisper)

Ahora vamos a insertar el nodo que hará el trabajo pesado: convertir la voz en texto.

  1. Añade un nodo OpenAI entre convertir_a_audio y audio.
  2. Renómbralo a 5c. Transcribir Audio con OpenAI.
  3. Configúralo de la siguiente manera:
    • Resource: Audio
    • Operation: Transcribe a recording
    • Input Data Field Name: Mantenlo como data. El nodo tomará automáticamente el archivo binario del paso anterior.
  4. Renómbralo a transcribir_Audio.
  5. Ejecuta este nodo con los datos de una prueba de audio. En el Output, verás el texto exacto de lo que dijiste en la nota de voz, ¡es casi mágico!

Paso 4: Formatear la Salida de la Transcripción

Al igual que con la imagen, necesitamos darle contexto a nuestro agente sobre el origen de este texto.

  1. Abre el último nodo de esta rama, audio.
  2. configura el nodo:
    • Nombre: ya debería ser input, lo cual es correcto.
    • Mode: Cambia el modo a Expression
    • Valor: Aquí vamos a «envolver» la respuesta de OpenAI. Pega el siguiente código en el campo de expresión:
      • <audio>
        {{ $json.output[0].content[0].text }}
        </audio>
  3. Ejecuta el nodo final. El resultado será el texto transcrito, envuelto en etiquetas <audio>, listo para el siguiente paso.

Resumen de la Lección:

Nuestro agente ahora no solo «ve», sino que también «escucha». Hemos aprendido a:

  • Reutilizar flujos de trabajo existentes para acelerar el desarrollo.
  • Convertir datos de audio de Base64 a un formato de archivo funcional.
  • Integrar el potente modelo de transcripción Whisper de OpenAI en nuestro flujo.
  • Formatear la transcripción para darle un contexto claro a nuestro agente de IA.

Próximos Pasos:

Ya solo nos queda un tipo de mensaje por procesar: los documentos. En la siguiente lección, seguiremos una lógica similar para extraer texto y describir el contenido de archivos como los PDF. ¡Nos vemos allí!

Resumen de privacidad
Logo JeroCuevas.com

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.

Cookies estrictamente necesarias

Las cookies estrictamente necesarias tiene que activarse siempre para que podamos guardar tus preferencias de ajustes de cookies.

Analítica

Esta web utiliza Google Analytics para recopilar información anónima tal como el número de visitantes del sitio, o las páginas más populares.

Dejar esta cookie activa nos permite mejorar nuestra web.