Creación de Video con IA de Principiante a Pro (Nano Banana pro + VEO 3.1)

0 de 19 lecciones completas (0%)

4. Cómo generar voz a partir de texto (Text-to-Speech)

Hasta ahora hemos creado imágenes increíbles, pero un video necesita sonido. En esta lección, aprenderás a utilizar Google AI Studio para convertir tus guiones en voces realistas de forma gratuita.

Lo interesante de esta herramienta no es solo que «lee» el texto, sino que puedes pedirle que actúe con diferentes emociones.

1. Configuración del entorno de audio

Para empezar, volvemos a nuestra herramienta técnica de confianza: AI Studio.

  1. Ve a la sección Chat en el menú.
  2. En las opciones de tipo de medio, selecciona Audio.
  3. En el selector de modelos, elige Gemini 2.5 Pro Preview TTS (TTS significa Text-to-Speech o Texto a Voz).

Verás que la interfaz cambia para mostrarte una estructura de diálogo. Tienes dos modos principales de trabajo:

2. Modo: Un Solo Orador (Single Speaker)

Este es el modo ideal para narraciones, voces en off o monólogos.

  • Selección de voz: Tienes varias opciones de voces predefinidas. Puedes hacer clic en el botón de «Play» al lado de cada nombre para escuchar una muestra y elegir la que mejor encaje con tu proyecto.
  • El campo «Style» (Estilo): Esta es la clave para que la voz no suene robótica. Aquí no escribes el guion, sino cómo quieres que lo lea.
    • Prueba escribiendo emociones como: Angry (enojado), Confused (confundido), Happy (feliz), Bored (aburrido).
    • Al cambiar este parámetro y pulsar «Run», notarás que la entonación cambia drásticamente aunque el texto sea el mismo.

3. Modo: Multi-Orador (Multi Speaker)

Si necesitas crear una entrevista o una conversación entre dos personajes, selecciona la opción Multi Speaker Audio.

  • Asignación de roles: Puedes seleccionar una voz distinta para el «Speaker 1» y otra para el «Speaker 2».
  • Creando el diálogo: La herramienta te permite ir añadiendo líneas de diálogo (Add dialogue). Escribes el texto y asignas quién lo dice.
  • Nota importante sobre el Estilo: Ten en cuenta que, actualmente, el campo «Style» afecta a toda la conversación. Si pones «Angry» (enojado), ambos interlocutores hablarán con ese tono.

4. Consejos y Solución de problemas

  • Error común: A veces, al generar un audio multi-orador, puede ocurrir un error donde solo se escucha a una de las voces. Si esto te sucede, simplemente refresca la página y vuelve a intentarlo.
  • Descarga: Una vez que estés satisfecho con el resultado (la interpretación y el texto), haz clic en el reproductor de audio y selecciona Download. Obtendrás un archivo .WAV de alta calidad listo para editar en tu video.

Ahora tienes la capacidad de darle voz a tus personajes y narradores sin necesidad de un micrófono.

Resumen de privacidad
Logo JeroCuevas.com

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.

Cookies estrictamente necesarias

Las cookies estrictamente necesarias tiene que activarse siempre para que podamos guardar tus preferencias de ajustes de cookies.

Analítica

Esta web utiliza Google Analytics para recopilar información anónima tal como el número de visitantes del sitio, o las páginas más populares.

Dejar esta cookie activa nos permite mejorar nuestra web.