4. Cómo generar voz a partir de texto (Text-to-Speech)

Hasta ahora hemos creado imágenes increíbles, pero un video necesita sonido. En esta lección, aprenderás a utilizar Google AI Studio para convertir tus guiones en voces realistas de forma gratuita.

Lo interesante de esta herramienta no es solo que «lee» el texto, sino que puedes pedirle que actúe con diferentes emociones.

1. Configuración del entorno de audio

Para empezar, volvemos a nuestra herramienta técnica de confianza: AI Studio.

Ve a la sección Chat en el menú.
En las opciones de tipo de medio, selecciona Audio.
En el selector de modelos, elige Gemini 2.5 Pro Preview TTS (TTS significa Text-to-Speech o Texto a Voz).

Verás que la interfaz cambia para mostrarte una estructura de diálogo. Tienes dos modos principales de trabajo:

2. Modo: Un Solo Orador (Single Speaker)

Este es el modo ideal para narraciones, voces en off o monólogos.

Selección de voz: Tienes varias opciones de voces predefinidas. Puedes hacer clic en el botón de «Play» al lado de cada nombre para escuchar una muestra y elegir la que mejor encaje con tu proyecto.
El campo «Style» (Estilo): Esta es la clave para que la voz no suene robótica. Aquí no escribes el guion, sino cómo quieres que lo lea.
- Prueba escribiendo emociones como: Angry (enojado), Confused (confundido), Happy (feliz), Bored (aburrido).
- Al cambiar este parámetro y pulsar «Run», notarás que la entonación cambia drásticamente aunque el texto sea el mismo.

3. Modo: Multi-Orador (Multi Speaker)

Si necesitas crear una entrevista o una conversación entre dos personajes, selecciona la opción Multi Speaker Audio.

Asignación de roles: Puedes seleccionar una voz distinta para el «Speaker 1» y otra para el «Speaker 2».
Creando el diálogo: La herramienta te permite ir añadiendo líneas de diálogo (Add dialogue). Escribes el texto y asignas quién lo dice.
Nota importante sobre el Estilo: Ten en cuenta que, actualmente, el campo «Style» afecta a toda la conversación. Si pones «Angry» (enojado), ambos interlocutores hablarán con ese tono.

4. Consejos y Solución de problemas

Error común: A veces, al generar un audio multi-orador, puede ocurrir un error donde solo se escucha a una de las voces. Si esto te sucede, simplemente refresca la página y vuelve a intentarlo.
Descarga: Una vez que estés satisfecho con el resultado (la interpretación y el texto), haz clic en el reproductor de audio y selecciona Download. Obtendrás un archivo .WAV de alta calidad listo para editar en tu video.

Ahora tienes la capacidad de darle voz a tus personajes y narradores sin necesidad de un micrófono.

Creación de Video con IA de Principiante a Pro (Nano Banana pro + VEO 3.1)

4. Cómo generar voz a partir de texto (Text-to-Speech)

1. Configuración del entorno de audio

2. Modo: Un Solo Orador (Single Speaker)

3. Modo: Multi-Orador (Multi Speaker)

4. Consejos y Solución de problemas