Bienvenido a una de las técnicas más avanzadas y efectivas de este curso. Hoy vamos a aprender a escribir prompts en formato JSON.
Quizás te suene a código de programación (y técnicamente lo es), pero no te asustes. El JSON es simplemente una estructura de datos muy ordenada. La gran ventaja es que a la Inteligencia Artificial le encanta el orden. Al darle las instrucciones en este formato estructurado en lugar de en una frase larga y desordenada (inglés simple), la IA entiende mucho mejor los matices, reduciendo errores y aumentando el realismo.
1. ¿Por qué usar JSON en lugar de texto normal?
Cuando escribes un prompt normal (ej: «Un gato en el espacio estilo cyberpunk»), la IA tiene que adivinar qué parte es el sujeto, cuál es el estilo y cuál es el entorno.
Con un JSON Prompt, le decimos explícitamente y por separado:
"Sujeto": "Gato""Ubicación": "Espacio""Estilo": "Cyberpunk"
Los resultados hablan por sí solos:
- Mayor realismo: La iluminación y las texturas suelen ser más precisas.
- Mejor comprensión de escenas complejas: Si pides una cámara temblorosa o un enfoque difícil, el JSON suele acertar donde el texto normal falla.
- Corrección de errores: En muchos casos, donde el texto normal genera deformidades, el JSON estructura mejor la imagen y corrige esos fallos.
2. Cómo generar un JSON Prompt automáticamente
No necesitas aprender a programar. Vamos a usar a nuestro asistente Gemini para que haga el trabajo sucio por nosotros.
Paso 1: Configura a tu Asistente Abre un nuevo chat en Gemini (aistudio.google.com) y escribe el siguiente comando para asignarle su rol:
«Act as JSON prompt writer. Convert from simple English into JSON prompt structure prompt.» (Actúa como redactor de prompts JSON. Convierte del inglés simple a una estructura de prompt JSON).
Paso 2: Consigue una idea Si no tienes inspiración, puedes pedirle a Gemini en otro chat: «Give me 50 ideas for generating images in imagen 3» (Dame 50 ideas para generar imágenes).
Paso 3: La Conversión Copia una de esas ideas (o la tuya propia) y pégala en el chat donde configuraste al «Redactor JSON». Gemini te devolverá un bloque de texto con llaves { } y varias categorías etiquetadas. Ese es tu prompt JSON.
3. El flujo de trabajo en Whisk
- Copia todo el bloque de código JSON que te dio Gemini.
- Ve a Whisk.
- Pégalo directamente en la barra de texto (asegúrate de no tener nada seleccionado en las casillas de «Sujeto», «Escena» o «Estilo» para probarlo puro).
- Genera la imagen.
4. Comparativa: Texto Simple vs. JSON
Durante las pruebas, hemos visto diferencias notables al usar exactamente la misma idea con los dos métodos:
- Atmósfera: Un prompt de texto simple puede darte una imagen plana. El mismo prompt en JSON a menudo añade una iluminación dramática y profundidad de campo cinematográfica.
- Detalles Técnicos: En un ejemplo donde pedíamos una «cámara luchando por enfocar» y «luces parpadeantes», el texto simple fue ignorado casi por completo. El JSON, sin embargo, generó una imagen con ese efecto de desenfoque y movimiento realista que buscábamos.
- Interpretación: A veces el JSON puede cambiar el estilo (por ejemplo, haciendo que algo parezca más una ilustración 3D o más fotorealista), «puliendo» la imagen final.
Conclusión: Aunque el texto simple funciona bien para cosas rápidas, si buscas un resultado profesional, con mejor iluminación, composición y fidelidad a instrucciones complejas, tómate el minuto extra para convertir tu prompt a JSON. Es un pequeño paso técnico que da un gran salto de calidad.