Aprende RAG y Bases de Datos Vectoriales a Fondo

0 de 31 lecciones completas (0%)

8. Demostración Práctica con el Tokenizer de OpenAI

¡Hola! Después de la teoría de la última lección, vamos a la práctica. En este vídeo, te mostraré una herramienta esencial que debes tener siempre a mano: el Tokenizer de OpenAI.

Esta página web oficial nos permite hacer algo fundamental: pegar cualquier texto y ver al instante cómo lo descompone un modelo de IA en tokens, cuántos son y, por lo tanto, estimar el coste de nuestras interacciones con la API.

También te dejo el enlace a los precios del uso de APIs los diferentes modelos de OpenAI

Entendiendo la Herramienta

Cuando pegamos un texto en el Tokenizer, nos muestra:

  1. El texto tokenizado: Veremos el texto dividido por colores, donde cada color representa un token.
  2. El número de tokens: El recuento total, que es lo que determina el coste.
  3. El número de caracteres: Para tener una referencia.
  4. Los IDs de los tokens: El número de identificación único de cada token en el vocabulario del modelo.

Regla General: Como referencia para el inglés, OpenAI nos dice que 1 token corresponde aproximadamente a 4 caracteres, o lo que es lo mismo, unas ¾ de palabra (100 tokens ≈ 75 palabras y 1.000.000 = 750.000 palabras). En español, esta relación puede variar un poco, y solemos necesitar algunos tokens más por palabra, pero nos sirve como una buena estimación inicial.

Caso Práctico: Optimizando un Prompt para Ahorrar Costes

Vamos a ver un ejemplo real de cómo la ingeniería de prompts no solo trata de obtener mejores respuestas, sino también de ser más eficientes y ahorrar dinero.

Prompt 1: El Extenso (Alto Uso de Tokens)

Imagina que usamos este prompt para definir el comportamiento de nuestro agente:

«Eres un asistente de IA avanzado, diseñado para proporcionar respuestas detalladas, matizadas y específicas a preguntas complejas. Tu objetivo es ayudar a los usuarios a resolver problemas de manera clara, precisa y concisa, manteniendo al mismo tiempo un tono conversacional y amigable. La respuesta debe ser exhaustiva, incorporando información de contexto relevante, ejemplos prácticos y cualquier contexto explícito indicado en la consulta. Por ejemplo, si se te pregunta sobre algoritmos de aprendizaje automático, incluye explicaciones, casos de uso y sus ventajas o desventajas relativas. Asegura la claridad y la accesibilidad para usuarios con distintos niveles de experiencia.»

  • Resultado: 131 tokens y 686 caracteres.

Este prompt es muy detallado, pero quizás demasiado «hablador». ¿Podemos decir lo mismo con menos?

Prompt 2: El Equilibrado (Uso Optimizado de Tokens)

Ahora, probemos con una versión refinada y más directa:

«Eres un asistente de IA encargado de proporcionar respuestas claras, precisas y concisas. Asegúrate de que las respuestas incluyan ejemplos prácticos y detalles relevantes. Adapta tu explicación al nivel de experiencia del usuario, utilizando un lenguaje sencillo y evitando la jerga innecesaria.»

  • Resultado: 61 tokens y 296 caracteres.

Análisis: ¡Hemos reducido el coste a más de la mitad! La clave aquí es que el Prompt 2 (El Equilibrado) logra comunicar las mismas instrucciones esenciales que el primer prompt. Es más directo, elimina la palabrería y conserva el núcleo del mensaje. Esto, multiplicado por miles o millones de llamadas a la API, representa un ahorro enorme.

Prompt 3: El Mínimo (Uso Bajo de Tokens)

Por curiosidad, veamos una versión extremadamente corta:

«Responde de forma clara y concisa. Usa ejemplos si es necesario.»

  • Resultado: 15 tokens y 64 caracteres.

Aunque este prompt es el más barato, es demasiado vago. Podría funcionar para tareas muy simples, pero probablemente no daría los resultados consistentes y de alta calidad que buscamos en un agente más complejo.

La Lección Más Importante

La ingeniería de prompts es un arte de equilibrio. Tu objetivo es crear el prompt más corto y eficiente posible que siga produciendo de manera fiable el resultado deseado.

Esta herramienta de tokenización es tu mejor aliada en este proceso. Te animo a que la uses constantemente:

  • Coge los prompts que usas en tus proyectos.
  • Pégalos en el Tokenizer.
  • Experimenta eliminando palabras, reformulando frases y observa cómo impacta en el recuento de tokens.

Te sorprenderá lo mucho que puedes optimizar. Esta no es solo una curiosidad técnica; es una habilidad crucial para construir sistemas de IA eficientes, rentables y bien diseñados.

¡Gracias y nos vemos en la próxima lección!

Resumen de privacidad
Logo JeroCuevas.com

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.

Cookies estrictamente necesarias

Las cookies estrictamente necesarias tiene que activarse siempre para que podamos guardar tus preferencias de ajustes de cookies.

Analítica

Esta web utiliza Google Analytics para recopilar información anónima tal como el número de visitantes del sitio, o las páginas más populares.

Dejar esta cookie activa nos permite mejorar nuestra web.