Aprende RAG y Bases de Datos Vectoriales a Fondo

0 de 31 lecciones completas (0%)

4. Estrategias de «Chunking»: Cómo Dividir tus Datos de Forma Inteligente

Una vez que tenemos nuestros documentos, el siguiente paso crítico en la etapa de ingesta es el chunking o «troceado». Como mencionamos, se trata de dividir documentos grandes en fragmentos más pequeños y manejables (chunks).

El objetivo es simple: queremos que cada fragmento sea lo suficientemente pequeño para ser recuperado de forma eficiente, pero lo suficientemente grande para contener una idea completa y coherente. La estrategia de chunking que elijas impactará directamente en la calidad de las respuestas de tu sistema RAG.

Existen tres métodos principales:

1. Chunking de Tamaño Fijo (Fixed-Size)

  • ¿Cómo funciona? Es el método más simple. Se divide el texto en fragmentos de un tamaño predefinido, por ejemplo, cada 500 caracteres.
  • Caso de Uso Ideal: Es perfecto para bases de conocimiento donde la información ya está naturalmente segmentada. Por ejemplo, una guía de atención al cliente en Notion o una web de Preguntas Frecuentes (FAQ), donde cada bloque o respuesta ("¿Cómo restablecer mi contraseña?", "Pasos para solucionar problemas de inicio de sesión") es una unidad de información autónoma.
  • Precaución: Este método puede cortar frases o párrafos por la mitad si el contenido no está previamente estructurado, lo que podría destruir el contexto.

2. Chunking Consciente del Contenido (Content-Aware)

  • ¿Cómo funciona? En lugar de un tamaño fijo, este método utiliza los elementos estructurales del propio documento como separadores. Se le indica al sistema que divida el texto cada vez que encuentre un encabezado, un salto de página, un párrafo nuevo o un marcador específico.
  • Caso de Uso Ideal: Manuales de productos o documentos bien formateados. Por ejemplo, podrías configurar el sistema para que cree un nuevo «chunk» por cada encabezado (<h2>) del manual. De esta forma, cada fragmento corresponderá a una sección completa del producto, preservando perfectamente el contexto.

3. Chunking Recursivo (Recursive)

  • ¿Cómo funciona? Es el método más sofisticado e «inteligente». Intenta dividir el texto manteniendo la cohesión semántica. Funciona con una jerarquía de separadores. Primero, intentará dividir por párrafos (doble salto de línea). Si los párrafos resultantes son demasiado grandes, los dividirá por frases (punto final). Si las frases aún son demasiado grandes, las dividirá por palabras (espacios).
  • Caso de Uso Ideal: Documentos complejos y muy jerárquicos, como textos legales, normativas o manuales técnicos. Estos documentos tienen una estructura de secciones, subsecciones, artículos y cláusulas que el chunking recursivo es capaz de respetar de manera muy eficaz, garantizando que el contexto no se pierda.

En esencia, el chunking es el arte de preparar tus datos para que, cuando el LLM necesite información, no tenga que «excavar» en un documento entero, sino que pueda recibir directamente el fragmento exacto y relevante que necesita y entienda todo su contexto.

Resumen de privacidad
Logo JeroCuevas.com

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.

Cookies estrictamente necesarias

Las cookies estrictamente necesarias tiene que activarse siempre para que podamos guardar tus preferencias de ajustes de cookies.

Analítica

Esta web utiliza Google Analytics para recopilar información anónima tal como el número de visitantes del sitio, o las páginas más populares.

Dejar esta cookie activa nos permite mejorar nuestra web.