Curso RAG Agents: Construye Aplicaciones y GPTs con APIs, MCP, LangChain y n8n

0 de 63 lecciones completas (0%)

3- Práctica con RAG usando ChatGPT y GPTs Personalizados

3.3- Transformar una Página Web HTML en un Chatbot RAG

No tienes acceso a esta lección

Por favor, inscríbete o accede para acceder al contenido del curso.

Introducción

En este video aprenderás cómo entrenar una aplicación RAG utilizando contenido HTML de páginas web de manera muy sencilla. Comenzaremos con páginas web estáticas, que es el método más fácil.

Nota importante: Más adelante en el curso veremos:

  • Scraping dinámico
  • Scraping con n8n (automatización)
  • Técnicas más avanzadas para rastrear URLs automáticamente

El Problema con el Contenido Web

Cuando visitas una página web (por ejemplo, la documentación de LangChain), te encuentras con varios desafíos:

Problemas comunes:

  • Bloques de código mezclados con texto
  • Código oculto que no se ve a simple vista
  • Imágenes que interrumpen el flujo del texto
  • Contenido desordenado y mal estructurado
  • Enlaces internos que llevan a subpáginas

Métodos tradicionales (no recomendados):

  1. Copiar todo con Ctrl+A: Obtienes contenido desordenado
  2. Extraer HTML manualmente: Demasiado código innecesario
  3. Usar convertidores HTML a Markdown: Proceso complejo y tedioso

La Solución: FireCrawl

FireCrawl es la herramienta que simplifica todo este proceso.

¿Qué es FireCrawl?

  • Herramienta web que extrae contenido de páginas HTML
  • Convierte automáticamente el contenido a formato Markdown
  • Estructura la información perfectamente para LLMs
  • Elimina código innecesario y elementos visuales

Dos operaciones principales:

1. Scrape (Raspado)

  • Extrae contenido de una sola URL
  • Convierte todo a Markdown estructurado
  • Perfecto para páginas individuales

2. Crawl (Rastreo)

  • Extrae múltiples URLs relacionadas
  • Encuentra todos los enlaces internos
  • Ideal para sitios web completos

Paso a Paso: Crear tu Chatbot RAG

Paso 1: Acceder a FireCrawl

  1. Busca «FireCrawl» en Google
  2. Ve al Playground de FireCrawl
  3. Selecciona la operación que necesites

Paso 2: Scraping de Contenido

  1. Copia la URL de la página que quieres usar (ej: documentación de LangGraph)
  2. Pega la URL en el campo «Single URL»
  3. Presiona «Run» y espera a que procese
  4. Obtén el Markdown perfectamente estructurado

Paso 3: Guardar el Contenido

  1. Copia todo el Markdown generado
  2. Crea un archivo de texto (ej: «langgraph.txt»)
  3. Pega el contenido en el archivo
  4. Guarda el archivo

Paso 4: Crear el GPT personalizado

  1. Ve a ChatGPTMyGPTs
  2. «Create a new GPT»
  3. Nombre: «LangGraph Helper» (o el que prefieras)
  4. Descripción: «Helps with LangGraph docs»

Paso 5: Configurar las Instrucciones

Eres un asistente útil que busca en tu base de datos vectorial 
información sobre LangGraph para ayudar a los usuarios.

Paso 6: Subir Conocimiento

  1. «Upload files» → Selecciona tu archivo .txt
  2. Desactiva: Búsqueda web, Canvas, generación de imágenes, intérprete de código
  3. No añadas acciones adicionales
  4. Presiona «Create»

Ejemplo Práctico: Testear tu Chatbot

Pregunta de prueba:

«¿Cómo es la configuración para LangGraph? ¿Qué paquetes requeridos y configuración necesito en mi entorno?»

Respuesta esperada de tu GPT personalizado:

  • Instalación específica: pip install langgraph langsmith langchain
  • Paquetes adicionales necesarios
  • Configuración exacta de variables de entorno
  • Códigos de ejemplo específicos de la documentación

Comparación con ChatGPT estándar:

  • GPT estándar: Respuestas genéricas y menos precisas
  • Tu GPT personalizado: Información exacta de la documentación oficial

Ventajas de este Método

Simplicidad: Solo necesitas la URL de la página ✅ Precisión: Información directa de la fuente oficial ✅ Estructura: Contenido perfectamente organizado para IA ✅ Eficiencia: Sin contenido redundante o innecesario ✅ Especialización: Tu chatbot se convierte en un experto en el tema

Casos de Uso Ideales

  • Documentación técnica
  • Tutoriales específicos
  • Guías de productos
  • Manuales de herramientas
  • Cualquier contenido web estructurado

Limitaciones Actuales

  • Solo para páginas estáticas
  • Una página a la vez
  • No incluye subpáginas automáticamente

Próximos Pasos

En las siguientes lecciones del curso aprenderás:

  • Scraping de páginas dinámicas
  • Automatización completa con n8n
  • Rastreo masivo de sitios web
  • Técnicas avanzadas de procesamiento

Ejercicio Práctico

  1. Elige una página de documentación que te interese
  2. Úsala con FireCrawl para generar Markdown
  3. Crea tu propio GPT especializado
  4. Prueba con preguntas específicas
  5. Compara con las respuestas de ChatGPT estándar

Resumen

Has aprendido a transformar cualquier página web HTML en un chatbot RAG especializado usando FireCrawl y ChatGPT. Este método te permite crear asistentes virtuales expertos en temas específicos de forma rápida y sencilla.

Recuerda: Este es solo el comienzo. Las técnicas más avanzadas que veremos después te permitirán automatizar completamente este proceso para sitios web enteros.

Resumen de privacidad
Logo JeroCuevas.com

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.

Cookies de terceros

Esta web utiliza Google Analytics para recopilar información anónima tal como el número de visitantes del sitio, o las páginas más populares.

Dejar esta cookie activa nos permite mejorar nuestra web.