Introducción
En este video aprenderás cómo entrenar una aplicación RAG utilizando contenido HTML de páginas web de manera muy sencilla. Comenzaremos con páginas web estáticas, que es el método más fácil.
Nota importante: Más adelante en el curso veremos:
- Scraping dinámico
- Scraping con n8n (automatización)
- Técnicas más avanzadas para rastrear URLs automáticamente
El Problema con el Contenido Web
Cuando visitas una página web (por ejemplo, la documentación de LangChain), te encuentras con varios desafíos:
Problemas comunes:
- Bloques de código mezclados con texto
- Código oculto que no se ve a simple vista
- Imágenes que interrumpen el flujo del texto
- Contenido desordenado y mal estructurado
- Enlaces internos que llevan a subpáginas
Métodos tradicionales (no recomendados):
- Copiar todo con Ctrl+A: Obtienes contenido desordenado
- Extraer HTML manualmente: Demasiado código innecesario
- Usar convertidores HTML a Markdown: Proceso complejo y tedioso
La Solución: FireCrawl
FireCrawl es la herramienta que simplifica todo este proceso.
¿Qué es FireCrawl?
- Herramienta web que extrae contenido de páginas HTML
- Convierte automáticamente el contenido a formato Markdown
- Estructura la información perfectamente para LLMs
- Elimina código innecesario y elementos visuales
Dos operaciones principales:
1. Scrape (Raspado)
- Extrae contenido de una sola URL
- Convierte todo a Markdown estructurado
- Perfecto para páginas individuales
2. Crawl (Rastreo)
- Extrae múltiples URLs relacionadas
- Encuentra todos los enlaces internos
- Ideal para sitios web completos
Paso a Paso: Crear tu Chatbot RAG
Paso 1: Acceder a FireCrawl
- Busca «FireCrawl» en Google
- Ve al Playground de FireCrawl
- Selecciona la operación que necesites
Paso 2: Scraping de Contenido
- Copia la URL de la página que quieres usar (ej: documentación de LangGraph)
- Pega la URL en el campo «Single URL»
- Presiona «Run» y espera a que procese
- Obtén el Markdown perfectamente estructurado
Paso 3: Guardar el Contenido
- Copia todo el Markdown generado
- Crea un archivo de texto (ej: «langgraph.txt»)
- Pega el contenido en el archivo
- Guarda el archivo
Paso 4: Crear el GPT personalizado
- Ve a ChatGPT → MyGPTs
- «Create a new GPT»
- Nombre: «LangGraph Helper» (o el que prefieras)
- Descripción: «Helps with LangGraph docs»
Paso 5: Configurar las Instrucciones
Eres un asistente útil que busca en tu base de datos vectorial
información sobre LangGraph para ayudar a los usuarios.
Paso 6: Subir Conocimiento
- «Upload files» → Selecciona tu archivo .txt
- Desactiva: Búsqueda web, Canvas, generación de imágenes, intérprete de código
- No añadas acciones adicionales
- Presiona «Create»
Ejemplo Práctico: Testear tu Chatbot
Pregunta de prueba:
«¿Cómo es la configuración para LangGraph? ¿Qué paquetes requeridos y configuración necesito en mi entorno?»
Respuesta esperada de tu GPT personalizado:
- Instalación específica:
pip install langgraph langsmith langchain
- Paquetes adicionales necesarios
- Configuración exacta de variables de entorno
- Códigos de ejemplo específicos de la documentación
Comparación con ChatGPT estándar:
- GPT estándar: Respuestas genéricas y menos precisas
- Tu GPT personalizado: Información exacta de la documentación oficial
Ventajas de este Método
✅ Simplicidad: Solo necesitas la URL de la página ✅ Precisión: Información directa de la fuente oficial ✅ Estructura: Contenido perfectamente organizado para IA ✅ Eficiencia: Sin contenido redundante o innecesario ✅ Especialización: Tu chatbot se convierte en un experto en el tema
Casos de Uso Ideales
- Documentación técnica
- Tutoriales específicos
- Guías de productos
- Manuales de herramientas
- Cualquier contenido web estructurado
Limitaciones Actuales
- Solo para páginas estáticas
- Una página a la vez
- No incluye subpáginas automáticamente
Próximos Pasos
En las siguientes lecciones del curso aprenderás:
- Scraping de páginas dinámicas
- Automatización completa con n8n
- Rastreo masivo de sitios web
- Técnicas avanzadas de procesamiento
Ejercicio Práctico
- Elige una página de documentación que te interese
- Úsala con FireCrawl para generar Markdown
- Crea tu propio GPT especializado
- Prueba con preguntas específicas
- Compara con las respuestas de ChatGPT estándar
Resumen
Has aprendido a transformar cualquier página web HTML en un chatbot RAG especializado usando FireCrawl y ChatGPT. Este método te permite crear asistentes virtuales expertos en temas específicos de forma rápida y sencilla.
Recuerda: Este es solo el comienzo. Las técnicas más avanzadas que veremos después te permitirán automatizar completamente este proceso para sitios web enteros.