¡Deja de Malgastar Tokens! Cómo Hacer Web Scraping Limpio con n8n e IA

Si alguna vez has intentado extraer información de una página web usando n8n, seguramente te has topado con este problema. Utilizas un nodo HTTP para obtener el contenido de la web y lo que recibes es un amasijo de código HTML, CSS y otros lenguajes de programación que, para un ser humano, es prácticamente ilegible.

Sin embargo, los datos que necesitas están ahí, ocultos en ese caos. Quieres esa información para analizar a tu competencia, obtener listas de correos, buscar datos de clientes o simplemente para alimentar otro proceso en tu automatización.

El Error que te Cuesta Dinero

El impulso natural sería tomar todo ese contenido HTML y enviárselo directamente a un modelo de IA como GPT para que lo procese. Aquí es donde surgen dos grandes problemas:

Límite de Contexto: Lo más probable es que la cantidad de código sea tan grande que exceda la «ventana de contexto» del modelo de IA. El resultado es un error y tu automatización se detiene.
Coste de Tokens: Incluso si utilizas un modelo con una ventana de contexto gigantesca (como las versiones más avanzadas de GPT o Gemini), estarás malgastando tu dinero. La gran mayoría de la información que envías es código irrelevante (etiquetas HTML, estilos CSS, scripts). Estás pagando por procesar «tokens» de basura que no aportan ningún valor.

¿Por qué pagarle a la IA para que limpie y analice información que podemos filtrar nosotros mismos de forma gratuita y eficiente?

La Solución: El Nodo de Código

Aquí es donde te voy a enseñar un truco que cambiará tus flujos de trabajo de web scraping. Vamos a añadir un simple paso para eliminar todo ese «ruido» y obtener únicamente el texto puro que nos interesa.

Para ello, usaremos el nodo de Código (Code Node) de n8n.

¡Y no te asustes! No necesitas saber programar. Yo mismo no soy un experto en código. Simplemente le pedí a ChatGPT que escribiera un pequeño script para mí, y tú puedes hacer exactamente lo mismo.

La función de este código es muy simple: toma el contenido HTML del paso anterior, elimina todas las etiquetas, estilos y scripts, y devuelve únicamente el texto limpio y legible.

Crear este script con una IA es tan rápido que resulta más eficiente pedirle uno nuevo cada vez que lo necesites, en lugar de buscar y copiar uno que guardaste anteriormente.

Viendo la Magia en Acción: Antes y Después

Echemos un vistazo a un ejemplo práctico.

Antes (Salida del Nodo HTTP): Usamos un nodo HTTP para obtener el contenido de generalmills.com. La salida es un documento larguísimo y caótico, lleno de etiquetas como <html>, <class>, <div>, y referencias a estilos CSS. Es imposible encontrar la información útil a simple vista.
Después (Salida del Nodo de Código): Pasamos esa salida caótica por nuestro nodo de Código. El resultado es un texto perfectamente limpio y estructurado, listo para ser utilizado.

Aplicaciones Prácticas de Esta Técnica

Con este método, las posibilidades son enormes:

Análisis de Competencia: Puedes crear un flujo de trabajo que extraiga el mapa del sitio (sitemap) de un competidor, recorra cada una de sus páginas, limpie el contenido con el nodo de Código y luego envíe el texto a una IA para que resuma su estrategia de productos, marketing o tono de comunicación.
Reclutamiento y Captación de Talento: Si eres reclutador, puedes extraer las páginas de «Equipo» o «Sobre nosotros» de empresas objetivo para identificar perfiles interesantes y obtener sus nombres y cargos.
Investigación de Mercado: Extrae artículos, blogs o foros para analizar opiniones sobre un producto o una marca, obteniendo datos limpios para un análisis de sentimiento.

En resumen, este proceso te permite obtener exactamente los datos que necesitas, asegurando que tus flujos de trabajo sean fluidos, eficientes y, sobre todo, económicos, ya que solo pagarás por los tokens que realmente importan.

El Error que te Cuesta Dinero

La Solución: El Nodo de Código

Viendo la Magia en Acción: Antes y Después

Aplicaciones Prácticas de Esta Técnica

Te puede interesar