2. Fundamentos N8N

0 de 14 lecciones completas (0%)

¡Deja de Malgastar Tokens! Cómo Hacer Web Scraping Limpio con n8n e IA

En esta lección vamos a ver una técnica fundamental para cuando trabajamos con n8n y queremos extraer información de páginas web (lo que conocemos como scraping).

Os voy a enseñar mi flujo de trabajo para limpiar toda esa información «sucia» que nos traemos de una web, utilizando el nodo Code y ayudándonos de la Inteligencia Artificial para que escriba el código por nosotros.

¡Vamos a ello!

Videotutorial Paso a Paso:

Aquí tienes el video completo donde realizo el proceso en tiempo real para que no te pierdas ningún detalle.

El Problema: El caos del HTML

Lo primero que solemos hacer para leer una web es utilizar el nodo HTTP Request. Ponemos la URL, ejecutamos y… ¿qué ocurre?

Que n8n nos devuelve toda la información del sitio, pero en formato HTML.

Si alguna vez habéis visto el código fuente de una web compleja, sabréis que es una mezcla gigante de etiquetas, estilos CSS, scripts y publicidad. Es información muy difícil de leer para un humano y, sobre todo, muy ineficiente para una máquina.

¿Por qué no debemos enviar esto directo a una IA?

Podrías pensar: «Bueno, le paso todo este HTML a ChatGPT o a mi agente de IA y que él busque lo que necesito».

Error. Esa es una mala opción por dos motivos:

  1. Gasto de dinero innecesario: Las etiquetas HTML consumen muchísimos tokens. Si le envías el código entero de una web compleja, vas a gastar tu presupuesto rápidamente en información basura que no aporta valor.
  2. Límites de contexto: Aunque los modelos actuales tienen ventanas de contexto grandes, enviar tanto «ruido» puede confundir al modelo o llenar la memoria innecesariamente.

La Solución: El Nodo Code y la IA como programador

La solución inteligente es limpiar esa información antes de procesarla. Queremos quedarnos solo con el texto legible y eliminar todo el código HTML.

Para hacer esto, utilizamos el nodo Code de n8n.

Yo suelo utilizar JavaScript (aunque Python ya está en beta, sigo prefiriendo JS por costumbre). Pero aquí viene la magia: No necesitas saber programar código complejo. Vamos a pedirle a una IA que lo haga por nosotros.

Paso 1: Pedir el código a la IA (Gemini, ChatGPT, Claude)

En lugar de rompernos la cabeza escribiendo el script, vamos a nuestro modelo de confianza (yo uso Gemini, pero sirve cualquiera) y le hacemos un prompt claro dándole contexto.

Un ejemplo de lo que yo le escribo sería:

«Estoy usando n8n con el nodo HTTP Request para obtener información de un sitio web. La información viene en HTML y no es legible por la cantidad de etiquetas. ¿Puedes crear un código en JavaScript para limpiar el HTML y dejar solo el texto legible para humanos?»

Paso 2: Implementar el código en n8n

La IA nos devolverá un código listo para usar, generalmente utilizando alguna librería o funciones nativas para eliminar etiquetas (regex, etc.).

  1. Copiamos ese código.
  2. Vamos a n8n, abrimos nuestro nodo Code.
  3. Pegamos el script.
  4. Importante: Debemos asegurarnos de vincular la entrada de datos. En el código, donde pide la variable de entrada (el texto sucio), seleccionamos el output del nodo anterior (el data o body del HTTP Request).

El Resultado: Datos limpios y ahorro de costes

Al ejecutar este nodo Code, verás la diferencia abismal:

  • Antes: Un bloque infinito de código ininteligible, scripts y etiquetas.
  • Después: Texto plano, limpio y ordenado (quizás con algunos saltos de línea \n, pero eso es perfectamente legible).

Ahora sí, con este texto limpio, puedes enviárselo a tu agente de IA para que busque correos electrónicos, analice a la competencia o resuma el contenido.

Resumen:
No tengáis miedo al nodo Code. Usad la Inteligencia Artificial para generar esos pequeños scripts de limpieza. Ahorraréis muchos tokens, dinero y vuestras automatizaciones serán mucho más profesionales y eficientes.

Espero que os sirva esta forma de trabajar y que la apliquéis en vuestros próximos scrapegos.

¡Nos vemos en la próxima lección!

Resumen de privacidad
Logo JeroCuevas.com

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.

Cookies estrictamente necesarias

Las cookies estrictamente necesarias tiene que activarse siempre para que podamos guardar tus preferencias de ajustes de cookies.

Analítica

Esta web utiliza Google Analytics para recopilar información anónima tal como el número de visitantes del sitio, o las páginas más populares.

Dejar esta cookie activa nos permite mejorar nuestra web.