Curso RAG Agents: Construye Aplicaciones y GPTs con APIs, MCP, LangChain y n8n

0 de 63 lecciones completas (0%)

4- Implementando RAG con LLMs de Código Abierto: AnythingLLM y Ollama

4.2- Fundamentos de Ollama: Instalación, Modelos, Comandos, Servidor y Hardware

No tienes acceso a esta lección

Por favor, inscríbete o accede para acceder al contenido del curso.

En este video te mostraré cómo descargar Ollama, cómo encontrar los modelos adecuados para ti, cómo verificar si tu hardware es suficiente, cómo ejecutar todo y cómo crear un servidor para llamar al endpoint de Ollama, ya que después usaremos esto en otras aplicaciones.

Esto será importante una y otra vez en este curso porque no solo podemos usar Ollama en cualquier aplicación LLM, sino que también podemos usarlo en N8N, en FlowWise, puedes usar Ollama donde quieras e incluso en tu terminal si lo prefieres.

Instalación de Ollama

Lo primero que tienes que hacer es ir a Ollama.com y todo lo que necesitas hacer es presionar el botón «Download». Es así de fácil. Después verás qué necesitas instalar según tu sistema operativo.

Está disponible para Mac, Linux o Windows. En mi caso, descargaré para Windows. Esta será una descarga pequeña, no es muy grande. Una vez descargado, simplemente lo instalas.

Es realmente muy fácil. Tan pronto como se descargue, lo encontrarás en tu carpeta de descargas y puedes abrirlo. Solo pesa 1GB aproximadamente.

Después tendrás tu instalación normal. Todo lo que tienes que hacer es presionar «Install» y seguir las instrucciones. Una vez completada la instalación, puede que no pase nada aparentemente, pero si miras en la esquina inferior derecha verás que Ollama está ejecutándose.

Si no está ejecutándose, aún está instalado. Si buscas «Ollama» en tu barra de búsqueda, lo encontrarás y podrás hacer clic en él.

Acceso a Ollama

Cuando Ollama se esté ejecutando, verás el icono en la bandeja del sistema. Puedes hacer clic derecho en él y seleccionar «View logs» o «Quit Ollama».

Una vez que esté ejecutándose, puedes acceder a Ollama desde tu terminal. Pero antes de poder usarlo, necesitas modelos.

Obtener Modelos

Para obtener modelos, regresa a la página web de Ollama y haz clic en «Models». Aquí puedes encontrar todo lo que necesitas usar.

Tipos de Modelos

Puedes filtrar a través de diferentes tipos de modelos:

  • Modelos de embeddings: Si quieres embebido contenido en una base de datos vectorial, usarías un modelo de embeddings
  • Modelos de visión: Para procesar imágenes. Un buen modelo de visión sería, por ejemplo, Llama 3
  • Modelos con herramientas (function calling): Si quieres hacer llamadas a funciones, puedes filtrar por «tools»

Modelos Recomendados

Algunos modelos destacados incluyen:

  • QWQ: De la serie Qwen, muy bueno para llamadas a funciones
  • Mistral Small 3.1: Excelente para herramientas
  • Llama 3.3, 3.2, 3.1: Modelos versátiles y potentes
  • DeepSeek R1: Modelo de razonamiento
  • Llama 3: Bueno para visión

Entendiendo los Parámetros de los Modelos

Cantidad de Parámetros

Los modelos vienen con diferentes cantidades de parámetros, por ejemplo:

  • 1 mil millones de parámetros
  • 4 mil millones de parámetros
  • 12 mil millones de parámetros
  • 27 mil millones de parámetros

Regla general: Cuantos más parámetros, más inteligente es el modelo. Piensa en los parámetros como los puntos de vista que el modelo usa para analizar tus preguntas.

Tamaño del Modelo y Requisitos de Hardware

Importante: El tamaño de los parámetros determina el tamaño del modelo:

  • Modelo de 27 mil millones de parámetros = ~70 GB
  • Modelo de 12 mil millones de parámetros = ~8 GB
  • Modelo de 4 mil millones de parámetros = ~3 GB

Requisito crítico: Para ejecutar un modelo localmente, debes tener aproximadamente la cantidad de VRAM que requiere el modelo.

  • Si un modelo requiere 3 GB, necesitas al menos 3 GB de VRAM
  • Si un modelo requiere 8 GB, necesitas al menos 8 GB de VRAM
  • Recomendación: Es mejor tener un 10-20% más de VRAM que el tamaño del modelo

Verificar tu Hardware

Para verificar cuánta VRAM tienes, puedes usar GPU-Z de TechPowerUp. Esta herramienta te mostrará exactamente cuánta memoria de video tienes disponible.

Tipos de Modelos (Cuantización)

Los modelos vienen en diferentes formatos de cuantización:

FP16 (Float16)

  • Es el modelo original completo
  • El más grande en tamaño
  • La mejor calidad

Modelos Cuantizados (Q8, Q4, Q2, etc.)

  • Q8: Aproximadamente la mitad del tamaño que FP16
  • Q4: Aproximadamente la mitad del tamaño que Q8 (este es el estándar)
  • Q2: Aproximadamente la mitad del tamaño que Q4
  • Q5 y Q6: Están entre Q4 y Q8

Analogía: Piensa en esto como la resolución de un video. Full HD es mejor que HD, pero si no puedes reproducir Full HD, HD sigue siendo bueno.

Recomendación: Usa siempre el modelo más grande que pueda manejar tu hardware.

Comandos Básicos de Ollama

Descargar un Modelo

ollama pull nombre-del-modelo

Listar Modelos Instalados

ollama list

Ejecutar un Modelo

ollama run nombre-del-modelo

Eliminar un Modelo

ollama remove nombre-del-modelo

Mostrar Información del Modelo

ollama show nombre-del-modelo

Iniciar el Servidor

ollama serve

Ejemplo Práctico

Supongamos que quieres un modelo para llamadas a funciones y tienes 8 GB de VRAM:

  1. Ve a ollama.com/models
  2. Filtra por «tools»
  3. Busca «Llama 3.2»
  4. Selecciona el modelo de 3 mil millones de parámetros (2 GB)
  5. Copia el comando: ollama pull llama3.2:3b
  6. Ejecuta en terminal: ollama pull llama3.2:3b
  7. Una vez descargado: ollama run llama3.2:3b

Servidor de Ollama

Cuando ejecutas ollama serve, Ollama crea un servidor local que escucha en http://localhost:11434. Esto te permite:

  • Hacer llamadas API desde otras aplicaciones
  • Integrar Ollama con N8N, FlowWise, etc.
  • Usar Ollama como un servicio en tu red local

Modelos Dolphin (Sin Censura)

Los modelos Dolphin son versiones sin censura de modelos populares como Llama. Características:

  • Completamente sin censura
  • Sin sesgos políticos
  • Pueden responder preguntas que ChatGPT rechazaría
  • Control total sobre la alineación del modelo
  • Ideales para aplicaciones empresariales que requieren flexibilidad

Resumen de lo Aprendido

En este video has aprendido:

  1. Cómo descargar e instalar Ollama
  2. Cómo encontrar el modelo adecuado para tu hardware
  3. Cómo entender los parámetros y la cuantización
  4. Comandos esenciales para gestionar modelos
  5. Cómo crear un servidor local
  6. Diferencias entre modelos censurados y sin censura

Recordatorio importante: Siempre verifica tu hardware antes de descargar un modelo, usa un modelo apropiado para tu VRAM, y recuerda que puedes usar ollama serve para crear un endpoint que puedes llamar desde cualquier aplicación.

En el próximo video, comenzaremos a construir una pequeña aplicación y conectaremos nuestro servidor de Ollama.

Resumen de privacidad
Logo JeroCuevas.com

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.

Cookies de terceros

Esta web utiliza Google Analytics para recopilar información anónima tal como el número de visitantes del sitio, o las páginas más populares.

Dejar esta cookie activa nos permite mejorar nuestra web.