En este video te mostraré cómo descargar Ollama, cómo encontrar los modelos adecuados para ti, cómo verificar si tu hardware es suficiente, cómo ejecutar todo y cómo crear un servidor para llamar al endpoint de Ollama, ya que después usaremos esto en otras aplicaciones.
Esto será importante una y otra vez en este curso porque no solo podemos usar Ollama en cualquier aplicación LLM, sino que también podemos usarlo en N8N, en FlowWise, puedes usar Ollama donde quieras e incluso en tu terminal si lo prefieres.
Instalación de Ollama
Lo primero que tienes que hacer es ir a Ollama.com y todo lo que necesitas hacer es presionar el botón «Download». Es así de fácil. Después verás qué necesitas instalar según tu sistema operativo.
Está disponible para Mac, Linux o Windows. En mi caso, descargaré para Windows. Esta será una descarga pequeña, no es muy grande. Una vez descargado, simplemente lo instalas.
Es realmente muy fácil. Tan pronto como se descargue, lo encontrarás en tu carpeta de descargas y puedes abrirlo. Solo pesa 1GB aproximadamente.
Después tendrás tu instalación normal. Todo lo que tienes que hacer es presionar «Install» y seguir las instrucciones. Una vez completada la instalación, puede que no pase nada aparentemente, pero si miras en la esquina inferior derecha verás que Ollama está ejecutándose.
Si no está ejecutándose, aún está instalado. Si buscas «Ollama» en tu barra de búsqueda, lo encontrarás y podrás hacer clic en él.
Acceso a Ollama
Cuando Ollama se esté ejecutando, verás el icono en la bandeja del sistema. Puedes hacer clic derecho en él y seleccionar «View logs» o «Quit Ollama».
Una vez que esté ejecutándose, puedes acceder a Ollama desde tu terminal. Pero antes de poder usarlo, necesitas modelos.
Obtener Modelos
Para obtener modelos, regresa a la página web de Ollama y haz clic en «Models». Aquí puedes encontrar todo lo que necesitas usar.
Tipos de Modelos
Puedes filtrar a través de diferentes tipos de modelos:
- Modelos de embeddings: Si quieres embebido contenido en una base de datos vectorial, usarías un modelo de embeddings
- Modelos de visión: Para procesar imágenes. Un buen modelo de visión sería, por ejemplo, Llama 3
- Modelos con herramientas (function calling): Si quieres hacer llamadas a funciones, puedes filtrar por «tools»
Modelos Recomendados
Algunos modelos destacados incluyen:
- QWQ: De la serie Qwen, muy bueno para llamadas a funciones
- Mistral Small 3.1: Excelente para herramientas
- Llama 3.3, 3.2, 3.1: Modelos versátiles y potentes
- DeepSeek R1: Modelo de razonamiento
- Llama 3: Bueno para visión
Entendiendo los Parámetros de los Modelos
Cantidad de Parámetros
Los modelos vienen con diferentes cantidades de parámetros, por ejemplo:
- 1 mil millones de parámetros
- 4 mil millones de parámetros
- 12 mil millones de parámetros
- 27 mil millones de parámetros
Regla general: Cuantos más parámetros, más inteligente es el modelo. Piensa en los parámetros como los puntos de vista que el modelo usa para analizar tus preguntas.
Tamaño del Modelo y Requisitos de Hardware
Importante: El tamaño de los parámetros determina el tamaño del modelo:
- Modelo de 27 mil millones de parámetros = ~70 GB
- Modelo de 12 mil millones de parámetros = ~8 GB
- Modelo de 4 mil millones de parámetros = ~3 GB
Requisito crítico: Para ejecutar un modelo localmente, debes tener aproximadamente la cantidad de VRAM que requiere el modelo.
- Si un modelo requiere 3 GB, necesitas al menos 3 GB de VRAM
- Si un modelo requiere 8 GB, necesitas al menos 8 GB de VRAM
- Recomendación: Es mejor tener un 10-20% más de VRAM que el tamaño del modelo
Verificar tu Hardware
Para verificar cuánta VRAM tienes, puedes usar GPU-Z de TechPowerUp. Esta herramienta te mostrará exactamente cuánta memoria de video tienes disponible.
Tipos de Modelos (Cuantización)
Los modelos vienen en diferentes formatos de cuantización:
FP16 (Float16)
- Es el modelo original completo
- El más grande en tamaño
- La mejor calidad
Modelos Cuantizados (Q8, Q4, Q2, etc.)
- Q8: Aproximadamente la mitad del tamaño que FP16
- Q4: Aproximadamente la mitad del tamaño que Q8 (este es el estándar)
- Q2: Aproximadamente la mitad del tamaño que Q4
- Q5 y Q6: Están entre Q4 y Q8
Analogía: Piensa en esto como la resolución de un video. Full HD es mejor que HD, pero si no puedes reproducir Full HD, HD sigue siendo bueno.
Recomendación: Usa siempre el modelo más grande que pueda manejar tu hardware.
Comandos Básicos de Ollama
Descargar un Modelo
ollama pull nombre-del-modelo
Listar Modelos Instalados
ollama list
Ejecutar un Modelo
ollama run nombre-del-modelo
Eliminar un Modelo
ollama remove nombre-del-modelo
Mostrar Información del Modelo
ollama show nombre-del-modelo
Iniciar el Servidor
ollama serve
Ejemplo Práctico
Supongamos que quieres un modelo para llamadas a funciones y tienes 8 GB de VRAM:
- Ve a ollama.com/models
- Filtra por «tools»
- Busca «Llama 3.2»
- Selecciona el modelo de 3 mil millones de parámetros (2 GB)
- Copia el comando:
ollama pull llama3.2:3b
- Ejecuta en terminal:
ollama pull llama3.2:3b
- Una vez descargado:
ollama run llama3.2:3b
Servidor de Ollama
Cuando ejecutas ollama serve
, Ollama crea un servidor local que escucha en http://localhost:11434
. Esto te permite:
- Hacer llamadas API desde otras aplicaciones
- Integrar Ollama con N8N, FlowWise, etc.
- Usar Ollama como un servicio en tu red local
Modelos Dolphin (Sin Censura)
Los modelos Dolphin son versiones sin censura de modelos populares como Llama. Características:
- Completamente sin censura
- Sin sesgos políticos
- Pueden responder preguntas que ChatGPT rechazaría
- Control total sobre la alineación del modelo
- Ideales para aplicaciones empresariales que requieren flexibilidad
Resumen de lo Aprendido
En este video has aprendido:
- Cómo descargar e instalar Ollama
- Cómo encontrar el modelo adecuado para tu hardware
- Cómo entender los parámetros y la cuantización
- Comandos esenciales para gestionar modelos
- Cómo crear un servidor local
- Diferencias entre modelos censurados y sin censura
Recordatorio importante: Siempre verifica tu hardware antes de descargar un modelo, usa un modelo apropiado para tu VRAM, y recuerda que puedes usar ollama serve
para crear un endpoint que puedes llamar desde cualquier aplicación.
En el próximo video, comenzaremos a construir una pequeña aplicación y conectaremos nuestro servidor de Ollama.