4.2- Fundamentos de Ollama: Instalación, Modelos, Comandos, Servidor y Hardware

En este video te mostraré cómo descargar Ollama, cómo encontrar los modelos adecuados para ti, cómo verificar si tu hardware es suficiente, cómo ejecutar todo y cómo crear un servidor para llamar al endpoint de Ollama, ya que después usaremos esto en otras aplicaciones.

Esto será importante una y otra vez en este curso porque no solo podemos usar Ollama en cualquier aplicación LLM, sino que también podemos usarlo en N8N, en FlowWise, puedes usar Ollama donde quieras e incluso en tu terminal si lo prefieres.

Instalación de Ollama

Lo primero que tienes que hacer es ir a Ollama.com y todo lo que necesitas hacer es presionar el botón «Download». Es así de fácil. Después verás qué necesitas instalar según tu sistema operativo.

Está disponible para Mac, Linux o Windows. En mi caso, descargaré para Windows. Esta será una descarga pequeña, no es muy grande. Una vez descargado, simplemente lo instalas.

Es realmente muy fácil. Tan pronto como se descargue, lo encontrarás en tu carpeta de descargas y puedes abrirlo. Solo pesa 1GB aproximadamente.

Después tendrás tu instalación normal. Todo lo que tienes que hacer es presionar «Install» y seguir las instrucciones. Una vez completada la instalación, puede que no pase nada aparentemente, pero si miras en la esquina inferior derecha verás que Ollama está ejecutándose.

Si no está ejecutándose, aún está instalado. Si buscas «Ollama» en tu barra de búsqueda, lo encontrarás y podrás hacer clic en él.

Acceso a Ollama

Cuando Ollama se esté ejecutando, verás el icono en la bandeja del sistema. Puedes hacer clic derecho en él y seleccionar «View logs» o «Quit Ollama».

Una vez que esté ejecutándose, puedes acceder a Ollama desde tu terminal. Pero antes de poder usarlo, necesitas modelos.

Obtener Modelos

Para obtener modelos, regresa a la página web de Ollama y haz clic en «Models». Aquí puedes encontrar todo lo que necesitas usar.

Tipos de Modelos

Puedes filtrar a través de diferentes tipos de modelos:

Modelos de embeddings: Si quieres embebido contenido en una base de datos vectorial, usarías un modelo de embeddings
Modelos de visión: Para procesar imágenes. Un buen modelo de visión sería, por ejemplo, Llama 3
Modelos con herramientas (function calling): Si quieres hacer llamadas a funciones, puedes filtrar por «tools»

Modelos Recomendados

Algunos modelos destacados incluyen:

QWQ: De la serie Qwen, muy bueno para llamadas a funciones
Mistral Small 3.1: Excelente para herramientas
Llama 3.3, 3.2, 3.1: Modelos versátiles y potentes
DeepSeek R1: Modelo de razonamiento
Llama 3: Bueno para visión

Entendiendo los Parámetros de los Modelos

Cantidad de Parámetros

Los modelos vienen con diferentes cantidades de parámetros, por ejemplo:

1 mil millones de parámetros
4 mil millones de parámetros
12 mil millones de parámetros
27 mil millones de parámetros

Regla general: Cuantos más parámetros, más inteligente es el modelo. Piensa en los parámetros como los puntos de vista que el modelo usa para analizar tus preguntas.

Tamaño del Modelo y Requisitos de Hardware

Importante: El tamaño de los parámetros determina el tamaño del modelo:

Modelo de 27 mil millones de parámetros = ~70 GB
Modelo de 12 mil millones de parámetros = ~8 GB
Modelo de 4 mil millones de parámetros = ~3 GB

Requisito crítico: Para ejecutar un modelo localmente, debes tener aproximadamente la cantidad de VRAM que requiere el modelo.

Si un modelo requiere 3 GB, necesitas al menos 3 GB de VRAM
Si un modelo requiere 8 GB, necesitas al menos 8 GB de VRAM
Recomendación: Es mejor tener un 10-20% más de VRAM que el tamaño del modelo

Verificar tu Hardware

Para verificar cuánta VRAM tienes, puedes usar GPU-Z de TechPowerUp. Esta herramienta te mostrará exactamente cuánta memoria de video tienes disponible.

Tipos de Modelos (Cuantización)

Los modelos vienen en diferentes formatos de cuantización:

FP16 (Float16)

Es el modelo original completo
El más grande en tamaño
La mejor calidad

Modelos Cuantizados (Q8, Q4, Q2, etc.)

Q8: Aproximadamente la mitad del tamaño que FP16
Q4: Aproximadamente la mitad del tamaño que Q8 (este es el estándar)
Q2: Aproximadamente la mitad del tamaño que Q4
Q5 y Q6: Están entre Q4 y Q8

Analogía: Piensa en esto como la resolución de un video. Full HD es mejor que HD, pero si no puedes reproducir Full HD, HD sigue siendo bueno.

Recomendación: Usa siempre el modelo más grande que pueda manejar tu hardware.

Comandos Básicos de Ollama

Descargar un Modelo

ollama pull nombre-del-modelo

Listar Modelos Instalados

ollama list

Ejecutar un Modelo

ollama run nombre-del-modelo

Eliminar un Modelo

ollama remove nombre-del-modelo

Mostrar Información del Modelo

ollama show nombre-del-modelo

Iniciar el Servidor

ollama serve

Ejemplo Práctico

Supongamos que quieres un modelo para llamadas a funciones y tienes 8 GB de VRAM:

Ve a ollama.com/models
Filtra por «tools»
Busca «Llama 3.2»
Selecciona el modelo de 3 mil millones de parámetros (2 GB)
Copia el comando: ollama pull llama3.2:3b
Ejecuta en terminal: ollama pull llama3.2:3b
Una vez descargado: ollama run llama3.2:3b

Servidor de Ollama

Cuando ejecutas ollama serve, Ollama crea un servidor local que escucha en http://localhost:11434. Esto te permite:

Hacer llamadas API desde otras aplicaciones
Integrar Ollama con N8N, FlowWise, etc.
Usar Ollama como un servicio en tu red local

Modelos Dolphin (Sin Censura)

Los modelos Dolphin son versiones sin censura de modelos populares como Llama. Características:

Completamente sin censura
Sin sesgos políticos
Pueden responder preguntas que ChatGPT rechazaría
Control total sobre la alineación del modelo
Ideales para aplicaciones empresariales que requieren flexibilidad

Resumen de lo Aprendido

En este video has aprendido:

Cómo descargar e instalar Ollama
Cómo encontrar el modelo adecuado para tu hardware
Cómo entender los parámetros y la cuantización
Comandos esenciales para gestionar modelos
Cómo crear un servidor local
Diferencias entre modelos censurados y sin censura

Recordatorio importante: Siempre verifica tu hardware antes de descargar un modelo, usa un modelo apropiado para tu VRAM, y recuerda que puedes usar ollama serve para crear un endpoint que puedes llamar desde cualquier aplicación.

En el próximo video, comenzaremos a construir una pequeña aplicación y conectaremos nuestro servidor de Ollama.

Curso RAG Agents: Construye Aplicaciones y GPTs con APIs, MCP, LangChain y n8n

4- Implementando RAG con LLMs de Código Abierto: AnythingLLM y Ollama

4.2- Fundamentos de Ollama: Instalación, Modelos, Comandos, Servidor y Hardware

Instalación de Ollama

Acceso a Ollama

Obtener Modelos

Tipos de Modelos

Modelos Recomendados

Entendiendo los Parámetros de los Modelos

Cantidad de Parámetros

Tamaño del Modelo y Requisitos de Hardware

Verificar tu Hardware

Tipos de Modelos (Cuantización)

FP16 (Float16)

Modelos Cuantizados (Q8, Q4, Q2, etc.)

Comandos Básicos de Ollama

Descargar un Modelo

Listar Modelos Instalados

Ejecutar un Modelo

Eliminar un Modelo

Mostrar Información del Modelo

Iniciar el Servidor

Ejemplo Práctico

Servidor de Ollama

Modelos Dolphin (Sin Censura)

Resumen de lo Aprendido