En esta sección hemos aprendido muchas cosas importantes.
Fundamentos de Ollama
Comenzamos con los conceptos básicos de Ollama, donde aprendiste:
- Cómo descargar Ollama: El proceso de instalación es sencillo y directo
- Cómo encontrar los modelos correctos: Sabes identificar qué modelo se adapta mejor a tus necesidades
- Qué tamaño de modelo puedes ejecutar: Todo depende de las capacidades de tu máquina local
Requisitos Técnicos Fundamentales
Lo primero y más importante: Necesitas conocer cuánta VRAM (memoria de video) tiene tu equipo.
Una vez que sepas esto, debes:
- Encontrar el modelo adecuado con el tamaño de parámetros correcto
- Verificar que el modelo tenga capacidad de llamadas duales (si planeas usar esta función)
- Asegurarte de que el modelo no sea más grande que tu VRAM disponible
Comandos y Gestión de Modelos
Una vez que tengas claros estos conceptos, solo necesitas usar los comandos correctos. Puedes encontrar todos estos comandos en el repositorio de GitHub.
Lo que puedes hacer desde la terminal:
- Descargar modelos usando el comando pull
- Eliminar modelos que ya no necesites
- Listar todos los modelos instalados
- Y mucho más
Todo esto se hace desde la terminal, pero es relativamente fácil de dominar.
Configuración del Servidor y la Interfaz
Cuando Ollama esté funcionando, puedes:
- Crear un servidor local
- Descargar AnythingLLM
- Conectar el servidor de Ollama con AnythingLLM
- Obtener una interfaz gráfica fácil de usar para tu Ollama
Creación de Aplicaciones RAG Locales
Una vez que tengas tu interfaz configurada, puedes crear una aplicación RAG que funcione completamente en tu máquina local.
Estrategia de Chunking (Fragmentación)
Antes de crear tu aplicación, es crucial que uses la estrategia correcta de chunking y solapamiento:
- Historias largas o extensas: Usa un tamaño de chunk más grande
- Historias cortas: Usa un tamaño de chunk más pequeño
- Números y datos: Usa el tamaño de chunk más pequeño posible
En AnythingLLM trabajamos con:
- Tamaños entre 100 y 1000 caracteres
- El solapamiento debe ser aproximadamente del 1% al 5%
Configuración del Workspace
Para configurar tu aplicación RAG:
- Crea tu espacio de trabajo (workspace)
- Define un prompt del sistema
- Configura los resultados top-k correctos
- Opcionalmente, incluye el historial de chat
- Observa todo en la base de datos vectorial
- ¡Ya puedes conversar con tu aplicación RAG!
Evaluación Honesta de las Capacidades
La interfaz es realmente fácil de usar, pero debo ser honesto: las habilidades de agente no son excelentes.
Mi recomendación: Úsalo principalmente como una aplicación RAG local. Asegúrate de configurar la temperatura adecuada y tendrás un buen modelo con el que conversar en una interfaz agradable y muy fácil de usar.
Capacidades de Agente
También vimos que existen capacidades de agente disponibles. Puedes experimentar un poco con estas funciones; tal vez funcionen mejor para ti de lo que funcionaron para mí.
Lo Que Viene Después
Si las capacidades de agente no te satisfacen completamente, nos vemos en la siguiente sección, que se vuelve más emocionante. Comenzaremos a trabajar en modo desarrollador usando herramientas como:
- LangChain
- LangGraph
- FlowWise
Con estas herramientas construiremos nuestras propias aplicaciones RAG con:
- Mucho más control
- Muchas más posibilidades
- Conexiones con APIs
- ¡Y mucha diversión!
Reflexión Final sobre el Aprendizaje
Has aprendido mucho en esta sección, y quiero recordarte qué significa realmente aprender:
«Aprender es: mismas circunstancias, pero diferente comportamiento»
Hasta ahora, es posible que no tuvieras una aplicación RAG funcionando localmente en tu máquina de la manera fácil.
Mi sugerencia: Crea una. Solo entonces habrás aprendido realmente.
Si este curso te está siendo útil, estoy seguro de que también ayudará a algunos de tus amigos, así que puedes compartirlo.
¡Gracias por eso y nos vemos en la siguiente sección!