Instalé IA en un servidor local con una gráfica de 11 años... ¿Funcionará? Mira el resultado | IA con Nvidia GTX 960
Instalé IA en un servidor local con una gráfica de 11 años... ¿Funcionará? Mira el resultado
Ollama + Open WebUI sobre hardware real: Intel i5-6600K, GTX 960 con 4 GB de VRAM y Ubuntu 24.04. Un experimento práctico con resultados inesperadamente buenos.
¿De qué va este experimento?
En el homelab hay una máquina que lleva años encendida haciendo de servidor de ficheros y proxy inverso. Tiene un Intel Core i5-6600K y una NVIDIA GeForce GTX 960 de 4 GB de VRAM lanzada en 2015. La pregunta era inevitable: ¿puede esa GPU correr modelos de lenguaje locales de forma útil?
Ollama es un motor de inferencia local que permite descargar y ejecutar LLMs con un solo comando. Combinado con Open WebUI —una interfaz web tipo ChatGPT— ofrece un asistente de IA privado, sin suscripciones y sin que tus datos salgan del servidor.
Lo que incluye este post: Diagnóstico del hardware, instalación de drivers NVIDIA 570-server, configuración de Ollama, despliegue de Open WebUI con Docker, pruebas de inferencia reales y los modelos que mejor funcionan con 4 GB de VRAM.
Características principales
Instalación en un comando
Script oficial que detecta la GPU, instala dependencias y crea el servicio systemd automáticamente.
Soporte GPU / CPU
Usa VRAM si hay GPU compatible. Si el modelo no cabe, hace offloading parcial a RAM del sistema.
Biblioteca de modelos
Llama, Gemma, Qwen, Phi, Mistral, DeepSeek y decenas más. Un solo comando para descargar.
API compatible OpenAI
Cualquier herramienta que use la API de OpenAI puede apuntar al servidor local sin cambios.
Open WebUI
Interfaz web completa con historial, multiusuario, RAG, generación de imágenes y más.
100% offline
Una vez descargado el modelo, funciona sin conexión a internet. Ideal para entornos privados.
Multi-modelo
Instala y alterna entre varios modelos. Cada uno se carga y descarga de VRAM según se necesite.
Open source
Ollama y Open WebUI son proyectos open source activos con comunidad y actualizaciones frecuentes.
Especificaciones del servidor de prueba
Hardware real extraído con neofetch. Sin modificaciones, sin overclocking:
| Componente | Detalle |
|---|---|
| OS | Ubuntu 24.04.4 LTS x86_64 |
| Host / Placa | MS-7971 2.0 (MSI) |
| Kernel | 6.8.0-110-generic |
| CPU | Intel Core i5-6600K (4 núcleos) @ 3.900 GHz |
| RAM | 24 GB (23982 MiB) |
| GPU | NVIDIA GeForce GTX 960 — 4 GB VRAM (arquitectura Maxwell) |
| Driver NVIDIA | 570-server (requerido por Ollama) |
| Shell | bash 5.2.21 |
Diagnóstico previo del sistema
Antes de instalar nada, conviene identificar bien el hardware disponible:
Actualización e instalación de utilidades
CPU, RAM y red
Identificar la GPU
Instalación de drivers NVIDIA 570-server
Ollama requiere drivers NVIDIA con soporte CUDA 12. La rama 570-server es la estable recomendada para Ubuntu Server y es compatible con la GTX 960 (Maxwell).
Paso 1: Limpiar drivers anteriores
Paso 2: Ver drivers recomendados por Ubuntu
Paso 3: Instalar driver 570-server
nvidia-smi falla tras el reinicio, comprobar que el driver nouveau está bloqueado. Ubuntu lo gestiona automáticamente, pero en algunos casos hay que añadirlo manualmente a la lista de módulos bloqueados (/etc/modprobe.d/blacklist.conf).
Instalación y configuración de Ollama
Paso 1: Instalar Ollama
Paso 2: Configurar el servicio (variables de entorno y red)
Para exponer Ollama a la red local, editar el archivo de servicio systemd:
Paso 3: Verificar detección de GPU en los logs
nvidia-smi funciona y que el servicio se reinició tras instalar los drivers.
Open WebUI con Docker Compose
Interfaz web para chatear con los modelos desde cualquier dispositivo de la red local:
docker-compose.yml
Iniciar
Modelos probados: ¿cuáles caben en 4 GB de VRAM?
El criterio es claro: modelos cuantizados en Q4 que quepan por debajo de los 4 GB. Si el modelo no cabe entero, Ollama hace offloading parcial a RAM del sistema y la velocidad cae drásticamente.
Descargar, ejecutar y gestionar modelos
Resumen de modelos probados
- qwen2.5:3b — Alibaba. Excelente en español y código. ~2.0 GB Q4. El más equilibrado de la prueba. GPU completa
- qwen2.5-coder — Especializado en programación. Muy bueno para autocompletar y explicar código. GPU completa
- phi3:latest — Microsoft. Eficiente y rápido. Buena comprensión general. ~2.2 GB Q4. GPU completa
- nemotron-mini:4b — NVIDIA. Optimizado para inferencia rápida en esta arquitectura. GPU completa
- gemma3:4b — Google DeepMind. ~3.3 GB Q4. Justo al límite de los 4 GB. Al límite
- gemma3:27b / phi3:14b — Demasiado grandes. Offloading masivo a RAM, velocidad inutilizable. Eliminar
Prueba de inferencia vía API
Ollama expone una API REST en localhost:11434. Se puede medir la velocidad directamente con curl, ajustando el contexto y la temperatura para evaluar la fase de prefill en GPU:
El campo eval_duration de la respuesta muestra el tiempo de generación en nanosegundos. Con stream: false se espera la respuesta completa antes de mostrarla, lo que facilita calcular tokens por segundo.
qwen2.5:3b cargado en VRAM, la velocidad ronda los 15–22 tokens/segundo. Perfectamente usable para conversación e interacción cotidiana.
Monitoreo de GPU y mantenimiento
Monitorizar la GPU en tiempo real
Actualizar Open WebUI
Ver logs de Open WebUI
Apagar y reiniciar el servidor
HTTPS con Caddy (acceso remoto seguro)
Para acceder a Open WebUI desde fuera de la red local con HTTPS automático vía Let's Encrypt:
Caddyfile
Caddy gestiona el certificado TLS automáticamente. Solo hay que abrir el puerto 443 en el router y apuntar el DNS al servidor.
Casos de uso
- Asistente personal privado: Respuestas, redacción, resumen de documentos. Sin que nada salga del servidor.
- Generación y revisión de código: Modelos como
qwen2.5-coderson sólidos para autocompletar y explicar código. - Automatizaciones locales: Conectar Ollama a n8n, Home Assistant o cualquier herramienta con soporte API OpenAI.
- Entornos sin internet: El modelo funciona completamente offline una vez descargado.
- Reutilizar hardware antiguo: Cualquier GPU Maxwell o Pascal con ≥ 4 GB de VRAM puede servir como nodo de inferencia.
Comparativa con alternativas
vs API cloud (OpenAI, Claude, Gemini)
Ollama local gana: Privacidad total, coste cero por consulta, funciona offline, sin dependencias externas. Cloud gana: Modelos mucho más potentes, sin límite de VRAM, sin mantenimiento de hardware.
vs GTX 960 vs GPU moderna (RTX 3060+)
GTX 960: Coste cero si ya la tienes. Suficiente para modelos de 3–4B. RTX 3060 (12 GB): Permite modelos de 7B–13B con velocidad real y calidad de respuesta notablemente superior.
vs LM Studio / Jan
Ollama gana: Headless, ideal para servidor sin interfaz gráfica, API REST nativa, mejor integración con Docker. LM Studio gana: Interfaz de escritorio más visual, más fácil para usuarios no técnicos.
Comentarios
Publicar un comentario
Comenta...