El Observatorio de la IA
Ciberaula Observatorio IA Glosario Infraestructura y técnica LLM local (Ollama, llama.cpp)
Infraestructura y técnica

LLM local (Ollama, llama.cpp)

Un LLM local es un modelo de lenguaje grande que se ejecuta en hardware propio del usuario —ordenador personal, servidor de oficina, infraestructura on-premise— en lugar de consumirlo vía API en la nube. Las dos herramientas más populares en 2026 son Ollama y llama.cpp, junto con LM Studio para entornos no técnicos.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

Un LLM local es un modelo de lenguaje grande que se ejecuta en hardware propio del usuario —ordenador personal, servidor de oficina, infraestructura on-premise— en lugar de consumirlo vía API en la nube. Las dos herramientas más populares en 2026 son Ollama y llama.cpp, junto con LM Studio para entornos no técnicos.

Explicación ampliada

Ejecutar un LLM en local fue cosa de investigadores hasta 2023; en 2026 es práctica común gracias a tres avances: modelos abiertos potentes (Llama 3.x, Llama 4, Gemma 3, Qwen 3, Mistral, DeepSeek), técnicas de cuantización (que comprimen un modelo de 16 GB a 4-8 GB sin perder mucha calidad) y herramientas que simplifican el despliegue. Llama.cpp es el motor de inferencia C++ que ejecuta modelos en CPU o GPU con configuraciones extremas; Ollama es una capa de comodidad sobre llama.cpp con CLI tipo Docker (ollama run llama3), API REST compatible con OpenAI, y catálogo de modelos automático; LM Studio es la versión con UI gráfica para usuarios no desarrolladores; Jan es similar pero open source. Los tamaños prácticos: un MacBook Pro M3 con 16 GB RAM corre cómodo modelos de 7-8B parámetros cuantizados; con 32-64 GB, modelos de 30-70B; en una workstation con 2-4 GPUs profesionales, modelos de 100B+. Los modelos abiertos disponibles en 2026 cubren desde 1B (móvil, edge) hasta cientos de B (frontera abierta), todos descargables gratuitamente desde Hugging Face u Ollama.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa, los LLMs locales son la respuesta a dos problemas concretos: privacidad de datos (los datos sensibles nunca salen del perímetro) y predictibilidad de costes (ningún coste por consulta, solo el coste fijo del hardware y la electricidad). Compensan cuando: hay datos confidenciales o regulados que no pueden salir; el volumen es muy alto y la API saldría más cara que el hardware; la dependencia de un proveedor externo es estratégicamente inaceptable. No compensan cuando: el caso de uso requiere un modelo frontera (los abiertos están 6-12 meses por detrás de los cerrados en capacidades top); la complejidad de mantenimiento (parches de seguridad, actualizaciones, monitorización) supera el beneficio; el volumen es bajo y la API resulta trivial.

Ejemplo concreto

Caso real

Un despacho de abogados con 14 socios empezó a usar Claude vía API para resúmenes y redacción. A los 4 meses, las cuentas: 850 €/mes en API y dudas crecientes sobre confidencialidad de los expedientes que enviaban. Probaron Llama 3.3 70B con Ollama en una workstation propia (Mac Studio M3 Ultra con 192 GB RAM, ~9.500 € de inversión). Calidad: el 80-85% de los casos de uso quedaba cubierto con calidad similar; los casos complejos (análisis profundo de jurisprudencia) se quedaban con la API. Tras 12 meses, gasto total: 9.500 € hardware + 280 €/mes API restante; amortizado vs los 850 €/mes anteriores. Y los datos sensibles quedaron en su propia red.