Infraestructura y técnica

LLM local (Ollama, llama.cpp)

Un LLM local es un modelo de lenguaje grande que se ejecuta en hardware propio del usuario —ordenador personal, servidor de oficina, infraestructura on-premise— en lugar de consumirlo vía API en la nube. Las dos herramientas más populares en 2026 son Ollama y llama.cpp, junto con LM Studio para entornos no técnicos.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

Explicación ampliada

Ejecutar un LLM en local fue cosa de investigadores hasta 2023; en 2026 es práctica común gracias a tres avances: modelos abiertos potentes (Llama 3.x, Llama 4, Gemma 3, Qwen 3, Mistral, DeepSeek), técnicas de cuantización (que comprimen un modelo de 16 GB a 4-8 GB sin perder mucha calidad) y herramientas que simplifican el despliegue. Llama.cpp es el motor de inferencia C++ que ejecuta modelos en CPU o GPU con configuraciones extremas; Ollama es una capa de comodidad sobre llama.cpp con CLI tipo Docker (ollama run llama3), API REST compatible con OpenAI, y catálogo de modelos automático; LM Studio es la versión con UI gráfica para usuarios no desarrolladores; Jan es similar pero open source. Los tamaños prácticos: un MacBook Pro M3 con 16 GB RAM corre cómodo modelos de 7-8B parámetros cuantizados; con 32-64 GB, modelos de 30-70B; en una workstation con 2-4 GPUs profesionales, modelos de 100B+. Los modelos abiertos disponibles en 2026 cubren desde 1B (móvil, edge) hasta cientos de B (frontera abierta), todos descargables gratuitamente desde Hugging Face u Ollama.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa, los LLMs locales son la respuesta a dos problemas concretos: privacidad de datos (los datos sensibles nunca salen del perímetro) y predictibilidad de costes (ningún coste por consulta, solo el coste fijo del hardware y la electricidad). Compensan cuando: hay datos confidenciales o regulados que no pueden salir; el volumen es muy alto y la API saldría más cara que el hardware; la dependencia de un proveedor externo es estratégicamente inaceptable. No compensan cuando: el caso de uso requiere un modelo frontera (los abiertos están 6-12 meses por detrás de los cerrados en capacidades top); la complejidad de mantenimiento (parches de seguridad, actualizaciones, monitorización) supera el beneficio; el volumen es bajo y la API resulta trivial.

Ejemplo concreto

Caso real

Un despacho de abogados con 14 socios empezó a usar Claude vía API para resúmenes y redacción. A los 4 meses, las cuentas: 850 €/mes en API y dudas crecientes sobre confidencialidad de los expedientes que enviaban. Probaron Llama 3.3 70B con Ollama en una workstation propia (Mac Studio M3 Ultra con 192 GB RAM, ~9.500 € de inversión). Calidad: el 80-85% de los casos de uso quedaba cubierto con calidad similar; los casos complejos (análisis profundo de jurisprudencia) se quedaban con la API. Tras 12 meses, gasto total: 9.500 € hardware + 280 €/mes API restante; amortizado vs los 850 €/mes anteriores. Y los datos sensibles quedaron en su propia red.