El Observatorio de la IA
Ciberaula Observatorio IA Glosario Infraestructura y técnica Modelo cuantizado (quantization)
Infraestructura y técnica

Modelo cuantizado (quantization)

Un modelo cuantizado es una versión más ligera de un modelo de IA en la que los números que codifican sus parámetros se han reducido de precisión: en lugar de 32 bits por parámetro se usan 16, 8 o incluso 4 bits. Eso reduce drásticamente la memoria necesaria y acelera la inferencia, a cambio de una pérdida de calidad típicamente pequeña. Es la técnica que permite ejecutar modelos open-source potentes en hardware modesto.

Por Ana María González Actualizado: 28 de abril de 2026

Definición rápida

Respuesta directa

Un modelo cuantizado es una versión más ligera de un modelo de IA en la que los números que codifican sus parámetros se han reducido de precisión: en lugar de 32 bits por parámetro se usan 16, 8 o incluso 4 bits. Eso reduce drásticamente la memoria necesaria y acelera la inferencia, a cambio de una pérdida de calidad típicamente pequeña. Es la técnica que permite ejecutar modelos open-source potentes en hardware modesto.

Explicación ampliada

La cuantización actúa sobre los pesos (parámetros) del modelo, que normalmente se guardan como números en coma flotante de 32 bits (FP32) durante el entrenamiento. Para inferencia, esos números pueden reducirse a precisiones más bajas. La <strong>cuantización FP16</strong> (16 bits) corta a la mitad memoria y cómputo con pérdida de calidad casi nula y es estándar de facto en producción. La <strong>cuantización INT8</strong> (8 bits enteros) reduce 4 veces respecto FP32 con pérdida moderada (1-3%). La <strong>cuantización INT4</strong> (4 bits) reduce 8 veces, con pérdida más notable (5-10%) pero aún utilizable. La cuantización importa especialmente para modelos open-source ejecutados localmente. Llama 4 70B en FP32 requiere 280 GB de RAM, fuera del alcance de cualquier hardware razonable. En FP16 son 140 GB, sigue siendo caro. En INT8 son 70 GB, cabe en un servidor con 2 GPUs de 40 GB. En INT4 son 35 GB, cabe en una sola GPU de 48 GB. Eso reduce el coste de hardware del despliegue de cientos de miles de euros a unas decenas de miles, sin cambiar la calidad significativamente para muchos casos de uso. Las herramientas de cuantización más usadas en 2026 son <strong>llama.cpp</strong> (la más popular, formato GGUF, soporta INT4 hasta INT8 con cientos de modelos disponibles en HuggingFace), <strong>vLLM</strong> (servidor optimizado para inferencia con cuantización nativa), <strong>AWQ y GPTQ</strong> (técnicas avanzadas de cuantización con menor pérdida). Comunidades como TheBloke en HuggingFace han popularizado modelos pre-cuantizados listos para descargar.

Por qué importa para tu empresa

Aplicación práctica

Para una pyme que considere ejecutar IA en local (por privacidad, costes a escala, o experimentación) la cuantización es la técnica que hace posible el despliegue con hardware asequible. Sin cuantización, ejecutar un modelo open-source decente requiere infraestructura de cientos de miles de euros. Con cuantización, un servidor de 15.000 a 30.000 euros ejecuta modelos suficientes para muchos casos de uso. Si la empresa evalúa esto, contratar a alguien con experiencia específica en despliegue local de modelos cuantizados ahorra meses de prueba y error.

Ejemplo concreto

Caso real

Un grupo médico privé de Madrid quería usar IA para resumir consultas y generar borradores de informes pero tenía restricciones estrictas sobre datos de pacientes. Compró un servidor con una GPU NVIDIA RTX 6000 Ada de 48 GB (precio: 8.500 euros) y desplegaron Llama 4 70B en cuantización INT4 con llama.cpp. La calidad medida en pruebas internas era un 8% inferior a Claude Sonnet 4.6 vía API, pero suficiente para los casos de uso planteados. Los datos de pacientes nunca salen del servidor del grupo. Coste recurrente: 0 euros de inferencia (solo electricidad). Amortización estimada del hardware respecto a usar API externa: 18 meses al ritmo de uso actual.