Modelo cuantizado (quantization)
Un modelo cuantizado es una versión más ligera de un modelo de IA en la que los números que codifican sus parámetros se han reducido de precisión: en lugar de 32 bits por parámetro se usan 16, 8 o incluso 4 bits. Eso reduce drásticamente la memoria necesaria y acelera la inferencia, a cambio de una pérdida de calidad típicamente pequeña. Es la técnica que permite ejecutar modelos open-source potentes en hardware modesto.
Definición rápida
Un modelo cuantizado es una versión más ligera de un modelo de IA en la que los números que codifican sus parámetros se han reducido de precisión: en lugar de 32 bits por parámetro se usan 16, 8 o incluso 4 bits. Eso reduce drásticamente la memoria necesaria y acelera la inferencia, a cambio de una pérdida de calidad típicamente pequeña. Es la técnica que permite ejecutar modelos open-source potentes en hardware modesto.
Explicación ampliada
Por qué importa para tu empresa
Para una pyme que considere ejecutar IA en local (por privacidad, costes a escala, o experimentación) la cuantización es la técnica que hace posible el despliegue con hardware asequible. Sin cuantización, ejecutar un modelo open-source decente requiere infraestructura de cientos de miles de euros. Con cuantización, un servidor de 15.000 a 30.000 euros ejecuta modelos suficientes para muchos casos de uso. Si la empresa evalúa esto, contratar a alguien con experiencia específica en despliegue local de modelos cuantizados ahorra meses de prueba y error.
Ejemplo concreto
Un grupo médico privé de Madrid quería usar IA para resumir consultas y generar borradores de informes pero tenía restricciones estrictas sobre datos de pacientes. Compró un servidor con una GPU NVIDIA RTX 6000 Ada de 48 GB (precio: 8.500 euros) y desplegaron Llama 4 70B en cuantización INT4 con llama.cpp. La calidad medida en pruebas internas era un 8% inferior a Claude Sonnet 4.6 vía API, pero suficiente para los casos de uso planteados. Los datos de pacientes nunca salen del servidor del grupo. Coste recurrente: 0 euros de inferencia (solo electricidad). Amortización estimada del hardware respecto a usar API externa: 18 meses al ritmo de uso actual.