El Observatorio de la IA
Infraestructura y técnica

Inferencia

En IA, inferencia es el proceso de ejecutar un modelo ya entrenado para obtener una respuesta a una pregunta concreta. Es lo que pasa cada vez que un usuario hace una consulta a ChatGPT o Claude: el modelo no aprende, solo aplica lo que aprendió en su entrenamiento. La inferencia define los costes operativos reales y la latencia percibida de cualquier producto IA en producción.

Por Ana María González Actualizado: 30 de abril de 2026

Definición rápida

Respuesta directa

En IA, inferencia es el proceso de ejecutar un modelo ya entrenado para obtener una respuesta a una pregunta concreta. Es lo que pasa cada vez que un usuario hace una consulta a ChatGPT o Claude: el modelo no aprende, solo aplica lo que aprendió en su entrenamiento. La inferencia define los costes operativos reales y la latencia percibida de cualquier producto IA en producción.

Explicación ampliada

Hay dos fases en la vida de un modelo de IA. La primera, el entrenamiento, ocurre una sola vez (o cada cierto tiempo en versiones nuevas) y consume cantidades enormes de cómputo: meses de procesamiento en clusters de miles de GPUs valorados en cientos de millones de dólares. La segunda, la inferencia, ocurre cada vez que alguien usa el modelo: el modelo entrenado lee la pregunta, calcula la respuesta token a token y la devuelve. La inferencia consume mucho menos cómputo por consulta individual, pero al multiplicarse por miles de millones de peticiones diarias acaba siendo el coste dominante en el negocio de los proveedores de IA. El coste de inferencia se factura habitualmente en tokens (entrada y salida por separado), porque escala con la cantidad de texto procesado. Un modelo grande como Claude Opus o GPT-5.5 cobra entre 5 y 30 dólares por millón de tokens (Claude Opus 4.7 a 5/25, GPT-5.5 a 5/30); uno pequeño como Sonnet o GPT-5.5 mini, entre 0,1 y 3 dólares. Esa diferencia justifica una estrategia ya común en empresas que usan IA a escala: usar el modelo grande solo cuando hace falta razonamiento profundo, y delegar el resto a modelos pequeños. La inferencia también se puede ejecutar en local con modelos open-source (Llama, Mistral, Qwen) usando hardware modesto: un equipo con GPU de 24 GB ejecuta modelos de 30 mil millones de parámetros con calidad respetable. Es el camino preferido por empresas con datos especialmente sensibles que no pueden salir del perímetro corporativo.

Por qué importa para tu empresa

Aplicación práctica

Para una pyme, entender la diferencia entre entrenamiento e inferencia es importante por dos razones prácticas. Primero: la empresa nunca va a entrenar un modelo desde cero (es económicamente inviable y técnicamente innecesario), pero sí va a pagar inferencia cada mes según uso. Segundo: el coste por consulta determina qué casos de uso son rentables. Una consulta de un comercial al asistente cuesta céntimos; un robot que procese miles de correos al día puede salir a varios cientos de euros al mes según el modelo elegido.

Ejemplo concreto

Caso real

Una asesoría fiscal con 8 empleados usa Claude Sonnet 4.6 a través de la API para clasificar automáticamente los correos entrantes según tipo de consulta del cliente (laboral, fiscal, mercantil, otros). Cada correo de tres párrafos consume aproximadamente 500 tokens de entrada y 50 de salida, con coste de inferencia menor a 0,002 dólares por correo. Procesando 200 correos al día son 12 dólares al mes en inferencia, frente al sueldo de 30 minutos diarios de una persona haciéndolo manualmente. La aritmética se sostiene gracias al precio bajo del modelo en su tamaño intermedio.