Inferencia
En IA, inferencia es el proceso de ejecutar un modelo ya entrenado para obtener una respuesta a una pregunta concreta. Es lo que pasa cada vez que un usuario hace una consulta a ChatGPT o Claude: el modelo no aprende, solo aplica lo que aprendió en su entrenamiento. La inferencia define los costes operativos reales y la latencia percibida de cualquier producto IA en producción.
Definición rápida
En IA, inferencia es el proceso de ejecutar un modelo ya entrenado para obtener una respuesta a una pregunta concreta. Es lo que pasa cada vez que un usuario hace una consulta a ChatGPT o Claude: el modelo no aprende, solo aplica lo que aprendió en su entrenamiento. La inferencia define los costes operativos reales y la latencia percibida de cualquier producto IA en producción.
Explicación ampliada
Por qué importa para tu empresa
Para una pyme, entender la diferencia entre entrenamiento e inferencia es importante por dos razones prácticas. Primero: la empresa nunca va a entrenar un modelo desde cero (es económicamente inviable y técnicamente innecesario), pero sí va a pagar inferencia cada mes según uso. Segundo: el coste por consulta determina qué casos de uso son rentables. Una consulta de un comercial al asistente cuesta céntimos; un robot que procese miles de correos al día puede salir a varios cientos de euros al mes según el modelo elegido.
Ejemplo concreto
Una asesoría fiscal con 8 empleados usa Claude Sonnet 4.6 a través de la API para clasificar automáticamente los correos entrantes según tipo de consulta del cliente (laboral, fiscal, mercantil, otros). Cada correo de tres párrafos consume aproximadamente 500 tokens de entrada y 50 de salida, con coste de inferencia menor a 0,002 dólares por correo. Procesando 200 correos al día son 12 dólares al mes en inferencia, frente al sueldo de 30 minutos diarios de una persona haciéndolo manualmente. La aritmética se sostiene gracias al precio bajo del modelo en su tamaño intermedio.