Modelos de lenguaje (LLM)

Hiperparámetros

Los hiperparámetros son los ajustes de configuración de un modelo de IA que se eligen antes del entrenamiento o que se modifican al usarlo, sin que el modelo los aprenda. Ejemplos típicos: temperatura, top-p, top-k, máximo de tokens de salida, learning rate (en entrenamiento), tamaño de batch.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

Explicación ampliada

Hay que distinguir dos tipos de "ajustes" en un modelo. Los parámetros (los pesos) son lo que el modelo aprende automáticamente durante el entrenamiento; pueden ser miles de millones y no los toca un humano directamente. Los hiperparámetros son las decisiones de configuración alrededor del modelo: las elige una persona y modulan cómo se entrena o cómo responde. En entrenamiento: learning rate (cuánto se ajustan los pesos en cada paso), batch size (cuántos ejemplos se procesan a la vez), número de épocas, optimizador (Adam, AdamW, SGD…), tamaño del modelo, profundidad de las capas. En inferencia (uso): temperatura, top-p, top-k, max_tokens, frequency penalty, presence penalty, stop sequences. Encontrar los hiperparámetros adecuados es parte del oficio: un mismo modelo puede dar resultados muy distintos según cómo se configure. En entrenamiento, hay técnicas automatizadas (Optuna, Ray Tune) para buscar la mejor combinación.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa que usa modelos vía API, los hiperparámetros relevantes son los de inferencia: temperatura, top-p, max_tokens y similar. Cambiarlos no requiere ingeniería ML: es ajustar un par de números en cada llamada. Pero el efecto puede ser enorme: un asistente con temperatura 1.0 alucina; con 0.0 es preciso. La práctica madura es dejar valores por defecto razonables para el caso de uso (temperatura 0 para tareas precisas, 0.5-0.7 para conversación) y ajustar tras observar resultados, no a la inversa. En fine-tuning con LoRA o similares también hay hiperparámetros que dominan el resultado: rank de la matriz LoRA, learning rate específico, número de épocas. Aquí ya conviene tener guía de quien sabe.

Ejemplo concreto

Caso real

Una empresa de soporte técnico tenía un asistente con respuestas inconsistentes. Investigando, descubrieron tres hiperparámetros mal calibrados: temperatura a 0.8 (muy creativa para casos repetitivos), max_tokens en 4.000 (respuestas eternas, despilfarro de coste), sin stop sequence (las respuestas a veces se alargaban con texto no pedido). Ajustaron a temperatura 0.3, max_tokens 600, stop sequence al final del formato esperado. Resultado: respuestas un 60% más cortas, coste por llamada -40%, consistencia +25%. Sin tocar ni una palabra del prompt.