Modelos de lenguaje (LLM)

Top-p y top-k (sampling)

Top-p y top-k son dos parámetros que controlan la aleatoriedad de un modelo de lenguaje al elegir la siguiente palabra. Junto con la temperatura, determinan si el modelo será más predecible o más creativo. Cada modelo permite ajustarlos vía API.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

Explicación ampliada

Cuando un modelo genera la siguiente palabra, en realidad calcula una probabilidad para cada palabra posible del vocabulario (decenas de miles de candidatas). Necesita un método para elegir cuál usar; ahí entran top-k y top-p. Top-k limita la elección a las k palabras más probables: si k=50, solo considera las 50 más probables y muestrea entre ellas. Top-p (también llamado nucleus sampling) limita la elección al conjunto mínimo de palabras cuya probabilidad acumulada llega a p: si p=0.9, considera todas las palabras que sumen el 90% de la probabilidad. Top-p es más "inteligente" porque se adapta al contexto: en momentos donde una palabra es claramente la mejor, considera pocas; en momentos ambiguos, considera más. La temperatura interactúa con ambos modificando la distribución de probabilidad antes del filtrado. Configuraciones típicas: para tareas precisas (clasificación, extracción) → temperatura 0 + top-p 1 (el más probable, sin azar); para conversación → temperatura 0.7 + top-p 0.9; para creatividad → temperatura 1.0 + top-p 0.95.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa estos tres parámetros son los principales ajustes para hacer un sistema IA reproducible y consistente. Si tu caso de uso requiere que la misma pregunta dé la misma respuesta (extracción de datos, clasificación de tickets, decisiones operacionales) usa temperatura 0 y top-p 1: el modelo es entonces casi determinista. Si quieres variedad (generación de copys, asistente conversacional, brainstorming) sube ambos. La trampa más habitual es dejarlos en valores creativos cuando se quiere consistencia: el sistema "alucina más" no porque el modelo sea malo, sino porque está configurado para inventar.

Ejemplo concreto

Caso real

Una empresa de e-commerce tenía un asistente que clasificaba tickets de soporte en 12 categorías. Funcionaba al 84% pero con mucha variabilidad: el mismo ticket podía clasificarse de 2-3 formas distintas en pruebas repetidas. Investigando descubrieron que el desarrollador había dejado temperatura 0.7 (valor por defecto creativo). Al bajar a temperatura 0 y top-p 1, la consistencia subió al 99% (mismo ticket → misma categoría siempre) y la precisión global pasó del 84% al 91%, porque se eliminaron los "lapsus aleatorios".