Infraestructura y técnica
GPU, TPU, inferencia, fine-tuning, cuantización, open source · 18 términos en este bloque.
Infraestructura y técnica 18
API
Una API (Application Programming Interface, interfaz de programación de aplicaciones) es la vía mediante la cual una aplicación se comunica …
Aprendizaje federado (federated learning)
El aprendizaje federado es una técnica para entrenar un modelo de IA con datos distribuidos en muchos dispositivos o servidores, sin que eso…
Atención de ventana deslizante (sliding window)
La atención de ventana deslizante es una técnica de optimización del transformer que permite procesar contextos muy largos a coste lineal (n…
Caché de prompt (prompt caching)
La caché de prompt es una optimización técnica que permite reutilizar el procesamiento de partes repetidas de los prompts entre llamadas dis…
Coste por token (input/output)
El coste por token es lo que un proveedor de IA cobra por cada millón de tokens de entrada (input) y de salida (output) que procesa un model…
Decodificación especulativa (speculative decoding)
La decodificación especulativa es una técnica de optimización de inferencia en la que un modelo pequeño y rápido propone varios tokens de re…
Edge AI / IA en el dispositivo
Edge AI es el despliegue de modelos de IA directamente en dispositivos físicos del usuario —móviles, ordenadores portátiles, dispositivos Io…
FlashAttention y FlashAttention-3
FlashAttention es un algoritmo que acelera radicalmente el cálculo de la atención en GPUs minimizando lecturas y escrituras a memoria HBM. F…
GPU / TPU (hardware de IA)
Las GPU (Graphics Processing Units) y las TPU (Tensor Processing Units) son los chips especializados donde se entrenan y ejecutan los modelo…
GPU clustering (H100, H200, B200, NVLink)
GPU clustering es la técnica de conectar muchas GPUs entre sí para entrenar o servir modelos demasiado grandes para caber en una sola tarjet…
Inferencia
En IA, inferencia es el proceso de ejecutar un modelo ya entrenado para obtener una respuesta a una pregunta concreta. Es lo que pasa cada v…
Inferencia serverless
Inferencia serverless es un modelo de despliegue de IA en el que el cliente paga solo por las llamadas reales al modelo, sin gestionar ni re…
KV cache (caché de claves y valores)
El KV cache es la memoria temporal donde un modelo de lenguaje guarda los cálculos intermedios de la atención durante la generación de una r…
Latencia
En IA, la latencia es el tiempo que tarda un modelo en producir una respuesta desde que recibe la pregunta. Se mide habitualmente en miliseg…
LLM local (Ollama, llama.cpp)
Un LLM local es un modelo de lenguaje grande que se ejecuta en hardware propio del usuario —ordenador personal, servidor de oficina, infraes…
MCP (Model Context Protocol)
MCP, siglas de Model Context Protocol, es un estándar abierto creado por Anthropic en noviembre de 2024 que permite a los modelos de IA cone…
Modelo cuantizado (quantization)
Un modelo cuantizado es una versión más ligera de un modelo de IA en la que los números que codifican sus parámetros se han reducido de prec…
Tokens por minuto (TPM) y rate limits
Tokens por minuto (TPM) y peticiones por minuto (RPM) son los principales límites que los proveedores de IA imponen sobre el uso de sus APIs…