Infraestructura y técnica

API

Una API (Application Programming Interface, interfaz de programación de aplicaciones) es la vía mediante la cual una aplicación se comunica …

Infraestructura y técnica

Aprendizaje federado (federated learning)

El aprendizaje federado es una técnica para entrenar un modelo de IA con datos distribuidos en muchos dispositivos o servidores, sin que eso…

Infraestructura y técnica

Atención de ventana deslizante (sliding window)

La atención de ventana deslizante es una técnica de optimización del transformer que permite procesar contextos muy largos a coste lineal (n…

Infraestructura y técnica

Caché de prompt (prompt caching)

La caché de prompt es una optimización técnica que permite reutilizar el procesamiento de partes repetidas de los prompts entre llamadas dis…

Infraestructura y técnica

Coste por token (input/output)

El coste por token es lo que un proveedor de IA cobra por cada millón de tokens de entrada (input) y de salida (output) que procesa un model…

Infraestructura y técnica

Decodificación especulativa (speculative decoding)

La decodificación especulativa es una técnica de optimización de inferencia en la que un modelo pequeño y rápido propone varios tokens de re…

Infraestructura y técnica

Edge AI / IA en el dispositivo

Edge AI es el despliegue de modelos de IA directamente en dispositivos físicos del usuario —móviles, ordenadores portátiles, dispositivos Io…

Infraestructura y técnica

FlashAttention y FlashAttention-3

FlashAttention es un algoritmo que acelera radicalmente el cálculo de la atención en GPUs minimizando lecturas y escrituras a memoria HBM. F…

Infraestructura y técnica

GPU / TPU (hardware de IA)

Las GPU (Graphics Processing Units) y las TPU (Tensor Processing Units) son los chips especializados donde se entrenan y ejecutan los modelo…

Infraestructura y técnica

GPU clustering (H100, H200, B200, NVLink)

GPU clustering es la técnica de conectar muchas GPUs entre sí para entrenar o servir modelos demasiado grandes para caber en una sola tarjet…

Infraestructura y técnica

Inferencia

En IA, inferencia es el proceso de ejecutar un modelo ya entrenado para obtener una respuesta a una pregunta concreta. Es lo que pasa cada v…

Infraestructura y técnica

Inferencia serverless

Inferencia serverless es un modelo de despliegue de IA en el que el cliente paga solo por las llamadas reales al modelo, sin gestionar ni re…

Infraestructura y técnica

KV cache (caché de claves y valores)

El KV cache es la memoria temporal donde un modelo de lenguaje guarda los cálculos intermedios de la atención durante la generación de una r…

Infraestructura y técnica

Latencia

En IA, la latencia es el tiempo que tarda un modelo en producir una respuesta desde que recibe la pregunta. Se mide habitualmente en miliseg…

Infraestructura y técnica

LLM local (Ollama, llama.cpp)

Un LLM local es un modelo de lenguaje grande que se ejecuta en hardware propio del usuario —ordenador personal, servidor de oficina, infraes…

Infraestructura y técnica

MCP (Model Context Protocol)

MCP, siglas de Model Context Protocol, es un estándar abierto creado por Anthropic en noviembre de 2024 que permite a los modelos de IA cone…

Infraestructura y técnica

Modelo cuantizado (quantization)

Un modelo cuantizado es una versión más ligera de un modelo de IA en la que los números que codifican sus parámetros se han reducido de prec…

Infraestructura y técnica

Tokens por minuto (TPM) y rate limits

Tokens por minuto (TPM) y peticiones por minuto (RPM) son los principales límites que los proveedores de IA imponen sobre el uso de sus APIs…