El Observatorio de la IA
Ciberaula Observatorio IA Glosario Agentes y automatización Base de datos vectorial
Agentes y automatización

Base de datos vectorial

Una base de datos vectorial es un tipo de base de datos especializada en almacenar y buscar embeddings (representaciones numéricas de textos, imágenes o audio). Es la pieza que hace posible el RAG: encontrar rápidamente, entre millones de documentos, los más parecidos a una consulta del usuario.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

Una base de datos vectorial es un tipo de base de datos especializada en almacenar y buscar embeddings (representaciones numéricas de textos, imágenes o audio). Es la pieza que hace posible el RAG: encontrar rápidamente, entre millones de documentos, los más parecidos a una consulta del usuario.

Explicación ampliada

Una base de datos relacional clásica busca por igualdad o por rangos: dame los pedidos del 2024 con importe > 500 €. Una base vectorial busca por similitud semántica: dame los 10 documentos más parecidos a esta pregunta. Para hacerlo, almacena cada documento como un vector de cientos o miles de números (su embedding) y, dada una consulta también vectorizada, calcula qué vectores almacenados están más cerca usando algoritmos como HNSW, IVF o ScaNN. La diferencia con un buscador clásico (Elasticsearch o similar) es que no necesita coincidencia de palabras: una pregunta sobre "compensar a un empleado por horas extra" encuentra un documento sobre "abono de tiempo trabajado fuera de jornada" aunque no compartan ni una palabra. Las opciones más usadas en 2026: Pinecone, Weaviate, Qdrant, Milvus (todas dedicadas), pgvector como extensión de PostgreSQL (la opción discreta y suficiente para muchos casos), Chroma (ligera, buena para empezar), Redis con módulo vectorial.

Por qué importa para tu empresa

Aplicación práctica

Para una empresa que quiera montar un asistente IA sobre su documentación interna, la base vectorial es uno de los tres componentes ineludibles, junto con el modelo de embeddings y el LLM final. La elección correcta depende del volumen: hasta unos 100.000 documentos pgvector sobre el PostgreSQL que ya tienes basta y casi no añade coste; entre 100.000 y unos millones, opciones como Qdrant o Weaviate self-hosted; por encima, soluciones gestionadas tipo Pinecone que pagas por uso. Saltar a una solución gestionada cara desde el principio es uno de los errores típicos de presupuestos de IA.

Ejemplo concreto

Caso real

Una empresa de servicios técnicos con 22.000 manuales y fichas internas montó su asistente RAG con pgvector sobre la PostgreSQL que ya usaba para su CRM. Coste de infraestructura adicional: 0 €. Tiempo de respuesta de búsqueda: ~80 ms en consultas con top-5 documentos. Funcionó tan bien que estuvieron seis meses sin tener que migrar a una solución dedicada. La empresa de la competencia, con un volumen similar, había pagado 14.000 €/año por Pinecone desde el primer día sin necesitarlo.