Agentes y automatización

Agente navegador (browser-use)

Un agente navegador es un sistema de IA capaz de controlar un navegador web de forma autónoma: lee la página, hace clics, rellena formularios, extrae información y encadena varios pasos para completar una tarea, igual que haría una persona. Ejemplos: Claude for Chrome, OpenAI Operator, Gemini con AI Mode, Computer Use de Anthropic.

Por Ana María González Actualizado: 9 de mayo de 2026

Definición rápida

Respuesta directa

Explicación ampliada

Hasta finales de 2024 los agentes IA se conectaban a sistemas externos solo a través de APIs específicas. El agente navegador rompe esa dependencia: trata cualquier web como una interfaz de usuario, "ve" la página (vía screenshot o vía DOM, según implementación) y actúa sobre ella simulando ratón y teclado. Eso permite automatizar tareas en sitios que no tienen API, que cambian su HTML cada poco, o que requieren autenticación con cuenta personal. Los lanzamientos clave: Anthropic introdujo "Computer Use" en octubre de 2024 (controlar todo el escritorio); OpenAI lanzó "Operator" en enero de 2025 para tareas web; varios proveedores siguieron con extensiones de navegador específicas durante 2025-2026. La fiabilidad típica para tareas de complejidad media en 2026 ronda el 60-85% según el sitio: alta para flujos estándar (rellenar formularios, comparar precios), baja para sitios con CAPTCHAs estrictos, mucho JavaScript dinámico o autenticación multifactor. Riesgos específicos: inyección de prompt vía contenidos de la página visitada (el agente lee texto que le da instrucciones contradictorias), fugas de datos si entra en sitios autenticados con tu sesión, y costes que escalan rápido (cada paso son llamadas al modelo).

Por qué importa para tu empresa

Aplicación práctica

Para una empresa, los agentes navegadores son el siguiente nivel de automatización por encima de RPA tradicional. Donde RPA exige programar cada clic, el agente navegador interpreta la tarea en lenguaje natural y se adapta a cambios menores de la web. Casos donde compensa: tareas repetitivas pero variables (extraer datos de proveedores con webs distintas, rellenar formularios de licitaciones, recopilar información competitiva). Casos donde NO conviene: cualquier flujo de pagos, transacciones bancarias, alta de servicios legales o cualquier acción con consecuencias irreversibles, donde la tasa de error del 5-15% es inaceptable. La práctica madura es: agente navegador para reunir y proponer; humano para confirmar y ejecutar.

Ejemplo concreto

Caso real

Una agencia de comercio exterior que tramitaba clasificaciones arancelarias revisaba manualmente la web de la AEAT y de la Comisión Europea cada semana en busca de cambios en partidas de su sector. Una hora a la semana de una persona. Con Claude for Chrome configurado para revisar 12 URLs, comparar contra la versión anterior y resumir cambios relevantes, esa tarea pasa a 5 minutos de revisión humana del informe que el agente prepara cada lunes. Coste API: ~30 €/mes.