[01] AGENTES IA →

Agentes IA que deciden y ejecutan, no solo automatizan

Diseñados para vivir dentro de tu stack · trazables decisión a decisión · validación contra baseline humano.

  • HITL configurable
  • Modelos privados EU
  • 4-9 semanas implementación

Sectores regulados requieren validación humana y trazabilidad reforzada.

[03] CÓMO CONSTRUIMOS →

De observación a autonomía progresiva

Cuatro fases · 4-9 semanas según complejidad · medición continua precision/recall vs baseline humano antes de subir nivel autonomía.

  1. Observación del proceso humano

    Shadowing real al equipo que toma esas decisiones hoy. Observamos qué hace, en qué se fija, qué excepción reconoce, qué casos le cuestan. Esa observación es la base.

    Semana 1 → Baseline humano + criterios decisión documentados

  2. Diseño del agente

    Construimos prompts, herramientas, guardarraíles de seguridad y trazabilidad. Cada acción que el agente toma queda registrada con su razonamiento para auditoría.

    Semanas 2-4 → Agente diseñado · trazabilidad activa · guardarraíles cerrados

  3. Pilot supervisado nivel 1

    El agente entra en modo sugiere. El equipo aprueba/rechaza cada decisión. En paralelo medimos precision/recall vs baseline humano. Iteramos prompts dos veces por semana.

    Semanas 5-8 → Calidad medida · iteración prompts · veredicto subir nivel

  4. Autonomía progresiva

    Cuando precision/recall superan baseline humano consistentemente, subimos al nivel 2 y eventualmente nivel 3 en categorías bajo riesgo. Si calidad cae bajo umbral, alarma + rollback.

    Semana 9+ → Producción nivel 2-3 · monitoring continuo

[04] CAPACIDADES →

Cuatro tipos de agente que cubren el 90% de los proyectos

B2B 15-150 empleados · stack maduro · datos históricos · patrocinador interno paciente con iteración 60-90 días.

  • Agentes de clasificación

    Correos · tickets · leads · documentos

    El agente lee el correo, el ticket o el documento entrante, lo clasifica con la taxonomía que ya usa tu equipo y lo enruta al especialista correcto sin esperar a la persona del lunes.

    • Routing al especialista correcto en sub-segundo
    • Trazabilidad completa de cada decisión
  • Agentes de extracción

    PDFs · facturas · contratos · formularios

    El agente abre el PDF, extrae los datos clave, los normaliza al formato de tu sistema y los carga sin que nadie los toque. Funciona con 80+ proveedores distintos sin re-entrenar.

    • Normalización al formato de tu ERP
    • Validación con humano solo en outliers
  • Agentes de priorización

    Pipeline comercial · backlog · alertas operativas

    El agente analiza tu pipeline cada mañana, te dice por dónde empezar y prepara la decisión para que el humano valide en 30 segundos en vez de 30 minutos.

    • Lista ordenada por urgencia + valor + probabilidad
    • Validación humana ≤30s vs 30 min
  • Agentes de redacción

    Emails comerciales · propuestas · respuestas RFP

    El agente genera drafts personalizados con material relevante. El humano revisa y refina · ya no escribe desde cero. La calidad del draft suele ser 70-90% del output final.

    • Material RAG-relevante inyectado
    • 70-90% del output final aprovechable

[05] RESULTADOS SHIPPED →

Métricas reales de agentes en producción

  • 400+

    correos/día clasificados sin error humano

  • 80+

    proveedores de facturas reconocidos sin re-entrenar

  • 5–8×

    tiempo de redacción recortado por SDR

  • 60 días

    validación inicial · calidad ≥ baseline humano

La diferencia entre automatización y agente

Tienes automatizaciones, pero la decisión sigue siendo humana — y ahí está el cuello. Tu equipo comercial pasa dos horas al día decidiendo a qué lead llamar primero. Cada PDF de proveedor lo lee una persona para extraer cuatro datos clave. ChatGPT te ayuda en una conversación, pero no puede ir a tu CRM y actualizar el deal.

Automatización

Reglas fijas

Si pasa X, haz Y. Diagrama de flujo determinista.

Agente

Decisión contextual

Lee contexto, evalúa opciones, elige la mejor según criterios.

Automatización = sigue reglas. Agente = toma decisiones

Una automatización ejecuta una regla: "si pasa X, haz Y". Un agente evalúa contexto y elige: "dado este input + este historial + este objetivo, la mejor acción es Z". La diferencia importa cuando el proceso real no se puede reducir a reglas: leer el tono de un email para saber si es urgente, decidir qué proveedor llamar primero según mix de precio/calidad/historial, redactar la respuesta a una RFP usando el material correcto.

Cuándo necesitas un agente y cuándo basta con n8n

Regla simple: si el proceso se puede dibujar como un diagrama de flujo con if/else deterministas, te basta con cuándo te basta con un workflow n8n. Si en algún nodo hay un humano "leyendo y decidiendo según criterio", probablemente necesitas agente en ese nodo. Lo más habitual: combinación. n8n para mover datos y orquestar, agente en el punto donde antes había decisión humana de criterio. Para casos avanzados de orquestación n8n con agentes IA embebidos publicamos workflows reutilizables en n8nrepo.com.

Tres niveles de autonomía

Nivel 1 (sugiere): el agente prepara la respuesta, el humano la revisa y aprueba. Útil para entrar sin riesgo y aprender la calidad real. Nivel 2 (asiste): el agente actúa pero la acción queda en draft o programada para enviar más tarde, dando ventana al humano para revertir. Nivel 3 (ejecuta): el agente actúa solo en tareas donde el coste de error es bajo y reversible (clasificar email interno, no firmar contratos). Subimos de nivel solo con datos.

Para qué tipo de empresa funciona

Esto funciona si tienes volumen repetitivo de decisiones de bajo riesgo (centenares al día o más), un stack maduro donde n8n o equivalente ya mueve datos, datos históricos suficientes para evaluar baseline humano, y patrocinador interno que entiende que un agente requiere iteración los primeros 60-90 días.

No funciona si tu sector tiene riesgo regulatorio alto en automatización (decisiones que afectan derechos fundamentales: crédito, sanidad clínica, justicia), si las decisiones son únicas y no repetitivas (un agente no aprende un caso único), o si no hay datos históricos para evaluar calidad.

Casos reales

SaaS B2B · Barcelona

Clasificación tickets soporte

110 empleados. Agente que clasifica 400 correos/día y los enruta al especialista correcto en producto/billing/integraciones/churn. Tiempo de primera respuesta bajó de 4h a 12 min.

  • 16h/semana recuperadas
  • 4h → 12 min respuesta
Industrial · Bilbao

Extracción facturas a ERP

80 proveedores activos. Agente que extrae datos estructurados de facturas (número, fecha, base, IVA, vencimiento, código proyecto) y las carga en el ERP español sin paso humano.

  • 70% tiempo administración recuperado
  • 3 personas redirigidas
Comercial · Valencia

Priorización pipeline + drafts SDR

Equipo de 12 SDRs. Cada mañana el agente analiza el pipeline, prioriza los 15 leads más calientes y redacta el primer email personalizado con material relevante (cross-link agentes nativos en el CRM). El SDR valida en 30 s, edita si necesita y envía.

  • +38% respuesta
  • 2× emails enviados/SDR

Inversión y formato

Diseño + implementación cerrada (4-9 semanas según complejidad y nivel de integración) + seguimiento operativo mensual de mantenimiento, mejoras y monitorización de calidad. El seguimiento incluye revisión semanal de las decisiones del agente, ajuste de prompts y reglas según observaciones del equipo, y reporting mensual de métricas. Si en la validación inicial la calidad del agente no supera el baseline humano, replanteamos el diseño sin coste. Trazabilidad completa: cada decisión queda registrada con razonamiento para auditoría.

[08] FAQ →

Preguntas frecuentes

¿Qué diferencia un agente de una automatización n8n?

Una automatización sigue reglas: si pasa X, haz Y. Un agente toma decisiones: lee contexto, evalúa opciones, elige la mejor según criterios. Si tu proceso se puede expresar como "si aparece la palabra factura en el asunto, mueve al canal Z", n8n basta. Si necesita "lee el correo, decide si es urgente según tono y contenido, decide a quién enrutar según especialidad", necesitas agente. La regla simple: ¿hay decisión humana de criterio en el medio? → agente.

¿Y si el agente toma una mala decisión?

Por eso construimos en tres niveles de autonomía. Nivel 1: el agente sugiere, el humano decide. Nivel 2: el agente actúa pero el humano puede revertir antes de que llegue a nadie. Nivel 3: el agente actúa solo en tareas de bajo riesgo donde el coste de error es asumible. Subimos de nivel solo después de medir calidad >= baseline humano durante 4-6 semanas. Cada decisión queda trazada para auditoría.

¿Cuál es el riesgo regulatorio?

Los agentes que diseñamos viven en operación interna, sin decisiones que afecten derechos fundamentales. Para sectores regulados (sanidad, legal, financiero), aplicamos validación humana y trazabilidad reforzada, con pre-validación junto a tu DPO. Si el caso requiere supervisión que no encaja con autonomía progresiva, te lo decimos en el diagnóstico y replanteamos el alcance.

¿Cómo medís que el agente funciona mejor que un humano?

Tres métricas: precision (de las decisiones que toma, cuántas son correctas), recall (de las decisiones que debería tomar, cuántas captura), y latencia (tiempo desde input hasta acción). Establecemos baseline midiendo al equipo humano durante 2-4 semanas, después comparamos al agente contra ese baseline durante 4-8 semanas más. Pasamos a producción solo si supera baseline humano. Si no, replanteamos el diseño sin coste.

¿Mi stack tiene que cambiar?

No. El agente vive como capa sobre tus herramientas actuales (HubSpot, Slack, Notion, Google Workspace, ERPs españoles). No te pedimos migrar nada. Lo que sí necesitamos es acceso lectura/escritura a las herramientas donde el agente va a operar. La parte de seguridad y permisos se diseña con tu equipo IT en el sprint 1.

¿Cuánto cuesta?

Diseño + implementación cerrada (4-9 semanas según complejidad) + seguimiento operativo mensual de mantenimiento, mejoras y monitorización de calidad. El seguimiento incluye revisión semanal de las decisiones del agente y ajuste de prompts/reglas. Si en la validación inicial la calidad no supera el baseline humano, replanteamos el diseño sin coste. Trazabilidad completa: auditas cada decisión que toma.