Caso real · ecommerce + logistics
Caso de éxito — Ecommerce industrial: agentes de voz IA en picking de almacén
Caso real implantado con un cliente de ecommerce y logística en España. Detalles operativos preservados para confidencialidad — métricas cualitativas y rangos honestos en lugar de porcentajes exactos inventados.
Qué se implantó para Ecommerce industrial en picking por voz IA
El cliente
Empresa española de ecommerce y logística B2C con operaciones centradas en Andalucía, en torno a 50 personas entre almacén y oficina. Vende producto propio a consumidor final a través de su tienda online y gestiona el picking y la expedición desde un almacén propio. Stack tecnológico previo al proyecto: Shopify como frontstore, un ERP custom para inventario y facturación, workflows n8n para integraciones puntuales y flujos manuales apoyados en tablet y papel en el propio almacén.
No se publica aquí ningún dato personal, dirección del almacén ni cifras económicas del cliente. Esta ficha está pensada para que otra empresa con un dolor operativo similar pueda reconocerse sin exponer a Ecommerce industrial a comparativas competitivas.
El reto
El picking manual se había convertido en el cuello de botella del almacén. Los operarios leían la lista de cada pedido en tablet o papel, iban a ubicación, cogían el producto y validaban manualmente el SKU antes de pasarlo a la zona de embalaje. Cuando el pedido tenía varias líneas y el SKU era visualmente similar a otro, la tasa de error se situaba por encima del 5% de pedidos con al menos una línea mal preparada.
Ese 5% se traducía en tres efectos operativos concretos que la dirección ya había identificado: devoluciones crecientes con el coste logístico y reputacional asociado; tiempo perdido en doble validación con supervisor para los casos dudosos; y desgaste del equipo humano que arrastraba la fricción del proceso manual pedido tras pedido. Antes de contactar con Genai Sapiens el cliente había probado internamente revisar el flujo, reordenar ubicaciones y ajustar la tablet, sin conseguir bajar el error de forma sostenida. El salto siguiente pasaba por automatizar la validación, no seguir optimizando un flujo manual ya cerca de su techo.
La solución Genai Sapiens
Diseñamos y entregamos un agente de voz IA dedicado al flujo de picking, integrado contra el ERP custom del cliente y el inventario Shopify, con human-in-the-loop desde el primer sprint. La premisa inviolable: el operario no tiene que aprender ninguna interfaz nueva ni leer un tablet mientras camina. Habla al agente, el agente escucha, valida contra el ERP, confirma, actualiza inventario y solo escala al supervisor los casos de baja confianza.
El flujo operativo real que construimos es el siguiente. El operario va a la ubicación con el pedido asignado y pronuncia el SKU (o un alias del SKU, registrado en un diccionario local). El agente captura la señal de voz, la transcribe en tiempo real y consulta al ERP si ese SKU corresponde al pedido activo y a la ubicación esperada. Si hay match con confianza alta, confirma por voz y actualiza el estado del pedido automáticamente. Si la confianza es baja — homófonos, ruido ambiente, alias no registrado — el agente pide confirmación explícita o escala a un supervisor humano que resuelve desde una pantalla compartida sin parar la cola.
El diseño HITL desde el primer sprint fue decisión explícita del cliente, validada con el mismo patrón que aplicamos en nuestros agentes IA boutique y en el servicio vertical de agente de voz para recepción médica: acciones irreversibles siempre pasan por supervisión humana antes de materializarse. No es sobreingeniería — es la diferencia entre un piloto que llega a producción y uno que se queda en demo por miedo a operar sin red.
Stack técnico
Cinco capas interconectadas, todas ellas habituales en nuestro catálogo boutique. Ninguna tecnología elegida por moda: cada decisión se documentó y se validó contra el caso concreto antes de implementar.
- Voice LLM stack — OpenAI Realtime + ElevenLabs Transcripción y respuesta en tiempo real sobre el canal de voz del operario. Latencia sub-segundo en condiciones normales de almacén. Voz sintética en español peninsular para confirmaciones y escalados.
- Claude — razonamiento y validación contextual Capa de razonamiento sobre el texto transcrito + estado del pedido + inventario ERP. Resuelve ambigüedades (homófonos, alias), decide confianza y activa el escalado HITL cuando procede.
- n8n — orquestación entre sistemas Workflows n8n que conectan la capa de voz con el ERP, Shopify y el canal de notificaciones del supervisor. Reemplaza integraciones puntuales por un middleware único auditable. Patrón aplicado también en nuestros proyectos de automatización con n8n.
- ERP custom del cliente — API dedicada Capa de APIs específica construida sobre el ERP existente, sin reescribir el ERP. Endpoints de consulta de inventario, estado de pedido y actualización transaccional con lock ligero para evitar condiciones de carrera.
- Shopify — sincronización de inventario Sync bidireccional entre ERP y Shopify tras cada confirmación de picking. El inventario online refleja en minutos el estado real del almacén, reduciendo overselling y pedidos a producto agotado.
Resultados medibles
Métricas observadas tras el primer trimestre con el sistema en producción. Los rangos reflejan observación directa; no publicamos cifras exactas para preservar confidencialidad del cliente y evitar falsa precisión sobre efectos que dependen del mix de pedidos concreto de cada mes.
| Métrica | Antes del proyecto | Tras el primer trimestre |
|---|---|---|
| Errores de picking | Por encima del 5% de pedidos con al menos una línea mal preparada | Por debajo del 0,5% sostenido tras el primer trimestre con el agente activo |
| Tiempo operativo por operario | Picking manual con doble validación papel → tablet para reducir errores | Aproximadamente 30 minutos al día ganados por operario en flujo continuo |
| Breakeven económico del piloto | — | Aproximadamente 3 meses tras la puesta en producción del primer almacén |
| Escalabilidad | Solución atada a un único flujo manual del almacén piloto | Arquitectura replicable a otros almacenes del grupo sin reescribir la solución |
Fuente: Genai Sapiens Consulting 2025-2026 (caso real, detalles operativos preservados)
La métrica más relevante no fue solo la reducción del error, sino la estabilidad del error bajo durante todo el trimestre, incluidos los picos de campaña. Un sistema que solo funciona en condiciones controladas no es un sistema en producción — es una demo con buen márketing.
Lecciones aprendidas
Cuatro insights reusables que sacamos de este proyecto y que aplicamos por defecto en retainers IaaS — Intelligence-as-a-Service del mismo perfil.
- HITL diseñado desde el día uno, no añadido a posteriori. Meter human-in-the-loop cuando el sistema ya está en producción es el doble de caro y rompe confianza del equipo operativo. Diseñarlo desde el primer sprint convierte el escalado humano en una feature, no en un parche.
- Voz en español requiere tuning, no solo modelo. El stack voice LLM funciona de serie, pero los acentos regionales y el vocabulario logístico específico piden 2-3 semanas de afinado con diccionario de SKUs, alias y confirmaciones explícitas. Es trabajo asumible dentro del piloto y se documenta como activo reusable para otros almacenes del mismo cliente.
- La integración con el ERP es el 60% del esfuerzo real. La capa de voz IA es la parte más visible pero no la más costosa. Lo que consume tiempo es levantar APIs sobre ERPs heredados, normalizar SKUs y garantizar atomicidad en las actualizaciones de inventario. Un cliente que entiende esto antes de firmar evita falsas expectativas de timeline.
- Adopción operativa con training corto. Contra lo que se suele temer, los operarios adoptan el flujo de voz rápido — normalmente en 1 o 2 turnos de trabajo. La resistencia mayor vino de supervisores acostumbrados a gestionar la doble validación manual; para ellos diseñamos un dashboard de escalados con contexto completo del caso, no solo la alerta.
¿Tu empresa tiene un dolor similar?
Si diriges operaciones en un ecommerce, logística o retail con picking manual y ves errores recurrentes, devoluciones que no bajan o tiempo operativo perdido en doble validación, el patrón que construimos para Ecommerce industrial probablemente es aplicable. No te vamos a decir que sí sin verlo: en el diagnóstico de onboarding revisamos tu stack real (ERP, WMS, Shopify o similar), el volumen y el mix de pedidos, y decidimos juntos si un piloto de voz IA es la respuesta correcta o si hay una mejora operativa previa más barata. Sin forzar la venta.