Automatización vs criterio humano: el checklist que uso

Antes de ejecutar: el punto donde una recomendación automática te hace quedar mal (y la duda obligatoria)

Si alguna vez ejecutaste una recomendación automática porque suena lógico, ya conoces la vergüenza específica: el número sube en el tablero y, al mismo tiempo, tu operación se desacomoda como carrito de supermercado con una llanta chueca. Me pasó con una recomendación de ajustar dotación que, en papel, cuadraba perfecto. En la realidad, cayó justo antes del pico semanal en Perú y la mezcla de casos cambió. Resultado: el SLA se estiró, el backlog creció y la primera línea terminó apagando incendios con cubetas.

Por eso, cuando hablo de automatización vs criterio humano, no lo planteo como una guerra. El riesgo no es automatizar. El riesgo es confiar sin gobernanza.

Para mí, confiar no significa creerle. Significa elegir una acción con responsabilidad: actuar, llevarlo a comité de operación, o frenar. Y sí, puedes decidir en 10 a 15 minutos si haces las preguntas correctas.

Regla de entrada: “suena lógico” no cuenta, ¿qué evidencia mínima exijo?

La evidencia mínima no es un modelo sofisticado. Es una explicación que sobreviva dos preguntas incómodas: ¿qué está optimizando exactamente? y ¿qué se rompe si esto sale mal?

Si no puedes responderlas sin esconderte en promedios, la recomendación todavía no está lista para tocar operación.

Hay una idea útil para enmarcarlo: la tecnología acelera, pero no dirige personas ni absorbe consecuencias. La consecuencia siempre cae en alguien. Ahí empieza el criterio. Una buena reflexión está aquí: [1]

Costo operativo inmediato: lo que se rompe hoy (SLA, NPS, inventario, dotación)

Cuando una recomendación automática se equivoca, casi nunca falla en abstracto. Falla en cosas con nombre y apellido: promesas de entrega, filas en sucursales, quiebres de inventario, sobrecarga de agentes en un turno específico, reclamos que suben y recontacto que se dispara.

Aquí es donde te quemas: evaluar la recomendación como si fuera un Excel, no como si fuera una semana real con gente real.

Criterio de salida: en 10 a 15 minutos defino si ejecuto, piloteo, escalo o pauso

Mi salida estándar es simple. Si el objetivo y el costo están claros, y los supuestos se sostienen por segmento, ejecuto o piloteo controlado. Si hay impacto cruzado o riesgo reputacional, lo elevo a comité regional. Si no puedes defender datos, dueño del dolor y contención, pauso y pido claridad.

Checklist, parte 1: declara qué optimiza y nombra al “dueño del dolor”

Antes de discutir si el modelo es bueno, obligo a la recomendación a declarar impuestos. Nada de “mejora eficiencia” o “sube resultados”. Quiero la métrica exacta que empuja y, todavía más importante, la métrica que probablemente sacrifica.

Si en tu organización circula la tabla de estrategias de asignación, úsala como mapa mental para no improvisar. Ahí aparecen opciones que se repiten en la vida real:

Hacer explícito el tradeoff, por ejemplo, bajar AHT puede subir recontacto o bajar calidad. Esto sirve cuando una métrica clave afecta a otra y necesitas gestionar expectativas.
Pilotear de forma controlada, ideal para impacto medio, datos limitados o modelos nuevos. Validación real sin quemar toda la operación.
Pausar con intervención humana, para decisiones críticas, anomalías o cuando los guardrails se rompen. Menos eficiencia, más control. A veces es la decisión más barata.
Usar dos anclas concretas, por ejemplo, dos sucursales en México con mix distinto, o un comité regional que conoce el terreno. Aterriza la recomendación y evita discusiones abstractas.
Ejecutar en automático, cuando la decisión es de bajo impacto, alta frecuencia, reversible y con monitoreo activo.
Escalar después del piloto, cuando ya hay evidencia positiva y guardrails definidos. Aquí el riesgo típico es creer que el piloto representa a todo el mundo.
Aplicar una regla si entonces para decidir entre ejecutar, pilotear, escalar o pausar. Reduce debates eternos, pero hay que mantenerla viva porque el negocio cambia.

Pregunta de control: ¿qué métrica empuja y cuál sacrifica?

Ejemplo típico: bajar AHT suena bien hasta que sube el recontacto o baja la resolución en primer contacto. Otro: subir conversión en sucursal puede elevar devoluciones si el sistema empuja a vender con menos validación.

En México esto es especialmente traicionero porque el mix no es homogéneo. Una sucursal con clientes recurrentes reacciona distinto a una sucursal con más primerizos o más efectivo. Si el recomendador optimiza “promedio nacional”, te va a salir caro en una o dos plazas.

Tip práctico: pide una frase con forma de compromiso. “Queremos mover X sin empeorar Y más de Z”. Si no aparece la Y, sospecha.

Error común número uno: defender con promedio y esconder la dispersión

En comité, un “subió 3 por ciento” sin segmentación suele ser una trampa. Lo que cambia la conversación es: “en estas sucursales mejora, en estas empeora, y este es el porqué”.

No es perfeccionismo. Es evitar que una automatización gane en el promedio mientras rompe en la esquina más sensible.

Regla de bloqueo: si no puedes nombrar costo y responsable, no se ejecuta

Mi regla es dura porque protege a la operación: si no puedes nombrar el costo y al responsable que lo absorbe, no se ejecuta.

Ese responsable es el dueño del dolor. No es un villano, es el adulto que tendrá autoridad para pedir pausa o reversa cuando los guardrails se rompan.

Checklist, parte 2: valida datos y supuestos frágiles antes de llevarlo a operación

Después de declarar objetivo y costo, viene el lugar donde más se rompen las recomendaciones automáticas: los datos. No porque estén mal en general, sino porque están vivos. Cambian etiquetas, cambia catálogo, cambian procesos, cambia el mix de canal. Y el sistema muchas veces se queda creyendo que el mundo sigue igual.

Cuando alguien me dice “pero el modelo es muy bueno”, respondo: perfecto, entonces aguanta una revisión de cordura. Si no la aguanta, no era muy bueno, era muy convincente.

Si quieres un enfoque práctico para verificar sin convertirlo en laboratorio, esta lectura ayuda: [2]

Señales rojas: duplicados, cambios de catálogo, etiquetas que mutan

Tres señales que tomo en serio.

Primero, duplicados. En CRMs es común que el mismo cliente entre dos veces por canal distinto. El sistema cree que hay más volumen o más demanda, recomienda dotación extra o priorización equivocada, y terminas con capacidad mal distribuida.

Segundo, definiciones que cambian sin aviso. Un “caso resuelto” que cambia por política interna, una categoría de catálogo que se renombra, un motivo de contacto que se recodifica.

Tercero, drift de captura. Cuando un equipo aprende a etiquetar distinto porque así les mide mejor, el dato se contamina. No siempre es malicia. A veces es supervivencia.

Tip práctico: pregunta si cambió el catálogo, la taxonomía o el flujo de captura en las últimas 4 semanas. Si nadie sabe, ya tienes suficiente para frenar.

Supuesto que mata la recomendación: cambia el mix y nadie lo detecta

El supuesto más frágil no es técnico. Es comercial: creer que el mix se mantiene.

Lo que funciona en chat puede romperse en teléfono. Lo que funciona en un turno de mañana puede fallar en turno tarde. Lo que funciona en una plaza puede fallar en otra.

Error común número dos: si funciona en un piloto pequeño, escala igual al resto. Si el piloto no representa mix, el piloto solo te dice que funcionó en ese mundo chiquito.

Pruebas rápidas de cordura que sí caben en operación

Me quedo con tres revisiones que suelen descubrir problemas antes de que sean caros.

Comparación semana contra semana, sobre todo si hay estacionalidad o picos. Si la semana fue rara, tu conclusión también.
Cortes por segmento: sucursal, canal y turno. Si el efecto solo vive en el promedio, no es recomendación, es accidente estadístico con traje.
Distribución de motivos: top de motivos de contacto o de devolución. Si cambió el mix de motivos, cambió el problema.

Checklist, parte 3: anticipa modos de fallo y define contenciones (sin frenar todo)

Una recomendación automática bien intencionada puede provocar daño sistémico aunque suba el número que estaba optimizando. El truco es reconocer rápido si estás viendo una mejora local o si estás rompiendo otra parte del sistema.

Síntomas de daño sistémico: recontacto, backlog, desbalance por turno

Yo busco síntomas que primera línea siente antes que el tablero.

Si sube recontacto, probablemente bajaste calidad o resolución.

Si crece backlog aunque suba productividad, probablemente cambiaste priorización y dejaste lo difícil acumulándose.

Si se desbalancea dotación por turno, probablemente optimizaste por promedio y castigaste una franja horaria.

Riesgo de gaming: cuando el proceso aprende a ganar la métrica y perder el servicio

Cuando mides una cosa y pagas por esa cosa, el sistema aprende a ganar ahí. Aplica a personas y también a automatizaciones.

Si premias AHT bajo, algunos casos se cortan y regresan como recontacto.

Si premias conversión, se empuja más y las devoluciones te explotan la semana siguiente.

La métrica sin guardrail es como acelerar sin frenos porque el velocímetro se ve bonito.

Contención práctica: límites por segmento, excepciones y reversa rápida

Pedir “no automatices” suele ser reacción de trauma, no decisión. Prefiero contener sin frenar todo.

Limita alcance: empieza donde el daño potencial es acotado. Si hay sucursales con mix especial, exclúyelas al inicio.

Define excepciones operativas: VIP, reclamos sensibles, inventario crítico, horarios pico. Las excepciones son donde el criterio humano paga su sueldo.

Asegura reversa rápida: si el guardrail se rompe, se revierte sin debate y sin castigar al mensajero. La reversa no es fracaso, es el freno funcionando.

Checklist, parte 4: define guardrails, umbrales y qué va a comité para que la confianza sea defendible

La confianza defendible no se construye con entusiasmo. Se construye con medición mínima y reglas claras. Si mañana te preguntan por qué ejecutaste esto, necesitas una respuesta que no dependa de fe.

Panel mínimo viable: resultado, costo, estabilidad y brechas entre segmentos

Yo separo métricas de resultado y métricas guardrail.

Resultado: conversión o resolución, y costo por caso o productividad.

Guardrails: recontacto o repetición, NPS o reclamos.

Y dos que muchos olvidan y son oro: estabilidad (variación por semana) y brechas entre segmentos (sucursal, turno, canal). Si la brecha crece, estás optimizando desigual.

Umbrales: decide antes, porque después tu cerebro negocia

El mejor consejo operativo: fija umbrales antes de ejecutar.

Define cuánto estás dispuesto a pagar. “Acepto mejorar productividad 5 por ciento si recontacto no sube más de 1 punto” o “acepto mejorar conversión si devoluciones no suben más de X”.

Y define una regla de detención. Si el guardrail cruza el umbral dos días seguidos, o una semana completa según tu operación, se pausa y se revisa. Sin drama.

Tip práctico: cuando te digan “es ruido”, pregunta: ¿cuánto ruido estamos dispuestos a pagar en NPS o en backlog? Si no hay número, no hay gobierno.

Qué se presenta a comité y con qué evidencia mínima

No todo merece comité. Y, al mismo tiempo, hay decisiones que no deberían quedarse en una conversación de pasillo.

Llévalo a comité de operación cuando haya impacto transversal, riesgo reputacional o costo alto de reversa.

Evidencia mínima, sin teatro:

Objetivo, tradeoff y dueño del dolor.
Resultados por segmento, no solo promedio.
Guardrails y umbrales definidos.
Contención y reversa rápida.

Para reforzar la idea de no ceder el criterio, esta lectura lo aterriza bien: [3]

Guion de 10 minutos para decidir sin burocracia

Cuando institucionalizas este checklist, pasa algo útil: la automatización deja de ser la caja negra que manda y se vuelve un colega rápido al que igual le pides credenciales.

En la conversación, sigo este orden de cinco checks:

¿Qué optimiza y cuál es el tradeoff explícito?
¿Quién es el dueño del dolor si el tradeoff se materializa?
¿Qué señal roja de datos podría estar contaminando esto hoy?
¿Cuál es el peor modo de fallo esta semana y cuál es la contención?
¿Qué guardrail y umbral me obligan a pausar sin discutir?

Si una de esas respuestas es humo, no es que falten detalles. Es que falta gobierno.

Cierra con una salida clara, en una página o en el mismo correo: objetivo, tradeoff, supuestos frágiles (mix por sucursal, turno, canal), señales rojas, contención, métricas, umbrales y la decisión pedida (ejecutar, pilotear, escalar o pausar).

Ese es el corazón de automatización vs criterio humano en una operación multi sucursal: velocidad con frenos, y evidencia que aguante comité sin que te suden las manos.

Estrategia de asignación	Mejor para	Ventajas	Riesgos	Recomendado cuando
Tradeoff explícito — ej.: reducir AHT puede subir recontacto o bajar calidad	Entender consecuencias no deseadas de automatización.	Decisión informada, gestiona expectativas, previene sorpresas.	Ralentiza decisión, análisis complejo de interdependencias.	Optimización de una métrica clave impacta negativamente otras.
Pilotear (controlado)	Decisiones de impacto medio, datos limitados, modelos nuevos.	Validación real, aprendizaje iterativo, minimiza riesgo a gran escala.	Sesgo en muestra, tiempo/recursos piloto, resultados no generalizables.	Necesidad de probar hipótesis con grupo reducido antes de escalar.
Pausar (intervención humana)	Decisiones críticas, alto impacto, anomalías detectadas.	Evita daños mayores, análisis profundo, mantiene control humano.	Pérdida de eficiencia, dependencia humana, cuellos de botella.	Métricas guardrail superan umbrales o evento inesperado. Tradeoff explícito.
2 anclas concretas — ej.: sucursales en México con mix distinto. comité regional	Contextualizar recomendación e implicaciones.	Aterriza teoría a práctica, facilita comprensión y aceptación.	Genera sesgos si anclas no son representativas.	Recomendación tiene implicaciones geográficas o de estructura.
Ejecutar (automático)	Decisiones de bajo impacto, alta frecuencia, reversibles.	Velocidad, eficiencia, escalabilidad. Libera tiempo humano.	Errores masivos, pérdida de contexto, impacto negativo si falla.	Costo de error bajo, beneficio de velocidad alto. Monitoreo activo.
Escalar (post-piloto)	Decisiones validadas con impacto positivo demostrado en piloto.	Maximiza beneficio, optimiza recursos. Regla ‘si/entonces’ para decidir.	Fallos no detectados, resistencia al cambio, monitoreo constante crítico.	Piloto exitoso, guardrails definidos y monitoreados. — ej. 2 anclas concretas.
Regla ‘si/entonces’ para decidir: ejecutar, pilotear, escalar o pausar	Marco de decisión claro y consistente.	Reduce subjetividad, acelera decisión, facilita auditoría.	Rigidez, no contempla excepciones, requiere mantenimiento.	Estandarizar adopción de recomendaciones automáticas.

Fuentes

mitsloanreview.mx — mitsloanreview.mx
gowinston.ai — gowinston.ai
marketingnativo.com — marketingnativo.com

Automatización vs criterio humano: el checklist que uso antes de creerle a una recomendación automática