Rankings de sucursales que destruyen equipos: cómo evaluar performance sin castigar al que atiende más ruido

Los rankings de sucursales fallan cuando comparan peras con manzanas: terminan castigando a quien absorbe más ruido operativo. Aquí tienes un workflow práctico para detectar rankings injustos, separar volumen/dificultad/calidad y frenar el gaming sin perder al equipo.

Lucía Ferrer
Lucía Ferrer
15 min de lectura·

El momento exacto en que el ranking deja de medir desempeño y empieza a medir ruido

Un ranking deja de ser medición y se vuelve ruido cuando pones a dos sucursales a competir en una sola tabla… aunque estén jugando “ligas” distintas.

En operaciones, “ruido” no es poesía: es variación que mueve el KPI sin mover el trabajo real. Duplicados que inflan “casos atendidos”. Cambios de categoría que vuelven “amarillo” lo que ayer era “rojo”. Cierres express que bajan tiempos, pero te devuelven el problema en forma de recontacto la semana siguiente.

Mini-numérico para aterrizarlo (porque si no, esto queda en opinión):

  • Sucursal A: 1.000 casos/mes, 40% rojos, AHT 12 min, recontacto a 7 días 18%.
  • Sucursal B: 500 casos/mes, 15% rojos, AHT 8 min, recontacto 9%.

Si publicas un ranking plano por AHT o “tiempo promedio”, B “gana” sin discusión. Pero A podría estar sosteniendo complejidad real. El ranking termina midiendo mix + definiciones + carga, no performance.

Esto se pone serio cuando el ranking se usa como veredicto (bono, regaño, “los de abajo a entrenar”). En ese momento la organización aprende una lección peligrosa: no importa resolver mejor; importa verse mejor en la tabla.

El ranking como sistema de incentivos (no como reporte)

Un ranking no es neutral. Es un sistema de incentivos.

El minuto en que lo publicas con nombres de sucursal y consecuencias, la operación optimiza lo que el tablero premia. A veces eso ordena la casa. Otras veces produce atajos con traje: cerrar rápido, transferir lo difícil, recategorizar para que “cuente menos”. Esto es donde te quemas: cuando crees que estás midiendo desempeño, pero en realidad estás escribiendo un manual de supervivencia.

Por eso los enfoques tipo “rank and yank” han caído en desgracia: comparar sin contexto rompe colaboración y motivación [1].

Qué significa ‘ruido’ en operaciones

Definición operativa para este artículo: ruido es cualquier cosa que mueva tus KPIs sin representar mejora/caída real del servicio.

Suele venir de tres fuentes:

  • Mezcla de demanda: proporción distinta de verdes/amarillos/rojos; canales diferentes; picos por campaña/incidente.
  • Complejidad real: validaciones, coordinación con central, documentación, idas y vueltas.
  • Datos sucios: duplicados, severidad vacía, reclasificaciones tardías, estados usados como atajo.

La promesa de lo que sigue es simple: sin volverte “estadístico”, vas a poder detectar cuándo el ranking es un ranking de sucursales injusto, separar volumen/dificultad/calidad, y poner guardarraíles para que el tablero deje de generar guerra interna.

Señales diagnósticas: cómo detectar que tu ranking está midiendo mezcla de casos y datos sucios (no performance)

Cuando un ranking “se siente injusto”, rara vez es piel sensible. Casi siempre es mezcla (lo que entra), calidad de datos (cómo se registra) y comportamiento inducido (cómo se juega).

El objetivo no es cancelar el ranking: es aprender a leerlo como alarma, no como sentencia.

Primero, cuatro definiciones que evitan discusiones circulares:

Un duplicado es el mismo problema del mismo cliente registrado dos o más veces en una ventana corta (por ejemplo, mismo motivo el mismo día en distintos canales). Una reclasificación es cambiar categoría o severidad después de creado. Una transferencia/derivación es moverlo de dueño o cola. Un recontacto/reapertura es cuando el cliente vuelve por el mismo tema dentro de X días.

Esas cuatro cosas no son “detalle administrativo”. Son los cuatro tornillos que, si están flojos, hacen que el tablero se vea preciso… y esté torcido.

1) Señales en la distribución: cuando el promedio miente

Empieza mirando patrones que se repiten, no el puesto del mes.

Si “la peor sucursal” siempre es la misma y coincide con zonas de mayor complejidad (más reclamos, más fraudes, más ventas), probablemente estás viendo mix, no incapacidad. Si hay outliers extremos concentrados en una o dos categorías, suele ser dependencia externa o mala clasificación. Y si una sucursal pasa del top 3 al bottom 3 sin cambios de dotación, horarios o proceso, sospecha cambio de registro o criterio.

Ancla concreta: los duplicados inflan volumen y rompen productividad. Caso típico: la sucursal reporta +22% “casos creados” en “Reposición de tarjeta”. Al mirar muestras, ves que muchos clientes tienen dos tickets (llamada + WhatsApp) por el mismo evento. El ranking la castiga por “baja productividad”, cuando el problema real es un flujo multicanal mal amarrado.

Tip que funciona en reuniones tensas: en vez de pelear con promedios, mira una distribución simple por banda o categoría (aunque sea mediana vs rango). En cinco minutos aparece si el promedio está mintiendo.

2) Señales de comportamiento: cuando el tablero se vuelve juego

Si el ranking tiene consecuencias, el gaming no es una posibilidad: es una presión natural.

Las combinaciones que más delatan atajos son estas:

  • Baja el tiempo (AHT o resolución) y sube el recontacto. Heurística útil: si el tiempo baja >10% y el recontacto sube ≥3 puntos en dos ciclos, no lo celebres todavía.
  • Sube la reclasificación justo después de publicar el ranking o cambiar metas. Si la reclasificación sube >30% vs su promedio, pausa la comparación hasta revisar definiciones.
  • Se dispara la transferencia a central en las sucursales que van abajo. Ese “pase de papa caliente” rara vez es maldad; suele ser supervivencia.
  • Aparecen picos de estados “En espera del cliente” cerca de corte sin evidencia de contacto. Es maquillaje de backlog.

Ancla concreta: una sucursal empieza a etiquetar como “Amarillo/Medio” casos que antes eran “Rojo/Alto” porque el formulario deja severidad como opcional. Resultado: mejora SLA “en rojos” en el dashboard… mientras aumentan escalaciones informales (“me lo prometieron y no pasó”).

Esto se arregla con menos heroísmo y más diseño: si la severidad es opcional o ambigua, el ranking está invitando a la interpretación creativa.

3) Señales en experiencia: eficiencia que el cliente paga

La trampa clásica: tu tablero “mejora”, pero el cliente empeora.

Si CSAT/NPS cae mientras el ranking por eficiencia sube, estás ante un tradeoff mal gestionado: velocidad vs calidad. Si aumentan quejas de “me transfirieron” o “me hicieron repetir información”, no es solo mal humor del cliente: suele correlacionar con handoffs pobres y transferencias defensivas. Y si el backlog baja “milagrosamente” al cierre de mes, pero el recontacto sube la semana siguiente, limpiaron el sistema… no el problema.

Ejemplo operativo: en comité mensual ves una sucursal que baja AHT 15% y sube recontacto de 10% a 16%. En vez de felicitar o castigar, haces dos cosas: (1) pausas el ranking público de esa métrica por un ciclo, (2) revisas una muestra pequeña pero dirigida (recontactos + severidad alta). Encuentras cierres con plantilla sin confirmar solución. Ajustas guardarraíl (recontacto) y vuelves obligatorio un campo de “pasos realizados” antes de cerrar. Al mes siguiente sube un poco el AHT, pero baja recontacto y mejora CSAT.

Regla de decisión para no discutir eternamente: pausa el ranking como herramienta de premio/castigo si aparecen 3 o más señales en el ciclo y además ocurre al menos una condición de impacto: recontacto +≥3 puntos, transferencias +≥20%, o CSAT −≥5 puntos. En ese modo, el ranking sirve para limpieza de señal y recalibración, no para repartir medallas.

Y sí: comparar sin contexto se vuelve rápido una dinámica de “comparaciones odiosas” [2]. Si no lo encuadras, el equipo lo personaliza.

Separar volumen, dificultad y calidad: un framework simple para comparar sucursales sin volverse estadístico

Un ranking funciona cuando responde dos preguntas distintas sin mezclarlas:

  • Qué tan bien opera una sucursal.
  • Qué tan difícil es lo que le cae.

La trampa es pedirle a una sola métrica que sea juez, jurado y terapeuta organizacional.

El framework más operable en campo suele tener tres piezas: bandas de dificultad, scorecard en dos capas, y una normalización ligera (lo suficiente para cambiar decisiones, no para “ganar” discusiones).

Primero, que “dificultad” se pueda decir en voz alta

Si en una reunión de 30 minutos nadie puede explicar qué es “difícil”, tu banda es decorativa.

Un esquema que suele aterrizar rápido:

  • Verde: consultas/gestiones simples.
  • Amarillo: requiere validación, coordinación o documentación.
  • Rojo: alto impacto o riesgo (fraude, reclamo complejo, incidente, cliente VIP).

Ancla: haz que Severidad sea obligatoria al crear (o al menos antes de cerrar) y limita a tres valores. Menos opciones, menos arte.

Ahora vuelve al ejemplo A vs B. En promedio, B “gana”. Pero al mirar por bandas:

  • En rojos, A resuelve en 3,5 días y B en 4,2.
  • En verdes, A está en 1,6 y B en 1,4.

Lectura real: A está mejor en lo crítico, pero quizás saturada en verdes por carga o duplicados. La acción correcta no es “retar a A”, sino proteger capacidad para verdes o limpiar entradas.

Después, un scorecard que no premie el atajo

Si solo mides velocidad, la organización se vuelve rápida… en cerrar tickets.

Un scorecard práctico en dos capas:

Capa performance (lo que quieres optimizar): cumplimiento de SLA por banda, tiempo de ciclo por banda (idealmente mediana), edad del backlog por banda, y productividad ajustada (casos cerrados por hora-persona o por turno si lo tienes).

Capa guardarraíles (lo que no puedes romper para “ganar”): recontacto/reapertura a 7/14 días, transferencias por caso, y reclasificación tardía.

La clave es el mecanismo: si un guardarraíl se rompe, no hay victoria del mes aunque el tiempo sea brillante. Eso corta el atajo sin necesidad de discursos.

Ancla simple que cambia conducta: define qué significa “Resuelto” vs “Cerrado” y evita que “Resuelto” sea un estado de maquillaje. Pide evidencia mínima: qué se hizo y qué se confirmó.

Normalizar sin inventar “un número mágico”

Dos normalizaciones casi siempre rinden más que coeficientes raros:

  • Por bandas/categorías: Verde con Verde, Rojo con Rojo.
  • Por cohortes comparables: sucursales urbanas alto volumen entre sí; sucursales pequeñas baja complejidad entre sí.

Esto rescata a sucursales que “pierden” por contexto y revela quién ejecuta mejor en condiciones similares.

Qué no debes normalizar (para que no sea excusa): no uses “dificultad” para tapar retrabajo interno (rojos que crecen por mala clasificación o falta de capacitación), y no compenses eternamente mala disciplina de registro. Primero limpias señal.

Tradeoff explícito: simplicidad vs precisión. Si estás empezando, gana la simplicidad (3 bandas + 2 capas + pocos guardarraíles). Si ya hay estabilidad y disputas reales por mix, subes precisión con cohortes más finas y definiciones más estrictas.

Regla para parar: si el scorecard ya te permite tomar decisiones distintas durante dos ciclos seguidos (capacidad, coaching, reglas de escalamiento), deja de refinar. Enderezar el marco no arregla la pared.

Dos cosas que se rompen: gaming de métricas y acuerdos de handoff que convierten el ranking en guerra

Cuando publicas un ranking sin guardarraíles, se rompen dos cosas a la vez: la relación entre métrica y objetivo real, y los acuerdos de handoff entre sucursales y equipos centrales.

El resultado es una operación tipo gimnasio en enero: mucha actividad, poca transformación.

Modo de fallo 1: optimizar para la métrica

Los patrones de gaming no necesitan villanos; solo presión.

Vas a ver cierres rápidos con notas mínimas (tiempo baja, recontacto sube). Vas a ver plantillas de cierre que “se sienten ordenadas”, pero no resuelven (CSAT cae). Vas a ver reclasificación oportunista hacia categorías con SLA más laxo, especialmente cerca de fin de mes. Vas a ver transferencia temprana de lo difícil para proteger el tablero local. Y, si la productividad se mide en “casos cerrados”, vas a ver fragmentación: un problema partido en varios tickets para inflar volumen.

La combinación que delata deuda operativa es la más simple: tiempos caen mientras recontacto sube. Si el tiempo de resolución baja 12% y el recontacto sube de 11% a 16%, no estás viendo eficiencia; estás viendo deuda con interés.

Reglas anti-gaming que sí se pueden operar (sin montar una policía):

  • Si AHT/tiempo baja >10% y recontacto sube ≥3 puntos, congela el ranking público de esa métrica por un ciclo y revisa una muestra dirigida (reaperturas + severidad alta).
  • Si reclasificación tardía sube >30% vs promedio de 3 meses, el ranking por severidad queda “en revisión” hasta recalibrar definiciones.
  • Si transferencias suben ≥20% tras publicar ranking, revisa routing y activa handoff mínimo viable (abajo).

Tradeoff real: control vs autonomía. Más control (campos obligatorios, muestreo, límites de transferencia) reduce gaming, pero puede frustrar a equipos que sí operan bien. Menos control da velocidad, pero si el ranking tiene consecuencias, el atajo se vuelve rentable.

Regla práctica: si el ranking tiene impacto económico o reputacional, sube control y muestreo. Si es diagnóstico interno, puedes permitir más autonomía.

Modo de fallo 2: handoff tóxico

La guerra nace cuando la métrica castiga a quien recibe complejidad.

La sucursal protege su tablero derivando. Central se congestiona. Central devuelve casos “mal escalados”. La sucursal dice que central no ayuda. Todos tienen parte de razón, porque el handoff es donde se pierde contexto.

Ancla concreta: publicas ranking mensual el lunes; el miércoles ya ves transferencias a central +25–35% en las sucursales que iban abajo. No es magia: es comportamiento inducido.

La salida no es “prohibir escalar”. Es definir un handoff mínimo viable: para derivar, el caso debe traer identidad del cliente y canal, motivo y severidad (Verde/Amarillo/Rojo) con justificación breve, resumen en 2–3 líneas de qué pasó/cuándo/impacto, qué se intentó y resultado, qué se necesita del receptor, y evidencia si aplica.

Con eso, el escalamiento deja de ser “me lo quito de encima” y se vuelve colaboración real.

Routing para cortar la guerra sin ahogar la operación: rojos pueden escalar rápido, pero solo con handoff completo; verdes no se escalan salvo excepción (y si se escalan, se marca como incidente para aprender); y transferencias repetidas (más de un cambio de dueño) se marcan para revisión, porque suelen señalar definición pobre o “no es mío”.

Una línea para recordarlo sin drama: un ranking sin guardarraíles es como correr con cronómetro… pero sin mapa. Llegas rápido, sí. A veces al lugar equivocado.

El workflow que sí funciona: limpiar señal → comparar por bandas → decidir acciones → monitorear sin castigar

Estrategia de asignación Mejor para Ventajas Riesgos Recomendado cuando
Volumen puro Tareas repetitivas, baja complejidad Implementación simple, métrica clara Castiga casos complejos, ignora calidad Casos idénticos, dificultad uniforme
Por tipo de caso (bandas) Casos de dificultad variable Compara similar con similar, reduce injusticia Clasificación subjetiva, requiere mantenimiento Clasificación clara por dificultad/tipo
Dinámica por capacidad Equipos con habilidades diversas, carga fluctuante Optimiza recursos, mejora tiempos de respuesta Sistema robusto requerido, cuellos de botella si falla Maximizar eficiencia con herramientas de gestión
Por impacto/valor Casos críticos, alto valor estratégico Prioriza lo importante, protege reputación Descuida casos de bajo impacto pero alta frecuencia Casos con impacto desproporcionado en negocio
Rotación equitativa Desarrollo de habilidades, evitar especialización Fomenta aprendizaje, distribuye conocimiento Reduce eficiencia en casos complejos, curva de aprendizaje Objetivo: polivalencia del equipo
Recalibración de bandas/pesos Mantener justicia y relevancia del sistema Sistema adaptable a cambios Inestabilidad si es frecuente, desactualización si es poco Cambian tipos de casos, complejidad o volumen — ej: reglas de recalibración
Monitoreo de picos (campañas/incidentes) Eventos temporales de alta demanda (ej: campaña, incidente) Ajustes rápidos, evita saturación Requiere alerta temprana, flexibilidad del equipo Eventos alteran carga normal (ej: pico por campaña/incidente)

Esta tabla no es para “elegir la estrategia perfecta”. Es para evitar el error base: aplicar volumen puro cuando el trabajo no es uniforme, o exigir “misma vara” cuando el mix está desbalanceado.

Si tus casos son realmente idénticos, volumen puro funciona y es hasta saludable. En cuanto aparece complejidad variable, “por tipo de caso (bandas)” te da justicia operable. Si tu carga cambia por hora y tu equipo tiene habilidades distintas, la asignación dinámica por capacidad te compra tiempo de respuesta, pero exige herramientas y disciplina (si no, se vuelve cuello de botella). “Por impacto/valor” es útil cuando hay casos que te pueden incendiar reputación: priorizas lo crítico aunque no sea lo más frecuente. “Rotación equitativa” sirve cuando necesitas polivalencia, pero no te sorprendas si baja eficiencia en lo complejo durante la curva de aprendizaje. Y la recalibración y el monitoreo de picos son los seguros del sistema: lo mantienen relevante sin convertir cada mes en una pelea por reglas.

Antes: limpieza de señal (lo suficiente, no perfecto)

No necesitas datos perfectos para dejar de castigarte a ciegas. Necesitas higiene mínima: etiquetar/corregir duplicados, hacer consistente la severidad (si “rojo” significa algo distinto por sucursal, no hay comparativo), y marcar campañas/incidentes como eventos.

En un evento, la pregunta correcta no es “quién fue peor”, sino “quién absorbió carga y qué cambiaremos para el próximo pico”. Si mezclas el evento con el mes normal, tu ranking mide suerte.

Durante: comparar por bandas y leer brechas (no podio)

Compara Verde con Verde, Rojo con Rojo, y cuando aplique dentro de cohortes.

La lectura útil es brecha → causa probable. Si todo empeora a la vez y transferencias están estables, suele ser capacidad/demanda. Si cae solo una categoría, suele ser coaching o conocimiento. Si Rojo se alarga cuando depende de central, es cuello de botella de proceso/handoff.

Aquí cambia el juego: de “ganadores y perdedores” a brechas accionables.

Después: decisiones que correspondan (con dueño)

El ranking vale por sus salidas. Si no cambia una decisión, es póster.

Si verdes suben fuerte en alto volumen y los tiempos se estiran, ajustas dotación/turnos o quitas fricción (duplicados, canal). Si se dispara reclasificación, entrenas con casos reales y cierras definiciones. Si rojos dependen de central, mejoras handoff y ruta rápida con información completa.

Una cadencia que no asfixia: semanal en eventos, quincenal para backlog/capacidad, mensual para scorecard + muestreo, trimestral para recalibrar bandas. Cambiar reglas cada semana vuelve el tablero una ruleta.

Monitoreo: estabilidad y recalibración

Tres señales de desvío: drift de mix (cambia sostenidamente la proporción verde/amarillo/rojo), reclasificación al alza, y varianza concentrada (una categoría se vuelve “la que nadie quiere”). Recalibra si el drift se sostiene dos ciclos, entra un canal nuevo o detectas gaming consistente.

Cómo comunicar el cambio sin perder a tu gente: del podio al diagnóstico (y qué prometer en público)

Lo técnico es lo fácil. La confianza es lo caro.

Si cambias el ranking sin explicarlo, suena a maquillaje. Así que hay que decirlo en voz alta: el ranking anterior era un ranking de sucursales injusto porque estaba midiendo ruido.

Qué dejar de publicar (para no fabricar resentimiento)

Deja de publicar la tabla única como “verdad absoluta” sin bandas/cohortes. No publiques rankings con nombres de personas. Y no publiques solo eficiencia sin guardarraíles: es enseñar a optimizar mal.

Cómo presentar resultados: brechas y causas, no ganadores y perdedores

Un mensaje que suele funcionar porque suena a operación, no a discurso:

“Desde este mes dejamos el ranking plano. Vamos a comparar por bandas y con guardarraíles de calidad. La idea es detectar brechas y decidir acciones de capacidad, coaching o proceso. Si una sucursal recibe más rojos o picos, se verá reflejado para no castigar el ruido.”

Para respaldar el “por qué” sin hacerlo personal: cuando las evaluaciones se basan en mediciones inexactas, pierden credibilidad [3].

Tip práctico: enseña un antes/después con un solo ejemplo (como A vs B separando rojos). Una diapositiva clara desactiva más resistencia que diez “alineamientos”.

El pacto de uso: decisiones que SÍ y que NO

Aquí conviertes el ranking en herramienta de mejora y no en arma.

Sí: priorizar mejoras de proceso y coordinación con central; ajustar dotación/horarios ante brechas de capacidad; identificar coaching por categoría. No: bonos individuales o sanciones de corto plazo; ranking único sin bandas y guardarraíles. Si suben recontacto o transferencias, se activa modo diagnóstico con muestreo. Y cualquier cambio de regla se comunica antes del ciclo.

Plan de lunes (realista): junta Operaciones + Calidad + representantes de sucursales, define bandas y guardarraíles, acuerda handoff mínimo viable, y corre un ciclo sin “podio”. Primero dejas de castigar ruido. Luego, con el sistema estable, lo usas para mejorar de verdad.

Fuentes

  1. factorhuma.org — factorhuma.org
  2. iese.edu — iese.edu
  3. elfinancierocr.com — elfinancierocr.com