Blog·20/06/2026

Tu eval bajó del 90 al 89%: ¿regresión real o ruido?

Un modelo nuevo puntúa 89,4% donde el anterior daba 90,0% sobre 1.000 ejemplos. Parece una regresión. En ese tamaño de muestra es ruido. Cómo distinguir una cosa de la otra antes de bloquear un despliegue.

Cambias una parte del pipeline, vuelves a correr la evaluación y la accuracy pasa de 90,0% a 89,4%. La pregunta que decide si despliegas o no es simple de enunciar y difícil de responder a ojo: ¿ese medio punto es una regresión real o es la variación normal de medir sobre una muestra finita?

El número por sí solo no dice nada. Una accuracy es una proporción medida sobre un número concreto de ejemplos. Sobre 1.000 ejemplos, la incertidumbre de esa medición es de aproximadamente ±1,9 puntos con un 95% de confianza. Es decir, un modelo cuya accuracy real es 90% puede darte 88,1% o 91,9% en una evaluación concreta solo por el azar de qué ejemplos cayeron en el conjunto de test. Bloquear un despliegue por medio punto en 1.000 ejemplos es reaccionar al ruido.

El test estadístico correcto. Para dos proporciones (dos accuracies con su tamaño de muestra) el test es un contraste de dos proporciones: calcula la diferencia, el error estándar combinado y un p-valor. Si el p-valor está por encima de tu umbral (0,05 es lo habitual), la diferencia no es distinguible del ruido. Cuando los dos modelos se evaluaron sobre los mismos ejemplos, un test pareado como McNemar es más potente: mira solo los casos donde discrepan, que es donde está la señal.

Qué falla cuando gateas con el número crudo en CI. Si tu integración continua falla en cuanto la métrica baja un poco, el build parpadea con cada re-ejecución por puro ruido de muestreo, y el equipo aprende a ignorarlo. Si en cambio nunca gateas, una regresión real se cuela. La salida es gatear sobre significancia: fallar solo cuando el candidato es significativamente peor, y dejar pasar lo que está dentro del ruido.

Un veredicto en cuatro estados, no dos. En lugar de pasa/falla, es más útil un veredicto de cuatro valores: mejora, sin cambio medible, peor pero dentro del ruido, y regresión significativa. Solo el último debería romper el build. Esta lógica es exactamente la que implementé en evalgate, una herramienta de línea de comandos que aplica el test adecuado y devuelve el veredicto con su p-valor.

La conclusión práctica: cuando la muestra es pequeña, la respuesta correcta a un delta ambiguo casi nunca es bloquear ni desplegar a ciegas, sino recoger más ejemplos. Un p-valor en el límite es una señal de que tu conjunto de evaluación es demasiado pequeño para decidir, no de que el modelo sea peor.

Trabaja con JMWEB

Construyamos algo que llegue a producción.

Todo arranca con una conversación. Trae un dataset, un objetivo o un modelo que se atasca; del resto me ocupo yo.

Empezar un proyecto

Sigue leyendo:

13/06/2026

Fugas entre train y test: el error que infla todas tus métricas

Leer artículo

06/06/2026

Del notebook a una API de inferencia que aguanta producción

Leer artículo