Evaluación
evalgate
Decide si un cambio de métrica es regresión real o ruido.
Instalación
pip install evalgate-cliUna vez publicado en PyPI. También disponible ya desde GitHub:
pip install git+https://github.com/jmweb-org/evalgateQué hace
Una eval que baja de 90,0% a 89,4% en 1.000 ejemplos parece una regresión, pero en ese tamaño de muestra es ruido. evalgate aplica el test estadístico adecuado y solo falla cuando el candidato es significativamente peor.
Características
- —Test de dos proporciones sobre accuracies agregadas.
- —Test de McNemar para resultados pareados por ejemplo.
- —Veredicto: mejora, igual, ruido o regresión.
- —Gate de CI con alpha configurable.