Datos
splitcheck
Detecta filas que se filtran entre train, validación y test.
Instalación
pip install splitcheckUna vez publicado en PyPI. También disponible ya desde GitHub:
pip install git+https://github.com/jmweb-org/splitcheckQué hace
Una fila que aparece en train y en test infla todas las métricas y es fácil de introducir sin querer. splitcheck compara tus splits y reporta cuánto de uno aparece en otro, de forma exacta y tras normalizar.
Características
- —Solapamiento exacto y normalizado entre splits.
- —Comparación por fila completa o por una columna.
- —Fuga como fracción del split objetivo.
- —Gate de CI; lee CSV, Parquet, JSONL y texto.