Sobre MíServiciosProyectosContacto
Todas las herramientas

Datos

splitcheck

Detecta filas que se filtran entre train, validación y test.

Instalación

pip install splitcheck

Una vez publicado en PyPI. También disponible ya desde GitHub:

pip install git+https://github.com/jmweb-org/splitcheck

Qué hace

Una fila que aparece en train y en test infla todas las métricas y es fácil de introducir sin querer. splitcheck compara tus splits y reporta cuánto de uno aparece en otro, de forma exacta y tras normalizar.

Características

  • Solapamiento exacto y normalizado entre splits.
  • Comparación por fila completa o por una columna.
  • Fuga como fracción del split objetivo.
  • Gate de CI; lee CSV, Parquet, JSONL y texto.
Ver el código en GitHub

Otras herramientas

hola@jmwebsoluciones.com