Datos
dsdiff
Diff estilo git entre dos datasets, con drift de distribución.
Instalación
pip install dsdiffUna vez publicado en PyPI. También disponible ya desde GitHub:
pip install git+https://github.com/jmweb-org/dsdiffQué hace
Cuando se regenera un dataset, las columnas se renombran, cambian de tipo, ganan nulos o se desplazan en silencio, y el pipeline sigue corriendo mientras el modelo se degrada. dsdiff compara dos ficheros y reporta qué cambió, ordenado por gravedad.
Características
- —Cambios de esquema: columnas añadidas, eliminadas o de tipo cambiado.
- —Drift de distribución por columna con PSI.
- —Saltos en tasa de nulos y cardinalidad.
- —Gate de CI y salida JSON; lee CSV, Parquet y JSONL.