Sobre MíServiciosProyectosContacto
Todas las herramientas

Datos

dsdiff

Diff estilo git entre dos datasets, con drift de distribución.

Instalación

pip install dsdiff

Una vez publicado en PyPI. También disponible ya desde GitHub:

pip install git+https://github.com/jmweb-org/dsdiff

Qué hace

Cuando se regenera un dataset, las columnas se renombran, cambian de tipo, ganan nulos o se desplazan en silencio, y el pipeline sigue corriendo mientras el modelo se degrada. dsdiff compara dos ficheros y reporta qué cambió, ordenado por gravedad.

Características

  • Cambios de esquema: columnas añadidas, eliminadas o de tipo cambiado.
  • Drift de distribución por columna con PSI.
  • Saltos en tasa de nulos y cardinalidad.
  • Gate de CI y salida JSON; lee CSV, Parquet y JSONL.
Ver el código en GitHub

Otras herramientas

hola@jmwebsoluciones.com