Ciencia de datos · ML · Madrid
Ciencia de datos en Madrid
Trabajo con datos para construir sistemas que toman decisiones: desde el análisis exploratorio y la definición del problema hasta el modelo en producción. Datos tabulares, texto y series temporales, con metodología sólida y evaluación honesta en cada paso.

El análisis que precede al modelo
Antes de entrenar cualquier cosa, analizo la distribución de los datos, los valores ausentes, las correlaciones con la variable objetivo y los posibles sesgos. Un modelo entrenado sobre datos mal entendidos no funciona aunque el algoritmo sea sofisticado.
Ingeniería de variables que aporta
Las variables que construyes a partir de los datos brutos suelen importar más que el algoritmo. Trabajo la ingeniería de variables con conocimiento del dominio: ratios, agregaciones temporales, encodings que no filtran información del futuro al pasado.
Modelos con metodología
Validación cruzada estratificada, búsqueda de hiperparámetros con presupuesto fijo, comparación de modelos sobre el mismo conjunto de test, calibración de probabilidades y análisis de importancia de variables. Sin atajos que inflen los resultados.
Resultados que se pueden usar
Los notebooks son para explorar, no para entregar. El resultado de un proyecto de ciencia de datos tiene que ser un pipeline reproducible, una API o un informe claro con conclusiones accionables. No un Jupyter que solo corre en mi máquina.
¿Tienes datos y quieres saber qué puedes hacer con ellos?
Escríbeme con el objetivo: predecir, segmentar, detectar anomalías, entender por qué algo pasa. Primera llamada gratis.
Empezar un proyectoFAQ
¿Qué diferencia hay entre ciencia de datos y machine learning?
La ciencia de datos es más amplia: incluye la exploración, el análisis estadístico, la visualización y la narrativa sobre los datos. El ML es una herramienta dentro de la ciencia de datos, la parte de construir modelos predictivos. En la práctica los dos van juntos en casi todos los proyectos.
¿Con qué tipos de datos trabajáis?
Principalmente datos tabulares (bases de datos de clientes, transacciones, registros de uso), texto (emails, tickets, documentos, reseñas) y series temporales (ventas, consumo, métricas de producto). Para imágenes o audio, consulta el alcance concreto.
¿Qué necesito para empezar un proyecto de ciencia de datos?
Un objetivo de negocio claro (qué decisión quieres tomar mejor) y datos históricos con la variable que quieres predecir o entender. No necesitas los datos perfectos ni saber de ML: la primera sesión sirve para diagnosticar qué hay y qué hace falta.
¿Podéis trabajar con datos confidenciales?
Sí, con las medidas de seguridad adecuadas: NDA, trabajo en tu entorno o entorno controlado, sin datos en servidores externos. Si los datos son muy sensibles (salud, finanzas), lo hablamos antes de empezar.
¿Cuánto tarda un proyecto de ciencia de datos?
Un análisis exploratorio con informe de conclusiones tarda entre 1 y 2 semanas. Un proyecto completo (análisis + modelo + evaluación + entrega) está entre 4 y 8 semanas dependiendo del volumen de datos y la complejidad del problema. Los proyectos de despliegue y producción van aparte.