Question 1

¿Qué tipo de modelos de ML hacéis?

Accepted Answer

Principalmente modelos para datos tabulares: clasificación (impago, fuga, fraude, conversión) y regresión (demanda, precio, tiempo). También modelos de NLP con transformers para clasificación de texto, extracción de información y búsqueda semántica. Para LLMs, integración y fine-tuning.

Question 2

¿Qué significa que el modelo esté bien calibrado?

Accepted Answer

Significa que cuando el modelo dice '70% de probabilidad de impago', de verdad ocurre impago en alrededor del 70% de esos casos. Sin calibración, los scores son un ranking pero no probabilidades reales, lo que complica tomar decisiones de negocio con ellos.

Question 3

¿Por qué no usar siempre el umbral de 0,5?

Accepted Answer

Porque el coste de equivocarse no es simétrico. En riesgo de crédito, un falso negativo (dar crédito a alguien que impaga) suele costar 5 veces más que un falso positivo (rechazar a alguien que habría pagado). El umbral óptimo refleja esa asimetría, no una convención.

Question 4

¿Cuánto cuesta entrenar un modelo de ML?

Accepted Answer

Depende del tipo de problema y la complejidad de los datos. Un modelo tabular con pipeline completo y evaluación rigurosa parte de unos 1.500€. Problemas más complejos (datos heterogéneos, requerimientos de explicabilidad, integración con sistemas existentes) se presupuestan caso a caso.

Question 5

¿Podéis trabajar con datos que ya tenemos?

Accepted Answer

Sí, y es la situación más habitual. Aportas los datos (exportación de tu base de datos, ficheros CSV, conexión a un data warehouse) y yo diseño el pipeline de preprocesado, el modelo y la evaluación. El primer paso es revisar la calidad de los datos y definir la variable objetivo.

Modelos de machine learning en Madrid

Validación sin fugas de datos

Probabilidades calibradas

El umbral importa tanto como el modelo

Análisis de error por segmento

¿Tienes datos y quieres un modelo que funcione de verdad?

FAQ

¿Qué tipo de modelos de ML hacéis?

¿Qué significa que el modelo esté bien calibrado?

¿Por qué no usar siempre el umbral de 0,5?

¿Cuánto cuesta entrenar un modelo de ML?

¿Podéis trabajar con datos que ya tenemos?