Por qué el umbral de decisión importa más que el modelo
Cambiar el umbral de decisión de 0,5 al valor correcto para el coste de tu negocio puede mejorar el resultado operativo más que pasar de regresión logística a XGBoost. Por qué nadie lo explica así.

Cuando un modelo de clasificación predice, no predice directamente 'aprueba' o 'rechaza': predice una probabilidad. La decisión viene después, cuando aplicas un umbral: si el score es mayor de X, predice positivo. Por defecto, X es 0,5. Y ese defecto casi nunca es la elección correcta.
El coste de equivocarse no es simétrico. En la mayoría de los problemas reales, un tipo de error cuesta más que el otro. En riesgo de crédito, un falso negativo (dar crédito a alguien que impagará) puede costar cinco veces más que un falso positivo (rechazar a alguien que habría pagado). En detección de fraude, los ratios pueden ser de 20 a 1. En diagnóstico médico, depende del coste del tratamiento innecesario frente al coste de no detectar la enfermedad.
Cómo optimizar el umbral para el coste real. Si defines el coste de un falso negativo como C_FN y el de un falso positivo como C_FP, el umbral óptimo que minimiza el coste esperado es C_FP / (C_FP + C_FN). Con C_FN=5 y C_FP=1, el umbral óptimo es 0,17 en lugar de 0,5. Eso significa aceptar más falsos positivos para reducir los falsos negativos más costosos. La curva ROC te permite ver el tradeoff en todos los umbrales posibles; el umbral óptimo es el que minimiza el coste total esperado según la distribución de tu conjunto de test.
Un ejemplo concreto. Dataset de impago de crédito: 22% de la cartera impaga. Coste del capital perdido: 5 puntos. Coste del rechazo de un buen cliente: 1 punto. Con umbral 0,5, el modelo tiene 83% de accuracy pero deja pasar el 45% de los impagos. Con umbral 0,17, la accuracy baja al 78% pero solo deja pasar el 11% de los impagos y el coste total de la cartera se reduce un 23%. La accuracy es peor; el negocio va mucho mejor.
Por qué el umbral puede pesar más que el modelo. Si pasas de regresión logística a XGBoost con umbral 0,5, ganas quizás 2-3 puntos de ROC-AUC. Si mantienes regresión logística pero optimizas el umbral al valor correcto, la mejora operativa puede ser mayor porque reduces directamente los errores que cuestan más dinero. Esto no significa que el modelo no importa — importa para tener buena discriminación general — pero el umbral traduce esa discriminación a decisiones con valor real.
Lo que necesitas para hacer esto bien. Las probabilidades tienen que estar calibradas. Si el modelo dice 0,3 pero de verdad el riesgo es 0,7, el umbral calculado con los costes va a ser incorrecto. Por eso la calibración (Platt scaling, isotónica) y la verificación con la curva de calibración van antes de la optimización del umbral.
Trabaja con JMWEB
Construyamos algo que llegue a producción.
Todo arranca con una conversación. Trae un dataset, un objetivo o un modelo que se atasca; del resto me ocupo yo.
Empezar un proyecto

