Modelo de Detección de Fraudes mediante Medias Locales.

Autor: Rafael Miranda Cordero
Coautor(es): Rodrigo Quijón Hipólito
La regresión logística es uno de los modelos estadísticos más usados para ajustar datos de respuesta binaria en función de un conjunto de variables explicativas. Este ajuste se realiza, generalmente, empleando mínimos cuadrados gaussianos para maximizar la verosimilitud del estimador. No obstante, ha sido probado que el uso de esta metodología da lugar a estimadores con sesgos significativos, por lo que se han propuesto distintas formas de minimizar el sesgo (ver [1,3]). Particularmente, cuando una de las dos respuestas es poco frecuente (es un evento raro) la regresión logística tiende a subestimar la probabilidad de ocurrencia de este evento. Chen, J., et. al. en [2] proponen un modelo de medias locales para corregir el error debido al sesgo en eventos raros, el cual consiste en tomar un promedio de las probabilidades estimadas por distintos modelos en lugar de seleccionar el mejor de estos. A su vez, los modelos se obtienen mediante regresión logística sobre los datos perturbados. En el presente trabajo se emplea el modelo de medias locales antes mencionado para ajustar un conjunto de datos encaminados a la detección de fraudes mediante métricas de morosidad temprana en créditos minoristas. Se comparan los resultados del modelo de Chen contra las metodologías usuales. [1] Agresti A. An Introduction to Categorical Data Analysis, 2nd ed. New York: John Wiley, 2007. [2] Chen, J., Chen, C., Huang, M. and Lin, H. (2016), Estimating the Probability of Rare Events Occurring Using a Local Model Averaging. Risk Analysis, 36: 1855-1870. [3] King, G. and Zeng, L.. Logistic regression in rare events data. Political Analysis, 9:137-163,Spring 2001.