Prototipo para análisis de datos de comprobantes fiscales en la Auditoría Superior del Estado de Puebla (2017-2018).

Autor: Marco Polo González Zepeda
Coautor(es): Andrea Elizabeth Romero Carmona, Denise Gómez García
En el 2017 se aprobó una nueva versión de Comprobante Fiscal Digital por Internet (CFDI) que incluye nuevos criterios de validación, por lo cual se esperaba que muchas facturas electrónicas que antes pasaban como válidas, ahora podrían ser rechazadas. La Auditoria Superior del Estado de Puebla (ASEP) recibe una gran cantidad de CFDI’s, por lo que la evaluación de estos instrumentos se complica con el proceso actual, arriesgando la consolidación de las metas y veracidad de la información obtenida. Por esta razón, se necesita de nuevos procesos para garantizar la validez de una cantidad significante de CFDI’s por lo que se contempla integrar técnicas de la Ciencia de Datos para la evaluación. En este proyecto se trabajó con una muestra de datos de alrededor de 6,000 comprobantes emitidos por entidades públicas en el 2018, estos se agrupan según las características que presentan para hallar patrones entre sus atributos y detectar anomalías, se desarrollo un modelo de datos en MySQL y a partir de los hallazgos encontrados por consultas de interés por la organización, se exportó estos datos al entorno R (3.4.3) donde se aplicó las técnicas "k-mean" y "regresión logística" sobre una división del conjunto de datos %80 para entrenamiento y 20% para prueba del modelo; como resultado, estos fueron eficaces para encontrar una proporción considerable de CFDI's que no tienen validez fiscal y aún así están siendo recibidos en la ASEP al no tener un proceso de evaluación masivo eficiente; por lo que los modelos desarrollados podrían ser un comienzo para implementar un nuevo "proceso de análisis de datos de comprobantes fiscales en la ASEP" basado en Ciencia de Datos.