Uso de Técnicas de Minería de Datos Fraudes EEFF 2020
Uso de Técnicas de Minería de Datos Fraudes EEFF 2020
Uso de Técnicas de Minería de Datos Fraudes EEFF 2020
net/publication/340654299
CITATIONS READS
0 140
4 authors, including:
Christian Quesada-López
University of Costa Rica
45 PUBLICATIONS 104 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Alex Ramírez on 15 April 2020.
reported algorithms and the metrics used to evaluate their effectiveness. For this,
a systematic mapping study of 67 studies was carried out. Our results show that
since 2015 there was an upturn in the amount of studies that use these techniques
for fraud detection in financial statements, where vector support machines are the
most used technique, with 19 studies, followed by artificial neural networks, with
15 studies, and decision trees, with 11 studies. Effectiveness was assessed by the
degree of precision with which the implemented techniques detected real fraud
cases, obtaining values between 70% and 99.9%.
Keywords: Fraud detection; machine learning; data mining; financial statements;
audit.
1. Introducción
La detección de fraudes en estados financieros es una tarea recurrente y una necesidad,
tanto para organizaciones públicas como para empresas privadas. Las técnicas
convencionales de auditoría financiera se utilizan como un medio para determinar la
salud financiera y las perspectivas a futuro de la organización (Ngai y cols., 2011).
La revisión de estados financieros es vital para prevenir las consecuencias generalmente
devastadoras de los fraudes. Esto implica distinguir datos fraudulentos de datos
auténticos, revelando así actividades o comportamientos anómalos, con la finalidad
de permitir a los tomadores de decisiones desarrollar, tan pronto como sea posible,
estrategias que disminuyan el impacto del fraude (Ngai y cols., 2011).
No obstante, la capacidad de procesamiento de expertos humanos es limitada, y la
cantidad de información generada cada vez es mayor, por lo que se hace necesario
recurrir a la tecnología para procesar grandes volúmenes de datos, de manera que se
puedan detectar patrones que posiblemente resultarían imperceptibles para un ser
humano (Shalev-Shwartz,2014).
La presente investigación tiene por objetivo analizar las técnicas de minería de datos y
aprendizaje automático, con respecto a sus algoritmos y su efectividad, en el contexto
de detección de fraudes en estados financieros. Se realizó un mapeo sistemático de
literatura para identificar la evidencia existente sobre la aplicación de estas técnicas
y su efectividad obtenida. Para llevar a cabo el estudio se establecieron las siguientes
preguntas de investigación:
RQ1. ¿Qué técnicas de minería de datos y de aprendizaje automático se han utilizado en
la detección de fraudes en estados financieros?
RQ2. ¿Cómo ha sido evaluada la efectividad de las técnicas de minería de datos y de
aprendizaje automático utilizadas en la detección de fraudes en estados financieros?
Este resto del artículo está estructurado de la siguiente manera: en la sección 2 se
presenta el marco teórico, la sección 3 describe trabajos relacionados, la sección 4
explica la metodología utilizada, la sección 5 muestra los resultados obtenidos, la sección
6 discuten dichos resultados y, la sección 7 presenta las conclusiones.
2. Marco teórico
Los fraudes financieros se han clasificado comúnmente en tres grandes categorías:
fraude bancario, fraude corporativo, y fraude de seguros (West y cols., 2015). Cada una
de estas categorías se subdivide, a su vez, en distintos tipos. Los tipos de fraude bancario
son: fraude con tarjetas de crédito, fraude hipotecario, y lavado de dinero. Los tipos de
fraude corporativo incluyen fraude en estados financieros, y fraude en valores y materias
primas. Finalmente, entre los tipos de fraude de seguros están: el fraude en seguros de
automóviles, y el fraude en seguros de salud (West y cols., 2015).
El concepto “fraude en estados financieros” agrupa una serie de comportamientos en
los cuales los participantes de un mercado financiero hacen declaraciones falsas sobre
la verdadera naturaleza o la salud financiera de una compañía, un fondo o un producto
de inversión (Reurink, 2016). Esta modalidad de fraude es típicamente cometida por
una de estas razones: para encubrir una mala aplicación de fondos, para inducir a los
inversores en un error, o para engañar a los reguladores sobre la rentabilidad de la
organización (Reurink, 2016).
De acuerdo con la Association of Certified Fraud Examiners (2018), el fraude en estados
financieros, si bien es el menos común, es también el más costoso para las organizaciones:
en 2018, de un total de 2690 casos de fraude financiero en 125 países, representó el 10%
de los casos, y una pérdida promedio por caso de 80,0000 dólares, mientras que la
apropiación indebida de activos representó el 89% de los casos y una pérdida promedio
de 114,000 dólares.
El concepto “aprendizaje automático” se refiere a la detección automática de patrones
significativos en los datos, y se ha vuelto una herramienta común en casi cualquier
tarea que requiera la extracción de información a partir de grandes volúmenes de
datos (Shalev-Shwartz, 2014). Los algoritmos de aprendizaje automático han resultado
exitosos en una amplia gama de tareas y dominios, incluyendo la visión por computadora,
el reconocimiento de voz, la clasificación documental, la conducción automática y el
soporte en la toma de decisiones (Blum y cols., 2015). Las aplicaciones de aprendizaje
automático permiten un análisis completo de toda la información disponible (en lugar
de solo muestras), así como la detección de patrones que pueden resultar imperceptibles
para el humano (Shalev-Shwartz, 2014).
Existen diversas técnicas de minería y aprendizaje, entre las cuales están: regresión
(regresión lineal simple, regresión lineal múltiple, regresión polinomial), clasificación
(K vecinos más cercanos KNN, máquinas de soporte vectorial SVM, Kernel SVM, Naïve
Bayes, árboles de decisión DT-, árboles aleatorios -RF-), agrupamiento (K-means,
agrupamiento jerárquico), reducción de la dimensionalidad (análisis de componentes
principales PCA, análisis de discriminante lineal LDA, Kernel PCA), redes neuronales
(redes neuronales artificiales ANN, redes neuronales convolucionales), aprendizaje
profundo (deep learning) y aprendizaje por refuerzo (Shalev-Shwartz, 2014; Blum y
cols., 2015.), entre otras.GG
3. Trabajo relacionado
En esta sección se presentan estudios secundarios que realizan investigaciones sobre
las técnicas de minería de datos y aprendizaje automático para la detección de fraudes
financieros. Albashrawi (2016) llevó a cabo una revisión de literatura entre 2004 y 2015
sobre técnicas de minería de datos para la detección de fraudes financieros. Encontró
que la regresión logística, DT, SVM, ANN y las redes bayesianas han sido ampliamente
utilizados, aunque no siempre están asociados a los mejores resultados. Analizó 65
artículos relevantes y abarcó diversas formas de fraude financiero, por ejemplo, con
tarjetas de crédito, con seguros de automóviles y de salud; en lo concerniente a fraudes
en estados financieros, obtuvo 21 artículos. En términos de detección de fraudes en
general -no solo de estados financieros-, encontró que el algoritmo más utilizado fue la
regresión logística, con 13%, seguido por ANN y DT, con 11% cada uno, y SVM, con 9%.
Duhart y Hernández (2016) hicieron una revisión de literatura de los principales
indicadores y algoritmos de minería de datos utilizados para la detección de fraudes.
Entre los algoritmos referidos están SVM, ANN, las redes neuronales probabilísticas
y K-vecinos más cercanos. Los autores compararon la exactitud de las clasificaciones
obtenidas por los algoritmos. Las redes bayesianas ocuparon el primer lugar, con 90.3%,
seguidas por ANN, con 80%, y DT, con 73.6%.
Ngai y cols. (2011) realizaron una revisión de literatura sobre la aplicación de técnicas de
minería de datos para la detección de fraudes financieros, de 1997 a 2008. Analizaron 49
artículos y crearon una clasificación de tipos de fraude. El fraude en estados financieros
fue clasificado dentro de la categoría “Otros fraudes financieros relacionados”, junto con
los fraudes de mercadeo masivo.
Como aporte, la presente investigación se centra específicamente en el análisis de las
técnicas para la detección de fraudes en estados financieros, y se analizan un total de 67
artículos del 2007 a 2019. Adicionalmente, se indaga sobre las métricas con las que se
mide la efectividad de los algoritmos y sus resultados.
4. Metodología
En esta sección se describen brevemente los pasos del proceso de mapeo realizado,
de acuerdo con los lineamientos de Petersen y cols. (2015) y las recomendaciones de
Kitchenham (2007). El objetivo del estudio, formulado con el modelo GQM (Basili y
cols., 1994), fue analizar técnicas de minería de datos y aprendizaje automático, con el
propósito de caracterizarlas con respecto a sus algoritmos, su eficiencia y efectividad,
desde el punto de vista de los investigadores, en el contexto de detección de fraudes en
estados financieros.
El proceso de I/E se hizo con base en el título y el resumen de los artículos (cuando
hubo duda, se hizo lectura completa del artículo). Se incluyeron solo (I1) artículos
en inglés, (I2) que presentaran la aplicación de técnicas de minería de datos y
de aprendizaje automático en el contexto de la detección de fraudes en estados
financieros. Se excluyeron publicaciones que (E1) no trataran sobre fraude en
estados financieros, (E2) artículos que no son estudios primarios, y (E3) artículos
sobre medicina, criptomonedas, intrusiones o malware. Se identificaron un total de
67 artículos, tal como se muestra en la Figura 1. Existen 6 artículos que no pudieron
ser obtenidos en texto completo y que reportamos a continuación: Young Moon y
Don Kim (2017), Song y Ge (2012), Jan y Hsiao (2018), Rizani y Respati (2018),
Meenatkshi y Sivaranjani (2016) y Xiong y cols. (2012). Estos estudios no fueron
analizados.
el proceso y podría ser revisado. La aplicación de los criterios de calidad fue realizada
solo por un investigador, lo que representa una amenaza a la validez.
Generalización de los resultados. La generalización de resultados se limita a los estudios
incluidos en el mapeo. Durante todo el proceso, se aplicaron protocolos para ejecutar
estudios secundarios. Se reportó el proceso para facilitar el análisis y replicación.
5. Análisis de resultados
En esta sección se presentan los resultados del mapeo. El listado completo de estudios
primarios analizados se encuentra disponible en http://shorturl.at/dvLPT. Cada artículo
se identifica con el identificador Sx, donde x corresponde al número del artículo. Los
primeros artículos analizados son de 2007 y desde entonces se identificaron artículos de
interés para cada año, hasta 2019. Como puede observarse en la figura 2, en 2015 y 2016
hubo un repunte en la cantidad de artículos relevantes, ambos con 11 reportes; mientras
que de 2012 y 2013 se obtuvo un solo artículo de interés por cada año.
6. Conclusiones
Se realizó un mapeo sistemático de literatura con el que se identificaron las técnicas
de minería de datos y aprendizaje automático utilizadas para la detección de fraudes
en estados financieros. A partir 67 artículos que datan de 2007 a 2019, se extrajeron
los algoritmos reportados y se clasificaron en 10 categorías, correspondientes a técnicas
distintas.
Se extrajeron también las métricas utilizadas para medir la efectividad de los algoritmos,
desde su eficacia y su eficiencia. Se encontró que en 2015 hubo un repunte en la cantidad
de investigaciones y que la técnica clasificación es la más reportada, y dentro de ella,
las máquinas de soporte vectorial (SVM) son el algoritmo más utilizado, reportado en
19 estudios, seguido por las redes neuronales artificiales (ANN), con 15 reportes y los
árboles de decisión (DT), con 11 reportes.
La exactitud (accuracy) es la métrica de eficacia más utilizada. Se encontraron valores
de exactitud que rondan entre el 70% y el 99.9% en implementaciones de técnicas de
clasificación, específicamente con SVM, que fue el algoritmo más reportado, por lo que
puede observarse un cambio con lo obtenido por Albashrawi (2016), quien determinó
que, para 2015, SVM ocupaba el tercer lugar en tendencia de uso y Duhart y Hernández-
Gress (2016), que localizaron las redes bayesianas, ANN y DT en las primeras posiciones.
De las 6 métricas de eficiencia identificadas en los artículos, 4 están enfocadas en el
tiempo que toman las técnicas implementadas en arrojar un resultado (speed, velocity,
execution time y computational time), una métrica midió el costo computacional
(computational cost) y una contempló ambos aspectos (scalability).
Se requiere una apertura de la industria financiera para proveer conjuntos de datos
de casos reales que permitan crear herramientas que, incluso, podrían eventualmente
hacer detecciones de fraude en tiempo real. Los resultados obtenidos permiten contar
con una referencia para la elección del enfoque más apropiado en la implementación de
sistemas para la detección de fraudes en estados financieros, por ejemplo, en empresas
y entidades de fiscalización gubernamentales. Como trabajo futuro se propone realizar
mayor investigación sobre la eficiencia de los algoritmos, de manera que pueda hacerse
mayor comparación de la velocidad o el costo computacional de implementarlos.
Referencias
Association of Certified Fraud Examiners, Inc. (2018). Report To The Nations 2018.
Global Study On Occupational Fraud And Abuse. Descargado de https://s3-us-
west-2.amazonaws.com/acfepublic/2018-report-to-the-nations.pdf
Afifah Rizki, A., Surjandari, I. y Aldiana Wayasti, R. (2017, 10). Data mining application
to detect financial fraud in indonesia’s public companies. En (p. 206-211). doi:
10.1109/ICSITech.2017.8257111
Albashrawi, M. (2016, 07). Detecting financial fraud using data mining techniques: A
decade review from 2004 to 2015. Journal of Data Science,14, 553-570.
Basili, V., Gianluigi, C. and Rombach, D. (1994). The goal question metric approach.
Encyclopedia of software engineering 1994, pp. 528–532.
Blum, A., Hopcroft, J., y Kannan, R. (2015). Foundations of data science. Descargado de
https://www.cs.cornell.edu/jeh/book.pdf
Duhart, B., y Hernández-Gress, N. (2016, 12). Review of the principal indicators and data
science techniques used for the detection of financial fraud and money laundering.
En (p. 1397-1398). doi: 10.1109/CSCI.2016.0267
Guerequeta, R., y Vallecillo, A. (2000). Técnicas de diseño de algoritmos. Descargado
de: http://www.lcc.uma.es/~av/Libro/
Jan, C.-L., y Hsiao, D. (2018, 04). Detection of fraudulent financial statements
using decision tree and artificial neural network. ICIC Express Letters, Part B:
Applications, 9, 347-352.
Kitchenham, B. (2007). Guidelines for performing systematic literature reviews in
software engineering. Technical report, Ver. 2.3 EBSE Technical Report.
Li, H., y Wong, M. L. (2015, 05). Financial fraud detection by using grammar-based
multi-objective genetic programming with ensemble learning. doi: 10.1109/
CEC.2015.7257014
Meenatkshi, R., y Sivaranjani. (2016, 01). Fraud detection in financial statement using
data mining technique and performance analysis. 9, 407-413.
Minhas, S., y Hussain, A. (2016, 05). From spin to swindle: Identifying falsificationin
financial text. Cognitive Computation, 8. doi: 10.1007/s12559-016-9413-9
Moepya, S., Akhoury, S., Nelwamondo, F., y Twala, B. (2016, 02). The role of imputation
in detecting fraudulent financial reporting; 12, 333-356.
Ngai, E., Hu, Y., Wong, Y., Chen, Y., y Sun, X. (2011). The application of data mining
techniques in financial fraud detection: A classification framework and anacademic
review of literature. Decision Support Systems, 50(3), 559 - 569. Descargado de:
http://shorturl.at/nRS28. doi: https://doi.org/10.1016/j.dss.2010.08.006O.
Pai, M., McCulloch, M., Gorman, J.D., Pai, N.P., Enanoria, W.T., Kennedy, G.E., Tharyan,
P., & Colford, J.M. (2004). Systematic reviews and meta-analyses: an illustrated,
step-by-step guide. The National medical journal of India, 17 2, 86-95.