Data Mining en Educación
Data Mining en Educación
Data Mining en Educación
net/publication/339956767
CITATIONS READS
0 175
4 authors:
Some of the authors of this publication are also working on these related projects:
Dashboard design to assess the impact of distinct data visualization techniques in the dynamic analysis of survey’s results View project
SISTEMA DE GESTIÓN DE LA CALIDAD MEDIANTE LA AUTOMATIZACIÓN DEL SIGE 2, BASADO EN EL DIAGNÓSTICO Y EVALUACIÓN DE RESULTADOS PARA EL
MEJORAMIENTO DE PROCESOS Y PROCEDIMIENTOS DE LA UNIVERSIDAD ISRAEL View project
All content following this page was uploaded by Renato Mauricio Toasa G on 15 April 2020.
Henry Recalde1, Paúl Francisco Baldeón Egas1, Miguel Alfredo Gaibor Saltos1, Renato
M. Toasa1
1
Universidad Tecnológica Israel, Quito Ecuador
Pages: 63–71
1. Introducción
Durante los últimos años, la cantidad de información que manejan las Instituciones de
Educación Superior (IES), se ha incrementado considerablemente, esto debido al uso
de novedosos sistemas académicos que maneja toda la información de los procesos de
las IES. Gran parte de las IES a nivel mundial han optado por utilizar software libre,
debido a que el software libre ofrece un enfoque para abordar los problemas técnicos
de manera personalizada, y de cierta manera representa un costo económico bajo en
comparación con software propietario (Bishop, Jensen, Scacchi, & Smith, 2016). Esta
gran cantidad de información obliga a las todas las empresas y en especial a las IES a
utilizar novedosas técnicas como la minería de datos, visualización de datos, inteligencia
artificial, aprendizaje de máquinas entre otras, que sirven como base para una correcta
toma de decisiones (Sivarajah, Kamal, Irani, & Weerakkody, 2017).
En la literatura se encontraron estudios que analizan el sector académico en las IES,
estos incluyen diversos procesos que se mencionan a continuación. Inicialmente
(Luan, 2002), menciona que la minería de datos es el proceso de descubrir “mensajes
ocultos”, patrones y conocimientos dentro de grandes cantidades de datos y de
hacer predicciones de resultados o comportamientos., además proporcionan un
caso de estudio de su aplicación a los datos de transferencia universitaria, por otro
lado (Baradwaj & Pal, 2012), desarrollan un modelo de minería de datos para el
sistema de educación superior utilizando el método del árbol de decisión, extraen el
conocimiento que describe el desempeño de los estudiantes, esto permite identificar
más a los estudiantes que abandonan la universidad y a los estudiantes que necesitan
atención especial.
En lo referente a aplicaciones para aplicar Minería de datos, existen varias bibliotecas
o programas de minería de datos de código abierto como Knime (Berthold et al.,
2009), RapidMiner, Weka y el software R (Naik & Samant, 2016), entre otros; que
ofrecen varios algoritmos para realizar minería de datos. La importancia de utilizar
software libre.
El lenguaje R, ha sido utilizado para diversas tareas, inicialmente (Nasridinov & Park,
2013) proponen utilizar R para analizar visualmente grandes volúmenes de datos, se
propuso varios escenarios incluyendo la visualización de datos simples, clustering,
minería de texto y análisis de redes sociales, los resultados generados por R como gráficos
estadísticos y predicciones fueron de gran ayuda para la toma de decisiones, por otro
lado un análisis de las mediciones que realiza R, métricas que utiliza y las características
que definen su comportamiento y estructura lo detallan (Voulgaropoulou, Spanos, &
Angelis, 2012).
Basándonos en la literatura de herramientas libres para aplicar minería de datos y por su
rapidez y exactitud en la representación de grandes cantidades de datos, en este trabajo
se optó por utilizar el lenguaje R (Wallach, Makowski, Jones, & Brun, 2019). Si bien se
ha analizado algunos casos de uso que los investigadores le dan al software R, hay un
bajo enfoque en datos académicos, por tal motivo en este trabajo se realiza la minería
de datos de un sistema académico utilizando el lenguaje R, de esta manera determinar
cómo los resultados que genera R puede ser beneficios para la institución en la oportuna
toma de decisiones.
El resto del documento está estructurado de la siguiente manera: en la sección 2 se
describe brevemente sobre la minería de datos usando R, a continuación, en la sección
3 se detalla el caso de estudio, en la sección 4 se muestran los resultados, en la sección 5
se detallan las conclusiones y trabajo futuro.
3. Caso de estudio
Los datos académicos que se utilizan en el presente trabajo, son los datos del SIGE,
un sistema de gestión estratégica de la Universidad Tecnológica ISRAEL de Ecuador
(Baldeon Egas, Gaibor Saltos, & Toasa, 2019). Este sistema académico presenta
información principal de estudiantes, docentes, calificaciones, materias, niveles,
períodos académicos, aprobados, reprobados, entre otros datos académicos. Se optó
por utilizar la información de las carreras de ingeniería, a que en estas carreras los
estudiantes suelen tener dificultades en aprobar las asignaturas.
3.1. Proceso
Para poder determinar un mejor resultado al analizar los datos académicos de los
estudiantes en Ciencias de la Ingeniería de la IES antes mencionada es necesario realizar
los siguientes pasos:
•• Creación de una vista con los datos académicos del SIGE, del cual se extrajo
la siguiente información: periodo académico, área de conocimiento, materia,
género y estado de aprobación.
•• Depuración de los datos y clasificación de la información de variables cualitativas
a valores numéricos.
•• Generación del archivo de datos para procesar en R Studio, este archivo
resultante será un archivo separado por comas (CSV).
•• Ejecución del algoritmo en lenguaje R para validación de los datos y generación
de los resultados del árbol de decisión.
3.2. Información
El caso de estudio se centrará específicamente en los datos del área de conocimiento de
Ciencias de la ingeniería la cual se realizará con el objetivo de determinar el porcentaje
de estudiantes que reprueban en cada uno niveles de dicha área. Los datos que
son utilizados en el presente estudio son parte de los registros de aprobación de los
estudiantes comprendidos entre los períodos académicos desde el 2012 – 2019.
Los datos de la Figura 1 muestran el estado actual de las materias aprobadas en las
carreras de ciencias de la ingeniería, estos datos son claves para en el proceso de minería
de datos generar el árbol de decisión para determinar cuáles son las materias en las
cuales hay mayor índice de reprobados.
3.3. Herramientas
La información del SIGE se encuentra disponible en SQL Server y la misma fue procesada
mediante la creación de consultas para obtener la información de los datos necesarios
para el caso de estudio antes mencionado.
R Studio es necesario para procesar la información la cual fue previamente obtenida
mediante vistas en SQL Server, esta información fue depura y se exporta a formato de
valores separados por coma (CSV) y es usada para su proceso mediante el algoritmo
creado en lenguaje R.
La Figura 2 muestra cómo se realiza el proceso utilizando R para el procesamiento de la
información y la posterior generación de los árboles de clasificación y decisión. En este
código se aplicó usando un índice probabilidades del 80% para el entrenamiento de los
árboles de decisión y clasificación.
4. Resultados
A continuación, los resultados obtenidos permiten identificar cual se basa en un árbol de
decisión y clasificación para obtener los posibles resultados de una serie de datos basadas
en las variables y datos mencionados en el caso de estudio. Esto permite comparar
posibles acciones entre sí según sus valores de los datos académicos, probabilidades
y beneficios.
las carreras asignando un código el cual será descrito a continuación en la Tabla 1, esto
permitirá asignar valores numéricos para su posterior análisis en la clasificación de los
resultados del estudio propuesto:
Para los estados de se asignó los valores de uno para Aprobado y cero para reprobado, a
continuación, la interpretación de los resultados:
1. Inicio 1791 646 1 (0.3606924 0.6393076) En la raíz del árbol de 1791 que
representa al 100% de muestras el 36.06 % reprueba en el área de estudio de
ingeniería, mientras que el 63.94 aprueba
2. Asignatura>=79 0 (0.5527638 0.4472362) En el siguiente caso cuando un
número de estudiantes en sus paralelos mayor igual que 79 los mismos tendrán
un porcentaje de aprobación de 79% y el restante porcentaje se evalúa en la
siguiente condición.
3. Asignatura>=116 0 0 (1.0000000 0.0000000) Asignatura< 116 0 (1) En esta
siguiente rama del árbol se encuentra el 22% de nuestra muestra de datos los
cuales indican que cuando el valor de estudiantes en cada uno de sus paralelos
supera a 115 tenemos un porcentaje de reprobados del 1%.
4. Carrera>=5 74 23 0 (0.035 0.0.165) El restante 21% se evalúa indicando
si la carrera se encuentra entre TELECOMUNICACIONES y SISTEMAS DE
INFORMACIÓN de acuerdo a la Tabla 1 en la cual se codificó las carreras, en
esta clasificación el 4% reprueban 1 ó varias asignaturas.
5. Asignatura>=94.5 139 59 0 (0.82 0.10) En la siguiente rama se puede
identificar que cuando las carreras son TELECOMUNICACIONES y SISTEMAS
DE INFORMACIÓN y el número de estudiantes en los paralelos es mayor
que 95 en 8% reprueban 1 ó varias asignaturas.Para cualquier otra condición
los estudiantes aprueban el 10 % restante aprueban las materias del área de
conocimientos.
5. Conclusiones
La Minería de datos se presenta como un avance tecnológico emergente, con grandes
ventajas relacionadas con la correcta toma de decisiones, permitiendo a las instituciones
organizar su información de una mejor manera
Los algoritmos y técnicas de minería de datos pueden ser implementados con distintas
herramientas libres o propietarias, esto representa una ventaja que permite a los
administradores de TI interpretar los resultados de una mejor manera, de forma rápida.
Como se evidencia en los resultados, la minería de datos con R es un factor determinante
para lograr interpretar los rumbos de una IES, tomando en cuenta datos académicos
históricos obtenidos a través del tiempo
Implementado un proceso adecuado de minería de datos se puede identificar tendencias
que existen acerca de algún problema relacionado en diferentes aspectos de una IES en
este caso de estudio fue el académico, además podrá otorgarle algún tipo de ventaja con
el conocimiento de cierta información descubierta durante todo el proceso de minería
de datos.
Referencias
Baldeon Egas, P. F., Gaibor Saltos, M. A., & Toasa, R. (2019). Integrated Strategic
Management System. 14th Iberian Conference on Information Systems and
Technologies (CISTI), 1–6. https://doi.org/10.23919/cisti.2019.8760801
Baradwaj, B. K., & Pal, S. (2012). Mining Educational Data to Analyze Students’
Performance. International Journal of Advanced Computer Science and
Applications, 2(6). Retrieved from http://arxiv.org/abs/1201.3417
Berthold, M. R., Cebron, N., Dill, F., Gabriel, T. R., Kötter, T., Meinl, T., … Wiswedel,
B. (2009). KNIME - the Konstanz information miner. In: Preisach CBerhardt
HSchmidt-Theime Let al. ., eds. Data Analysis,. Machine Learning and Applications.
Germany: Springer, 11(1), 26. https://doi.org/10.1145/1656274.1656280
Bishop, J., Jensen, C., Scacchi, W., & Smith, A. (2016). How to use open source
software in education. SIGCSE 2016 - Proceedings of the 47th ACM Technical
Symposium on Computing Science Education, 321–322. https://doi.
org/10.1145/2839509.2844665
Filzmoser, P., Gatu, C., & Zeileis, A. (2014, March). Special issue on statistical algorithms
and software in R. Computational Statistics and Data Analysis, 71, 887–888.
https://doi.org/10.1016/j.csda.2013.10.012
Luan, J. (2002). Data Mining and Its Applications in Higher Education. New Directions
for Institutional Research, 2002(113), 17–36. https://doi.org/10.1002/ir.35
Naik, A., & Samant, L. (2016). Correlation Review of Classification Algorithm Using
Data Mining Tool: WEKA, Rapidminer, Tanagra, Orange and Knime. Procedia
Computer Science, 85, 662–668. https://doi.org/10.1016/j.procs.2016.05.251
Nasridinov, A., & Park, Y. H. (2013). Visual analytics for big data using R. Proceedings
- 2013 IEEE 3rd International Conference on Cloud and Green Computing, CGC
2013 and 2013 IEEE 3rd International Conference on Social Computing and Its
Applications, SCA 2013, 564–565. https://doi.org/10.1109/CGC.2013.96
Sivarajah, U., Kamal, M. M., Irani, Z., & Weerakkody, V. (2017). Critical analysis of Big
Data challenges and analytical methods. Journal of Business Research, 70, 263–
286. https://doi.org/10.1016/j.jbusres.2016.08.001
Voulgaropoulou, S., Spanos, G., & Angelis, L. (2012). Analyzing measurements of the
R statistical open source software. Proceedings of the 2012 IEEE 35th Software
Engineering Workshop, SEW 2012, 1–10. https://doi.org/10.1109/SEW.2012.7
Wallach, D., Makowski, D., Jones, J. W., & Brun, F. (2019). The R Programming
Language and Software. In Working with Dynamic Crop Models (pp. 45–95).
https://doi.org/10.1016/b978-0-12-811756-9.00002-2
Williams, G. J. (2006). Rattle: A Data Mining GUI for R. Retrieved from http://rattle.
togaware.com