Data Mining en Educación

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 11

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/339956767

Minería de datos con R para información académica en instituciones de


Educación Superior

Article  in  RISTI - Revista Iberica de Sistemas e Tecnologias de Informacao · March 2020

CITATIONS READS

0 175

4 authors:

Henry Recalde Paúl Francisco Baldeón Egas


Universidad Israel Universidad Israel
4 PUBLICATIONS   2 CITATIONS    8 PUBLICATIONS   7 CITATIONS   

SEE PROFILE SEE PROFILE

Miguel Alfredo Gaibor Saltos Renato Mauricio Toasa G


Universidad Israel Universidad Israel
5 PUBLICATIONS   5 CITATIONS    35 PUBLICATIONS   65 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Dashboard design to assess the impact of distinct data visualization techniques in the dynamic analysis of survey’s results View project

SISTEMA DE GESTIÓN DE LA CALIDAD MEDIANTE LA AUTOMATIZACIÓN DEL SIGE 2, BASADO EN EL DIAGNÓSTICO Y EVALUACIÓN DE RESULTADOS PARA EL
MEJORAMIENTO DE PROCESOS Y PROCEDIMIENTOS DE LA UNIVERSIDAD ISRAEL View project

All content following this page was uploaded by Renato Mauricio Toasa G on 15 April 2020.

The user has requested enhancement of the downloaded file.


Revista Ibérica de Sistemas e Tecnologias de Informação Recebido/Submission: 19/09/2019
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 17/11/2019

Minería de datos con R para información académica


en Instituciones de Educación Superior

Henry Recalde1, Paúl Francisco Baldeón Egas1, Miguel Alfredo Gaibor Saltos1, Renato
M. Toasa1

[email protected], [email protected], [email protected], rtoasa@uisrael.


edu.ec

1
Universidad Tecnológica Israel, Quito Ecuador
Pages: 63–71

Resumen: Este trabajo presenta la implementación de minería de datos en


instituciones de educación superior (IES) utilizando la herramienta open source R,
esto parte de la gran cantidad de información que generan los procesos universitarios
y que debe ser analizada oportunamente, de esta forma generar cambios, tomar
decisiones, conocer las necesidades de estudiantes, docentes y administrativos;
su comportamiento y hasta poder organizar mejor los servicios que se ofrecen, se
utiliza R ya que es una de las mejores herramientas disponibles y no limita sus
módulos como el software propietario, Como caso práctico se utiliza información
académica de estudiantes de una universidad de ecuador, permitiendo determinar
el número de estudiantes que aprobaron el semestre, además permite tomar
correctivos necesarios en los estudiantes que no finalicen con éxito el semestre. Lo
resultados fueron satisfactorios ya que al conocer esta información las autoridades
pueden definir estrategias para mejorar el proceso académico.
Palabras-clave: Minería de datos; Software R; Software Libre; Datos académicos.

Data mining with R for academic information in Higher Education


Institutions

Abstract: This paper presents the implementation of data mining in institutions


of higher education (HEI) using the open source R tool, this is based on the large
amount of information generated by university processes and must be analyzed
in a timely manner, thus generating changes, make decisions, meet the needs of
students, teachers and administrators; its behavior and even to better organize
the services offered, R is used as it is one of the best tools available and does not
limit its modules as proprietary software. As a practical case, academic information
from students of a university in Ecuador is used, allowing to determine the number
of students who successfully passed the semester, also allows to take necessary
corrections on students who do not complete the semester successfully. The
results were satisfactory since knowing this information the authorities can define
strategies to improve the academic process.
Keywords: Data mining; R Software, Open source; Academic data

RISTI, N.º E25, 01/2020 63


Minería de datos con R para información académica en Instituciones de Educación Superior

1. Introducción
Durante los últimos años, la cantidad de información que manejan las Instituciones de
Educación Superior (IES), se ha incrementado considerablemente, esto debido al uso
de novedosos sistemas académicos que maneja toda la información de los procesos de
las IES. Gran parte de las IES a nivel mundial han optado por utilizar software libre,
debido a que el software libre ofrece un enfoque para abordar los problemas técnicos
de manera personalizada, y de cierta manera representa un costo económico bajo en
comparación con software propietario (Bishop, Jensen, Scacchi, & Smith, 2016). Esta
gran cantidad de información obliga a las todas las empresas y en especial a las IES a
utilizar novedosas técnicas como la minería de datos, visualización de datos, inteligencia
artificial, aprendizaje de máquinas entre otras, que sirven como base para una correcta
toma de decisiones (Sivarajah, Kamal, Irani, & Weerakkody, 2017).
En la literatura se encontraron estudios que analizan el sector académico en las IES,
estos incluyen diversos procesos que se mencionan a continuación. Inicialmente
(Luan, 2002), menciona que la minería de datos es el proceso de descubrir “mensajes
ocultos”, patrones y conocimientos dentro de grandes cantidades de datos y de
hacer predicciones de resultados o comportamientos., además proporcionan un
caso de estudio de su aplicación a los datos de transferencia universitaria, por otro
lado (Baradwaj & Pal, 2012), desarrollan un modelo de minería de datos para el
sistema de educación superior utilizando el método del árbol de decisión, extraen el
conocimiento que describe el desempeño de los estudiantes, esto permite identificar
más a los estudiantes que abandonan la universidad y a los estudiantes que necesitan
atención especial.
En lo referente a aplicaciones para aplicar Minería de datos, existen varias bibliotecas
o programas de minería de datos de código abierto como Knime (Berthold et al.,
2009), RapidMiner, Weka y el software R (Naik & Samant, 2016), entre otros; que
ofrecen varios algoritmos para realizar minería de datos. La importancia de utilizar
software libre.
El lenguaje R, ha sido utilizado para diversas tareas, inicialmente (Nasridinov & Park,
2013) proponen utilizar R para analizar visualmente grandes volúmenes de datos, se
propuso varios escenarios incluyendo la visualización de datos simples, clustering,
minería de texto y análisis de redes sociales, los resultados generados por R como gráficos
estadísticos y predicciones fueron de gran ayuda para la toma de decisiones, por otro
lado un análisis de las mediciones que realiza R, métricas que utiliza y las características
que definen su comportamiento y estructura lo detallan (Voulgaropoulou, Spanos, &
Angelis, 2012).
Basándonos en la literatura de herramientas libres para aplicar minería de datos y por su
rapidez y exactitud en la representación de grandes cantidades de datos, en este trabajo
se optó por utilizar el lenguaje R (Wallach, Makowski, Jones, & Brun, 2019). Si bien se
ha analizado algunos casos de uso que los investigadores le dan al software R, hay un
bajo enfoque en datos académicos, por tal motivo en este trabajo se realiza la minería
de datos de un sistema académico utilizando el lenguaje R, de esta manera determinar

64 RISTI, N.º E25, 01/2020


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

cómo los resultados que genera R puede ser beneficios para la institución en la oportuna
toma de decisiones.
El resto del documento está estructurado de la siguiente manera: en la sección 2 se
describe brevemente sobre la minería de datos usando R, a continuación, en la sección
3 se detalla el caso de estudio, en la sección 4 se muestran los resultados, en la sección 5
se detallan las conclusiones y trabajo futuro.

2. Minería de datos académicos con R


R es ideal para las muchas tareas complejas asociadas con la minería de datos. R ofrece
un amplio y profundo análisis estadístico más allá de lo que está disponible en productos
comerciales de código cerrado. Sin embargo, R sigue siendo, principalmente, un lenguaje
de programación para cálculos estadístico altamente calificado, y fuera del alcance de
muchas aplicaciones disponibles (Williams, 2006)
El lenguaje R para el cálculo estadístico y análisis de datos puede considerarse el
paquete de software estadístico más importante, siendo utilizado cada vez más como un
entorno de programación debido a que incluye varios modelos que pueden ser utilizados
(Filzmoser, Gatu, & Zeileis, 2014).
R utiliza la herramienta Rattle para la minería de datos, que es una herramienta gráfica
la cual se accede mediante la instalación de librerías.
Mediante la minería de datos y basándonos en la técnica de predicción de datos de
árboles de decisión podemos obtener resultados necesarios para poder llevar a cabo
acciones con los resultados de estudiantes que no aprobaron materias en las IES.
En este trabajo se utiliza el lenguaje R y su herramienta Rattle para el procesamiento de
la información y generar árboles de decisión sobre los datos de aprobados y reprobados
de varios periodos académicos.
Previamente se construyó un conjunto de datos el cual permitió concentrar la información
requerida y con eso se procedió al análisis de la misma usando Rattle.
Se utilizó el algoritmo de árbol de clasificación y regresión, el cual se usa para predecir
una variable respuesta cualitativa, asignando la predicción para cada observación como
la clase más común (moda) de observaciones de entrenamiento en la región o nodo
terminal al que pertenece dicha observación de test.
Los árboles de clasificación y regresión (CART Classification and Regression Trees) nos
permiten tener una alternativa para realizar un análisis tradicional para la predicción
tradicional. Son árboles de regresión son cuando la variable dependiente en este caso el
estado de aprobación y factores como la carrera, genero, nivel son variables cualitativas
que pueden inferir en el estado de aprobación.
El objetivo es tratar de generar un árbol con varias bifurcaciones, anidadas a maneras
de ramas las cuales permiten indicar la predicción dependiendo las condiciones de
evaluación.

RISTI, N.º E25, 01/2020 65


Minería de datos con R para información académica en Instituciones de Educación Superior

3. Caso de estudio
Los datos académicos que se utilizan en el presente trabajo, son los datos del SIGE,
un sistema de gestión estratégica de la Universidad Tecnológica ISRAEL de Ecuador
(Baldeon Egas, Gaibor Saltos, & Toasa, 2019). Este sistema académico presenta
información principal de estudiantes, docentes, calificaciones, materias, niveles,
períodos académicos, aprobados, reprobados, entre otros datos académicos. Se optó
por utilizar la información de las carreras de ingeniería, a que en estas carreras los
estudiantes suelen tener dificultades en aprobar las asignaturas.

3.1. Proceso
Para poder determinar un mejor resultado al analizar los datos académicos de los
estudiantes en Ciencias de la Ingeniería de la IES antes mencionada es necesario realizar
los siguientes pasos:
•• Creación de una vista con los datos académicos del SIGE, del cual se extrajo
la siguiente información: periodo académico, área de conocimiento, materia,
género y estado de aprobación.
•• Depuración de los datos y clasificación de la información de variables cualitativas
a valores numéricos.
•• Generación del archivo de datos para procesar en R Studio, este archivo
resultante será un archivo separado por comas (CSV).
•• Ejecución del algoritmo en lenguaje R para validación de los datos y generación
de los resultados del árbol de decisión.

3.2. Información
El caso de estudio se centrará específicamente en los datos del área de conocimiento de
Ciencias de la ingeniería la cual se realizará con el objetivo de determinar el porcentaje
de estudiantes que reprueban en cada uno niveles de dicha área. Los datos que

Figura 1 – Índice de materias aprobadas y reprobadas de las carreras de ciencias de la ingeniería


periodos 2012 - 2019

66 RISTI, N.º E25, 01/2020


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

son utilizados en el presente estudio son parte de los registros de aprobación de los
estudiantes comprendidos entre los períodos académicos desde el 2012 – 2019.
Los datos de la Figura 1 muestran el estado actual de las materias aprobadas en las
carreras de ciencias de la ingeniería, estos datos son claves para en el proceso de minería
de datos generar el árbol de decisión para determinar cuáles son las materias en las
cuales hay mayor índice de reprobados.

3.3. Herramientas

Figura 2 – Proceso usado en R Studio para generación de árboles de decisión

RISTI, N.º E25, 01/2020 67


Minería de datos con R para información académica en Instituciones de Educación Superior

La información del SIGE se encuentra disponible en SQL Server y la misma fue procesada
mediante la creación de consultas para obtener la información de los datos necesarios
para el caso de estudio antes mencionado.
R Studio es necesario para procesar la información la cual fue previamente obtenida
mediante vistas en SQL Server, esta información fue depura y se exporta a formato de
valores separados por coma (CSV) y es usada para su proceso mediante el algoritmo
creado en lenguaje R.
La Figura 2 muestra cómo se realiza el proceso utilizando R para el procesamiento de la
información y la posterior generación de los árboles de clasificación y decisión. En este
código se aplicó usando un índice probabilidades del 80% para el entrenamiento de los
árboles de decisión y clasificación.

4. Resultados
A continuación, los resultados obtenidos permiten identificar cual se basa en un árbol de
decisión y clasificación para obtener los posibles resultados de una serie de datos basadas
en las variables y datos mencionados en el caso de estudio. Esto permite comparar
posibles acciones entre sí según sus valores de los datos académicos, probabilidades
y beneficios.

Figura 3 – Árbol de decisión de Aprobados/Reprobados de las distintas materias de ciencias de


la ingeniería

En la Figura 3 se puede observar el árbol de decisión y clasificación usado para las


variables: Carrera, asignatura y estado, es necesario tomar en cuenta que se codifico

68 RISTI, N.º E25, 01/2020


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

las carreras asignando un código el cual será descrito a continuación en la Tabla 1, esto
permitirá asignar valores numéricos para su posterior análisis en la clasificación de los
resultados del estudio propuesto:

Carrera Código asignado a la variable


INGENIERÍA EN ELECTRÓNICA 1
DIGITAL Y TELECOMUNICACIONES
INGENIERÍA EN SISTEMAS 3
INFORMÁTICOS
SISTEMAS INFORMÁTICOS 4
TELECOMUNICACIONES 5
SISTEMAS DE INFORMACIÓN 6

Tabla 1 – Codificación asignada a las carreras del área de ciencias de la ingeniería

Para los estados de se asignó los valores de uno para Aprobado y cero para reprobado, a
continuación, la interpretación de los resultados:
1. Inicio 1791 646 1 (0.3606924 0.6393076) En la raíz del árbol de 1791 que
representa al 100% de muestras el 36.06 % reprueba en el área de estudio de
ingeniería, mientras que el 63.94 aprueba
2. Asignatura>=79 0 (0.5527638 0.4472362) En el siguiente caso cuando un
número de estudiantes en sus paralelos mayor igual que 79 los mismos tendrán
un porcentaje de aprobación de 79% y el restante porcentaje se evalúa en la
siguiente condición.
3. Asignatura>=116 0 0 (1.0000000 0.0000000) Asignatura< 116 0 (1) En esta
siguiente rama del árbol se encuentra el 22% de nuestra muestra de datos los
cuales indican que cuando el valor de estudiantes en cada uno de sus paralelos
supera a 115 tenemos un porcentaje de reprobados del 1%.
4. Carrera>=5 74 23 0 (0.035 0.0.165) El restante 21% se evalúa indicando
si la carrera se encuentra entre TELECOMUNICACIONES y SISTEMAS DE
INFORMACIÓN de acuerdo a la Tabla 1 en la cual se codificó las carreras, en
esta clasificación el 4% reprueban 1 ó varias asignaturas.
5. Asignatura>=94.5 139 59 0 (0.82 0.10) En la siguiente rama se puede
identificar que cuando las carreras son TELECOMUNICACIONES y SISTEMAS
DE INFORMACIÓN y el número de estudiantes en los paralelos es mayor
que 95 en 8% reprueban 1 ó varias asignaturas.Para cualquier otra condición
los estudiantes aprueban el 10 % restante aprueban las materias del área de
conocimientos.

5. Conclusiones
La Minería de datos se presenta como un avance tecnológico emergente, con grandes
ventajas relacionadas con la correcta toma de decisiones, permitiendo a las instituciones
organizar su información de una mejor manera

RISTI, N.º E25, 01/2020 69


Minería de datos con R para información académica en Instituciones de Educación Superior

Los algoritmos y técnicas de minería de datos pueden ser implementados con distintas
herramientas libres o propietarias, esto representa una ventaja que permite a los
administradores de TI interpretar los resultados de una mejor manera, de forma rápida.
Como se evidencia en los resultados, la minería de datos con R es un factor determinante
para lograr interpretar los rumbos de una IES, tomando en cuenta datos académicos
históricos obtenidos a través del tiempo
Implementado un proceso adecuado de minería de datos se puede identificar tendencias
que existen acerca de algún problema relacionado en diferentes aspectos de una IES en
este caso de estudio fue el académico, además podrá otorgarle algún tipo de ventaja con
el conocimiento de cierta información descubierta durante todo el proceso de minería
de datos.

Referencias
Baldeon Egas, P. F., Gaibor Saltos, M. A., & Toasa, R. (2019). Integrated Strategic
Management System. 14th Iberian Conference on Information Systems and
Technologies (CISTI), 1–6. https://doi.org/10.23919/cisti.2019.8760801
Baradwaj, B. K., & Pal, S. (2012). Mining Educational Data to Analyze Students’
Performance. International Journal of Advanced Computer Science and
Applications, 2(6). Retrieved from http://arxiv.org/abs/1201.3417
Berthold, M. R., Cebron, N., Dill, F., Gabriel, T. R., Kötter, T., Meinl, T., … Wiswedel,
B. (2009). KNIME - the Konstanz information miner. In: Preisach CBerhardt
HSchmidt-Theime Let al. ., eds. Data Analysis,. Machine Learning and Applications.
Germany: Springer, 11(1), 26. https://doi.org/10.1145/1656274.1656280
Bishop, J., Jensen, C., Scacchi, W., & Smith, A. (2016). How to use open source
software in education. SIGCSE 2016 - Proceedings of the 47th ACM Technical
Symposium on Computing Science Education, 321–322. https://doi.
org/10.1145/2839509.2844665
Filzmoser, P., Gatu, C., & Zeileis, A. (2014, March). Special issue on statistical algorithms
and software in R. Computational Statistics and Data Analysis, 71, 887–888.
https://doi.org/10.1016/j.csda.2013.10.012
Luan, J. (2002). Data Mining and Its Applications in Higher Education. New Directions
for Institutional Research, 2002(113), 17–36. https://doi.org/10.1002/ir.35
Naik, A., & Samant, L. (2016). Correlation Review of Classification Algorithm Using
Data Mining Tool: WEKA, Rapidminer, Tanagra, Orange and Knime. Procedia
Computer Science, 85, 662–668. https://doi.org/10.1016/j.procs.2016.05.251
Nasridinov, A., & Park, Y. H. (2013). Visual analytics for big data using R. Proceedings
- 2013 IEEE 3rd International Conference on Cloud and Green Computing, CGC
2013 and 2013 IEEE 3rd International Conference on Social Computing and Its
Applications, SCA 2013, 564–565. https://doi.org/10.1109/CGC.2013.96

70 RISTI, N.º E25, 01/2020


RISTI - Revista Ibérica de Sistemas e Tecnologias de Informação

Sivarajah, U., Kamal, M. M., Irani, Z., & Weerakkody, V. (2017). Critical analysis of Big
Data challenges and analytical methods. Journal of Business Research, 70, 263–
286. https://doi.org/10.1016/j.jbusres.2016.08.001
Voulgaropoulou, S., Spanos, G., & Angelis, L. (2012). Analyzing measurements of the
R statistical open source software. Proceedings of the 2012 IEEE 35th Software
Engineering Workshop, SEW 2012, 1–10. https://doi.org/10.1109/SEW.2012.7
Wallach, D., Makowski, D., Jones, J. W., & Brun, F. (2019). The R Programming
Language and Software. In Working with Dynamic Crop Models (pp. 45–95).
https://doi.org/10.1016/b978-0-12-811756-9.00002-2
Williams, G. J. (2006). Rattle: A Data Mining GUI for R. Retrieved from http://rattle.
togaware.com

RISTI, N.º E25, 01/2020 71


© 2020. This work is published under
https://creativecommons.org/licenses/by-nc-nd/4.0/(the
“License”). Notwithstanding the ProQuest Terms and
Conditions, you may use this content in accordance with the
terms of the License.

View publication stats

También podría gustarte