Libro Cien CIA Delos Da To S
Libro Cien CIA Delos Da To S
Libro Cien CIA Delos Da To S
Coordinadores:
ii
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Cuidaron la edición:
Diseño Editorial
D.R. Rubén Pizarro Gurrola, José Gabriel Rodríguez Rivas, Marco Antonio
Rodríguez Zúñiga, Jeorgina Calzada Terrones
ISBN: 978-607-8730-10-0
ISBN
978-607-8730-10-0
iii
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
iv
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla de contenido
Prólogo ..................................................................................................... 21
Rubén Pizarro Gurrola .
Capítulo 1 .................................................................................................. 38
Bases de datos SQL y NoSQL. Comparativo SQL server & MongoDB ........ 38
v
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Conclusiones .......................................................................................................................... 74
Referencias ............................................................................................................................ 75
Capítulo 2 ................................................................................................... 79
vi
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
2.3.5. Cuarto caso. Una campaña política exitosa: Barack Obama ............................................. 98
2.3.6. Quinto caso. BBVA Bancomer y SECTUR .......................................................................... 105
2.3.7. Riesgos del Big Data ......................................................................................................... 107
2.3.7.1. Privacidad de las personas ...................................................................................... 108
2.3.7.2. Conclusiones erróneas que nadie revisa: errores por azar y por confusión ........... 110
2.3.7.3. La toma de decisiones automatizadas. ................................................................... 114
2.3.8. Análisis personal ............................................................................................................... 115
vii
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
viii
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
ix
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
x
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
xi
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
xii
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
xiii
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
xiv
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
xv
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
xvi
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
xvii
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
xviii
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
xix
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
xx
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Prólogo
Los lectores tendrán un panorama claro sobre ¿lo que es?, ¿para qué sirve?
¿qué incluye?, ¿qué herramientas existen?, ¿cómo? y ¿en dónde se puede usar
“Ciencia de los Datos”. El Libro va dirigido a la comunidad de científicos de datos,
académicos, investigadores, emprendedores, innovadores y público en general que
deseen involucrarse con el paradigma Ciencia de los Datos.
¿Cómo debiera leerse este libro?; el libro contiene distintos tópicos asociados
a “Ciencia de los Datos”, el lector "no" debe esperar que cada capítulo sea
un antecedente del siguiente, el lector "no" debe pensar que tiene un libro con
temas sucesivos en orden de importancia. "no" son capítulos en donde se hace
necesario leer un capítulo anterior para comprender el siguiente, es decir, "no"
va de temas sencillos a temas más complejos como algún libro de tipo
académico. El libro es propiamente una percepción de aspectos que se asocian
con “Ciencia de los Datos”.
21
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Ahora bien, al identificar cada capítulo, los lectores que les interese algún
tema en particular puede dirigirse y dar lectura al mismo sin necesidad de haber
leído algún capítulo anterior, es decir son temas independientes pero relacionados
con “Ciencia de los Datos”.
22
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Estas tecnologías son parte de la Ciencia de los Datos que se pueden utilizar
para transformar los datos en información con la finalidad de obtener razonamiento
y comprensión para convertirla de manera inmediata en conocimiento, de forma que
se pueda optimizar el proceso de toma de decisiones en las organizaciones y en las
personas. (Pizarro, Amaro, López, & Galindo, 2018).
Por otra parte, en un futuro cercano cualquier objeto cotidiano estará dotado
de algún tipo de sensor que enviará información. El internet de las cosas (IoT) en la
23
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
De igual forma en el ITD en los años 2018 y 2019, se impartieron por parte
de docentes integrantes del cuerpo académico y colaboradores, dos cursos
especiales de titulación relacionados con “Ciencia de los datos e Internet de las
cosas” y cuyo objetivo fue entre otras cosas acercar a los exalumnos con necesidad
de lograr cerrar su ciclo y culminar su proceso de titulación desarrollando productos
académicos relacionados con Ciencia de los Datos.
24
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
El libro que lleva por nombre “Ciencia de los Datos. Propuestas y casos
de uso”, se plantean temas, casos y propuestas de implementación de aspectos
relacionados con Ciencia de los Datos, incluye títulos tales como: Bases de datos
SQL y NoSQL. Comparativo SQL server & MongoDB; Comparación de
herramientas para visualización de datos (Tableau - Power BI); Big Data y su
impacto en la sociedad; R como herramienta de Ciencia de los Datos aplicada a la
productividad; Big Data: Análisis de estrategias de marketing digital; Comparativo
de herramientas para análisis y visualización de datos: Tableau y R; Análisis de
datos masivos en el campo de la salud; Herramientas de Big Data; Ciencia de los
Datos aplicado en las Pymes; Análisis de Datos Geoespaciales en Protección Civil
utilizando R y Python; Machine Learning aplicado a la salud; Análisis comparativo y
uso de R y Python enfocado al análisis descriptivo de datos de una entidad
financiera.
Cada uno de los trabajos fueron editados por sus autores y coautores;
adaptados, modificados y evaluados por los coordinadores de libro. En cada uno
de ellos, se trata de manera particular los temas citados. Los trabajos se presentan
en la modalidad de capítulos de tal forma que cada capítulo viene incluido la autoría
del participante y en algunos casos en coautoría respetando de manera general la
esencia, el pensamiento y la forma de redacción de cada autor.
25
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Los ejemplos que se muestran del uso de Big Data son: primer caso. El
séptimo arte; segundo caso. ¿Saldrás de viaje?, los Destinos Turísticos Inteligentes
26
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
(DTI) son la mejor opción; tercer caso. Un nuevo perfil: El periodista de Datos; cuarto
caso. Una campaña política exitosa: Barack Obama y finalmente el quinto caso.
BBVA Bancomer y Secretaría de Turismo (SECTUR).
27
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
relación que existe entre Big Data y el Marketing Digital y las posibilidades que trae
consigo el uso de estas tecnologías para las empresas.
28
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Por otra parte, en el apartado de desarrollo de éste capítulo los autores ponen
de manifiesto un conjunto de casos que bien pudieran ser referentes para que se
tomen de ejemplo y se impuse la tecnología relacionada con Ciencia de los Datos y
con ello potenciar el desarrollo económico de las PyMES, de la ciudad y en el Estado
de Durango.
31
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
32
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
33
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Los autores del capítulo terminan con un análisis sobre las posibilidades
y los beneficios de utilizar herramientas poderosas y flexibles como R y Tableau
en los procesos de análisis y visualización de datos, con ello mejorar procesos de
toma de decisiones y estar en un contexto integral al mundo de la Ciencia de los
Datos.
34
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
El rol y funciones que realizaron los académicos del comité de este libro, fue
el de observar y dictaminar recomendaciones a las cuales se les dio seguimiento
por parte de los coordinadores del libro, se realizaron los ajustes pertinentes
para obtener finalmente un producto valorado, cuidado y enriquecido.
35
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
36
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Con respecto a las conclusiones se describe que un 99% son ideas claras y
concluyentes, un 93% de las ideas rescatan el cumplimiento de los objetivos
general y específicos y un 93% las ideas son homogéneas conforme a los objetivos
y el título del capítulo.
Referencias
Pizarro, R., Amaro, I., López, J. R., & Galindo, L. (2018). Formación de científicos de datos en el
Instituto Tecnológico de Durango. En N. Bocanegra Vergara, INNOVACIÓN Y
TECNOLOGÍAS DE LA INFORMACIÓN Y LA COMUNICACIÓN EN EDUCACIÓN
SUPERIOR (págs. 47-59). Durango Dgo.: REDIE.
37
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Capítulo 1
1.1. Introducción
Las bases de datos han sido importantes para el almacenamiento y análisis
de datos. A través de los años han surgido herramientas que han ayudado a poder
realizar esta tarea de manera satisfactoria.
38
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
39
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
40
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
En las primeras décadas del siglo XX, el uso de las bases de datos fue
creciendo en las empresas. En esos años solo algunas personas interactuaban
directamente con los sistemas de bases de datos, otros sin darse cuenta manejaban
datos en forma de base de datos como: informes impresos, expedientes, registro de
transacciones, entre otros (Silberschatz, Korth, & Sudarshan, Fundamentos de
Bases de Datos. Cuarta Edición, 2002).
41
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
42
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
43
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Los sistemas de gestión de bases de datos evolucionan cada vez más rápido
para satisfacer los requisitos de los usuarios. El gran aumento de aplicaciones, web,
escritorio, móviles, aparatos electrónicos, hoy en día es necesario almacenar
grandes cantidades de datos, imágenes, videos, sonido, entre otros. Respecto a
esta gran demanda los sistemas de gestión de bases de datos nunca permanecerán
estáticos.
44
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
45
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Con lo anterior, se hace imprescindible el uso del recurso de los datos que
se encuentra inmerso y de manera natural en las bases de datos.
Como lo expresa Hueso, y otros (2019) “En la actualidad, el término Big Data
se ha expandido para incorporar el análisis e interpretación de los datos,
constituyendo una Ciencia de los Datos (data science)”. (pág. 2)
46
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Figura 1. Datos estructurados y No estructurados para el año 2020. (Jones, Ciencia de los Datos.
Lo que saben los mejores científicos de datos sobre el análisis de datos, minería de datos,
estadísticas, aprendizaje automático y Big Data que usted desconoce, 2019)
47
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
El modelo de datos relacional continúa siendo hoy en día la forma más común
de estructurar y almacenar la información en cualquier tipo de sistema de
información.
Las bases de datos relacionales son aquellas que se apegan y cumplen con
el modelo relacional, su estructura principal la componen tablas, atributos y
relaciones que representan información (Osorio Rivera, 2008).
48
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
• Clave Primaria. Cada registro pose una clave única, estas claves identifican
de manera única a un registro. Este registro en el valor de la clave primaria
no puede repetirse en la tabla.
• Clave foránea. Estas claves son referencias colocadas en tablas secundarias
de la relación de tablas. Estas contienen el mismo valor que la clave primaria
del registro de la tabla principal (Osorio Rivera, 2008).
49
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
• select. Se utiliza para listar o proyectar los campos que se requieren de una
consulta.
• from. Muestra las relaciones o tablas que se debe de analizar en una
instrucción.
• where. Corresponde a la condición de álgebra relacional para mostrar o filtrar
registros.
50
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
From Empleado
51
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
where id=1234
52
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
where condición
where id=1234
Las bases de datos relacionales SQL son y seguirán siendo una parte
importante en el manejo de los datos estructurados, pero debido a lo poco flexible
en lo que respecta a la modificación de las estructuras de los datos, han salido al
mercado sistemas de gestión de bases de datos con una mayor flexibilidad, como
lo son las bases de datos NoSQL (Baldassari Valencia, 2019).
Como lo define Baldassari Valencia, (2019), “NoSQL puede ser definido como
“Not only SQL” y es un sistema de gestión de bases de datos la cual podría ser la siguiente
generación de tecnologías que es no relacional, distribuida, escalable horizontalmente, de
código abierto y más rápida, puesto que no implementa las propiedades ACID las cuales
aseguran la confiabilidad de las transacciones sobre las bases de datos.”. (pág. 3)
53
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Empresas como Google, Amazon, Facebook, twitter, son algunas de las que
encontraron limitaciones en los sistemas de gestión de bases de datos relacionales,
así que iniciaron el desarrollo de Sistemas de gestión de bases de datos no
relacionales.
54
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
55
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
56
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
57
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Este tipo de base de datos debe de estar normalizado, esto es que cada
tabla tendría una sola columna y cada relación dos, esto es así para que
cualquier cambio en la estructura en la información tenga solo efecto solo en la
estructura de la información de manera local (Gracia del Busto & Yanes
Enríquez, 2012).
1.2.8. Diferencias con las bases de datos SQL
Existen diferencias principales que se pueden encontrar entre las bases de
datos NoSQL y las SQL. (acenswhitepapers, 2014).
58
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Es por esta razón, que al momento de elegir una base de datos NoSQL se
tenga en cuenta el teorema CAP: Consistencia (C), Disponibilidad (A) y Tolerancia
59
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
a particiones (P). Según Eric Brewer, creador de este teorema, plantea que en los
sistemas distribuidos solo se puede tener dos de las tres garantías (la C, la A o la
P), y por lo tanto es preciso elegir la más importante. La figura 6, representa la
clasificación de las bases de datos conforme al teorema CAP.
Figura 6. Clasificación de las bases de datos según el teorema CAP (GENBETA, 2014).
1.3. Desarrollo
En este apartado, se muestran las características de los sistemas
manejadores de base de datos SQL Server y de MongoDB.
60
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
• Almacenar datos.
• Administrar las restricciones de integridad definidas.
• Garantizar la coherencia de los datos almacenados, a pesar de que existan
errores en el sistema.
61
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
1.3.1.2. Cliente/Servidor
La arquitectura que utiliza SQL Server para la administración de los datos de
las aplicaciones se basa en cliente/servidor. El software cliente habilita a que los
equipos cliente se conecten a una instancia de Microsoft SQL Server en una red. Un
"cliente" es una interfaz de tipo front-end que utiliza los servicios que proporciona
un servidor de SQL Server. El servidor se encarga de la gestión de los datos y de la
administración de los recursos del servidor entre las diferentes transacciones de los
clientes. (Microsoft SQL Server, 2019). En la figura 7 se muestra un esquema en
donde hay peticiones de clienetes y el motor de base de datos como servidor dando
respuesta a esas peticiones de los clientes.
62
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
1.3.1.5. Seguridad
De acuerdo con las especificaciones de Microsoft SQL Server Seguridad,
(2017), SQL Server proporciona una arquitectura de seguridad creada para permitir
a los administradores de bases de datos y desarrolladores desarrollar aplicaciones
de base de datos seguras y contrarrestar las amenazas. El marco de seguridad de
63
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
64
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
SQL Server aprovecha las capacidades del lenguaje XML ya que se integra
directamente en el motor, lo que permite almacenar y consultar datos XML, así como
devolver conjuntos de resultados en una variedad de formatos XML.
1.3.1.7. Replicación
SQL Server tiene la capacidad de distribuir copias de datos, así como
mantener todas las copias sincronizadas con el conjunto de datos maestros. A
través de los años, las capacidades de distribución de SQL Server se han expandido
desde el mantenimiento de múltiples copias de sólo lectura a ser capaz de hacer los
cambios de datos en toda la red de bases de datos al tiempo que el motor de
replicación sincroniza todos los cambios en el ambiente.
1.3.1.8. Disponibilidad
SQL Server proporciona varias tecnologías para garantizar la disponibilidad
de los datos: la conmutación por error, la copia de base de datos, el envío de
registros, y la replicación.
65
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
1.3.2. MongoDB
MongoDB es un sistema de gestión de base de datos no relacional de código
abierto desarrollada por la compañía 10gen, el lenguaje en el que ha sido
desarrollado es C++, este sistema de gestión de base de datos fue lanzado en el
año 2009 y el tipo de base de datos que administra es basada en documentos.
Este sistema de gestión de base de datos surge como una nueva tendencia
para las bases de datos NoSQL, bases de datos que no tienen un esquema fijo, que
66
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
son más rápidas en el acceso a datos y escalan mejor que las bases de datos
relacionales.
1.3.2.2. Escalabilidad
El tamaño de las bases de datos de las aplicaciones ha ido creciendo a un
ritmo increíble. La escalabilidad implica brindar un beneficio para las bases de datos
NoSQL ya que permite la disminución de tráfico en las transacciones y búsquedas
de la información (Correa Leal, 2015).
67
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
escalar las bases de datos?, ¿conseguir máquinas más potentes o particionar datos
a través de varios equipos de cómputo?
68
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
69
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
1.3.2.5. BSON
Los documentos en MongoDB son un concepto abstracto, la representación
concreta de un documento varía según el controlador del lenguaje que se utilice.
Debido a que los documentos se utilizan ampliamente para las comunicaciones en
MongoDB, también es necesario que haya una representación de los documentos
que es compartido por todos los drivers, las herramientas y procesos del ambiente
MongoDB y esa representación se llama Binario JSON (BSON). BSON es un
formato binario capaz de representar e interpretar cualquier documento MongoDB
como una cadena de bytes.
Tabla 1.
Conceptos comunes enre SQL Server y MongoDB. Elaboración propia
Tanto SQL Server como MongoDB tienen un lenguaje rico para realizar
consultas.
70
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
SQL Server utiliza SQL como lenguaje para realizar sus operaciones el cual
tiene una gran cantidad de instrucciones que se han ido enriqueciendo a través de
los años.
Tabla 2
71
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
(IdAlumno, Solis”,Grado:”B”,Calificac
ion:7})
Nombre,
db.Alumnos.insertMany([{Id
Grado,
Alumno:"009”,Nombre:”Jose
Calificacion)
Solis”,Grado:”A”,Calificac
VALUES(‘008’,’Ju
ion:8},{
an Solis’,’B’,7) IdAlumno:"010”,Nombre:”Mar
ia
Casio”,Grado:”C”,Calificac
ion:6}])
72
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Para almacenar los datos, SQL Server requiere primero definir las tablas y
las columnas, pero en MongoDB no se define un esquema, el propio sistema de
gestión de base de datos acomoda la estructura según los requerimientos.
Fortalezas Debilidades
Proteccióna la información
. Costos.
Confiabilidad
. Escalabilidad.
Respuestas previsibles
. Almacenamiento de datos.
Integraciónde cualquier tipo de dato
. Rendimiento.
FODA
Oportunidades Amenazas
Bajar costos
. Inyección SQL.
Aumento de almacenamiento para la .
. Crecimiento de NoSQL
version express
73
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Fortalezas Debilidades
Escalabilidad.
Rendimiento. Seguridad.
Disponibilidad. Confiabilidad.
Alto almacenamiento. Consistencia.
FODA
Oportunidades Amenazas
Nuevos sistemas de gestión de
Realizar transacciones complejas. bases de datos NoSQL.
Conclusiones
Pensar en un cambio de bases de datos SQL a bases de datos NoSQL, es
un gran desafío para los desarrolladores de sistemas que trabajan con bases de
datos. Esto es, debido a que desde los inicios de los sistemas de gestión de bases
de datos relacionales han sido parte fundamental en los sistemas de datos, además
el lenguaje de consulta SQL es un lenguaje estándar para este tipo de base de
datos.
74
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Es por eso que las bases de datos NoSQL han dado una solución a los
desafíos que enfrentan las bases de datos relacionales, porque ofrecen esquemas
dinámicos, modelado flexible, arquitectura escalable y almacenamiento de grandes
volúmenes de datos.
Tanto las bases de datos SQL como las NoSQL tienen ventajas y
desventajas si se comparan entre sí. Al momento de tratarlas por separado, se
descubre que cada una tiene sus bondades y características muy particulares para
el ambiente en el que se desean implementar. Para las bases de datos SQL se
distingue la consistencia y la seguridad; para las bases de datos NoSQL tener una
escalabilidad horizontal, almacenar grandes volúmenes de datos, realizar
transacciones en grandes cantidades de datos y flexibilidad en el modelado de
datos.
Referencias
acenswhitepapers. (24 de 02 de 2014). acens. The Cloud services company de telefonía. Obtenido
de Bases de datos NoSQL. Qué son y tipos que nos podemos encontrar:
https://www.acens.com/wp-content/images/2014/02/bbdd-nosql-wp-acens.pdf
75
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Aguilar Romero, M., & Rodríguez García, J. L. (2016). Comparación de opciones para inteligencia
de negocios en los principales sistemas gestores de bases de datos del mercado. Economía
y Administración (E&A) , Vol.7 (1), 5-20.
Apache Cassandra. (01 de 01 de 2016). Apache Cassandra. Obtenido de Architecture and Overview:
https://cassandra.apache.org/doc/latest/architecture/overview.html
APACHE HBASE. (14 de 07 de 2020). APACHE HBASE. Obtenido de Welcome to Apache HBase:
https://hbase.apache.org/
Baldassari Valencia, H. D. (2019). Estudio comparativo de motores de bases de datos SQL y NoSQL
para la gestión de información transaccional. DISERTACIÓN PREVIA A LA OBTENCIÓN
DEL TÍTULO DE INGENIERO EN SISTEMAS Y COMPUTACIÓN. . Quito, Ecuador,
Ecuador: FACULTAD DE INGENIERÍA DE SISTEMAS Y COMPUTACIÓN. PONTIFICIA
UNIVERSIDAD CATÓLICA DEL ECUADOR. .
Bender, C., Deco, C., González Sanabria, J., Hallo, M., & Ponce, J. (2014). Tópicos avanzados de
Bases de datos. México, Perú, Brasil, Uruguay: 1a ed. - Iniciativa Latinoamericana de Libros
de Texto Abiertos.
Correa Leal, L. G. (2015). Análisis comparativo entre la base de datos no relacional MongoDb con la
base de datos Postgresql, sistema para la gestión de clientes y registro de pagos de la clínica
odontológica Ortho Dent. Trabajo de Gado de Ingeniero en Sistemas Computacionales.
Ibarra, Ecuador, Ecuador: Universidad Técnica del Norte. Facultad de Ingeniería en Ciencias
Aplicadas. carrera de Ingeniería en Sistemas Computacionales.
Formia, S. A., & Estevez, E. (2019). Implementación y Maduración de un Data Warehouse –Caso de
Estudio de la Agencia de Recaudación Tributaria de Río Negro (ARTRN). 11o. Simposio
Argentino de Informática en el Estado (SIE) - JAIIO 46 (Córdoba, 2017), 90-100.
76
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
González, R. (s.f. de s.f. de s.f.). BASE DE DATOS - SQL SERVER. Obtenido de Cliente Servidor:
https://perusql20005.blogspot.com/2010/01/cliente-servidor.html
Gracia del Busto, H., & Yanes Enríquez, O. (2012). Bases de datos NoSQL. Revista Telem@tica.
Vol. 11. No. 3, 21-33.
Hueso, M., Ibeas, J., Revuelta, I., Santos, F., Soler, M. J., & Buades, J. M. (2019). Big data y ciencia
de los datos para una nefrología personalizada: ¿estamos preparados para una “nefrología
inteligente”? Sociedad Española de Nefrología. Servicios de edición de Elsevier España
S.L.U., 10.
Jones, H. (2019). Analítica de Datos. La guía definitiva de análisis de Big Data para empresas,
técnicas de minería de datos, recopilación de datos y conceptos de inteligencia empresarial.
México: Independently published.
Jones, H. (2019). Ciencia de los Datos. Lo que saben los mejores científicos de datos sobre el
análisis de datos, minería de datos, estadísticas, aprendizaje automático y Big Data que
usted desconoce. México: Amazon Mexico Services, Inc.
Meza Quiñones, E. E. (2018). Introducción a los Sistemas de Datos. Modelo Relacional. Diseño de
Bases de Datos Distribuidos. Modelo Orientado a Objeto. Aplicaciones Comerciales. Uso de
Modeladores de Portales Web. Aplicaciones Web de Sistemas Educativos. Para optar al
Título de Segunda Especialidad Profesional Especialidad: Informática Educativa. Lima, Perú,
Perú: FACULTAD DE CIENCIAS. Escuela Profesional de Matemática e Informática.
Microsoft SQL Server. (30 de 03 de 2017). Microsoft SQL Server Documentación. Obtenido de Roles
de servidor y base de datos en SQL Server: https://docs.microsoft.com/es-
es/dotnet/framework/data/adonet/sql/server-and-database-roles-in-sql-server
Microsoft SQL Server. (01 de 10 de 2019). SQL Server 2019. Obtenido de Nuevas capacidades de
SQL Server 2019: https://www.microsoft.com/es-es/sql-server/sql-server-2019-features
Microsoft SQL Server Engine. (26 de 07 de 2019). Microsoft. Obtenido de SQL SEver Engine:
https://docs.microsoft.com/en-us/sql/database-engine/install-windows/install-sql-server-
database-engine?view=sql-server-ver15
Microsoft SQL Server Seguridad. (30 de 03 de 2017). Microsoft Documentación SQL Server y
ADO.NET. Obtenido de Información general sobre la seguridad de SQL Server:
https://docs.microsoft.com/es-es/dotnet/framework/data/adonet/sql/overview-of-sql-server-
security
77
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
MongoDB. (15 de 07 de 2020). MongoDB. Obtenido de The database for modern applications:
https://www.mongodb.com/es
Montalvo, G. (01 de 07 de 2019). Análisis Comparativo de Migración de Motor de BDD de SQL Server
a Oracle en una Empresa del Sector Automotríz. Trabajo previo a la obtención del título de
Ingeniero en Sistemas y Computación. Quito, Quito, Ecuador: Facultad Ingeniería Carrera
Sistemas y Computación. Pontificia Universidad Católica del Ecuador.
neo4j. (15 de 07 de 2020). neo4j. Obtenido de The Native Graph Database for Today’s Connected
Applications: https://neo4j.com/neo4j-graph-database/
Osorio Rivera, F. L. (2008). Bases de Datos Relacionales. Teoría y Práctica. Medellín Colombia:
Instituto Tecnológico Metropolitano.
Silberschatz, A., Korth, H. F., & Sudarshan, S. (2002). Fundamentos de Bases de Datos. Cuarta
Edición. MADRID, BUENOS AIRES, CARACAS, GUATEMALA, LISBOA, MÉXICO, entre
otras: McGraw Hill.
78
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Capítulo 2
2.1. Introducción
Desde el preludio de la civilización, el hombre creó e implementó procesos
que le permitieron el uso óptimo de los recursos a su alcance para garantizar la
satisfacción de sus necesidades y la prosperidad de los pueblos. De tal manera que,
en la época antigua surgieron grandes imperios, todos con una sólida organización,
visión de orden y un extraordinario talento para dirigir.
80
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Una importante justificación para escribir sobre Big Data, es para los
estudiosos de los fenómenos sociales, el hecho de que existan más de 3,000
millones de personas conectadas a Internet y más de 7,000 millones de
suscripciones a telefonía celular en el mundo, les conduce a investigar la reciente y
monumental avalancha de información. Por ende, la tarea de las Ciencias Sociales
en lo que respecta a los grandes volúmenes de datos, es sin duda, entender qué
fenómenos sociales y qué dilemas éticos trae consigo y cómo su análisis puede
ayudar a entender, proyectar y resolver problemáticas sociales.
Objetivo general:
Identificar las características del Big Data desde una de las perspectivas
fundamentales de la humanidad: la social, a través de la recopilación de casos de
éxito y el estudio de la literatura actual cuyos autores compartan una opinión
imparcial.
Objetivos específicos:
En el desarrollo. Se describen cinco casos en los que Big Data ha tenido una
injerencia positiva en la sociedad sin dejar de lado los riesgos que este cambio trae
consigo. Se presenta además la opinión y el aprendizaje personal del autor; así
como las ventajas, desventajas y problemática descubiertas sobre el objeto de la
investigación.
De acuerdo con (Gartner, sf), define el Big Data como “un gran volumen,
velocidad o variedad de información que demanda formas costeables e innovadoras
de procesamiento de información que permitan ideas extendidas, toma de
decisiones y automatización del proceso”. Sus dimensiones pueden describirse de
la siguiente forma:
82
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Para darse una idea de ¿qué tan grande es, BIG?, 16 millones de fotografías de
Facebook pueden ser almacenadas en un terabyte; sin embargo, estas
apreciaciones varían.
• Variedad: Existen diversas formas de representar los datos, pudiendo ser datos
estructurados y no estructurados; estos últimos son los que se generan desde
páginas web, redes sociales, foros, archivos de búsquedas, correos electrónicos
o bien pueden originarse de sensores en diferentes actividades de las personas.
Por ejemplo, Si se toma una base de datos de Twitter, en un twit se ve que
además del texto hay ligas a una serie de recursos culturales diversos como
videos, audios o fotografías, los cuales la mayoría de las veces se encuentran
no estructurados.
• Velocidad: Se refiere a la velocidad con que se originan los datos, de las
diversas fuentes de datos estructurados y datos no estructurados como pueden
ser páginas Web, bases de datos, redes sociales, call centers, datos
geoespaciales, datos semiestructurados (XML, RSS) provenientes de audio y
video, los datos generados por los termómetros, el Internet de las cosas, las
RFID, entre otras, en suma con las interacciones del hombre.
83
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Las bases de datos comenzaron a aparecer entre los años 1950 y 1960,
mayormente impulsadas por el incremento de dos factores tecnológicos: la
confiabilidad de los procesadores computacionales y la capacidad de
almacenamiento en cintas y unidades de disco. (Castro, González y Callejas, 2012).
2.2.2.1.2. En Red
84
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
son parecidas a las jerárquicas pero se diferencian en que en ellas puede haber
más de un padre.
2.2.2.1.3. Relacionales
85
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
86
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Big Data ha propiciado la aparición del Data Science o Ciencia de los Datos,
término que hace referencia al conjunto de tecnologías y técnicas necesarias para
el tratamiento de la información masiva desde los puntos de vista estadístico e
informático, resolviendo al tiempo el problema de almacenamiento de los datos.
Por lo tanto, podemos decir que para una excelente gestión de los datos es
necesario contar con un experto en el campo y una adecuada infraestructura
tecnológica (hardware y software) basada, entre otros aspectos, en técnicas que
posibiliten un correcto almacenamiento y posterior análisis de los mismos. Lo
anterior da la pauta para hablar de las tecnologías que iniciaron el ecosistema Big
Data.
2.2.3.1. Hadoop.
Las tecnologías de Big Data se clasifican en las que dan soporte a la captura,
la transformación, el procesamiento y el análisis de los datos, ya sean estructurados,
semiestructurados o no estructurados.
• Tolerancia a fallos
87
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
• Portabilidad de convivencia.
88
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
2.3. Desarrollo
2.3.1. Big Data: Un enfoque optimista
89
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Estos algoritmos, además, son capaces de aprender por prueba y error para
mejorar su participación, si a mujeres de cierta localidad, edad, nivel cultural, entre
otros, les interesó tal producto, probablemente a otras con el mismo perfil también
les interese.
Los biólogos siempre dijeron “eso no es ciencia, no tienen datos. Pero ellos
no saben dónde están las ballenas en el mar. Hoy, nosotros sí sabemos dónde
están las personas y también sabemos qué compran, qué comen, cuándo duermen,
cuáles son sus amigos, sus ideas políticas, su vida social” (Hildbert, 2017). A través
del Big Data, se pueden prever comportamientos y aprender de las experiencias
anteriores.
90
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Es difícil prever hasta dónde pueden llegar las operaciones Big Data. Uno de
los ejemplos más llamativos es su introducción en el cine, en específico la película
Amanecer parte 2. La película es un ejemplo de cómo interpretar los sentimientos a
través del análisis de datos, analizando los tuits generados en la promoción de la
película. La campaña de marketing fue a nivel mundial y estaba basada en las redes
sociales. Los movimientos en Twitter se analizaron con social sentiment index de
IBM.
91
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
2.3.3. Segundo caso. ¿Saldrás de viaje?, los DTI son la mejor opción.
92
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
93
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
94
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
privada y obtener amplia información sobre qué buscan los turistas y cómo
piensan los potenciales turistas.
El Open Data y el Big Data, así como las redes sociales, transformaron el
trabajo en los medios de comunicación en un mundo informativamente globalizado.
Esta transformación permitió el surgimiento de nuevos perfiles que pluralizan las
expectativas laborales y exploran nuevas fórmulas para contar historias. Es el caso
del periodista de datos.
95
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
96
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
97
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
98
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
99
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
los medios representa una ganancia o pérdida de adeptos según el criterio con el
que sea juzgada la aparición.
Cumpliendo con la máxima “si no sales en los medios, no existes”, los
candidatos hacen lo necesario para aparecer el mayor número de veces. Para ello,
es inminente la necesidad de recursos por lo que una estrategia innovadora es la
clave para hacerse de adeptos y por lo tanto de “donaciones”.
100
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
101
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Otra emotiva estrategia fue la “Cena con Barack”. Comúnmente, las cenas
de recaudación de fondos permiten a los donantes de cantidades altas comprar el
acceso. Pero la campaña de Obama hizo lo contrario, seleccionó a cuatro donantes
de cualquier cantidad que habían compartido sus historias para encontrarse con
Obama en un entorno de cena y discutir sus problemas. Los eventos fueron
transmitidos en YouTube y los sitios web de la campaña. Fueron las poderosas
historias de la gente común las que lograron la cuantiosa recaudación.
102
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Además, en estados de batalla, el sitio web haría una lista de cinco personas
que tenían el mismo lugar de votación y alentó al partidario para llamar o tocar sus
puertas y "llevarlos consigo... Eso fue parte de nuestra estrategia de nunca dejar
que la gente se sienta como si no hubiera algo más que ellos podrían hacer para
ayudar ", dijo Rospars. El día de las elecciones, Twitter se utilizó para publicar
números gratuitos y cadenas de mensajes de texto para encontrar lugares de
votación, así como oportunidades de voluntariado. Después, Obama ganó, el millón
de personas que habían estado recibiendo actualizaciones de texto y anuncios
recibieron un mensaje final: "Todo esto sucedió por ti. Gracias, Barack".
La campaña fue dinámica (Castro, 2012), elaborada de tal forma que se adaptara
a los momentos cambiantes de la elección entre las que se destacan un conjunto
de acciones que se listan a continuación:
103
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
104
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
105
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
que comprenden los 111 Pueblos Mágicos y los principales corredores turísticos
(BBVA, 2016).
Una de las tareas de la tecnología es hacer que convenios como “Big Data
y Turismo” permitan a las dependencias públicas tener información que les sea útil
para generar propuestas de valor integral, ofertas acordes con las necesidades de
los turistas nacionales y extranjeros, e impulsar el crecimiento de esta actividad
relevante en el país. El proyecto “Big Data y Turismo” permitió conocer el
comportamiento comercial de 86 millones de usuarios de tarjetas bancarias
nacionales y extranjeras.
106
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
107
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Los algoritmos con que se indagan los datos no siempre son neutrales. En
2016, Pro Publica, el medio de investigación periodística estadounidense, analizó
los algoritmos utilizados por el sistema judicial para predecir los casos de
reincidencia delictiva. Encontró que los algoritmos habían sido creados con una
tendencia racista.
108
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
comparten con los gobiernos toda la información que guardan por su supuesto
compromiso con la libertad de expresión, y mucho menos con la comunidad
científica (Meneses, 2018). Evidencias como éstas ponen en claro que no se puede
aceptar a ojos cerrados y sin cuestionamientos la propuesta de que los grandes
datos nos acercan a un universo donde el comportamiento humano pueda construir
una “mejor sociedad”.
para expresar el sentir de los usuarios al postear y compartir una información; así
como los atributos de tipo geopolítico, económico y cultural (Meneses, 2018).
Además del riesgo de atentar contra la privacidad de las personas, Big Data trae
consigo otros de igual importancia que merecen ser puestos sobre la mesa.
2.3.7.2. Conclusiones erróneas que nadie revisa: errores por azar y por
confusión
Uno de los propósitos principales del Big Data es descubrir patrones para
realizar predicciones futuras. Para ello, es importante encontrar una verdadera
relación entre las variables analizadas diferenciando entre la causalidad (causa-
efecto) y la casualidad (azar o confusión).
110
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Pero ahora se supone que, en lugar de cinco variables, se puede analizar mil
variables (algo similar a lo que ocurriría con el Big Data). El gráfico sería algo similar
a lo mostrado en la figura 12.
111
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
112
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
demostrar la prueba de ello, pero es bien sabido que realmente no es así. De esta
forma, ambas variables no tienen una relación de causa-efecto. La razón de esta
relación es que en ambos casos dependen de una tercera variable “la calidad de
las cosechas”. Por lo tanto, en los años, con más sol, lluvia y alimentos, las cigüeñas
criaban más, al igual que los habitantes de dichas regiones.
114
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
la calidad de los algoritmos para obtener una mejor clasificación del individuo. En
Europa, conscientes de esta problemática, introdujeron una disposición la cual
prohíbe tomar decisiones trascendentales para una persona sobre la única base del
análisis automático de datos (Gil, 2016).
Desde la utilización del oro, el metal precioso, como base de las economías
del mundo, se observó que su impacto en la vida histórica, uso y consecuencias
estaban determinados por las particularidades de cada país. Mientras que a Europa
la monetización le sirvió para su expansión comercial y crecimiento económico, en
la India, su acumulación era necesaria para cancelación de impuestos, crecimiento
fiscal del Estado y recaudación de bienes en caso de guerra.
115
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
116
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
2.4. Conclusiones
117
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Referencias
Aaker, J. y Chang, V. (2010). Obama and the power of social media and technology. The European
Business Review, 16-21.
Ancin, A. I. (2018). Análisis de los distintos tipos de campañas publicitarias y sus diferentes
aplicaciones para lograr el top of mind de las marcas. Revista Caribeña de Ciencias Sociales.
Agudo, S. I. (2014) ¿Qué pasó en Facebook y Twitter durante 2013?. Principiantes en Social Media.
[Figura]. Recuperado de: https://principiantesensocialmedia.com/2014/01/10/cambios-en-
redes-sociales-durante-2013/
BBVA (2016). BBVA muestra cómo el 'big data' puede potenciar el turismo en México. Recuperado
de: https://www.bbva.com/es/bbva-muestra-big-data-puede-potenciar-turismo-mexico/
Castro, M. L. (2012). El marketing político en Estados Unidos: el caso Obama. Norteamérica, 7(1),
209-222.
Castro, R. A., González, S. J. S., y Callejas, C. M. (2012). Utilidad y funcionamiento de las bases de
datos NoSQL. Facultad de Ingeniería, 21(33), 21-32.
Ferrer-Sapena, A., y Sánchez-Pérez, E. (2013). Datos abiertos, big data: ¿Hacia dónde nos
dirigimos? Anuario ThinkEPI, 7, 150-156.
García, J. A., y Catalina, G. B. (2018). Una perspectiva documental y bibliotecológica sobre el big
data y el periodismo de datos. Investigación Bibliotecológica: archivonomía, bibliotecología
e información, 32(74), 77-99.
118
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Gartner (s,f) Big Data. Gartner Research and Advisory Company. Recuperado de:
https://www.gartner.com/en/information-technology/glossary/big-data
Gil, E. (2016). Big data, privacidad y protección de datos. Madrid: Agencia Estatal Boletín Oficial del
Estado.
Hernández, L. E., Duque, M. N., y Moreno, C. J. (2017). Big data: una exploración de investigaciones,
tecnologías, y casos de aplicación. Tecnologías, 20(39).
Hughes, S. G. F., Allbright-Hannah, K., Goodstein, S., Grove, S., Zuckerberg, R., Sladden, C., &
Bohnet, B. (2010). Obama and the power of social media and technology. The European
Business Review (May-June 2010), 16-21.
Magnani, E. (2017). Big data y política. El poder de los algoritmos. Nueva Sociedad( 269).
IIPJM. (2016). ¿Qué es el periodismo de datos?. Instituto Internacional de Periodismo José Martí.
[Figura]. Recuperado de:
https://periodismojosemarti.wordpress.com/2016/11/03/que-es-el-
periodismo-de-datos/
Meneses, R. M. E. (2018). Grandes datos, grandes desafíos para las ciencias sociales. Revista
Mexicana de Sociología, 80(2).
SEGITTUR (2014). Destino Turístico Inteligente. Sociedad Mercantil Estatal para la Gestión de la
Innovación y las Tecnologías Turísticas. Recuperado de: https://www.segittur.es/es/DTI/
Stone, M. L. 2014. “Big data for Media”. Reuters Institute for the Study of Journalism, 1-31. UK:
University of Oxford. http://www.bigdatamedia.org/wp-content/uploads/2017/03/Big-Data-
For-Media_2014-Stone.pdf
119
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Capítulo 3
3.1. Introducción
Con el paso del tiempo la tecnología ha ido creciendo y avanzando en todos
los sectores conocidos, tanto ha sido su crecimiento que hoy en día existen un
mayor número de dispositivos en el mundo que seres humanos. Dándose por
consecuencia un incremento de datos generados por dichos dispositivos.
Para el buen uso de esta gran cantidad de datos Big Data ha determinado 5
características que deben poseer, ellos los denominan como las 5 V de Big Data
esto para obtener un mejor entendimiento de los datos a analizar donde
comprenden el Volumen (cantidad de datos), Velocidad (a la que se procesan ser
120
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Big Data y Ciencia de los Datos, se están convirtiendo en una de las ramas
más importantes de la computación hoy en día y una de las más rentables
refiriéndose en la parte económica, esto a nivel mundial, ya que se utiliza en
cualquier sector, desde las ciencias, diversión, cultura, finanzas, salud hasta ganar
puestos políticos de países de primer mundo como lo fue en el caso de Estados
Unidos de Norte América.
121
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
exista un universo de datos que se pueden utilizar para conocer tendencias, hacer
pronósticos y predicciones de una manera más efectiva y real.
Por estos motivos es necesario saber, aprender y comprender cuales son las
mejores herramientas que existen para el manejo de Big Data. Se estima que, en
el año 2020 estén más de 30 mil millones de dispositivos conectados a internet,
generando una enorme cantidad de datos segundo a segundo la cual puede ser
analizada con las herramientas adecuadas. (OBS Business School, s.f.).
122
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
El análisis de datos cada día tiene mayor valor para las personas dedicadas
al manejo de ellos. Por este motivo la revista Harvard Business Review en su
artículo de Davenport & Patil, (2012) citan como la profesión de “data scientist”
como “la más sexy del siglo XXI” (Davenport & Patil, 2012).
123
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Figura 1. Big Data conforme al volumen de datos. (Sánchez Villaseñor, Herraientas, retos,
oportunidades, seguridad y tendencias del Big Data, 2019)
A lo anterior hay que agregar además de que Big Data se debe entender
perfectamente que los datos son cambiantes y muy dinámicos (variabilidad) y
124
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Gil, (2016) menciona que “el Big Data es el conjunto de tecnologías que
permiten tratar cantidades masivas de datos provenientes de fuentes dispares, con
el objetivo de poder otorgarles una utilidad que proporcione valor” (pág. 15).
125
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
El ciclo de vida del Big Data puede comprenderse bajo ciertas fases
principales generación y adquisición, almacenamiento, procesamiento y análisis de
datos, en las cuales se tienen ciertos tipos de herramientas. La figura 3, identifica
estas cuatro fases incluyendo herramientas de visualización de datos. En los
siguientes apartados se describen algunas herramientas asociadas a cada fase.
3.2.1.1. Kafka
Es un proyecto de código abierto que se comenzó a desarrollar en el año
2009 por la empresa LinkedIn. Y en el 2011 fue donado por Apache, la cual estuvo
en desarrollo hasta Octubre de 2012 donde paso a formar parte de los proyectos de
alto nivel. Esta desarrollado en Java y Scala puede manejar distintos orígenes de
datos como son las redes sociales o sensores y trabaja en procesamiento de tiempo
real.
126
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
3.2.1.2. Sqoop
Es una herramienta de alto nivel, está diseñada para transferir grandes
cantidades de datos a Hadoop provenientes de bases de datos estructurados como
lo es MySql, Oracle, Postgress o un data warehouse.
La trasferencia es realizada al leer fila por fila de cada tabla y las importa a
sistema de archivos distribuido (HDFS) de Hadoop para obtener de salida una gran
variedad de archivos, los cuales pueden ser de formato .CSV, Avro (sistema de
compresión diseñado por Apache para el proyecto Hadoop (Big Data Dummy,
2017)), de secuencia o binarios. El logotipo que lo distingue se presenta en la
siguiente figura.
3.2.1.3. Flume
Es una herramienta de la fundación Apache, es un sistema distribuido,
gratuito y muy eficiente para la recopilar, agregar y mover grandes cantidades de
datos en logs los cuales pueden ser diferentes tipos de orígenes desde diferentes
servidores, web o de algún otro tipo de servidor que pueda brindar información
relevante. Este sistema permite realizar la ingesta de datos semiestructurados
como no estructurados.
127
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Utiliza una arquitectura sencilla y flexible que está basada en el flujo de datos
tipo streaming, permite la creación de bastantes aplicaciones analíticas en línea. La
figura 6 muestra un flujo de trabajo en donde se utiliza flume
Figura 6. Transportar datos en flume e imagen de flume. (Big Data Dummy Analytics, 2017)
3.2.2.1. Hadoop
Apache Hadoop es una infraestructura que permite el procesamiento
distribuido de grandes conjuntos de datos en grupos de computadoras utilizando
modelos de programación simples y eficientes. Está diseñado para crecer desde
servidores individuales hasta miles de máquinas, cada una de las cuales ofrece
computación y almacenamiento local. Hadoop está pensado para detectar y
manejar fallas en la capa de aplicación, por lo que ofrece un servicio de alta
disponibilidad en la parte superior de un grupo de computadoras, cada una de las
cuales puede ser propensa a fallas (Apache Hadoop, s.f.).
MapReduce es el motor de procesamiento de Hadoop utilizando nodos en
varios servidores y su sistema de almacenamiento es Hadoop Distributed File
System (HDFS) permite a las aplicaciones ejecutarse en varios cluster, de esta
manera su procesamiento es más rápido.
Hadoop es una herramienta de alto nivel ya que es la gran referencia al
hablar de Big Data, ya que es usado y diseñado por una gran cantidad de
128
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
3.2.2.2. MongoDB
MongoDB es una base de datos orientada a documentos muy similares a los
de tipo JSON, es una base de datos No SQL y por consiguiente es muy flexible. Su
lenguaje es de gran alcance es muy extenso y comprensible esto proporciona un
apoyo extraordinario para filtrar y clasificar cualquiera que sea el campo deseado.
Las consultas son de tipo JSON y por esta razón fácilmente compuestas.
(MongoDB, 2020). La figura 8 identifica el logo de MongoDB
3.2.2.3. Cassandra
Esta base de datos está diseñada para cuando es necesario obtener
escalabilidad y se requiere alta disponibilidad sin afectar el rendimiento. Tiene gran
tolerancia a fallas en el hardware básico o la infraestructura en la nube. El soporte
de Cassandra para la replicación en múltiples centros de datos es el mejor de su
clase, por consiguiente genera confiabilidad para el almacenamiento de los datos.
Es una base de datos NoSQL que almacena los datos a través de una agrupación
de llave – valor con un identificador que permite obtener la información de una
manera mucho más rápida (Apache Cassandra, 2016).
129
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
3.2.2.4. HBase
Es un almacén de Big Data distribuido y escalable, es utilizada cuando se
requiere un acceso aleatorio y en tiempo real de lectura y escritura en Big Data.
Esta herramienta almacena tablas demasiado grandes que pueden tener miles de
millones de filas, así como miles de millones de columnas sobre hardware sencillo.
Está modelada a partir de Bigtable de Google el cual es un sistema de
almacenamiento distribuido para datos estructurados. Generalmente esta base de
datos se utiliza para operaciones en línea la cual permite trabajar con las
operaciones mucho más rápido que otras herramientas. (Apache HBase, 2020)
130
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
3.2.3.1. Spark
Es un sistema de computación tipo clúster de propósito general y está
orientado a la velocidad. Proporciona APIs en Java, Scala, Python y R. Cuenta con
un motor optimizado la cual soporta la ejecución de gráficos. Soporta un conjunto
extenso de herramientas de alto nivel y en las cuales incluyen Spark SQL el cual
está diseñado para el procesamiento de datos estructurados como son del tipo
SQL, también existe MLlib en el que se puede implementar machine learning,
cuanta con Spark Graphs que permite trabajar con bases de datos basados en
grafos y Spark Streaming que habilita procesar datos que provienen de una fuente
de tipo Streaming. El logotipo que lo distingue lo presenta la figura 11:
131
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
132
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
el lenguaje textual Pig Latin, que cuenta con las siguientes cualidades que lo hace
una herramienta poderosa:
133
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
3.2.4.2. Python
Es un lenguaje de programación muy poderoso, es muy fácil de aprender,
cuenta con licencia de código abierto y permite al usuario el análisis de gran
134
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
cantidad de datos de una manera rápida y sencilla, cuenta con un Shell poderoso,
fácil de instalar en equipos de cómputo que no necesita especificaciones de
hardware especial, es multiplataforma.
3.2.4.3. Lenguaje R
Software de licencia libre para computación estadística y gráficos. Se
compila y se ejecuta en una amplia variedad de plataformas UNIX, Windows y
MacOS. R tiene una gran variedad de técnicas estadísticas en el modelado lineal y
no lineal, pruebas estadísticas clásicas, clasificación, agrupación, y análisis de
tiempo, técnicas gráficas, y es altamente extensible. Permite generar gráficos de
excelente calidad, incluyendo símbolos matemáticos y fórmulas. Cuenta con
funciones naturales para el análisis, es un lenguaje de programación bien
desarrollado, fácil de aprender y muy efectivo que incluye condicionales, bucles,
funciones recursivas definidas por el usuario y de entrada y salida, entre otras. La
figura 18 muestra el logotipo de R.
3.2.4.4. Scala
Es un lenguaje directamente orientado a objetos ya que todo es un objeto,
cuenta con una sintaxis ligera para definir funciones anónimas, soporta funciones
135
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
de primer orden, permite que las funciones sean anidadas, y soporta currying. Las
construcciones incorporadas al lenguaje para reconocimiento de patrones modelan
tipos algebraicos los cuales son usados en muchos lenguajes de programación
funcionales.
3.2.5.2. Tableau
Es una herramienta de análisis gráfica fácil de usar y muy potente, puede
convertir los datos de múltiples fuentes de información, combina varias fuentes de
datos en una sola pantalla, trabaja con cualquier hoja de cálculo y base de datos
136
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
3.2.5.3. RapidMiner
Es un programa informático utilizado para el análisis y la minería de datos,
permite realizar procesos de análisis de datos utilizando el encadenamiento de
operadores todo esto mediante un entorno gráfico. Es utilizado en las ramas de
investigación, educación, capacitación, y en la creación de prototipos y también es
usado en aplicaciones empresariales.
137
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
138
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
139
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Estos fueron algunos de los sectores en los cuales se pueden utilizar las
herramientas y lenguajes que se utilizan en el Big Data, ya que los datos obtenidos
son de diferentes fuentes y de tipo estructurado, no estructurado o
semiestructurado. Y en la mayoría de ellos es necesario obtener resultados en
tiempo real.
3.3. Desarrollo
En este apartado se hacen comparaciones de distintas herramientas Big
Data, con la ayuda de tablas comparativas se reflejan las principales características
de las herramientas de ingesta, de almacenamiento, de procesamiento, de análisis,
y de visualización de gráficos.
140
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla 1.
Comparativo de Sqoop y Flume. Elaboración propia
Se Utiliza Para copiar datos más rápido y Para extraer los datos cuando se
luego usarlos para poder generar desea analizar patrones, causas
resultados analíticos. raíz o análisis de sentimientos en
las redes sociales.
141
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
• Disponibilidad: que todos los clientes puedan leer y escribir, aunque se haya
caído uno de los nodos.
• Tolerancia a particiones: Los sistemas distribuidos pueden estar divididos en
particiones (generalmente de forma geográfica). Así que esta condición
implica, que el sistema tiene que seguir funcionando aunque existan fallos o
caídas parciales que dividan el sistema. (Manjarrez Antaño, Martínez Castro,
& Cuevas Valencia, 2014)
142
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla 2
Comparativo MongoDB y Hadoop. Elaboración propia
143
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla 3
Apache Pig vs Apache Hive. Elaboración propia.
144
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
145
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla 3
Comparativo R y Python. Elaboración propia
Comparativo R Python
Bases Manejados por el grupo R-Core y R Python Software Foundation(PSF),
Project, está escrito principalmente este lenguaje está inspirado en C,
en lenguaje C, Fortran Modula-3 y esencialmente por ABC.
Usuarios Investigadores de Big Data, pero Programadores, analistas de datos,
está tomando fuerza en el ámbito desarrolladores y científicos de datos.
del mercado empresarial
Propósito Uso amigable para el análisis de Este lenguaje está dirigido a la
datos, estadística y utiliza productividad así como legibilidad de
diversidad en modelo de graficas código
Comunidad Usuarios Stackoverflow (preguntas Stackoverflow , los usuarios
y respuestas), gran comunidad y contribuyen con código y
documentación documentación
Flexibilidad Para la realización de modelos Fácil sintaxis que ayuda en la
estadísticos, fácil usar en depuración y codificación. Usado para
fórmulas complejas. realizar scripts en sitios web o en
alguna otra aplicación.
Algunas tareas Trabajo exploratorio de datos, es Lenguaje de programación hecho y
más fácil para usuarios derecho, una herramienta excelente
principiantes. Sus modelos para la implementación de algoritmos
estadísticos se pueden realizar al utilizados en la producción.
escribir un código de pocas líneas
Uso Análisis de datos computación Cuando la tarea de análisis de datos
independiente o realizar el análisis debe integrarse con alguna aplicación
en un servidor individual. web o si el código debe incorporarse
a una base de datos en producción.
Desventajas Lento en curva de aprendizaje, No cuenta con la mismas cantidad de
necesario descargar paquetes. biblioteca en comparación con R
Ventajas Gráficas excelentes, cuenta con un Jupyter para compartir datos, sus
enorme catálogo para el uso de cálculos matemáticos son fáciles y
análisis de uso de datos, interfaz rápidos., bastante legibilidad de
con GitHub y disponibilidad de código , gran velocidad, excelentes
RMarkdown. funciones en Python.
146
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
147
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla 5.
Comparativo SAS Vs Tableau. Elaboración propia.
Volumen de datos Gran volumen de datos sin ningún Se utiliza también en pequeñas y
problema medianas empresas
Capacidad Para escalar, es necesario un costo Viene con todas las funcionales cargadas,
extra. no puede crecer
Características El panel de análisis visual SAS tiene Tablero de Tableau puede contar una
múltiples pestañas, con el panel historia, cuenta con parámetros y mapas
interactivo y explorador de datos
visuales
Costo y Licencias Su licencia es anual y su costo es El costo se difiere para cada una de sus
único características.
148
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
149
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
150
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
151
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
152
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
153
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Se mencionó que existen diferentes herramientas para trabajar con Big Data
ya sea de tipo no comercial y comercial; que son de distinta naturaleza y de diferente
propósito; además, que algunas de ellas son diseñadas únicamente para procesos
especiales.
Para el uso del análisis de datos con las herramientas de Big Data existen
grandes ventajas que otorgan estas herramientas, como lo es el procesamiento de
grandes volúmenes de datos, las velocidades para trabajar con ellos, muchas de
estas herramientas son de código abierto, comunidades que existen para apoyar en
el uso de estas, la facilidad de obtener resultados de diferentes tipos de fuentes, los
resultados obtenidos los cuales permite interpretar información de conducta,
patrones a seguir o prevenir eventos en tiempo real si así se requiere, algunos de
los lenguajes que se utilizan son muy potentes y fáciles de aprender, los resultados
presentados son de manera muy legible y entendible para la toma de decisiones.
154
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
especial para trabajar con una gran cantidad de datos no estructurados, esta
herramienta tiene una gran flexibilidad en la ingesta y Sqoop no está diseñada para
trabajar con datos no estructurados.
La que sea de las dos opciones pueden ser excelentes para una solución
escalable que tenga que procesar grandes cantidades de datos complejos. Mucha
gente que utiliza MongoDB recomienda que se utilicen ambos sistemas en conjunto
ya que MongoDB delega tareas en tiempo real y el procesamiento de datos se lo
deja a Hadoop la cual es una ventaja de las dos herramientas al trabajar en conjunto
y hacer más eficiente las tareas. Una de las desventajas en trabajar en conjunto es
que una mala configuración sería desastroso para la confiabilidad y sostenibilidad
de alguna plataforma.
155
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Hadoop tiene la gran ventaja de ser tolerante a fallos algo que MongoDB por
su estructura y lo deja en una desventaja considerable ante Hadoop.
Apache Pig tiene una gran ventaja al poder ser usada para la interfaz WEB
ya que Hive no es compatible con esta interfaz, así como Pig admite datos
estructurados como semiestructurados y admite el formato AVRO, y Hive tiene estas
limitantes.
156
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
157
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Conclusiones y Recomendaciones
Ante el crecimiento constante de datos y de dispositivos que generan dichos
datos se debe estar preparado para lograr un entendimiento de cómo se puede
llevar un correcto proceso de análisis para lograr resultados sorprendentes, las
herramientas, los términos usados y los beneficios que se pueden obtener de éstos
análisis en cualquier sector son demasiados con la apropiada tecnología y
conocimiento de ella.
158
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Referencias
Apache Cassandra. (01 de 01 de 2016). Apache Software Foundation. Obtenido de Apache
Cassandra: https://cassandra.apache.org/
Apache Hadoop. (s.f. de s.f. de s.f.). Apache Hadoop. Obtenido de Apache Hadoop:
http://hadoop.apache.org/
Apache HBase. (14 de 07 de 2020). Apache HBase. Obtenido de Welcome to Apache HBase:
https://hbase.apache.org/
Apache Kafka. (s.f. de s.f. de s.f.). Apache Kafka. Obtenido de A distributed streaming platform:
http://kafka.apache.org/
Apache Pig. (01 de 01 de 2018). Apache Pig. Obtenido de Welcome to Apache Pig!:
http://pig.apache.org/
159
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Apache Spark. (s.f. de s.f. de s.f.). Apache Spark. Obtenido de Apache Spark™ is a unified analytics
engine for large-scale data processing.: http://spark.apache.org/
Apache Sqoop. (18 de 01 de 2019). The Apache Software Fundation. Obtenido de Apache Sqoop:
http://sqoop.apache.org/
Apache Tive TM. (01 de 01 de 2014). Apache Tive TM. Obtenido de Apache Tive TM:
https://hive.apache.org/
Big Data Dummy. (10 de 01 de 2017). Big Data Dummy. Analytics, NoSQL and Microservices.
Obtenido de Formatos de Fichero: https://bigdatadummy.com/2017/01/10/apache-
avro/#avro
Big Data Dummy Analytics. (17 de 02 de 2017). Big Data Dummy Analytics, NoSQL and
Microservices. Obtenido de Apache Flume Ingesta:
https://bigdatadummy.com/2017/02/07/apache-flume/
Davenport, T., & Patil, D. (01 de 10 de 2012). Data. Data Scientist: The Sexiest Job of the 21st
Century. Obtenido de Data. Data Scientist: The Sexiest Job of the 21st Century:
https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
Gil, E. (2016). Big data, privacidad y protección de datos. Madrid: Publisher: Agencia Española de
Protección de Datos y Boletín Oficial del Estado ISBN: 9788434023093.
Manjarrez Antaño, A. C., Martínez Castro, J. M., & Cuevas Valencia, R. E. (2014). Migración de
Bases de Datos SQL a NoSQL . Tlamati, Número Especial 3 CICOM , 144-148.
MongoDB. (15 de 07 de 2020). MongoDB. Obtenido de The database for modern applications:
https://www.mongodb.com/es
OBS Business School. (s.f. de s.f. de s.f.). OBS Business School. Obtenido de Noticias. En 2020,
más de 30 mil millones de dispositivos estarán conectados a Internet:
160
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
https://obsbusiness.school/es/noticias/estudio-obs/en-2020-mas-de-30-mil-millones-de-
dispositivos-estaran-conectados-internet
Pérez Marqués, M. (2015). Bid Data. Técnicas, herramientas y aplicaciones. México: AlfaOmega
Grupo Editor S.A de C.V.
Portafolio. (04 de 12 de 2019). Portafolio. Cambios y desafíos para el Big Data en 2020. Obtenido
de El empleo de esta tecnología disruptiva gana cada vez más terreno en distintos ámbitos.:
https://www.portafolio.co/innovacion/cambios-y-desafios-para-el-big-data-en-2020-536199
Salazar Argonza, J. (01 de 01 de 2016). Big Data en la educación. Revista Digital Universitaria ISSN:
1607 - 6079. Publicación mensual, 16. Obtenido de Big Data en la educación:
http://www.revista.unam.mx/vol.17/num1/art06/#
Tableau Software, LLC. (s.f. de s.f. de s.f.). Tableau. Obtenido de Que es Tableau:
https://www.tableau.com/es-mx
Universidad de Alcalá. (s.f. de s.f. de s.f.). Universidad de Alcalá. Obtenido de Las cinco Vs. que
sirven para explicar el Big Data: https://www.master-bigdata.com/big-data-5-v/
161
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Capítulo 4
4.1. Introducción
Actualmente se está utilizando un nuevo esquema de investigación
informático, útil para muchas empresas, que proporciona información que
anteriormente no se tenían en cuenta.
Este documento, aporta una guía que lo llevarán a desarrollar las habilidades
para el mejor desempeño en Marketing Digital además de servir de base para
identificar más oportunidades de crecer si se exploran nuevos campos de
investigación con el Big Data.
162
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
163
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
164
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
En 1958 Hans-Peter Luhn escribe un artículo donde habla por primera vez
del Business Intelligence (BI) en el cual menciona “negocios es una colección de
actividades llevadas a cabo con cualquier propósito, ya sea ciencia, tecnología,
comercio, industria, derecho, gobierno, defensa, entre otros.
165
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Las organizaciones han encontrado en el Big Data una gran técnica para la
toma de decisiones, con un conjunto de herramientas informáticas que permiten la
manipulación, gestión y análisis de la información tomando en cuenta ciertos
parones de cómo se comporta la información obtenida.
166
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Las nuevas fuentes de datos que alimentan al Big Data tienen propiedades
no solo por su volumen, sino también por otras características distintivas frente a
las fuentes de datos tradicionales. Big Data generalmente recurre al esquema de
las 3 vs (volumen, velocidad y variedad), si bien a veces se añaden algunos
atributos para alcanzar las 5 v's (veracidad y valor) o incluso las 7 v's (variabilidad y
visualización) (Gutiérrez Puebla, 2018).
Big Data puede ser visto como una tendencia y un presente en el avance de
la tecnología que identifica un área de oportunidad hacia un nuevo enfoque para
mejorar la toma de decisiones, se utiliza para procesar, analizar y describir enormes
cantidades de datos (estructurados, no estructurados y semi- estructurados) y viene
a ser una evolución del mundo de las bases de datos relacionales. El concepto de
Big Data se utiliza en las organizaciones con fuentes de información interna y
externa que no puede ser procesada o analizada utilizando herramientas y procesos
convencionales (Puyol Moreno, 2014).
167
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
168
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
El volumen de los datos para conformar parte del Big Data, se puede
tomar de cualquier medio conectado posible, ya sea sensores de movimiento,
de temperatura, atmosféricos, celulares, relojes inteligentes entre otros.
169
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
4.2.3.4. Veracidad
La veracidad hace referencia a la confiabilidad en relación directa a que
existe una gran cantidad de datos. Actualmente ya se puede trabajar con
poblaciones en lugar de con muestras y de que deriven de acciones de la gente.
Por ejemplo, al hacer una encuesta se registra lo que la gente dice que hace; ahora
por medio del monitoreo y seguimiento de acciones de las personas, se registra lo
que la gente hace y cómo se comporta; estos son elementos a favor de la veracidad
de los datos (Gutiérrez Puebla, 2018).
4.2.3.5. Valor
En la actualidad disponer de datos cobra un valor imprescindible y creciente,
se compara a los datos con el petróleo de la cuarta revolución industrial. El dato
independiente no tiene valor; lo que le da valor económico es darle significado y
transformarlo en información y la vez en conocimiento útil para la tomar decisiones
y ejecutar acciones (Gutiérrez Puebla, 2018).
4.2.3.6. Variabilidad
Los datos con el tiempo cambian, además, debido a la variabilidad de los
procesos en las empresas, los datos cambian constantemente.
170
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
4.2.3.7. Visualización
Una aplicación para procesar, analizar y visualizar datos estructurados tiene
sentido en sistemas tradicionales, ahora, con la gran cantidad de datos masivos, es
necesario disponer de una manera de representarla la información de un modo más
accesible y fácil de leer, y aquí es donde entra en juego el concepto de la
visualización (Maroto, 2018).
• Análisis descriptivo. Explica lo que los datos dicen que aconteció o está
ocurriendo. Como ejemplo el caso de una tienda de autoservicio identificar y
describir con datos el aumento repentino de las preferencias de productos
por parte de los clientes o por el contrario identificar el que ya un producto se
no vende.
• Análisis predictivo: Se anticipa un probable resultado; se busca determinar
por qué ha sucedido en otras ocasiones un determinado evento y tratar así
171
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
172
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
173
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
4.2.6.1. Hadoop
Es un software diseñado para el manejo masivo de información estructurada,
no estructurada o semiestructurada. Su desarrollo fue inspirado por Google’s
MapReduce y Google File System, desarrollado originalmente en Yahoo! y
actualmente administrado como proyecto de Apache Software Foundation. Hadoop
tiene una estructura de software de código abierto para el procesamiento de
grandes bases de datos en sistemas distribuidos.
174
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
4.2.6.2. Cassandra.
Cassandra es un sistema de gestión de base de datos diseñado para
administrar y procesar una gran cantidad de datos distribuidos y almacenados por
distintos servidores, proporciona un servicio de alta disponibilidad, robustez y
confiabilidad además de una importante característica de alta tolerancia a fallas.
(Castillo, Garcés, & Navas, 2017)
4.2.6.3. MongoDB
MongoDB es una base de datos no relacional (NoSql) orientada al manejo
de documentos, tiene características de versatilidad, potencia y facilidad de uso, al
igual que en su capacidad para manejar tanto grandes como pequeños volúmenes
de datos. Es una base de datos que no tiene concepto del esquema relacional y uso
de tablas, esquemas, SQL, columnas o filas. No cumple con las características
ACID, que por sus siglas en inglés significan Atomicity, Consistency, Isolation and
Durability (Atomicidad, Consistencia, Aislamiento y Durabilidad, en español).
MongoDB permite las operaciones CRUD, siendo éstas las siglas de Create,
Read, Update and Delete (Crear, Recuperar, Actualizar y Eliminar); para almacenar
y recuperar los datos hace uso del formato JSON, pero utiliza BSON, que es una
forma binaria del formato JSON, el cual ocupa menos espacio al almacenar los
datos. BSON es más rápida y eficiente para convertir a un formato de datos de un
lenguaje de programación.
175
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
176
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
4.2.6.6. HBase
Base de datos abierta, distribuida y no relacionada, creada en Google’s Big
Table. Inicialmente desarrollada por Powerset, en la actualidad es gestionada por
Apache Software Foundation como parte de Hadoop.
4.2.6.7. MapReduce
Modelo de programación ideado por Google para procesamiento de grandes
bases de datos en ambientes distribuidos. MapReduce también fue desarrollado por
Hadoop.
177
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
178
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
• El modelo, que contiene parámetros que han de fijarse a partir de los datos de
entrada.
• El de preferencia, que sirve para comparar modelos alternativos.
• El algoritmo de búsqueda, que viene a ser como cualquier otro programa de
inteligencia artificial (IA). El criterio de preferencia suele ser algún tipo de
heurística y los algoritmos de búsqueda empleados suelen ser los mismos que
en otros programas de inteligencia artificial.
Las principales diferencias entre los algoritmos de Data Mining se hallan en el
modelo de representación elegido y la función del mismo, es decir según la
definición del objetivo y tarea.
179
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
4.2.9. e-businnes
Se puede interpretar como el proceso de compra y venta por internet, la
interacción con clientes, productos y proyectos, a través de tecnologías,
comunicaciones múltiples y canales de distribución que se proyectan en el mercado
en red. Este modelo se diseñó para aumentar la satisfacción del cliente, aumentar
los ingresos y la productividad en la empresa.
180
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
• Simplificados.
• Surferos
• Conectores
• Rutinarios
• Buenos negociantes
• Amantes del deporte
Por otra parte, la función de marketing digital nace del aspecto tradicional
innovándose con nuevas tecnologías, permite que las empresas se posicionen
cercanos a los consumidores, mejoren las relaciones con éstos y hagan de sus
clientes unos fans (aficionados y gustos por lo que venden) utilizando para ello
diversas plataformas que hay en el mundo digital (Mariscal Suárez, 2018).
La llegada de las redes sociales ha permitido que el cliente sea una parte
importante para la organización y que, mediante las mismas, el usuario esté en
constante comunicación con la organización, generando oportunidades para la
empresa en tiempo real. Es aquí en donde el paradigma Big Data tiene relevancia
en apoyar en analizar la información y descubrir conocimiento viable para innovar
en los procesos de ventas y mercadotecnia.
El marketing digital se ha posicionado en nuevos aspectos, actualmente es
una de las herramientas necesarias para las empresas. A través de Internet,
plataformas de comunicación digital, redes sociales y otras tecnologías, las
empresas se están cada vez adentrando a la digitalización y apoyar en ello a las
funciones de venta y mercadotecnia de los productos y servicios que ofrecen.
(Mariscal Suárez, 2018).
181
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
182
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
• Retener gente: esta parte es la más difícil para cualquier mercado, ya que,
no por realizar una sola venta o colocado algún servicio quiere decir que
estos mismos sean de interés para el consumidor, por lo cual se debe de
gestionar interés constante hacia el consumidor.
• Hacer venta: teniendo en cuenta que el producto o servicio cumple la
necesidad del cliente se debe de consolidar la relación y hacer que el
consumidor obtenga el servicio o producto.
• Atraer gente de vuelta. Ya consciente que el producto o servicio cumple con
las medidas necesarias y para su venta, debe de tomar acciones para que el
cliente siga con la marca ofrecer más oportunidades donde sienta que la
posición de la empresa es estable y vuelva a consumir este producto o
servicio.
183
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Esto genera un rastro digital de los aparatos electrónicos que suelen utilizar,
desde pagos realizados con tarjetas de bancos, las conexiones o visualizaciones de
los usuarios en equipos de cómputo y teléfonos inteligentes, todo esto enriquece al
internet de las cosas y se concentra en el Big Data.
184
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
185
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
4.3. Desarrollo
Se analizan algunos ejemplos en donde se han desarrollado estrategias
donde el Big Data ayuda a la toma de decisiones, se muestran algunos resultados,
tomando en cuenta estos casos. Se analiza el cómo la conducta de usuarios es una
fuente de información relevante.
186
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Netflix recopila y analiza datos del consumo que realizan sus clientes; lo que
buscan, lo que adquieren, lo que ven, sus etiquetas; dónde, cuándo y cómo
consumen cada contenido. Sin duda, lo importante está en cómo se benefician de
esta analítica de datos para mejorar sus servicios en varios aspectos:
• Segmentar al cliente.
• Realizar recomendaciones individualizadas de contenido conforme gustos.
• Ofrecer una plataforma de contenidos simple, usable y personalizada para
cada consumidor, de acuerdo a su experiencia.
• Pronosticar claves de éxito y tendencias
En Netflix todo ese conocimiento, esa inteligencia, hace que la definición
de cada producto, cada programa, deje de ser un arte y se convierta en una
ciencia.
187
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
La tecnología Big Data, ha sido utilizada por Netflix, de tal forma que ha
pasado de ser un distribuidor de contenido a transformarse en una de las
productoras de mayor éxito.
188
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
que una persona tiene una mayor probabilidad de emocionarse a favor, por lo que
se le presenta una oferta o promoción. Determina el historial de visualización de un
cliente en la Web, y luego sugiere productos que el consumidor pueda ver y leer
(Jones, 2019).
• Inbound Marketing
• Outbound Marketing
• Crear identidad digital
• Trabajar la Ley de enfoque
• Posicionarse en buscadores
Teniendo en cuenta ya algunos aspectos de estrategias de Marketing, se
toma en cuenta algunos casos de éxito, donde el posicionamiento del Marketing
pudiera ser muy asertivo, demostrando que se pueden implementar nuevas
estrategias para los servicios utilizados en la actualidad. Al surgir nuevas
necesidades se crean nuevas estrategias y así sucesivamente.
• Anuncios en Youtube.
189
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
• Facebooks ads.
• Google Adworks
• Twitter.
• SEM.
• Display Ads.
Estas tecnologías son adecuadas para mostrar al mayor porcentaje de
usuarios un producto o servicio, dichas tecnologías forman parte de la información
que recolecta el Big Data para enriquecer las estrategias de marketing digital.
190
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Conclusiones y Recomendaciones
191
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Referencias
Ahumada Tello, A., & Perusquia Velasco, J. M. (2016). Inteligencia de negocios: estrategia para el
desarrollo de competitividad en empresas de base tecnológica. Contaduría y Administración.
Revista Internacional. UNAM, 127-158.
Antón Carranza, M. (2017, 07 14). Identificación del talento en la Organización: El Big Data aplicado
al fútbol. Trabajo de Fin de Grado. Grado en Administración y Dirección de Empresas.
Valladolid, Valladolid, España: Facultad de Ciencias Económicas y Empresariales.
Universidad de Valladolid, España.
Castillo, J. N., Garcés, J. R., & Navas, M. P. (2017). Base de Datos NoSQL: MongoDB vs. Cassandra
en operaciones CRUD (Create, Read, Update, Delete). Revista Publicando. 4 No 11. (1).
2017, 79-107. ISSN 1390-9304, 79-107.
Clariba. (s.f., s.f. s.f.). Clariba website. Retrieved from Machine Learning Empresarial ¿Qué es la
Inteligencia Artificial?: https://es.clariba.com/machine-learning-for-business
Cukier, K. (2014). Los big data y el futuro de los negocios. In F. González, Reinventar la empresa en
la era digital (p. 451). Madrid, España: BBVA OpenMind.
García Merino, E. M., & García Merino, M. J. (2017). Análisis de los Modelos de Inteligencia de
Negocios basados en Big Data en las Pymes del Ecuador. Revista Científica. Ciencia
Tecnología, 1-12.
Gutiérrez Puebla, J. (2018). Big Data y nuevas geografías: la huella digital de las actividades
humanas. Documents d’Anàlisi Geogràfica. eISSN: 2014-4512, 195-217.
Jones, H. (2019). Ciencia de los Datos. Lo que saben los mejores científicos de datos sobre el
análisis de datos, minería de datos, estadísticas, aprendizaje automático y Big Data que
usted desconoce. México: Amazon Mexico Services, Inc.
192
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Lenz, R. (2019). Big Data: Ethics and Law. SSRN Electronic Journal. DOI: 10.2139/ssrn.3459004,
37.
Mariscal Suárez, T. E. (2018, 01 19). Aproximación teórica del Big Data sobre el marketing Digital.
Componente práctico del examen complexivo previo a la obtención del grado de Ingeniería
en Marketing. Guayaquil, Guayaquil, Ecuador: Universidad Católica de Santigo de
Guayaquil. FACULTAD DE ESPECIALIDADES EMPRESARIALES CARRERA DE
MARKETING.
Maroto, C. (2018). Big Data y su impacto en el sector público. Harvard Deusto Business Review, 16-
25.
Mejía Llano, J. C. (2019, 10 29). Marketing Digital, Social Media y Transformación Digital. Retrieved
from TRANSFORMACIÓN DIGITAL: INCORPORE EL MUNDO DIGITAL EN EL ADN DE SU
EMPRESA + VIDEO: https://www.juancmejia.com/juan-carlos-en-los-
medios/transformacion-digital-incorpore-el-mundo-digital-en-el-adn-de-su-empresa-video/
Molina, L. (2000). Torturando los Datos hasta que Confiesen. Departamento de Lenguajes y
Sistemas Informáticos. Catalunya: Departamento de Lenguajes y Sistemas Informáticos.
Patrutiu-Baltes, L. (2016). Inbound Marketing - the most important digital marketing strategy. Bulletin
of the Transilvania University of Braşov. Series V: Economic Sciences, 61-68.
Peña Ayala, A. (2006). Inteligencia de Negocios: Una Propuesta para su Desarrollo en las
Organziaciones. México: Instituto Politécnico Nacional. Dirección de Publicaciones.
Retrieved from https://es.calameo.com/read/0009834562d4384832b9e
Puyol Moreno, J. (2014). UNA APROXIMACIÓN A BIG DATA. Revista de Derecho UNED , núm. 14,
471-505.
Revuelta Bayod, M. J. (2018). Big Data: crisis y nuevos planteamientos en los flujos de comunicación
de la cuarta revolución industrial. Área Abierta. Revista de comunicación audiovisual y
publicitaria. ISSN: 1578-8393 / ISSNe: 1578-8393, 309-324.
193
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Ruiz García, E. (2016, 18 01). Estudio y Evalaución de Sistemas Big Data de tratamiento de
información. Trabajo de Fin de Grado. Escuela Técnica Superior de Ingenieros de
Telecomunicación. Madrid, Madrid, España: Universidad Politécnica de Madrid.
SEGITTUR. (2019, 06 01). SEGITTUR turismo e innovación. Madrid, Madrid, España. Retrieved from
SEGITTUR:
https://www.segittur.es/opencms/export/sites/segitur/.content/galerias/descargas/document
os/Presentacin-Destinos-Tursticos-Inteligentes.pdf
Siebel, T. M. (2001). Principios del e-Business. Barcelona, Buenos Aires, Edo de México, Santiago
de Chile: Ediciones Granica.
194
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Capítulo 5
5.1. Introducción
Las instituciones financieras en la búsqueda de rendimientos de sus activos
cuentan con diferentes productos dirigidos a sus clientes. En particular, el
otorgamiento de créditos grupales a personas físicas y morales, es uno de sus
principales servicios financieros.
Las instituciones buscan que los ingresos y los egresos por algún producto
sean tal, que los primeros sean iguales o mayores a los segundos; sin embargo, de
195
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Para los clientes históricos, se sabe cuáles resultaron ser buenos y malos
pagadores. Este estado bueno/malo es ahora la variable de destino binario y que
será de gran utilidad en el momento de calcular la puntuación sobre los clientes. El
objetivo de esta puntuación de crédito es cuantificar esta relación de la forma más
precisa posible para ayudar en las decisiones del otorgamiento del crédito, al
momento del monitoreo y de la gestión. Las instituciones financieras obtienen una
puntuación de los patrones, en la solicitud de préstamo, (generalmente préstamos,
compromisos de préstamo y garantías).
196
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Como objetivo general se busca realizar un estudio que permita comparar las
características principales entre las herramientas de R y Python para análisis
descriptivos de datos a gran escala. Por medio de estas herramientas desarrollar
una propuesta viable para la aplicación en aspectos de evaluación de riesgos en el
otorgamiento de créditos.
De manera específica se quiere lograr lo siguiente:
• Identificar los datos estadísticos de una empresa financiera a evaluar.
• Identificar diferencias entre los lenguajes de programación R y Python
• Identificar elementos de comparación para aspectos descriptivos entre R
y Python.
• Determinar en base a la comparación de los lenguajes de programación
R y Python cuál es el más viable para realizar el análisis de datos.
197
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
198
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
199
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
usar, así como decidir qué camino tomar para llegar a determinado lugar, según el
tráfico vial.
Son muchas las situaciones en las que tomar decisiones es un papel muy
importante. Para ello se tiene que conocer la situación concreta que se está
analizando por lo que se deben manejar datos, analizarlos y presentarlos. Para todo
esto existe la Estadística.
5.2.1. Estadística
Sin duda alguna, la estadística ocupa uno de los lugares más importantes
dentro de las investigaciones científicas, ya que por medio de esta se realizan
evaluaciones cuantitativas sobre las hipótesis de investigación, que posteriormente
desarrollan modelos predictivos, se llegan a estimar algunos parámetros y se
pueden analizar experimentos.
200
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
201
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
202
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
203
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
204
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
El análisis predictivo ayuda a los equipos de sectores tan diversos entre los
que se encuentran: financiero, sanidad, farmacéutico, automoción, aeroespacial y
fabricación.
205
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
206
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
5.2.6.1. R
Es un lenguaje de programación para efectuar análisis de datos estadísticos
y visualizar gráficas de los mismos datos. Además, es un software libre, gratuito,
accesible y siempre a la vanguardia. (r-project.org, 2019)
5.2.6.2. Python
Es un lenguaje de programación y/o software de libre uso, ejecución,
distribución y modificación, además de que no tiene costo para quien lo usa. Una
de sus características es que es de alto nivel. Programación orientada a objetos.
Dispone de un rico ecosistema compuesto de librearías open source para
matemáticas, estadísticas, machine learning y ciencia en general. (python, s.f.)
207
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
208
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
5.3. Desarrollo
Este apartado de este capítulo muestra algunas herramientas adecuadas
para el análisis predictivo y un comparativo entre los lenguajes de programación R
y Python como elementos esenciales de este producto académico. Posteriormente,
da a conocer herramientas para análisis predictivo relacionadas con el sector
financiero. Al final del apartado se muestra una propuesta de utilizar regresiones
logísticas para el otorgamiento de crédito de una empresa financiera. Se muestra
un ejemplo basado en lenguaje de programación R.
Por ello es importante que tanto la empresa financiera como el cliente puedan
cumplir con sus obligaciones crediticias, pagar dentro del plazo establecido. Para
ello la empresa financiera deberá evaluar el riesgo de incumplimiento de cada
cliente y así poder decidir mejor a quien si debe otorgar la oferta del crédito.
209
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
210
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
211
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
5.3.2.1. IBM
IBM es uno de los grandes del análisis predictivo ya que cuenta con varias
soluciones como los son:
212
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
213
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
5.3.2.3. SAP
Esta empresa dispone de una de las soluciones más conocida que es SAP
HANA, que unifica las capacidades de una base de datos y una plataforma de
aplicaciones es una herramienta ideal para el análisis predictivo, esta plataforma
proporciona bibliotecas de procesamiento de texto y procesamiento espacial, la
ventaja que tiene es que es capaz de procesar una gran cantidad de datos en tiempo
real sin retardos.
214
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
215
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
predictivo, los usuarios pueden jalar y soltar variables para crear sus propios
modelos.
216
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
217
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
218
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla 1.
Comparativo del lenguaje de programación R y Python.
Lenguaje de
Python R
Programación
Ross Ihaka y Robert
Creado por: Guido Van Rossum en 1991.
Gentleman en 1995
Se centra en un mejor
Enfatiza la productividad y la legibilidad del
Propósito: análisis de datos fácil de
código.
usar, estadísticas y gráficos.
219
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
220
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
El estudio de la huella digital está siendo usado por algunas empresas para
calcular índices de consumo y ha sido usado en apoyo a las autoridades mexicanas
para fortalecer el diseño de políticas públicas para impulsar el crecimiento ordenado
de la actividad turística del país y para ofrecer un mejor servicio por parte de las
empresas de bienes y servicios turísticos.
221
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
223
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
224
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
226
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
227
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
228
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
229
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
230
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
del riesgo percibido medido por la puntuación de la solicitud. Una puntuación más
baja implicará una tasa de interés más alta y viceversa.
231
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla 2.
Datos limpios y transformados
BAD LOAN MORTDUE VALUE REASON JOB YOJ DEROG DELINQ CLAGE NINQ CLNO DEBTINC
1 1100 25860 39025 HomeImp Other 10.50 0.00 0.00 94.37 1.00 9.00 33.78
1 1300 70053 68400 HomeImp Other 7.00 0.00 2.00 121.83 0.00 14.00 33.78
1 1500 13500 16700 HomeImp Other 4.00 0.00 0.00 149.47 1.00 10.00 33.78
1 1500 73760.82 101776 DebtCon Other 8.92 0.25 0.45 179.77 1.19 21.30 33.78
0 1700 97800 112000 HomeImp Office 3.00 0.00 0.00 93.33 0.00 14.00 33.78
1 1700 30548 40320 HomeImp Other 9.00 0.00 0.00 101.47 1.00 8.00 37.11
1 1800 48649 57037 HomeImp Other 5.00 3.00 2.00 77.10 1.00 17.00 33.78
1 1800 28502 43034 HomeImp Other 11.00 0.00 0.00 88.77 0.00 8.00 36.88
1 2000 32700 46740 HomeImp Other 3.00 0.00 2.00 216.93 1.00 12.00 33.78
1 2000 73760.82 62250 HomeImp Sales 16.00 0.00 0.00 115.80 0.00 13.00 33.78
1 2000 22608 101776 DebtCon Other 18.00 0.25 0.45 179.77 1.19 21.30 33.78
1 2000 20627 29800 HomeImp Office 11.00 0.00 1.00 122.53 1.00 9.00 33.78
1 2000 45000 55000 HomeImp Other 3.00 0.00 0.00 86.07 2.00 25.00 33.78
0 2000 64536 87400 DebtCon Mgr 2.50 0.00 0.00 147.13 0.00 24.00 33.78
1 2100 71000 83850 HomeImp Other 8.00 0.00 1.00 123.00 0.00 16.00 33.78
1 2200 24280 34687 HomeImp Other 8.92 0.00 1.00 300.87 0.00 8.00 33.78
1 2200 90957 102600 HomeImp Mgr 7.00 2.00 6.00 122.90 1.00 22.00 33.78
1 2200 23030 101776 DebtCon Other 19.00 0.25 0.45 179.77 1.19 21.30 3.71
1 2300 28192 40150 HomeImp Other 4.50 0.00 0.00 54.60 1.00 16.00 33.78
0 2300 102370 120953 HomeImp Office 2.00 0.00 0.00 90.99 0.00 13.00 31.59
1 2300 37626 46200 HomeImp Other 3.00 0.00 1.00 122.27 1.00 14.00 33.78
1 2400 50000 73395 HomeImp ProfExe 5.00 1.00 0.00 179.77 1.00 0.00 33.78
1 2400 28000 40800 HomeImp Mgr 12.00 0.00 0.00 67.20 2.00 22.00 33.78
1 2400 18000 101776 HomeImp Mgr 22.00 0.25 2.00 121.73 0.00 10.00 33.78
1 2400 73760.82 17180 HomeImp Other 8.92 0.00 0.00 14.57 3.00 4.00 33.78
1 2400 34863 47471 HomeImp Mgr 12.00 0.00 0.00 70.49 1.00 21.00 38.26
0 2400 98449 117195 HomeImp Office 4.00 0.00 0.00 93.81 0.00 13.00 29.68
1 2500 15000 20200 HomeImp Other 18.00 0.00 0.00 136.07 1.00 19.00 33.78
1 2500 25116 36350 HomeImp Other 10.00 1.00 2.00 276.97 0.00 9.00 33.78
0 2500 7229 44516 HomeImp Self 8.92 0.00 0.00 208.00 0.00 12.00 33.78
232
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
233
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla 3.
Coeficientes del modelo de regresión logística
Coefficients: Estimate Std. Error t value Pr(>|t|) Siginif.
(Intercept) 4.013e-02 3.277e-02 1.225 0.220822
LOAN -2.824e-06 5.256e-07 -5.372 8.20e-08 ***
VALUE 3.189e-07 1.076e-07 2.965 0.003048 **
REASONHomeImp 4.623e-02 1.229e-02 3.761 0.000171 ***
JOBOffice -3.055e-02 2.011e-02 -1.519 0.128731
JOBOther 4.375e-02 1.731e-02 2.527 0.011534 *
JOBProfExe 1.182e-02 1.904e-02 0.621 0.534604
JOBSales 1.726e-01 4.164e-02 4.146 3.45e-05 ***
JOBSelf 9.100e-02 3.350e-02 2.716 0.006633 **
DEROG 8.769e-02 7.001e-03 12.525 < 2e-16 ***
DELINQ 1.132e-01 5.113e-03 22.132 < 2e-16 ***
CLAGE -6.289e-04 6.962e-05 -9.032 < 2e-16 ***
NINQ 2.788e-02 3.458e-03 8.062 9.76e-16 ***
CLNO -2.674e-03 6.061e-04 -4.412 1.05e-05 ***
Los primeros dos solicitan un préstamo de 2000 con valores diferentes en las
otras variables independientes; los últimos dos solicitan préstamos de 2500 como
se muestra en la tabla siguiente:
Tabla 4.
Nuevos clientes para análisis predictivo
LOAN MORTDUE VALUE REASON JOB YOJ DEROG DELINQ CLAGE NINQ CLNO DEBTINC
2000 43000 53000 HomeImp Other 3 0 0 86.067 2 25 33.7799
2000 62536 85400 DebtCon Mgr 2.5 0 0 147.13 0 24 33.7799
2500 27116 34350 HomeImp Other 10 1 2 276.97 0 9 33.7799
2500 9229 42516 HomeImp Self 8.92 0 0 208 0 12 33.7799
234
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla 5
Resultado de la predicción
Prob.Predic Préstamo
0.3 SI
0.13 SI
0.51 NO
0.24 SI
A todos los clientes se les presta dinero excepto al cliente número 3. Porque
su probabilidad de No Pago es por encima del 50%.
235
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
236
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
crédito. Sin embargo, los datos no sólo deben ser de alta calidad, sino que también
deben ser predictivos, en el sentido de que las características capturadas están
relacionadas con la probabilidad de incumplimiento del cliente.
Conclusiones y Recomendaciones
Los resultados que se pretenden lograr con la propuesta descrita, es que la
institución financiera adopte un lenguaje de programación, para realizar el análisis
estadístico de datos, obtenidas de las bases de datos con las cuales trabaja;
asimismo al adoptar la nueva forma de trabajar
237
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
238
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Referencias
Alex, L. (2015). Data Sciencie and Data Scientist in Global Association for Research Methods and
Data.
alterix. (s.f., s.f. s.f.). AUTOMATION THAT LETS DATA SPEAK AND PEOPLE THINK. Retrieved
from AUTOMATION THAT LETS DATA SPEAK AND PEOPLE THINK:
https://www.alteryx.com/
BBVA Research. (2017, 06 05). BBVA Research. Artículo de Prensa. Retrieved from Chile. El
potencial de Big Data como herramienta: https://www.bbvaresearch.com/wp-
content/uploads/pdf/67403_173947.pdf
Condusef. (2019). Buro de Entidades Financieras. Condusef, 412, 412. Retrieved 08 24, 2019, from
https://www.condusef.gob.mx/Revista/index.php/usuario-inteligente/servicios-
financieros/412-buro-de-entidades-financieras
239
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
GetApp. (2019, 07 14). GetApp. Software de análisis predictivo. Retrieved from Software de análisis
predictivo: https://www.getapp.com.mx/directory/628/predictive-analytics/software
Jones, H. (2019). Ciencia de los Datos. Lo que saben los mejores científicos de datos sobre el
análisis de datos, minería de datos, estadísticas, aprendizaje automático y Big Data que
usted desconoce. México: Amazon Mexico Services, Inc.
Kozyrkov, C. (2018, 12 22). Ciencia & Datos. Retrieved from ¿Qué diablos es Ciencia de Datos?. En
la búsueda de una definición inútil.: https://medium.com/datos-y-ciencia/qu%C3%A9-
diablos-es-ciencia-de-datos-f1c8c7add107
Lehkyi, S. (2020, 07 10). What Is Data Analysis? Retrieved from It is not that complex actually.:
https://towardsdatascience.com/what-is-data-analysis-7bb27b5f0d4d
Levine, D. M., Krehbiel, T. C., & Berenson, M. L. (2006). ESTADÍSTICA PARA ADMINISTRACIÓN.
Cuarta edición. México, Argentina, Brasil: Pearson Educación.
Maimon, O., & Rokach, L. (2010). Data Mining and Knowledege Discovery Handbook. Secodn
Edition. New York: Springer.
Mashanovich, N. (2017, 09 14). Credit Scoring: The Development Process from End to End.
Retrieved from Credit Scoring: The Development Process from End to End:
https://www.worldprogramming.com/blog/datascience/credit_scoring_development_pt1/
Oracle Database. (s.f., s.f. s.f.). Database Machine Learning. Retrieved from Oracle Machine
Learning: https://www.oracle.com/mx/database/technologies/datawarehouse-
bigdata/machine-learning.html
Pizarro, R. (2020, 04 20). RPubs by RSTUDIO. Retrieved from Evaluar Clientes ScoreBoard:
https://rpubs.com/rpizarrog/601901
240
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Revuelta, M. (2012).
https://www.google.com/search?q=Revuelta,+M+(2012),+Diccionario+de+finanzas+Bolet%
C3%ADn+de+Estudios+Econ%C3B3micos,+67(206)+43. Retrieved 07 28, 2019, from
https://www.google.com/search?q=Revuelta,+M+(2012),+Diccionario+de+finanzas+Bolet%
C3%ADn+de+Estudios+Econ%C3B3micos,+67(206)+43
Robertson, S. (2019, 05 01). Morioh. Retrieved from Machine Learning algorithms explained:
https://morioh.com/p/3d8e92fbbb61/machine-learning-algorithms-explained
sas Visual Statics. (2019, 07 14). SAS Visual Statics. Retrieved from SAS Visual Statics:
https://www.sas.com/es_mx/software/visual-statistics.html
241
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Capítulo 6.
6.1. Introducción
En este capítulo se busca dar a conocer las tecnologías relacionadas con el
concepto de Ciencia de los Datos más actuales que pudieran aplicar las Pequeñas
y medianas empresas (PyMES) del Estado de Victoria de Durango, México.
Se busca que las PyMES al conocer estos aspectos, puedan adoptar y tener
ventajas competitivas tales como definir la entrada a algún nuevo mercado,
optimizar y/o disminuir costos, planificar la producción de los siguientes meses,
242
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Los casos reales que se documentan en este capítulo dan un claro ejemplo
de los alcances que puede tener el implementar estas tecnologías en las PyMES,
además de las nuevas oportunidades de negocios que se generan, sin dejar de lado
los nuevos empleos que surgen a partir de estas tecnologías.
243
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Entre las herramientas más usadas destacan los Datos Masivos, que se
puede resumir como un conjunto de tecnologías y herramientas capaces de obtener,
almacenar, procesar grandes cantidades de datos e información y transformarlas
mediante sistemas computacionales y estadísticos, en información útil para toma de
decisiones.
244
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Son muy pocas las PyMES que entienden que el poder real de la información
no está en los ceros y en los unos, si no en su análisis. Obtener las conclusiones
correctas y convertir los datos en información valiosa permite revolucionar el mundo
de los negocios, a todos los niveles. Son contadas las compañías que se han dado
cuenta rápidamente del potencial de los Datos Masivos.
245
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Con este documento académico se intenta proponer las bases, para poder
comenzar a integrar a esas PyMES al uso de la Ciencia de los datos, para que se
puedan dar cuenta de algunas herramientas que pueden utilizar y poder ser más
competitivos en este mundo cada vez más conectado al internet.
Estas diferentes formas en que se pueden beneficiar las PyMES pueden ser:
identificar claramente el público objetivo, mejorar la eficiencia operativa,
estandarizar procesos, definir necesidades específicas de los clientes, agilizar
procesos de contratación de personal, generar campañas de mercadotecnia
personalizadas, encontrar las mejores rutas y transportes para entregas, entre otras.
una pérdida de tiempo y dinero, como se suele ver en las empresas, es un detonante
que ayuda a ser más competitivos
247
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
248
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
El registro de las interacciones con la web, con las redes sociales, así como
las transacciones al adquirir un producto, los registros financieros, uso de tarjetas y
todo lo que deje registro electrónico en internet pueden ser considerados parte de
los Datos Masivos.
La capacidad que tienen los Datos Masivos, para transformar los datos
disponibles gracias a sistemas computacionales y estadísticos, en información útil
para generar una ventaja competitiva para las PyMES y beneficios para los clientes
es una de sus características más sobresalientes.
249
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
6.2.1.1. Volumen
El volumen habla sobre la cantidad de información y/o datos que están
almacenados y se utilizan de las bases de datos. La computación en la Nube (cloud
computing) es de las nuevas tecnologías que son paralelas a este desarrollo.
El internet de las cosas (IoT) ayuda a que cada vez se genere una creciente
cantidad de datos relacionados al comportamiento de las personas, lo que permite
analizar sus diferentes comportamientos para generar servicios hasta ahora
impensables para las personas.
6.2.1.2. Velocidad
La característica de velocidad en los Datos Masivos, es una parte muy
importante ya que los datos se están generando de manera muy rápida, para que
250
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
los resultados arrojados de estos análisis puedan ser relevantes se necesita que se
realicen en tiempo real.
A los clientes les encanta disponer de los efectos de los Datos Masivos para
obtener de manera rápida los resultados de los mismos y así facilitarles más sus
vidas, las empresas pueden obtener a través de la oferta de más servicios o
productos una mayor rentabilidad de forma rápida, al momento que un cliente hace
una compra se le puede proponer una segunda compra o accesorios para lo que
adquirió.
La velocidad tiene que ver con la rapidez para la adquisición de datos, ya que
estos se pueden obtener de diferentes maneras y a ritmos diferentes así como la
velocidad para almacenarse, procesarse y administrarse. (Sánchez Villaseñor,
2019).
6.2.1.3. Variedad
La variedad, se origina de la manera en que se obtienen los datos derivados
del Internet de las cosas y todos los dispositivos conectados a internet.
251
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
6.2.1.4. Veracidad
Los datos necesarios para realizar cualquier análisis deben de ser creíbles
ya que estos datos son demasiado importantes ya que basados en ellos se generan
decisiones y una mala información podría afectar tanto a las empresas como a sus
clientes. Hay que tomar en cuenta que mientras más datos se tengan es más difícil
poder definir cuáles son de utilidad para poder separarlos de los datos falsos y que
no sirven para nada.
6.2.1.5. Valor
El objetivo final de los procesos de Datos Masivos es crear valor, ya sea
entendido como oportunidades económicas o como innovación. Sin él, los esfuerzos
dejan de tener sentido, esto significa que si los datos que arrojan los proceso de
análisis masivo de datos (Big Data) no se utilizan y no tienen significado entonces
de nada sirve (Gil, 2016).
6.2.1.6. Visualización
Poder visualizar los datos es necesario para comprenderlos y entenderlos
con la finalidad de tomar decisiones bajo una correcta interpretación de los mismos.
(Gil, 2016); es permitir y lograr que la gran cantidad de datos recolectados,
252
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
6.2.1.7. Variabilidad
La variabilidad es el entendimiento que se tienen de los datos dependiendo
del contexto de los mismos, en ocasiones se pueden obtener diferentes
conclusiones dependiendo de la interpretación que se le haya dado y del entorno
en donde se mueven.
La variabilidad tiene que ver las variaciones que aparecen en función, por
ejemplo, de los dobles sentidos que puede tener un tipo de expresión, la ironía en
las frases, los modismos, las costumbres, las expresiones coloquiales. En
consecuencia, es necesario comprender el contexto y el significado real de la
información. (incubicÓn By Structuralia, 2019).
6.2.1.8. Volatilidad
Esta característica mencionada en el documento de Sánchez Villaseñor,
(2019) implica al “tiempo de almacenamiento de los datos después de procesarlos,
ya que la volatilidad tiene impacto directo en los macro datos, como el volumen y la
veracidad, por ello en las organizaciones existen políticas de almacenamiento de
datos para que la información no tenga interferencias ni daño” (pág. 21).
Algunos artículos proponen agregar vulnerabilidad que tiene que ver con la
seguridad de los datos y la validez que tiene que ver con la limpieza y que tan
precisos son los datos. (datahack, 2020).
253
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Figura 2. 10 Vs del Big Data. (infogoal.com Goal oriented solutions, s.f.) y elaboración propia
254
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
255
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
256
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
menor tiempo posible, con el fin de ayudar a las empresas en la toma de decisiones
para generar ventajas competitivas.
257
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
258
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
259
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
para encontrar la forma de discutir los datos usados y los resultados obtenidos con
interlocutores muy diversos: público en general, especialistas de diferentes
disciplinas, funcionarios públicos, colegas, dueños o directivos de negocios, entre
otros.
260
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Para poder tener los mejores resultados los Científicos de datos deben
poseer inteligencia emocional además de ser expertos en el análisis de datos y por
si fuera poco, ser capases de transformar esa información no estructurada en
modelos que puedan ser interpretados por otros como pueden ser, ejecutivos de
nivel directivos o dueños de las empresas para que ellos entiendan de manera clara
y precisa, y puedan darle la importancia a esa información para que les ayude en la
toma de decisiones y con estas puedan aumentar sus ventajas competitivas, puedan
controlar sus costos, hacer más eficiente los procesos y todo lo que se necesite
implementar basado en los resultados del análisis de datos.
261
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
fuentes más comunes son, redes sociales como Facebook, teléfonos inteligentes,
dispositivos conectados en la nueva era que es el internet de las cosas o el internet
del todo, así como cosas tan simples que en ocasiones no se puede percatar como
pueden ser, simples encuetas, compras por internet, búsquedas y visualización de
videos. Con toda esta información, el científico de datos identifica la manera de
resolver problemas mediante la identificación de patrones, a este proceso se le
conoce como minería de datos.
262
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
263
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
264
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
6.3. Desarrollo
Son muy pocas las PyMES que entienden que el poder real de la información
no está en los ceros y en los unos, si no en su análisis. Obtener las conclusiones
correctas y convertir los datos en información valiosa permite revolucionar el mundo
de los negocios, a todos los niveles. Son contadas las compañías que se han dado
cuenta rápidamente del potencial de los Datos Masivos.
Los Datos Masivos se utilizan en una gran variedad de casos de diversas
áreas, independientemente del tamaño de las empresas, los datos de los
dispositivos móviles son los más analizados, seguidos de la información de
geolocalización que es, de momento, de las más cotizadas, enseguida se tienen las
redes sociales e Internet, además, en las grandes compañías, también analizan la
información proveniente de sensores y demás dispositivos conectados para ganar
en eficiencia y efectividad.
265
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
266
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Se pueden cruzar con algunos otros datos, por ejemplo, con datos de
meteorología para mejorar la predicción de ventas dependiendo del clima como
cuando empezar a vender impermeables y botas plásticas en los días lluviosos, se
pueden cruzar con datos escolares para planificar la demanda de uniformes y
calzado escolar o lo más común que es hacer un perfilado de clientes para poder
ofrecer las mejores opciones dependiendo de los gustos y el historial de compras.
267
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
268
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
el mejor método para vender en días lluviosos, tal vez pudiera dar como resultado
el que sea factible meter un servicio de entrega a domicilio ya que en días lluviosos
la gente tiende a salir menos de sus hogares.
Las PyMES que son más ágiles en estos temas están ajustando sus
estrategias de negocio para aumentar sus ventas y fidelizar a sus clientes para poco
a poco irle ganando más mercado a sus competidores, cuando se ejecutan bien, las
mejoras en la experiencia del cliente pueden ayudar a fidelizarlo además de
incrementar los ingresos de manera exponencial.
Lo más interesante es como lo logró porque parece fácil decirlo, pero requiere
de un excelente análisis, su éxito se basó en personalizar su software de correo
directo basándose en el historial de compra del cliente individual, además de que
Kroger tiene un programa de tarjeta de fidelidad que está clasificada en el número
uno de la industria de la alimentación en EEUU (Softwarecamp. Capacitación para
el futuro. , 2016)
Más del 90% de sus clientes utilizan la tarjeta cuando compran lo que les
ayuda a reunir información de sus clientes con la cual se determina cual es la mejor
opción de cupón a enviar en el correo personalizado para darle al cliente justo lo
269
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
que necesita y de esta manera incentivar la venta, además todos sabemos y hablo
por experiencia personal que vas por una cosa al supermercado o a cualquier tienda
y sales de ahí con 2 o 3 productos más mínimo.
270
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
BBVA lleva trabajando desde el 2014 con BBVA Data & Analytics, esta
herramienta inicio con un lanzamiento parcial en más de 300 comercios en
Andalucía España. En el año 2016 abre su contratación a todos sus clientes de
BBVA en España que dispongan de un TPV BBVA. Los establecimientos que han
utilizado esta herramienta destacan que aporta a su negocio nuevas oportunidades
de mejora (BBVA. BIG DATA, 2017)
El análisis realizado por BBVA Data & Analytics es especialmente útil para
las PyMES, pero también tiene su reflejo en la economía del país, ya que al
271
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
272
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
• Para la directiva,
• Para los mandos medios
• Para cada puesto de trabajo específico.
Los Datos Masivos parecen muy lejanos y poco entendibles para muchas
empresas que prefieren invertir en algo más tangible y en aspectos más concretos,
como, por ejemplo, los puntos de venta. Sin embargo, muy pronto, el mercado
estará conduciendo hacia situaciones mucho más complejas que se van a hacer
273
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Entre los indicadores que destaca el informe de Berrone & Enric (2017) se
incluyen, por ejemplo,
• Capital humano que incluye indicadores tales como alta educación, número de
universidades, movilidad estudiantil, museos, galerías y gastos en eventos de
recreación, entre otros.
• Cohesión social. agrupa aspectos tales como relación decesos por número de
habitantes, indicadores de criminalidad e inseguridad, violencia, paz social,
aspectos de salud, condiciones sociales, indicadores de precios de inmuebles,
entre otros.
• Economía: integra algunos indicadores como índice de precios, número de
empresas, empleos, salario mínimo, generación de producto interno bruto (PIB),
tiempo para iniciar un negocio, tiempo para consolidar un negocio, porcentaje de
empresarios y emprendedores comparado con la población, condiciones
industriales y comerciales, entre otros.
274
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
275
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
276
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
277
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Conclusiones y Recomendaciones
La Ciencia de los Datos, Business Intelligence, Datos Masivos, Machine
Learning, entre otras tecnologías de hoy en día, han ayudado a muchas empresas
y negocios de diferentes partes del mundo incluido México, cada vez se utilizan más
y se hacen más populares.
Los casos reales de los que se habló en este capítulo ofrecen un claro
ejemplo de los alcances que puede tener el implementar estas tecnologías en las
PyMES, además de las nuevas oportunidades de negocios que se generan, sin
dejar de lado los nuevos empleos que surgen a partir de estas tecnologías
También se espera que una vez que se apliquen estas áreas de conocimiento
por las PyMES, las grandes empresas puedan voltear a ver como una opción para
instalarse en el Estado al ver que se cuenta con todo lo que necesitan, además de
que hay mano de obra calificada con esto ayudar a que el Estado de Durango tenga
un desarrollo de todos los sentidos.
278
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Referencias
Aldea, V. (19 de 01 de 2017). La factura simplificada y el ticket son lo mismo. Obtenido de La factura
simplificada y el ticket son lo mismo: https://anfix.com/blog/ticket-gastos-y-facturas-
simplificadas/
BBVA. (27 de 06 de 2017). BIG DATA. Obtenido de Llega Commerce360, una herramienta de
tecnología ‘big data’, para ayudar al desarrollo de las pymes: https://www.bbva.com/es/bbva-
presenta-commerce360-herramienta-que-usa-tecnologia-big-data-para-ofrecer-a-los-
clientes-mayor-conocimiento-sobre-sus-negocios-y-les-ayuda-a-crecer/
BBVA. BIG DATA. (26 de 02 de 2017). BIG DATA. Las siete ‘V’ del Big Data. Obtenido de BIG DATA.
Las siete ‘V’ del Big Data: https://bbvaopen4u.com/es/actualidad/las-siete-v-del-big-data
Berrone, P., & Enric, R. J. (2017). IESE Cities in Motion. Navarra: IESE Business School. University
of Navarra.
CASANARE POSITIVO HEMP. (s.f. de s.f. de s.f.). Kroger, la cadena de supermercados más grande
de los EE. UU, está presionando sobre el cáñamo. Obtenido de Kroger, la cadena de
supermercados más grande de los EE. UU, está presionando sobre el cáñamo:
http://casanarepositivoparahemp.com/2020/02/12/kroger-la-cadena-de-supermercados-
mas-grande-de-los-ee-uu-esta-presionando-sobre-el-canamo/
cmigestión. (s.f. de s.f. de 2019). Cuadro de Mando Integral. Obtenido de Cuadro de Mando Integral:
https://cmigestion.es/cuadro-de-mando-integral/
Cohen, D., & Asín, E. (2004). Sistemas de Información para los Negocios un enfoque de toma de
decisiones. México: McGraw-Hill.
CONFECTIONARY HOLDING. (s.f. de s.f. de s.f.). Confectionary Holding. Obtenido de Las webs de
nuestras marcas:
http://www.confectionaryholding.com/index.php/es/?option=com_content&view=article&id=
67
datahack. (27 de 01 de 2020). datahack. BIG DATA FAMILY. Obtenido de LAS 10 V’S DEL BIG
DATA: https://www.datahack.es/10-vs-del-big-data/
Díaz, F. J., Osorio, M. A., Amadeo, A. P., & Romero, D. L. (2013). Aplicando estrategias y tecnologías
de Inteligencia de Negocio en sistemas de gestión académica. Paraná, Entre Rios: XV
WORKSHOP DE INVESTIGADORES EN CIENCIAS DE LA COMPUTACIÓN.
279
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Diebold, F. (2003). “Big data” dynamic factor models for macroeconomic measurement and
forecasting. Cambridge: Cambridge University Press, 115-122.
Gil, E. (2016). Big data, privacidad y protección de datos. Madrid: Publisher: Agencia Española de
Protección de Datos y Boletín Oficial del Estado ISBN: 9788434023093.
Gutiérrez Puebla, J. (2018). Big Data y nuevas geografías: la huella digital de las actividades
humanas. Documents d’Anàlisi Geogràfica. eISSN: 2014-4512, 195-217.
iic. Intituto de Tecnología del Conocimiento. (10 de 11 de 2017). Seminario: Data Science en el
Sector Retail. Obtenido de Seminario: Data Science en el Sector Retail:
https://www.iic.uam.es/noticias/data-science-sector-retail-seminario/
INEGI. Censos Económicos. (16 de 07 de 2019). INEGI. Obtenido de Censos económicos 2019:
https://www.inegi.org.mx/programas/ce/2019/
infogoal.com Goal oriented solutions. (s.f. de s.f. de s.f.). GOAL DIRECTED LEARNING. Obtenido
de Big Data Tutorial: http://infogoal.com/datawarehousing/big_data_tutorial.htm
Jones, H. (2019). Ciencia de los Datos. Lo que saben los mejores científicos de datos sobre el
análisis de datos, minería de datos, estadísticas, aprendizaje automático y Big Data que
usted desconoce. México: Amazon Mexico Services, Inc.
280
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Ospina, J. P. (s.f. de s.f. de s.f.). Ciudades Intelgentes en Amética Latina. Obtenido de Ciudades
Intelgentes en Amética Latina: http://conexionintal.iadb.org/2018/11/27/267_e_ideas6/
Samaniego, A. (13 de 12 de 2017). Hablemos de Empresas. Obtenido de Cuando Big Data es igual
a ‘real money’: tres casos de éxito de Big Data orientado a negocio:
https://hablemosdeempresas.com/grandes-empresas/casos-de-exito-big-data-orientado-a-
negocio/
Sánchez Carrillo, J. A., & Patnoll Gonzales, L. J. (2019). Desarrollo de un DataMart para el Soporte
de la Toma de Decisiones en el áea de ventas de la empresa. Tesis. PRESENTADA PARA
OPTAR EL TÍTULO PROFESIONAL DE INGENIERO DE SISTEMAS. Chiclayo , Chiclayo ,
Perú: Universidad de Lambayeque. Facultad de Ciencias de Ingeniería.
Silva Solano, L. (2017). Business Intelligence: un balance para su implementación. InnovaG, 27-36.
Sinergia e Inteligencia de Negocio S.L. (s.f. de s.f. de s.f.). Business Intelligence. Obtenido de ¿Qué
es Business Intelligence?: https://www.sinnexus.com/business_intelligence/
Softwarecamp. Capacitación para el futuro. . (12 de 07 de 2016). BigData y el caso de éxito con
efectividad del 70%. Obtenido de Ventas inteligentes con BigData:
https://softwarecamp.mx/articulos/big-data-y-el-caso-del-mailing-con-efectividad-del-70/
281
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Capítulo 7
7.1. Introducción
La segunda década del siglo XXI ha mostrado avances exponenciales en
cuanto a tecnología se refiere, hoy a diferencia de otras épocas, es posible extraer
la inmensa cantidad de información que se produce en todos ámbitos, se puede
analizar con herramientas computacionales y con el uso de lenguajes de
programación (Alcalde San Miguel, 2009, p. 245).
282
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
de análisis detallados que fusionen por un lado las filosofías de la calidad, las
iniciativas de mejora continua y el análisis de datos.
283
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
284
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
285
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
286
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
287
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
288
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
289
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
290
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
291
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Six Sigma es una filosofía con base estadística compuesta por varias etapas:
definir, medir, analizar, mejorar y controlar. Identifica el número el número de
desviaciones estándar determinadas al resultado de un proceso. Su objetivo es
promover la calidad en los mismos (Navarro Albert, 2017).
292
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
La aplicación del análisis Six Sigma en los procesos industriales permite que
se puedan detectar problemas en el proceso de producción tales como: cuellos de
botella, productos con algún defecto, pérdidas de tiempo, etapas críticas, entre
otras.
293
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
7.2.5. R Studio
RStudio es un entorno de desarrollo integrado (IDE) para R. Incluye una
consola, editor de resaltado de sintaxis que admite la ejecución directa de código,
así como herramientas para el trazado, el historial, la depuración y la gestión del
espacio de trabajo (Studio, 2019).
294
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
7.3. Desarrollo
Se presenta una propuesta del uso de R aplicado a datos relacionados con
el trabajo de un MRP Controller.
7.3.2. La propuesta
Toda vez identificada la importancia de que un MRP Controller utiliza gran
cantidad de datos y variables, se propone que mediante el entorno R Studio y el
lenguaje de programación R, se pueden manipular y utilizar las herramientas de
calidad.
295
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Algunos de los análisis que un MRP Controller pudiera realizar con las
herramientas mencionadas y a través de R y R Studio, serían las que se enlistan a
continuación:
296
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Esto es la razón por la cual, un proceso estándar para el manejo de todas las
hojas de trabajo de cada MRP Controller no ofrece solución a las necesidades
específicas de cada proveedor, pues no es igual el stock que hay que tener para un
proveedor cuyo tránsito es de 4 semanas , al que se debe tener con un proveedor
que tiene un tiempo de tránsito de 15 minutos, las variables y las variantes son
muchas y ello desemboca en la necesidad de crear una propuesta que optimice y
se adapte a las necesidades individuales de la Hoja de trabajo.
297
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
R Notebook
7.3.2.1.1. Las librerías
Se utiliza la librería qcc para diagramas de pareto.
298
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
defectos <- c("Piel Arrugada", "Costura con fallas ", "Reventado de piel"
, "Mal montada")
cantidades <-c( 99, 135, 369, 135 )
datos <- data.frame(defectos, cantidades)
kable(datos)
defectos cantidades
Piel Arrugada 99
Costura con fallas 135
Reventado de 369
piel
Mal montada 135
pareto.chart(datos$cantidades)
299
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
##
## Pareto chart analysis for datos$cantidades
## Frequency Cum.Freq. Percentage Cum.Percent.
## C 369.00000 369.00000 50.00000 50.00000
## B 135.00000 504.00000 18.29268 68.29268
## D 135.00000 639.00000 18.29268 86.58537
## A 99.00000 738.00000 13.41463 100.00000
kable(head(datos2))
muestras cant.defectos
1 1
2 2
3 2
4 1
5 2
6 3
kable(tail(datos2))
muestras cant.defectos
95 95 3
96 96 1
97 97 3
98 98 1
99 99 3
100 100 2
300
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
tabla.defectos
##
## 1 2 3
## 34 31 35
##
## Pareto chart analysis for tabla.defectos
## Frequency Cum.Freq. Percentage Cum.Percent.
## 3 35 35 35 35
## 1 34 69 34 69
## 2 31 100 31 100
301
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
R Notebook
Aplicar ANOVA de una vía sobre un conjunto de datos relacionados con la
atracción que tienen las personas hacia otras personas cuando SI consumen
alcohol o NO consumen.
# install.packages("WRS2")
# install.packages("psych")
# install.packages("car")
library(WRS2) # Para disponer de los datos goggles; data(goggles)
library(psych) # Para variables descriptivas
library(car) # Para prueba de normalidad y homocestacidad
data(goggles)
datos <- goggles
head(datos)
302
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
## 5 Female None 60
## 6 Female None 55
tail(datos)
303
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
str(datos)
summary(datos)
304
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
• skew. La curtosis
• standard error. El error estándar
describeBy(datos$attractiveness, datos$alcohol)
##
## Descriptive statistics by group
## group: None
## vars n mean sd median trimmed mad min max range skew kurtosis
se
## X1 1 16 63.75 8.47 62.5 63.57 11.12 50 80 30 0.29 -1.07
2.12
## ------------------------------------------------------------
## group: 2 Pints
## vars n mean sd median trimmed mad min max range skew kurtosis
se
## X1 1 16 64.69 9.91 65 64.64 7.41 45 85 40 0.08 -0.23
2.48
## ------------------------------------------------------------
## group: 4 Pints
## vars n mean sd median trimmed mad min max range skew kurtos
is se
## X1 1 16 46.56 14.34 50 46.79 14.83 20 70 50 -0.22 -1.
21 3.59
Para cada grupo se puedo haber utilizado summary(), con resultados iguales
pero con menores estadísticos que la función describeBy()
summary (datos[datos$alcohol=="None",])
305
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
## 3rd Qu.:70.00
## Max. :85.00
306
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Figura 8. Gráfica de cajas consumo de alcohol. (Pizarro, ANOVA una via. Caso consumo alcohol,
2020).
Para esta prueba la hipótesis nula implica que los datos siguen una
distribución normal, y la hipótesis alternativa indica lo contrario.
## datos$alcohol: None
##
## Shapiro-Wilk normality test
##
## data: dd[x, ]
## W = 0.95498, p-value = 0.5725
##
307
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
## ------------------------------------------------------------
## datos$alcohol: 2 Pints
##
## Shapiro-Wilk normality test
##
## data: dd[x, ]
## W = 0.94489, p-value = 0.4132
##
## ------------------------------------------------------------
## datos$alcohol: 4 Pints
##
## Shapiro-Wilk normality test
##
## data: dd[x, ]
## W = 0.952, p-value = 0.522
Para esta prueba la hipótesis nula implica que los datos presentan
homogeneidad de varianza entre los grupos, por lo cual si el p-valor es inferior a
0.05 se estaría incumpliendo este supuesto.
bartlett.test(datos$attractiveness, datos$alcohol)
##
## Bartlett test of homogeneity of variances
308
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
##
## data: datos$attractiveness and datos$alcohol
## Bartlett's K-squared = 4.4295, df = 2, p-value = 0.1092
leveneTest(datos$attractiveness, datos$alcohol)
fligner.test(datos$attractiveness, datos$alcohol)
##
## Fligner-Killeen test of homogeneity of variances
##
## data: datos$attractiveness and datos$alcohol
## Fligner-Killeen:med chi-squared = 4.3876, df = 2, p-value = 0.1115
ANOVA es una prueba estadística para analizar si más de dos grupos difieren
entre sí de manera significativa en sus medias y varianzas (Hernández, Fernández,
& Baptista, 2014).
309
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Para el caso del ANOVA de un factor entre grupos, las hipótesis que
corresponden son:
• H0: Para los grupos de personas que no consumen alcohol, para el grupo que
consume 2 bebidas y para el grupo que consume 4 bebidas; el atractivo físico
de las parejas de sujetos con distinto consumo de alcohol es similar (los sujetos,
independientemente del nivel de consumo de alcohol que tengan encima, son
igual de selectivos a la hora de encontrar pareja).
• H1: alguno es distinto (existen diferencias entre al menos alguno de los 3 grupos
de consumo de alcohol, alguno de ellos es más selectivo pero no se indica cuál,
hasta las pruebas post hoc)
• Se utiliza el caracter virulilla o tilde ‘~’ para indicar que se hace la prueba ANOVA
de la variable attractiveness en función de la variable alcohol (representado
como fórmula en R attractiveness ~ alcohol).
• Se utiliza la variable llamada análisis (analisis sin acento) para determinar los
resultados de la prueba.
summary(analisis)
310
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
TukeyHSD(analisis)
311
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
# install.packages("MASS") # NUEVO
library(MASS)
312
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
313
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
314
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
315
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Figura 9. Correlaciones entre variables de los datos usando pairs() (Pizarro, Regresion lineal de
autos, 2020).
Figura 10. Correlaciones entre variables de los datos usando pairs() (Pizarro, Regresion lineal de
autos, 2020).
316
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
## [1] 280
head(datosentrenamiento)
317
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
head(datosvalidacion)
modelo
##
## Call:
## lm(formula = mpg ~ ., data = datosentrenamiento)
##
## Coefficients:
## (Intercept) cylinders4c cylinders5c cylinders6c cylinders8c
## 37.284202 6.231475 8.248195 2.131026 4.568171
## displacement horsepower weight acceleration
## 0.002245 -0.057543 -0.004665 0.050745
7.3.2.3.9. Summary(modelo)
• La pregunta es: ¿Éste modelo predice bien o predice mal?
• No todas las variables son importantes, hay algunas que tienen mayor presencia
que el resto.
• summary(), para ver otras variables
summary(modelo)
318
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
##
## Call:
## lm(formula = mpg ~ ., data = datosentrenamiento)
##
## Residuals:
## Min 1Q Median 3Q Max
## -10.0606 -2.4686 -0.4435 1.9821 16.0907
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 37.2842024 3.6497412 10.216 < 2e-16 ***
## cylinders4c 6.2314753 2.4926855 2.500 0.01301 *
## cylinders5c 8.2481946 3.8091396 2.165 0.03123 *
## cylinders6c 2.1310256 2.7759570 0.768 0.44335
## cylinders8c 4.5681710 3.2054454 1.425 0.15527
## displacement 0.0022449 0.0108924 0.206 0.83687
## horsepower -0.0575428 0.0202773 -2.838 0.00489 **
## weight -0.0046652 0.0009999 -4.665 4.84e-06 ***
## acceleration 0.0507454 0.1443575 0.352 0.72547
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.092 on 271 degrees of freedom
## Multiple R-squared: 0.7304, Adjusted R-squared: 0.7224
## F-statistic: 91.75 on 8 and 271 DF, p-value: < 2.2e-16
Figura 11. Diagrama de caja boxplot del caso autos. (Pizarro, Regresion lineal de autos, 2020)
319
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
## [1] 4.026021
## [1] 3.894627
cyl = c(4,5)
dis = c(80,100)
hp = c(70,90)
wei = c(2000, 2100)
ace = c(14, 16)
320
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
# Directo
38.607311983 + 7.212652193 + 0.006877506 * 80 + -0.072208661 *70 + -0.005
155968 * 2000 + 0.024851517 * 14
## [1] 31.35154
mpg.predict4 = modelo$coefficients[1] +
modelo$coefficients[2] * 1 +
modelo$coefficients[6] * dis[1] +
modelo$coefficients[7] * hp[1] +
modelo$coefficients[8] * wei[1] +
modelo$coefficients[9] * ace[1]
mpg.predict4
## (Intercept)
## 31.04729
mpg.predict5 = modelo$coefficients[1] +
modelo$coefficients[3] * 1 +
modelo$coefficients[6] * dis[2] +
modelo$coefficients[7] * hp[2] +
modelo$coefficients[8] * wei[2] +
modelo$coefficients[9] * ace[2]
mpg.predict5
## (Intercept)
## 31.59302
321
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
## 1 2
## 31.04729 31.59302
Figura 12. Varias gráficas del modelo de regresión. (Pizarro, Regresion lineal de autos, 2020)
R Notebook
7.3.2.4.1. Las librerías
# Se instala la librería qcc
#install.packages("qcc")
# Se activa librería qcc
library(qcc)
322
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
causas
## $Measurements
## [1] "Micrometers" "Microscopes" "Inspectors"
##
## $Materials
## [1] "Alloys" "Lubricants" "Suppliers"
##
## $Personnel
## [1] "Shofts" "Supervisors" "Training" "Operators"
##
## $Environment
## [1] "Condensation" "Moisture"
##
## $Methods
## [1] "Brake" "Engager" "Angle"
##
## $Machines
## [1] "Speed" "Lathes" "Bits" "Sockets"
##
## $effect
## [1] "Surface Flaws"
323
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
# Se elabora el diagrama
effect <- "Flight Time"
causes.gr <- c("Operator", "Environment", "Tools", "Design",
"Raw.Material", "Measure.Tool")
causes <- vector(mode = "list", length = length(causes.gr))
causes[1] <- list(c("operator #1", "operator #2", "operator #3"))
causes[2] <- list(c("height", "cleaning"))
causes[3] <- list(c("scissors", "tape"))
causes[4] <- list(c("rotor.length", "rotor.width2", "paperclip"))
causes[5] <- list(c("thickness", "marks"))
causes[6] <- list(c("calibrate", "model"))
324
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Conclusiones
En este capítulo se explica la importancia de seguir y conservar los modelos
de trabajo que han sido pilar de la industria desde sus inicios hasta el presente, al
mismo tiempo se destaca que las bases históricas y aquellos modelos que son base
para procesos industriales y de producción, ahora van de la mano con la tecnología.
325
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Bibliografía
Aiteco Consultores, S. (s.f). Aiteco Consultores S.L. Obtenido de Hojas de Comprobación, de Control
o Verificación: Aiteco Consultores S.L.
Alcalde San Miguel, P. (2009). Calidad. (1a. Edición). En P. Alcalde San Miguel, Calidad. (1a.
Edición). Paraninfo.
Anderson, D., Sweeney, D., & Williams, T. (2008). Estadística para administración y economía
Estadística para administración y economía. 10a. Edición. México, D.F: Cengage Learning
Editores,S.A. de C.V.
Fernández y Fernández, C. A., & Quintanar Morales, J. A. (2015). Reducciones temporales para
convertir la sintaxis abstracta del diagrama de flujo de tareas no estructurado al álgebra de
tareas. ReCIBE. Revista electrónica de Computación, Informática, Biomédica y Electrónica,
1-35.
García Nocetti, F. (01 de 05 de 2017). Ciencia de datos y big data. Obtenido de Nexos:
https://www.nexos.com.mx/?p=31892
326
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
González González, R., & Jimeno Bernal, J. (01 de 01 de 2012). PDCA Home. Obtenido de
Diagramas de control: Gráficos para controlar procesos:
https://www.pdcahome.com/diagramas-de-control/
Hernández, R., Fernández, C., & Baptista, M. d. (2014). Metodología de la Investigación. México:
McGRAW-HILL / INTERAMERICANA EDITORES, S.A. DE C.V.
Lind, D. A., Marchal, W. G., & Wathen, S. A. (2015). Estadística aplicada a los Negocios y a la
Economía. México, D.F: McGrawn Hill Education. McGRAW-HILL/INTERAMERICANA
EDITORES, S.A. DE C.V.
Mendenhall, W., Beaver, R. J., & Beaver, B. M. (2010). Introducción a la probabilidad y estadística.
México, D.F.: Cengage Learning Editores, S.A. de C.V.
Pizarro, R. (05 de 29 de 2020). ANOVA una via. Caso consumo alcohol. Obtenido de ANOVA una
via. Caso consumo alcohol: ANOVA una via. Caso consumo alcohol
Pizarro, R. (24 de 02 de 2020). Regresion lineal de autos. Obtenido de Regresion lineal de autos:
https://rpubs.com/rpizarro/578026
Spiegel, M., Schiller, J., & Srinivasan, R. A. (2007). Probabilidad y Estadística . Mexico D.F: McGraw-
Hill.
327
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Capítulo 8
8.1. Introducción
Este capítulo tiene la finalidad de identificar conceptos básicos sobre el
análisis de datos masivos en el campo de la salud, conocer técnicas y herramientas
para el análisis de estos datos además de conocer la aplicación de Big Data en el
mismo campo.
Así mismo se informa sobre las herramientas Big Data más conocidas y se
da una breve descripción de cada una de ellas.
328
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Se plantea una propuesta para unificar contenidos generales del sector salud
con el objetivo de integrar todos los datos generados por diversas fuentes con la
finalidad de tener una sola base de datos para poder realizar consultas y tener a
disposición y poder realizar predicciones y prevención de enfermedades mejorando
el sector y la calidad de vida de las personas gracias a una atención médica
personalizada utilizando técnicas y herramientas para el análisis masivo de datos,
dando solución a muchas de las problemáticas que actualmente se presentan en
las instituciones de salud.
329
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Big Data es cada vez más útil en el sector salud sumado a la introducción de
avances tecnológicos como por ejemplo los relojes inteligentes donde toda esa
información recopilada puede ser utilizada para diagnosticar y tratar a un paciente,
es como tener un registro actualizado y a la mano que se puede estar alimentando
constantemente para que esa información sea utilizada por los profesionales de la
salud.
Big Data permite analizar detalladamente los datos de un lugar del mundo
para identificar tendencias específicas que permitirá predecir y prevenir
enfermedades.
330
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
331
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Para poder utilizar el máximo de Big Data lo mejor sería capturar, almacenar
y analizar todo dato existente sobre análisis clínicos, historiales médicos,
secuenciación de ADN de pacientes, informaciones de redes sociales para
conformar una base de datos compartida entre el sector salud.
332
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Es importante una vez que se menciona el significado Big Data conocer sus
Vs. En total son 7 Vs:
333
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Datos Estructurados: Son los datos que ya tienen un esquema definido, que
pueden ser ingresados a un campo específico como fecha, numero o nombre y
almacenarlos en tablas.
334
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
335
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
● Human Generated: Son datos que generan las personas, por ejemplo, los datos
que se guardan en los Call Center en las llamadas telefónicas, notas de voz,
documentos, correos electrónicos y en caso del sector salud estudios médicos,
registros electrónicos o recetas médicas.
● Hadoop Distributed File System (HDFS): Son datos que están en el clúster de
Hadoop que se segmentan en partes pequeñas a las que se les llama bloques y
que estos a su vez se distribuyen por el clúster y así la función map y reduce son
ejecutadas en subconjuntos pequeños, procesan grandes volúmenes de datos.
● Hadoop MapReduce: Es el componente principal de Hadoop, MapReduce tiene
que ver con que Hadoop realice dos procesos por separado: map selecciona un
conjunto de datos y lo convierte en otro donde son divididos en tuplas (pares
clave/valor); reduce obtiene la salida de map como datos de entrada y mezcla
las tuplas en un conjunto más pequeño de las mismas.
● Hadoop Common: Son librerías que soporta Hadoop.
Tabla 1
336
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Plataforma Descripción
PIG Lenguaje de alto nivel para flujo de datos, paraleliza grandes volúmenes
de tipo MapReduce que pueden ser interpretados por Hadoop
Spark Motor de base de datos que usa Hadoop, con soporte para aprendizaje
automático. Compatible con Python R y SQL
Cassandra Gestor de Base de datos a gran escala para datos de misión crítica,
escalable, tolerante a fallas y alta replicación
337
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
338
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
centroide (partición), calcula la media a cada grupo y repite el proceso hasta que
el centroide es el mismo.
● Reglas de asociación: Esta aplica si la importancia está en las asociaciones de
los elementos de entrada tomando en cuenta que la variable destino no es
importante, un claro ejemplo es que hay de común en las personas que compran
leche y pañales y además cerveza, este es un análisis de cesta de compra
utilizado en decisiones de marketing.
339
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Big Data aporta un gran beneficio al sector salud tanto para la prevención,
detección y tratamiento de padecimientos, se enlistan algunos de los beneficios:
● Mejora el diagnóstico por parte de los médicos debido a que se les brinda
información ordenada como punto de referencia.
● Existe un mayor control con la asistencia y comunicación con los pacientes.
● Se puede predecir alguna enfermedad con base en el historial médico del
paciente.
● Se agilizan los sistemas de gestión y de pago a proveedores.
● Ayuda a los investigadores con búsqueda de tratamientos.
Cabe mencionar que para poder aprovechar todos estos beneficios y que
todo este desarrollo tecnológico tenga impacto en la calidad y eficiencia en el sector
salud o en cualquier otro, será de suma importancia crear una cultura tecnológica
que pueda garantizar un buen manejo de esta, ligado a la ética, valores y
responsabilidad del uso de la misma.
340
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
gran base de datos donde se involucre toda institución relacionada con el sector. La
figura 4, identifica un ecosistema de fuentes de datos que se pueden aprovechar en
el sector salud.
341
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
342
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
343
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Conocer cuáles son las instituciones de salud con mayor rendimiento, el desempeño
profesional y si los procedimientos son los adecuados.
344
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
345
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
346
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
347
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
348
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
349
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
estén manejando, sino que también en las personas que los manejan, esto debe
ser durante todo el proceso no solo en el consentimiento, todo de modo paralelo
con la farmacéutica, aseguradoras, gobiernos entre otros.
● ix Comprometerse con las grandes consecuencias de los datos y las prácticas
de análisis: Una persona a la que se le ha dado seguimiento desde la ecografía
prenatal, el preescolar, primaria, pubertad, adolescencia, redes sociales y más,
la cuestión será ¿en qué momento se le preguntará por su asentimiento?, o si
sus padres son los que darán el consentimiento y por qué o si no están de
acuerdo ¿se tendría que destruir la información?.
● x Saber cuándo romper reglas: Aunque parece contradictorio, se debe estar
abiertos a todas las posibilidades, a cambiar alguna de las propuestas del
decálogo, a eliminar o incluir alguna, finalmente el objetivo es no perder de vista
que la intención es la protección de datos personales.
Por tal motivo se necesita elegir las herramientas a implementar según las
necesidades del sector, en este caso la taxonomía Big Data existen herramientas
de recolección, de almacenamiento, de procesamiento y de visualización.
350
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
351
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
● Sink: elimina eventos del canal, los transmite al siguiente agente o los envía
a la finalización del evento. En la figura 6 se identifican los elementos
citados de Flume.
352
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
353
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla 2
Características y Beneficios Neo4j.
Característica Beneficio
Open Source Utilizada por miles de organizaciones
Interfaz Amigable Es la mayor comunidad y más activa
Modelamiento de datos fácil Brinda mayor rendimiento de lectura y
escritura, ofrece alto rendimiento y velocidad
sin desproteger la integridad de los datos
354
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Jaql: fue donado por IBM a la comunidad de software libre, tiene como
objetivo que el desarrollador de aplicaciones Hadoop se centre en que quiere
obtener y no como obtenerlo, analiza la lógica y la distribuye en mappers y reducers
solo cuando es y donde sea necesario, combina la facilidad de uso de un lenguaje
de alto nivel con la capacidad de paralelismo y rendimiento de Hadoop.
355
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
356
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
se dividen en pares de llave – valor; reduce toma la salida de map como datos de
entrada y combina los pares en grupos más pequeños.
En la parte intermedia Shuffle se obtienen los pares del proceso map para
elegir el nodo que procesara esos datos dirigiendo la salida a un reduce en
específico.
357
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Figura 11. Tableau como herramienta para visualziicón de datos (Smart Solutions International,
2018)
8.3. Desarrollo
En este apartado, se describe la propuesta que se hace con nombre
Unificación de Contenidos Generales en el Sector Salud, con la intención de dar
solución a muchas de las necesidades de las personas que acuden a atenderse en
diferentes instituciones de Salud, y así facilitar el trabajo de los prestadores del
servicio para mejorar la calidad en la atención al paciente.
358
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
359
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
La integración es tanto clínica como técnica, puesto que solo una base de
datos necesita ser administrada.
En el segundo punto gestión de flujo de trabajo, una vez que los datos ya
fueron almacenados en el sistema de análisis masivo, la siguiente tarea es obtener
el máximo valor de esos datos, este punto garantiza la unificación de los datos.
360
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Para satisfacer esta necesidad se tiene que armonizar los datos médicos de
las diferentes Instituciones con diferentes formatos con la finalidad de que se
puedan visualizar por un único sistema (Unificación de Contenidos Generales en el
Sector Salud), una vez que se realice lo anterior los datos estarán disponibles de
manera interna por alguna institución específica y en la nube de manera general,
además de tener toda esa información a la mano para su tratamiento continuo, así
se lograría un ahorro considerable en tiempo y dinero y al mismo tiempo se facilitaría
la relación y colaboración entre instituciones y profesionales de la salud, se
mejoraría la calidad de la atención al cliente, no se duplicarían resultados o en caso
de ya tener resultados de algún análisis no sería necesario realizarlo nuevamente
si la personas es atendida en otra institución o por otro profesional.
361
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
362
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Si esta persona acude con otro médico a otra institución por una segunda
opinión, se tendrá que realizar el proceso de atención nuevamente, sondeo, análisis
y tratamiento, cuáles serían los resultados si los datos de este paciente ya
estuvieran unificados en una sola plataforma y que gracias al análisis de datos
masivo se obtiene un análisis predictivo para poder prescribir un tratamiento a la
medida según el padecimiento, la calidad de atención en el sector salud aumentaría
además de los tiempos de espera se reducen considerablemente y el ahorro
económico seria también considerable, de aquí la necesidad y la importancia de la
unificación de datos a través del uso del análisis masivo de información.
363
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
364
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Hoy en día el sector salud, aunque es de los más beneficiados al aplicar las
tecnologías de Big Data también es donde menos apoyo económico se da para la
implementación de la misma, es de suma importancia que se realicen grandes
inversiones para poder contar con la arquitectura y la tecnología necesaria para que
la aplicación de Big Data sea funcional.
Para poder aprovechar las ventajas del análisis masivo de datos, otro de los
factores a los que se le debe atención es el personal con el que se debe de contar
en este sector, se debe de contar con profesionales del sector salud, Ingenieros en
Sistemas Computacionales, Licenciados en Informática, Licenciados en Ciencias de
las Matemáticas y Estadísticas, profesionales que cuenten con los conocimientos y
las habilidades necesarias para manejar las herramientas relacionadas con Big
Data.
Se espera que dentro de pocos años Big Data reemplace totalmente las
tecnologías aplicadas actualmente en el sector, y a sabiendas de que la aplicación
del Big Data hoy en día es de manera progresiva, todavía falta mucho por hacer.
365
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
366
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
367
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
No será necesario acudir a otro estado o país para recibir atención o para
obtener medicamento inexistente en la institución médica local.
368
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
369
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
370
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
plataforma única y fácil de manejar por el profesional de la salud y amable con las
personas que interactúan con el mismo sistema, lograr obtener un sistema que
brinda accesibilidad y disponibilidad de la información y de los datos médicos en
cualquier momento y lugar, generar satisfacción de los pacientes ganando la
confianza de los personas en general, al brindarles las características de la medicina
4P, se piensa que el apoyo gubernamental hace falta para para que el sector se
siga actualizando en técnica y herramientas Big Data.
Conclusiones y Recomendaciones
Se concluye que las técnicas y las herramientas Big Data no solo son para
analizar, procesar y visualizar grandes cantidades de datos de fuentes variadas,
con la finalidad de transformar datos en información y a su vez la información en
conocimientos.
Big Data es una tecnología que se está aplicando poco a poco, aun así, los
beneficios que esta ofrece es el uso de la analítica predictiva y la analítica
avanzada para la gestión de datos masivos en tiempos reducidos utilizando
mínimos recursos, en especial los datos no estructurados y así poder contar con
modelos predictivos para mejorar la toma de decisiones.
Toda aquella empresa que aplique el análisis masivo de datos obtiene una
gran ventaja competitiva por todos los beneficios que conlleva su aplicación, no
es para sorprenderse que Big Data dentro de poco tiempo sustituya la tecnología
actual de la mano con Business Intelligence para el desarrollo de soluciones
complementarias, Big Data se centra en el procesamiento de datos masivos de
volumen exponencial , incluidos los datos no estructurados y Business Intelligence
el análisis avanzado de la información para crear una interface amigable con el
usuario atractiva a la vista.
371
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
La aplicación del análisis masivo de datos es una muy buena opción para
que el campo de la salud sea sustentable, ya que actualmente se les brinda
presupuestos ajustados, un bajo porcentaje de dicho presupuesto es destinado a
la implementación de nuevas tecnologías incluyendo al software y hardware
necesario para su aplicación.
Hay que ser conscientes de que es necesario contar con un gran equipo
de trabajo para poder implementar un proyecto Big Data, profesionales en el
campo de la salud, que conozcan las áreas y disciplinas de informática, sistemas,
matemáticas y estadística entre otros.
Para que exista un verdadero ecosistema Big Data es necesario que las
instituciones de salud pública o privada se integren con tecnología, política,
infraestructura y la cultura.
372
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Big Data cuenta con herramientas que permiten optimizar recursos, así
como herramientas que ayudan a disminuir el impacto al momento de implementar
la infraestructura de Big Data.
373
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
● Se debe tener claro qué tipo de documento se quiere realizar y los resultados
que se desean obtener.
● Tener la idea clara de la propuesta a desarrollar.
● Adentrarse del tema a tratar y de la tecnología a utilizar para su desarrollo.
● Contar con el conocimiento básico como mínimo de las técnicas y herramientas
a implementar.
● Conocer alcances y limitaciones que se puedan presentar al momento del
desarrollo e implementación de la propuesta ya anteriormente mencionada.
● Conocer cuales con los recursos económicos con los que se cuenta, la inversión
que se va a realizar y tener presente que la remuneración no es inmediata, pero
sí es segura.
● Tener en mente el equipo de trabajo con el que se va a contar para liderar el
proyecto.
● Conocer cuáles son los bienes tecnológicos con los que cuenta.
● Tener en cuenta cual es la relación de la institución con las personas que van a
recibir el beneficio de la aplicación del análisis masivo de datos.
● Saber cuál es la perspectiva del sector de las personas que van a acudir a
atención médica.
● Contemplar los tiempos de análisis, desarrollo e implementación del proyecto.
Referencias
Biedma Ferrer, J. M., & Bourret, C. (2019). La Potencialidad del Big Data en el ámbito sanitario.
Especial referencia al caso Español. Revista de Economía & Administración, Vol. 16 No. 2.
Julio - Diciembre de 2019, 93-109.
374
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Facultad de Estudios Estadísticos. . (s.f., s.f. s.f.). Universidad Complutense de Madrid. Retrieved
from ¿QUÉ ES BIG DATA?: https://www.masterbigdataucm.com/que-es-big-data/
Gutiérrez Martínez, J. A., & Febles Estrada, A. (2019). Hacia la medicina del 2030. UCE Ciencia.
Revista de postgrado. Vol. 7(1), 2019, 1-9.
IDC Salud. (2013, 12 05). Big Data y el sector salud. Retrieved from El Ecosistema y distintas fuentes
de información que se pueden integrar y aprovechar:
https://es.slideshare.net/BEEVA_es/big-data-y-el-sector-salud
Joyanes Aguilar, L. (2013). Big Data, Análisis de grandes volúmenes de datos en organizaciones.
México: Alfaomega Grupo Editor.
QuestionPro. (2019, 06 02). Qué e BigData. Retrieved from Uso de Big Data en diferentes industrias:
https://www.questionpro.com/es/que-es-big-data.html
Rayo, Á. M. (2017, 05 15). Computer Training by Netmind. Retrieved from Tipos de datos en Big
Data: clasificación por categoría y por origen: https://www.bit.es/knowledge-center/tipos-de-
datos-en-big-data/
Requena Mesa, A. (2019, 06 17). Apache Cassandra. Retrieved from Qué es Apache Cassandra:
https://openwebinars.net/blog/que-es-apache-cassandra/
Vidal Ledo, M. J., Morales Suárez, I. d., Menéndez Bravo, J. A., González Cárdena, L. T., &
Portuondo Sao, M. (2020). Medicina de precisión personalizada. Revista Cubana Educación
Médica Superior. 2020, 15.
375
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Capítulo 9
9.1. Introducción
En el empeño de lograr resultados coherentes en el campo de la salud, ha
resultado muy útil el empleo del Aprendizaje Automático (Machine Learning),
enfrentándose con el desafío de construir programas computacionales aprendan
con la experiencia y de los conocimientos previos. El sistema de aprendizaje
inmerso en el paradigma Machine Learning, crea descripciones generales de
conceptos, a partir de grandes cantidades de datos.
376
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
377
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
378
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
379
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla 1.
Algoritmos de Machine Learning. Elaboración propia.
Modelos Tareas
Algoritmos de Aprendizaje Supervisado
• Vecino más cercano (K-Nearest Neighbors) • Clasificación
• Bayesianos • Clasificación
• Árboles de decisión • Clasificación
• Regresión lineal • Predicción numérica
• Árboles de regresión • Predicción numérica
• Árboles modelo • Predicción numérica
• Redes neuronales • Uso dual
• Máquinas de vectores de soporte (SVM) • Uso dual
Algoritmos de Aprendizaje No Supervisado
• Análisis de componentes principales • Detección de patrones
• Algoritmos de Clustering (Agrupación) • Agrupamiento
380
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
381
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla 2.
Fortalezas y Debilidades K-Nearest Neighbors. Elaboración propia.
Fortalezas Debilidades
• Sencillo y efectivo. • Limita la capacidad de encontrar nuevas
• No hace suposiciones sobre la perspectivas en las relaciones entre las
distribución de datos características.
subyacente. • Fase de clasificación lenta.
• Entrenamiento rápido • Requiere una gran cantidad de
memoria.
• Nominal características y datos faltantes
requieren un procesamiento adicional.
382
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla 3.
Fortalezas y Debilidades Regresión lineal simple. Elaboración propia
Fortalezas Debilidades
383
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
384
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Los datos son mapeados por medio de un Kernel Gaussiano u otro tipo de
Kernel a un espacio de características en un espacio dimensional más alto, en el
que se busca la máxima separación entre clases. Esta función de frontera, cuando
es traída de regreso al espacio de entrada, puede separar los datos en todas las
clases distintas, formando cada una un agrupamiento.
385
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla 4.
Fortalezas y Debilidades Support Vector Machine (SPM). Elaboración propia.
Fortalezas Debilidades
386
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Figura 5. Árbol de decisión (Contreras Morales, Ferreira Correa, & Valle, 2017)
387
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla 5.
Fortalezas Debilidades
• Un clasificador de uso múltiple que • Los modelos de árbol de decisión a
funciona bien en la mayoría de los menudo están sesgados hacia
problemas. divisiones en características que tienen
• El proceso de aprendizaje altamente un gran número de niveles.
automático puede manejar • Es fácil disfrazar o vestir al modelo.
características numéricas o• Puede tener problemas para modelar
nominales. algunas relaciones debido a la
• Utiliza solo las características más dependencia de divisiones de ejes
importantes paralelos.
• Puede usarse en datos que se • Pequeños cambios en los datos de
puede interpretar sin un fondo entrenamiento pueden resultar en
matemático (para árboles grandes cambios en la lógica de
relativamente pequeños). decisión
• Más eficientes que otros modelos • Los árboles grandes pueden ser
complejos difíciles de interpretar y las decisiones
• Puede usarse con pocos datos • que toman pueden parecer
• o un número muy grande. contradictorias
• Pocos ejemplos
388
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
389
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Una Red Neuronal o Neural Network está integrada por un conjunto de capas
interconectadas en las que los valores de entrada (inputs) dan lugar a los valores
de salida (outputs) a través de una serie de nodos con sus ponderaciones
correspondientes. Dichos pesos se obtienen durante el proceso de entrenamiento
de la red. Entre las capas de entrada y salida puede haber una o varias capas
ocultas (hidden). Las fronteras entre clases que puede definir una Red Neuronal
pueden ser complejas e irregulares (Montes Núñez, 2017).
Las capas son las unidades estructurales de la red neuronal, dentro de una
capa las neuronas suelen ser del mismo tipo. La capa de entrada captura los datos
o señales del entorno, la capa oculta realiza las operaciones matemáticas, procesa
los datos y los dirige a la capa de salida la cual entrega la respuesta de la red a los
datos capturados por la capa de entrada.
390
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla 6.
Fortalezas Debilidades
• Se puede adaptar a la clasificación • Reputación de ser
o predicción numérica. computacional intensivo y
• Entre los enfoques de modelado lento para entrenar,
más precisos. particularmente si la
• Hace algunas suposiciones sobre topología de la red es
las relaciones subyacentes de los compleja.
datos. • Datos de entrenamiento
fácil o excesivo.
• Resultados en un modelo
complejo de caja negra que
es difícil, si no imposible, de
interpretar.
391
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla 7
Fortalezas Debilidades
• Fácil de construir y entender. • Aumenta la complejidad (y el
• Las inducciones de estos tiempo) tanto para aprender el
clasificadores son extremadamente modelo como para clasificación.
rápidas, requiriendo solo un paso para • Tratar de mantener la misma
hacerlo. estructura sencilla, pero
• Es muy robusto considerando atributos considerando las dependencias
irrelevantes. entre atributos.
• Toma evidencia de muchos atributos
para realizar la predicción final
Tabla 8
392
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
393
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla 9
Fortalezas Debilidades
394
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Las redes neuronales convencionales posen una capa, las redes neuronales
profundas contienen varias capas. Aprendizaje profundo es un aspecto de la
inteligencia artificial que se ocupa de emular el enfoque de aprendizaje que utilizan
las personas para obtener ciertos tipos de conocimiento. Puede considerarse una
forma de automatizar el análisis predictivo (Sáez de la Pascua, 2019).
395
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
396
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
397
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Por tal razón, son cada vez más las personas que desean aprender sobre
Machine Learning, pero una pregunta hay que hacer ¿qué lenguaje de
programación es apropiado aprender para Machine Learning? (González, Ligdi
González. Inteligencia Artificial, 2018).
9.2.7.2. Lenguaje R
R es un entorno de trabajo para la ejecución de análisis estadísticos y la
creación de gráficos. La interfaz gráfica del programa es una consola de comandos,
es decir, que para interactuar con el mismo hay que escribir líneas de código y
ejecutarlas. (Ruiz Ruano & Puga, 2016).
398
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
9.2.7.3. Matlab
MATLAB proviene de Matrix Laboratory, es una herramienta de software
matemático que contiene un entorno de desarrollo integrado con un lenguaje de
programación muy particular. Es multiplataforma para Windows, Mac, Linux, Unix.
Principalmente para operaciones con matrices.
9.2.8.1. NumPy
Es una biblioteca de manejo de datos, particularmente una que permite
manejar grandes matrices multidimensionales junto con una gran colección de
operaciones matemáticas.
Ventajas
Desventajas
399
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
• Los tipos de datos son nativos del hardware y no de Python, por lo que
incurren en una sobrecarga cuando los objetos Numpy se deben transformar
de nuevo en equivalentes de Python y viceversa.
9.2.8.2. Pandas
Es una biblioteca de Python que proporciona estructuras de datos flexibles y
expresivas (como marcos de datos y series), para la manipulación de datos,
construido sobre Numpy, los pandas son tan rápidos y fáciles de usar.
Ventajas
Desventajas
9.2.8.3. Scipy
Scipy es una biblioteca de computación científica para Python. También se
construye sobre Numpy y es parte de Scipy Stack. Proporciona módulos, algoritmos
para álgebra lineal, integración, procesamiento de imágenes, optimizaciones,
agrupación, manipulación de matrices dispersas y muchos más.
400
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
9.2.8.4. Matplotlib
Es esencialmente una biblioteca de visualización, funciona a la perfección
con objetos Numpy, proporciona un entorno de trazado como MATLAB para
preparar gráficos, gráficos de alta calidad para publicaciones, cuadernos y
aplicaciones web.
Ventajas
Desventajas
9.2.8.5. Scikit-Learn
Diseñado como una extensión de la biblioteca Scipy, Scikit-learn se ha
convertido en el estándar, para muchas de las tareas de aprendizaje automático.
Proporciona un paradigma de predicción y transformación simple pero potente para
aprender de los datos, transformar los datos y finalmente predecir. Usando esta
interfaz, proporciona capacidades para preparar modelos de clasificación,
regresión, agrupamiento y conjunto. También proporciona una multitud de utilidades
para pre-procesamiento, métricas y técnicas de evaluación de modelos.
Ventajas
• El paquete para llevar, que lo tiene todo, para los algoritmos clásicos de
aprendizaje automático.
• Interfaz de ajuste y transformación consistente y fácil de entender.
• La capacidad para preparar tuberías no solo ayuda con la creación rápida
de prototipos, sino también con implementaciones rápidas y confiables.
Desventajas
401
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
• Incapacidad para utilizar datos categóricos para algoritmos listos para usar
que admiten dichos tipos de datos (los paquetes en R tienen tales
capacidades).
9.2.8.6. Statsmodels
Esta biblioteca agrega herramientas y algoritmos estadísticos en forma de
clases y funciones al mundo de Python. Construido sobre Numpy y Scipy,
Stastmodels proporciona una extensa lista de capacidades en forma de modelos de
regresión, análisis de series de tiempo, autor regresión.
Ventajas
Desventajas
9.2.8.7. XgBoost
Más utilizada en diversas competiciones de ciencia de datos y casos de uso
en el mundo real, XgBoost es probablemente una de las variantes más conocidas,
permite una ejecución paralela y, por lo tanto, proporciona una mejora inmensa del
rendimiento en comparación con los árboles potenciados por gradiente. Proporciona
capacidades para ejecutar sobre marcos distribuidos como Hadoop fácilmente.
402
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
9.2.8.8. LigthGBM
LigthGBM (máquinas de aumento de gradiente), similar a XgBoost en la
mayoría de los aspectos, a excepción de unos pocos sobre el manejo de variables
categóricas y el proceso de muestreo para identificar la división de nodos.
9.2.8.9. Eli5
ELI5 es una de esas bibliotecas que proporciona las capacidades para
depurar clasificadores y proporcionar una explicación sobre las predicciones.
9.2.8.10. TensorFlow
TensorFlow es una biblioteca matemática simbólica, que permite una
programación diferenciable, un concepto central para muchas tareas de aprendizaje
automático. Los tensores son el concepto central de esta biblioteca, que son objetos
matemáticos genéricos para representar vectores, escaladores y matrices
multidimensionales.
Ventajas
Desventajas
• La interfaz de bajo nivel hace que sea difícil comenzar, enorme curva de
aprendizaje
• No es fácil acostumbrarse a los gráficos de computación.
403
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
9.2.8.11. Theano
Fue una de las primeras bibliotecas en proporcionar capacidades para
manipular arreglos multidimensionales, tiene capacidad para utilizar GPU de forma
transparente. Está estrechamente integrado con Numpy, proporciona una sintaxis
de diferenciación simbólica junto con varias optimizaciones para manejar números
grandes y pequeños. Antes de la llegada de las nuevas bibliotecas, Theano era el
bloque de construcción de facto para trabajar con redes neuronales.
Ventajas
Desventajas
9.2.8.12. PyTorch
Es el resultado de la investigación y el desarrollo en el grupo de inteligencia
artificial de Facebook. Admite gráficos dinámicos y una ejecución impecable (fue el
único hasta TensorFlow 2.0).
Ventajas
Desventajas
404
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
9.2.8.13. Keras
Keras es un marco de aprendizaje profundo de alto nivel que ha facilitado la
forma en que desarrollamos y trabajamos con redes neuronales profundas.
Desarrollado principalmente en Python, para Keras, el bloque de construcción
básico es una capa. Dado que, la mayoría de las redes neuronales son diferentes
configuraciones de capas, trabajar de tal manera facilita enormemente el flujo de
trabajo.
405
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
9.3. Desarrollo
La propuesta en lo general tiene que ver con aplicar técnicas y algoritmos de
ML en el Sector Salud aprovechando las bondades de los lenguajes de
programación R y Python principalmente
406
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
407
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
408
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla 10
Rendimientos de los algoritmos de clasificación .Caso Wisconsin Breat Cáncer (Asri, Mousannif,
Moatassime, & Noeld, 2016)
Figura 10. Gráfico comparativo de diferentes clasificadores. (Asri, Mousannif, Moatassime, & Noeld, 2016)
409
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
• La estadística de Kappa (KS) como una medida de acuerdo al azar entre las
clasificaciones y las clases verdaderas.
• Error absoluto promedio (MAE) como pronóstico cercano o predicciones de
los resultados finales.
• Error cuadrático medio (RMSE).
• Error absoluto relativo (RAE).
• Error cuadrático relativo (RRSE).
Tabla 11.
410
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Figura 11. Diagrama comparativo: KS, MAE, RMSE, RAE Y RRSE (Asri, Mousannif, Moatassime, & Noeld,
2016)
Una vez que se construye el modelo predictivo, se puede verificar qué tan
eficiente es. Para eso se comparan las medidas de precisión. Tasa verdaderos
positivos (TP), Tasa de falso positivo (FP), Precisión, Sensibilidad, Media y Clase.
Ver la tabla 12.
Tabla 12.
Comparación de medidas de precisión para C4.5, SVM, NB y K-NN. Caso Wisconsin Breat Cáncer
(Asri, Mousannif, Moatassime, & Noeld, 2016)
411
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla 13.
Matrices de confusión. Caso Wisconsin Breat Cáncer. (Asri, Mousannif, Moatassime, & Noeld, 2016)
438 20
C4.5
14 227
446 12
SVM
9 232
436 22
NB
6 235
445 13
K-NN
20 221
412
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Figura 12. Curva ROC. (Asri, Mousannif, Moatassime, & Noeld, 2016)
413
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla 14.
Atributos. Caso medicina cardiovascular (De la Hoz Manotas, Martínez Palacio, & Enrique, Técnicas
de ML en medicina cardiovascular, 2013)
No Atributos Valores
1 Edad Edad en años
0: Masculino,
2 Sexo
1: Femenino
Valor 1: Angina típica
Valor 2: Angina atípica
3 Tipo dolor de pecho Valor 3: Otro dolor
Valor 4: Asintomático
En mm Hg en la
4 Presión arterial en reposo
admisión del hospital
5 Colesterol mg/dl
Valor 0: Normal
Valor 1: Anomalías
7 Resultado electrocardiograma
Valor 2: Hipertrofia
ventricular
10 Depresión inducida
11 Pendiente curva máxima del ejercicio
0: Menor 50%
14 Diagnóstico de enfermedad cardiaca
1: Mayor 50%
414
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
• Sensibilidad = TP / (TP+FN)
• Especificidad = TN / (TN+FP)
• Precisión = (TP+TN) / TP+FP+TN+FN)
Donde:
Tabla 15.
Ausencia TP FN
Presencia FP TN
415
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla 16.
Matriz de confusión algoritmo SVM. Caso enfermedades cardiovasculares (De la Hoz Manotas,
Martínez Palacio, & Enrique, Técnicas de ML en medicina cardiovascular, 2013)
Tabla 17.
Matriz de confusión algoritmo Regresión logística. Caso enfermedades cardiovasculares (De la Hoz
Manotas, Martínez Palacio, & Enrique, Técnicas de ML en medicina cardiovascular, 2013)
Tabla 18.
Matriz de confusión algoritmo árboles de decisión. Caso enfermedades cardiovasculares (De la Hoz
Manotas, Martínez Palacio, & Enrique, Técnicas de ML en medicina cardiovascular, 2013)
416
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla 19
Figura 13. Gráfica comparativa (De la Hoz Manotas, Martínez Palacio, & Enrique, Técnicas de ML en medicina
cardiovascular, 2013)
417
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Conclusiones
Al recapitular el objetivo general del presente trabajo que textualmente
establece “realizar un diagnóstico y propuesta general de implementación de
técnicas y algoritmos de Machine Learning dentro del Sector Salud”, se cumple con
una propuesta en lo general, sin llegar a establecer un diagnóstico real del estado
del Sector Salud y a partir de ahí determinar una propuesta específica.
418
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
de información de manera repetida y cada vez más rápida, siendo su factor principal,
la construcción de modelos automáticos en tiempo real.
Para posibles asociaciones sobre los datos se pueden rehusar los modelos
obtenidos e integrarlos para obtener patrones globales, los casos de uso muestran
que se obtuvieron modelos precisos.
Referencias
Asri, H., Mousannif, H., Moatassime, A. H., & Noeld, T. (2016). Using Machine Learning Algorithms
for Breast Cancer Risk Prediction and Diagnosis. Procedia Procedia Computer Science.
ElSevier, 1064-1069.
Bironneau, M., & Coleman, T. (01 de 05 de 2019). Packt. Obtenido de Types of ML algorithms:
https://subscription.packtpub.com/book/big_data_and_business_intelligence
/9781838550356
419
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Challenger Pérez, I., Díaz Ricardo, Y., & Becerra García, R. A. (2014). El lenguaje de programación
Python. Ciencias Holguín. Centro de Información y Gestión Tecnológica. Santiago de Cuba,
13.
Contreras Morales, E. F., Ferreira Correa, M., & Valle, M. A. (2017). Diseño de un modelo predictivo
de fuga de clientes utilizando árboles de decisión. Revista Ingeniería Industrial-Año 16 Nº1:,
7-23.
De la Hoz Manotas, A. K., Martínez Palacio, U. J., & Enrique, M. P. (2013). Técnicas de ML en
medicina cardiovascular. Memoria Desarrollo Humano 11/20, 41-46.
Delgado, R., & Tibau, X. A. (2015). Las Redes Bayesianas como herramienta para la evaluación del
riesgo de reincidencia: Un estudio sobre agresores sexuales. R e v i s t a E s p a ñ o l a d e
I n v e s t i g a c i ó n C r i m i n o l ó g i c a, 25.
Didactalia classes. (19 de 11 de 2018). Didactalia classes. Obtenido de Regesión Lineal Simple:
https://didactalia.net/en/community/materialeducativo/resource/calculadora-de-regresion-
lineal-simple---recta-de/a354dc49-3a49-47c4-92ba-3b720337ee11
González Vilanova, A. (2019). Métodos de machine learning en estudios biomédicos. Trabajo final
de grado en Biotecnología. Universitat Politécnica de València – Escola Tècnica Superior.
Valencia, Valencia, España: Universitat Politécnica de València – Escola Tècnica Superior.
González, L. (22 de 03 de 2018). González, Ligdi. Obtenido de ¿Por qué Machine Learning o
aprendizaje automático es importante?: https://ligdigonzalez.com/introduccion-a-machine-
learning/
420
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Luque Sucasaire, N. L. (01 de 2020). Análisis de sistemas para registros médicos electrónicos en
clínicas y su enfoque al Machine Learning. Grado Académico de Bachiller en Ingeniería
Industrial. San Pablo, Arequipa, Perú: Facultad de Ingeniería y Computación. Escuela
Profesional de Ingeniería Industrial. Universidad Católica San Pablo.
Mohri, M., Afshin, R., & Ameet, T. (2018). Foundations of Machine Learning, Second Edition. London:
Francis Bach, Editor. The MIT Press. Massachusetts Institute of Technology.
Montes Núñez, B. R. (11 de 05 de 2017). Gfi Blog. New Challenges, New Ideas. Obtenido de
Algoritmos de entrenamiento en Machine Learning: https://blog.gfi.es/algoritmos-
entrenamiento-machine-learning/
Ramasubramanian, K., & Moolayil, J. (01 de 04 de 2019). Packt. Obtenido de Applied Supervised
Learning with R:
https://subscription.packtpub.com/book/big_data_and_business_intelligence_/9781838556
334
Ruiz Ruano, A. M., & Puga, J. L. (2016). R COMO ENTORNO PARA EL ANÁLISIS ESTADÍSTICO
EN EVALUACIÓN PSICOLÓGICA. Sección Monográfica. Papeles del Psicólogo, 74-79.
Sáez de la Pascua, A. (31 de 01 de 2019). Deep learning para el reconocimiento facial de emociones
básicas. Grado en Ingeniería de Sistemas de Telecomunicaciones. Catalunia, Catalunia,
España: Universidad Politécnica de Catalunia.
421
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Capítulo 10.
10.1. Introducción
Este capítulo describe a la Ciencia de Datos en relación a un Sistema de
Información Geográfica (GIS) para Protección Civil del Municipio de Durango con
base al análisis de datos geoespaciales utilizando R y Python integrados para
establecer un proceso de actualización de información cartográfica.
422
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
423
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
424
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
425
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
426
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
427
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
428
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Por otra parte, el uso SIG facilita la visualización de los datos obtenidos en
un mapa con el fin de reflejar y relacionar fenómenos geográficos de cualquier tipo.
Además, permite realizar las consultas y representar los resultados en entornos web
y dispositivos móviles en un modo ágil e intuitivo, con el fin de resolver problemas
complejos de planificación y gestión, conformándose como un valioso apoyo en la
toma de decisiones.
429
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
430
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
431
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Los scripts son un archivo de texto con una serie de instrucciones; estos
usualmente utilizados a través del IDE (Integrated Develpment Eviroment, entorno
de desarrollo integrado). R Studio es un IDE para programar en R.
432
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
• Todas las funciones y métodos del paquete sf que emplean datos espaciales
tienen el prefijo st_, que se refiere a espacial y temporal (al igual que en
PostGIS).
• Los objetos geográficos son data.frames o tibbles con una columna de
geometrías.
• Representa de forma nativa en R los 17 tipos de objetos geográficos simples
para todas las dimensiones (XY, XYZ, XYM, XYZM)
• Interfaces a GEOS para soportar el modelo topológico DE9-IM.
• Se conecta a GDAL, es compatible con todas las opciones de controlador,
columnas de fecha (Date) y fecha y hora (DateTime) (POSIXct) y
transformaciones del sistema de coordenadas de referencia a través de PROJ.
• Utiliza serializaciones WKB (well-know-binary conocidas escritas en C++/Rcpp
para fast I/O con GDAL y GEOS.
• Lee y escribe directamente en bases de datos espaciales como PostGIS
usando DBI.
433
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
434
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
435
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Cada vez más, los conjuntos de datos con localización son de un tamaño,
variedad y tasa de actualización que excede la capacidad de las tecnologías de
computación enfocada a los procesos geoespaciales, estos datos se llaman
GeoSpatial Big Data (GSBD por sus siglas en inglés) o Datos Masivos
Geoespaciales (DMG).
436
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
437
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
• Imágenes de satélite.
• Datos existentes (BD, texto, video, fotos).
• Dispositivos móviles.
• GPS (Global Positioning System).
• Sensores (llantas, motores, RFID, tanques, válvulas).
• Internet de las cosas.
• Plataformas específicas (waze, twitter, openstreetmaps, google maps).
• Radar.
• LiDAR.Foto y video (ambos con geoposición) que proviene de sensores
colocados sobre drones.
• Crowsourcing.
438
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Por otra parte, es necesario mencionar que existen una taxonomía para los
riesgos presentes establecidos en la Ley de Protección Civil (Cámara de Diputados
del H Congreso de la Unión, 2019), los cuales son:
439
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
440
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Es por esto que surge la necesidad de adoptar medidas que permitan actuar
de manera consciente y preventiva ante fenómenos potencialmente destructivos de
origen natural y humano (CENAPRED, 2014).
441
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Figura 6. Mapa de España. Monitoreo de la calidad del aire. (Ministerio para la Transición
Ecológica, 2020)
442
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Figura. 7. Sistema de la Calidad del aire del Estado de Durngo simica. (SIMCA, 2020)
443
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
444
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Se tiene registrado que en las Colonias Frac. Villas del Guadiana del I al VII,
San Marcos, Las Nubes, Jardines de Cancún, Frac. San Juan, El Alacrán, Frac.
Viva Reforma, Nuevo Durango I y II, Col. Isabel Almanza y Frac. Benito Juárez,
existe la posibilidad de inundación por lluvias extremas, como de hecho ocurrió en
445
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
el año 2007 (inundación con hasta 150cm de tirante, y en el año 2010, cuando hubo
400 viviendas dañadas en la ciudad. Al respecto, además de registros municipales,
existe evidencia hidrometeorográfica en los periódicos locales.
Las lluvias extraordinarias, para considerarse como tales deben superar los
valores promedio mensuales de precipitación más una desviación estándar para
cada una de las cuatro principales estaciones meteorológicas de la zona.
10.2.13.4. Sequías
La sequía meteorológica es una anomalía atmosférica transitoria en la que la
disponibilidad de agua se sitúa por debajo de las necesidades de las plantas, los
animales y la sociedad. La causa principal es una disminución significativa en la
precipitación pluvial promedio de una zona dada. Si este fenómeno perdura por
varias temporadas, deriva en una sequía hidrológica caracterizada por la
desigualdad entre la disponibilidad natural de agua y las demandas naturales de
agua.
446
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Verde, las temperaturas mínimas extremas han causado daños a la salud de sus
habitantes, sin que existan cuantificaciones exactas de los daños en este rubro.
𝐼𝐴 = 𝑃/𝐸
Donde: 𝐼𝐴: índice de aridez, 𝑃: precipitación anual (mm), 𝐸 : evaporación anual (mm)
Tabla 1.
Índices de Aridez
<0.25 Árido
0.25-.50 Semiárido
0.50-2.0 Subhúmedo
>2.0 Húmedo
447
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
448
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
10.2.13.5. Inundaciones
Las inundaciones son un fenómeno en el cual se anega (inunda o llena) de
agua un área determinada que generalmente está libre de ésta. El agua proviene
del desbordamiento de ríos, represas, o escurrimientos de partes altas y se asocia
a lluvias intensas, en el área o incluso en otras lejanas. A pesar de considerarse un
fenómeno natural, tiene una alta influencia de los procesos de ocupación del
territorio y construcción de infraestructura, ya que a menudo el riesgo existe cuando
se establecen viviendas en zonas inundables y se crean embudos artificiales que
impiden el libre tránsito de las avenidas de agua.
449
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Figura 12. Peligro por inundación según diferentes periodos de retorno en la microcuenca San
Luis. Fuente: Atlas de Riesgo del Municipio de Durango
Figura 13. Peligro por inundación según diferentes periodos de retorno en la microcuenca Arroyo La Virgen.
450
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Periodo de retorno: 10 años Periodo de retorno: 50 años Periodo de retorno: 200 años
Figura 14. Mapa velocidades regionales con periodo de retorno de 10, 50 y 200 años.
451
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
452
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tabla 2.
Daños por diferentes intensidades de heladas. Fuente: Atlas de Riesgo del Municipio de Durango
453
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Figura 16. Mapa de temperaturas mínimas absolutas en el Municipio de Durango. Fuente: CONABIO.
Figura 17. Índice de peligro por el mismo fenómeno en el Municipio de Durango. Fuente:
Atlas de Riesgo del Municipio de Durango.
454
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Figura 18. Índice de peligro por el mismo fenómeno en el Municipio de Durango. Fuente:
Atlas de Riesgo del Municipio de Durango.
455
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
10.3. Desarrollo
La propuesta de análisis de datos de Protección Civil utilizando R y Python
en QGIS se fundamenta en las bases teóricas y sistémicas establecidas en la Guía
para la elaboración de Atlas de Riesgos; ya que su estructura está diseñada como
una plataforma informática apoyada en sistemas de información geográfica y bases
de datos, la cual a su vez se conformó de acuerdo con los criterios de clasificación
y los términos de referencia establecidos por el CENAPRED que integra información
sobre: mapas de peligros por fenómenos perturbadores, mapas de susceptibilidad,
inventario de bienes expuestos , inventario de vulnerabilidades, mapas de riesgos,
escenarios de riesgos
456
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
457
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
mejorando la precisión del modelo. Es la etapa que consume más tiempo, entre
un 50% y un 90% del tiempo total del proyecto.
• Modelado (Modeling): A partir de la primera versión del conjunto de datos
preparado, los científicos de datos utilizan un conjunto de datos históricos (en
los que se conoce el resultado de interés) para desarrollar modelos predictivos
o descriptivos utilizando el enfoque analítico ya descrito. El proceso de modelado
es altamente iterativo.
• Evaluación (Evaluation): El científico de datos evalúa la calidad del modelo y
verifica si aborda el problema comercial de manera completa y adecuada.
Hacerlo requiere la computación de varias medidas de diagnóstico, así como
otras salidas, como tablas y gráficos, utilizando un conjunto de pruebas para un
modelo predictivo.
• Implementación (Deployment): Una vez que se ha desarrollado un modelo
satisfactorio que ha sido aprobado por los patrocinadores comerciales, se
implementa en el entorno de producción o en un entorno de prueba comparable.
Tal despliegue a menudo se limita inicialmente para permitir la evaluación de su
desempeño.
• Retroalimentación (Feedback): Al recopilar los resultados del modelo
implementado, la organización obtiene comentarios sobre el rendimiento del
modelo y observa cómo afecta su entorno de implementación. Al analizar esta
información, el científico de datos puede refinar el modelo, aumentando su
precisión y, por lo tanto, su utilidad.
458
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Figura 20. Representación gráfica de la medición del Riesgo en función del peligro y vulnerabilidad
Fuente: Atlas de Riesgo del Municipio de Durango
459
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
460
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
461
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
462
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Conclusiones
Con respecto información relacionada con Protección Civil, la mayor parte de
los datos que maneja está georreferenciada. Es decir, que se trata de información
a la cual puede asignarse una posición geográfica, y es por tanto información que
viene acompañada de otra información adicional relativa a su localización.
464
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
de Durango, por tanto, no está exento a los desastres naturales por su ubicación
geográfica y consecuente dinámica geológica y climática.
Por otro lado, se considera más que un beneficio es una propuesta para
Instituto Tecnológico de Durango el tema de Protección Civil utilizando ciencias de
datos con el objetivo de estimular el interés de la comunidad docente y estudiantil
en este tema de tanta relevancia actual creando científicos de datos que son
sencillamente un profesional dedicado a analizar e interpretar grandes bases de
datos.
465
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Referencias
Cámara de Diputados del H Congreso de la Unión. (19 de 01 de 2019). Ley General de Protección
Civil. Obtenido de Ley General de Protección Civil 2012. Ultima reforma 2018:
http://www.diputados.gob.mx/LeyesBiblio/pdf/LGPC_190118.pdf
Carranza Tresoldi, J. (18 de 07 de 2016). Geo Awesomenes. Obtenido de The right human scale to
measure Sustainable Development Goals: https://geoawesomeness.com/the-right-human-
scale-to-measure-sustainable-development-goals/
466
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Centro Mediterraneo. Univesidad de Granada. (s.f. de s.f. de s.f.). Centro Mediterraneo. Univesidad
de Granada. Obtenido de Ciencia de Datos: Un Enfoque Práctico en la Era del Big Data (VI
ed.): https://cemed.ugr.es/curso/20gr10/
Coronado Iruegas, A. A. (16 de 11 de 2016). Slide Share.net. Discover. Share. Learn. Obtenido de
Big data taller INEGI sedesol: https://www.slideshare.net/acoronadoiruegas/big-data-taller-
inegi-sedesol
Jones, H. (2019). Ciencia de los Datos. Lo que saben los mejores científicos de datos sobre el
análisis de datos, minería de datos, estadísticas, aprendizaje automático y Big Data que
usted desconoce. México: Amazon Mexico Services, Inc.
Morales, A. (01 de 01 de 2018). MappingGIS. Formación que impulsa tu perfil GIS. Obtenido de
Lenguajes de programación para GIS y sus tendencias de crecimiento:
https://mappinggis.com/2012/11/lenguajes-de-programacion-gis/
Patel, A. (18 de 08 de 2019). ML Research Lab. Obtenido de Data Science Methodology — How to
design your data science project: https://medium.com/ml-research-lab/data-science-
methodology-101-2fa9b7cf2ffe
Sánchez Fleitas, N., Comas Rodríguez, R., & García Lorenzo, M. M. (2019). Sistema Inteligente de
Información Geográfica para las empresas eléctricas cubanas. Ingeniare. Revista chilena de
ingeniería, vol. 27 , 197-209.
SIMCA. (06 de 18 de 2020). Sistema de Monitoreo de la Calidad del aire del Estado de Durango.
Obtenido de Sistema de Monitoreo de la Calidad del aire del Estado de Durango:
http://calidadaire.durango.gob.mx/
Universidad de Alcalá. (s.f.). Universidad de Alcalá. Master en Business Intelligence and Data
Science. Obtenido de Ventajas y Desventajas del uso del Big Data: https://www.master-
bigdata.com/
Vázquez Pulido, J. C., & Morales Bautista, E. M. (01 de 01 de 2019). Instituto Mexicano del
Transporte. Obtenido de Datos masivos geoespaciales para identificación de patrones de
riesgo en la RNC: https://imt.mx/archivos/Publicaciones/PublicacionTecnica/pt540.pdf
467
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Capítulo 11
03040966 @itdurango.edu.mx
11.1. Introducción
Considerando que existen en el mercado diversas opciones de herramientas
de visualización de datos, las cuales están enfocadas en extraer al máximo toda la
información de la enorme cantidad de datos que se generan diariamente; y que cada
vez con mayor frecuencia las empresas aplican la Inteligencia de Negocios (BI),
para poder tomar la mejor decisión, es preciso ofrecer un comparativo de dos de las
herramientas elegidas por los usuarios, Tableau y Power BI.
468
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Por increíble que parezca, todo lo que existe alrededor en término de datos
es apto de ser analizado, procesado y con ello obtener una ventaja competitiva ante
el adversario en los negocios, sin importar el giro comercial de la empresa. Por tal
motivo, es importante conocer las herramientas de visualización de datos y su
relación con la inteligencia de negocios que hoy en día es aplicada con mayor
frecuencia.
469
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
• Indagar el estado del arte acerca de las herramientas Tableau y Power BI.
• Analizar ventajas y desventajas de las herramientas para realizar un
comparativo.
• Exponer casos exitosos en los cuales se aplicaron ambas herramientas de
visualización de datos.
• Dar opinión acerca de cuál es la mejor opción y la que mejor se ajusta de acuerdo
a las necesidades del usuario.
470
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
471
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
VOLUMEN
Big Data
473
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
que son operados sin la intervención humana, la rapidez de entrada y salida de los
datos los cuales fluyen por los distintos canales, y en el caso de “FND” que tan
rápido se puede extraer dicha información del sistema que el área de trabajo tiene.
De acuerdo al estudio realizado por Turner y otros (2014), revela que, por
increíble que esto parezca, no se ha llegado ni al 1% del análisis de los datos que
se generan en el mundo, situación que es alarmante, dado que se pierde la enorme
oportunidad de poder obtener información tan valiosa y necesaria para todos. La
visualización de los datos se encargará de captar de manera inmediata la atención
de quien tendrá que tomar decisiones importantes en una empresa, mediante un
diseño que permita comprender la información presentada.
474
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
475
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
11.2.2.1. Tableau
11.2.2.2. Qlik
476
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
que puedan ser. Cuenta con capacidades de Inteligencia Artificial (IA), búsquedas
en lenguaje natural y soluciones interactivas.
Figura 4. Qlink
Fuente: (Qlik, 2018)
11.2.2.3. Plotly
477
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
11.2.2.4. Carto
478
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
11.2.2.5. DataWrapper
11.2.2.6. PowerBI
Power BI es un servicio de análisis de negocio basado en la nube que
proporciona una vista única de los datos más críticos. Es una herramienta
desarrollada por Microsoft y permite cientos de visualizaciones de datos,
funcionalidades de inteligencia artificial integradas, integración perfecta de Excel y
conectores para diferentes fuentes de datos (Power BI, 2018).
479
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Figura 8. Power BI
480
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
agradable a la vista. Todo esto representa una de las misiones que tiene el siglo
XXI. Esta compañía representa el claro ejemplo de usar sus propios productos que
desarrollan y ofrecen al mercado.
Dispone de diferentes servicios como análisis de encuestas, sitios webs,
redes sociales, series temporales, hasta herramientas Big Data o DashBoards de
negocios. Esta herramienta es tan potente que, puede hacer que una marca
comercial tenga índices de popularidad más elevados, mediante el análisis de
patrones en las redes sociales o un análisis estadístico de enfermedades
gastrointestinales de un sector de la sociedad en un periodo de tiempo, por
mencionar algunos (Ruíz, 2018).
Tableau como otras herramientas de visualización, ofrece además otros
recursos adicionales para dar soluciones a las necesidades específicas de cada
usuario, como lo son:
• Tableau DeskTop (Tableau Escritorio): Ediciones profesional y personal.
Esta aplicación va a permitir analizar datos estructurados cualquiera que
fuera la fuente, mediante la cual se podrá generar todo tipo de gráficos,
informes interactivos, paneles de control, todo en un tiempo muy corto. La
interfaz es realmente muy amigable, por lo que cualquier persona fácilmente
puede familiarizarse con la herramienta.
• Tableau Server (Tableau Servidor): Es la solución de inteligencia comercial
que ofrece análisis visual desde el navegador. Esta aplicación lo que va a
permitir es el compartir o ver las publicaciones de otros usuarios que se
encuentren en el servidor.
• Tableau Online (Tableau en Línea): es una extensión de Tableau Server la
cual centraliza los datos en la nube y permite hacerlos públicos cuando los
compartes. Publica orígenes de datos de Tableau Desktop, define
conexiones de datos, agrega conexiones de datos en la nube y actualiza los
datos de Salesforce y Google Analytic. BigQuery y Amazon Redshift.
• Tableau Reader (Tableau Lector): Permite la visualización de manera
gratuita prácticamente a cualquier persona, para interactuar con los libros de
481
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
482
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
11.2.5. La empresa
En este apartado se documenta acerca de la empresa a dónde se dirige la
propuesta de uso de herramientas de visualización de datos.
483
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Misión:
Impulsar el desarrollo del medio rural y de las actividades del sector primario, a
través del crédito y servicios financieros accesibles a productores, intermediarios
financieros rurales y otros agentes económicos, con la finalidad de elevar la
productividad y contribuir a mejorar el nivel de vida de la población.
484
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Visión:
Es preciso proponer una fuente de información más dinámica que les permita
en una forma casi instantánea ver el comportamiento de cada Agencia y/o Módulo
de atención e incluso los logros obtenidos por cada empleado con funciones de
Ejecutivo de Financiamiento. Como propuesta, es en primera instancia, poder
identificar mediante un comparativo cuál de las dos herramientas de visualización
de datos puede ajustarse mejor a las necesidades del usuario.
485
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
11.3. Desarrollo
Existen en el mercado diversas y muy completas herramientas de
visualización. En este trabajo se tomaron en consideración Tableau y Power BI.
486
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
487
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
488
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
489
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Para comenzar a realizar análisis de los datos se requiere abrir una hoja de
trabajo, esta opción se encuentra ubicada en la parte inferior izquierda de Tableau
Public, tal y como se ilustra en la figura 16.
490
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
En la Figura 18, se puede observar que la primera gráfica solo se señala que
países se evalúan, pero en la siguiente gráfica, cuando se le agrega otra variable
al lienzo de trabajo, la gráfica cambia para mostrar cada país del mundo y que
cantidad de CO2 son emitidas cada año.
491
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Con Tableau, el equipo trabaja desde una sola fuente, lo que conlleva una
mayor colaboración y precisión. El volumen de datos es de 30 millones de registros
debido a que tienen 15 años de historia. Cuentan con una data warehouse, el cual
les ha permitido almacenar tal cantidad de información. Al ser una institución
financiera, se debe dar seguimiento al cumplimiento de las metas, así como los
indicadores que se tienen proyectados anual y mensualmente e ir anticipando
incidencias.
492
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Con Tableau “se deja de ser un área que generaba reportes a ser un área
que genera estrategias para la venta” (Cisneros, s.f.). “Con un par de clics se puede
identificar quien es el que debe más y tomar acción para recuperar ese dinero”
(Cisneros, s.f.).
493
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
495
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
496
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
497
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
498
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
499
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Por tal motivo es indispensable que además de las herramientas con las que
cuenta para la medición o evaluación del cumplimiento de la colocación (bases de
datos en Excel), se pueda tener otra alternativa que proporcione nuevas y mejores
opciones de visualización y análisis de los datos que diariamente se generan.
CORPORATIVO
COORD. REG. COORD. REG. COORD. REG. COORD. REG. COORD. REG.
NTE NORESTE SUR SURESTE CENTRO -
OCCIDENTE
501
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Enseguida desde el área de TI quienes son los únicos con accesos para la
migración de datos, emiten un comunicado donde se envía por medio del correo
electrónico, la fuente de datos y reportes diariamente para su evaluación. Es aquí
donde entraría la herramienta de visualización Power BI, ya que ellos envían tanto
la base de datos como el reporte graficado con los indicadores más relevantes.
502
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
503
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
FORTALEZAS
Mayor tiempo en el mercado DEBILIDADES
Crea dasboards visuales Competencia de otras ofertas en el
mercado
Responde preguntas de negocios
Graficos novedosos.
TABLEAU
OPORTUNIDADES AMENAZAS
Diseñada para análisis profundo de Licencia profesional aprox. $1,339.00
datos por usuario y mes
Cuenta con una excelente versatilidad Su interfaz requiere de conocimientos
Mayor numero de visualizaciones más amplios
Cuenta con aplicaciones gratuitas.
504
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
FORTALEZAS DEBILIDADES
Fácil integración con otras herramientas Menos potencia con el uso de datos
de Microsoft complejos o analiis profundos de datos
Trining Videos desde la aplicación
No requiere de conocimientos Competencia de otras ofertas en el
informáticos mercado
POWER BI
OPORTUNIDADES AMENAZAS
Esta diseñada para usuarios que no Menor número de graficos en relación a
son expertos en análisis de datos. otras opciones
Interfaz amigable, por lo que la hace
sencilla de manejar.
Licencia profesional $191.00 por
usuario y mes.
Para muchos, es tanta la familiaridad con herramientas como Excel que, muy
probablemente exista cierta resistencia al cambio, pero es importante mencionar
que con el ritmo de trabajo y la facilidad con la que se generan datos, se debe optar
505
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
por cambiar las herramientas y los procedimientos para que los datos puedan fluir
tan rápido como son generados y poderlos transformar en información.
Tableau y Power BI, sin duda dos de las herramientas más usadas en el
mundo de la visualización de datos, cada una tendrá sus defensores, pero también
sus detractores dependiendo cual se ajuste a las necesidades de información y
visualización que requieran. Ambas pueden generar reportes con información
relevante para la toma de decisiones, que finalmente es lo que el usuario requiere,
sin embargo, Tableau se enfoca más a datos especializados, trabaja con fuentes de
datos con mayor complejidad, como se ha descrito los usuarios que la usan deben
tener un nivel de conocimiento más alto, lo cual no es limitante, pues su interfaz
ayuda a aprender su modo de uso.
506
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Claro está que con este tipo de herramientas es posible obtener información
tan precisa y ser presentada de manera visualmente más interesante. Poder
generar un histórico de colocación y evaluar en que periodos los créditos son más
buscados aunado a esto, crear estrategias para los meses que con los datos
históricos se conoce que no hay tanta demanda.
La información que puede resultar de unas tablas de Excel, que a simple vista
no se encuentra relación entre sí, no tiene límites y el poder contar con estas
herramientas que facilitan estos procesos y que son gratuitas, no hay lugar a pensar
el por qué no usarlas.
507
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Conclusiones
508
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Bibliografía
Aguilar, L. J. (2016). Big Data, Análisis de grandes volúmenes de datos en organizaciones.
Alfaomega Grupo Editor.
Carto (2018). Unlock the power of spatial analysis. Carto. Recuperado de: https://carto.com/
Cisneros, A. R. (s. f.). GNP centraliza sus datos y gana agilidad en la toma de decisiones.
Soluciones Tableau. Recuperado de: https://www.tableau.com/es-
es/solutions/customer/GNP-centraliza-sus-datos-y-gana-agilidad-en-la-toma-de-
decisiones
509
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Martínez, C. G. (s.f). Nacional Financiera alcanza sus objetivos financieros con el análisis
de datos de autoservicio. Soluciones Tableau. Recuperado de:
https://www.tableau.com/es-es/solutions/customer/nacional-financeria-hits-
financial-goals-self-service-analytics
Power BI. (2018). Características Power BI. Power BI, Microsoft. Recuperado de:
https://powerbi.microsoft.com/es-es/features/
Rud, O. P. (2000). Data Mining Cookbook Modeling Data for Marketing, Risk, and Customer
Relationship. John Wiley & Sons, 2001
Ruiz, R. Á. (2018). Minería de datos en redes sociales para pymes. Universidad de Jaén.
Recuperado de https://hdl.handle.net/10953.1/7836
510
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Tascón, M. (2013). Introducción: Big data. Pasado, presente y futuro. Telos: Cuadernos de
comunicación e innovación, (95), 47-50.
Turner, V., Gantz, J. F., Reinsel, D., y Minton, S. (2014). The digital universe of
opportunities: Rich data and the increasing value of the internet of things. IDC
Analyze the Future, 16
Wong, V. (2018). Compare 6 Types and 14 Data Visualitations Tools. Recuperado de:
https://it.toolbox.com/blogs/vincentwong/compare-6-types-and14-data-
visualization-tools-091618
511
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Capítulo 12
12.1. Introducción
Se dice que una imagen vale más que mil palabras, los seres humanos han
sido capaces de inventar diferentes herramientas de visualización a partir de la idea
de que una imagen puede transmitir una mayor cantidad de información que un
párrafo o una tabla.
512
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
513
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
514
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
515
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
análisis de dichas soluciones para optar por la que mejor se ajuste a las
necesidades de la organización y al perfil de los usuarios.
516
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
12.2.1. Conceptos
• Datos: Un dato es valor numérico discreto o continuo que representa algo de la
realidad. En el ámbito empresarial un dato es una transacción de compra, venta,
transferencia, depósito, retiro, entre otras cosas. Un dato por sí sólo no indica
nada si no se le asocia dentro de un contexto para tenga significado y propósito.
(Carrión, Diferencia entre Dato, Información y Conocimiento, s.f.)
• Información: Es aquello absolutamente esencial para comunicar algo de la
forma más clara y objetiva posible, es un conjunto organizado de datos capaces
de cambiar el estado de conocimiento en el sentido de las consignas
transmitidas. La información tiene una estructura interna y puede ser calificada
según varias características. (Carrión, Diferencia entre Dato, Información y
Conocimiento, s.f.)
• Conocimiento: El conocimiento es algo más complexo, más grande, más
profundo y más enriquecedor que los datos y la información. El conocimiento es
una combinación de experiencias, valores, información y saber hacer que se
utiliza como fuente la nuevas experiencias e información, y es trascendente para
la toma de decisiones. Su origen se aplica en la mente de las personas. (Carrión,
Diferencia entre Dato, Información y Conocimiento, s.f.)
• Ciencia de datos: Una acepción acerca de este concepto, es el arte de
combinar y utilizar varias herramientas, principios de aprendizaje automático y
algoritmos cuyo propósito es descubrir patrones ocultos y conocimiento a partir
de datos. (Jones, 2019).
• Big Data: Se describe como un conjunto de datos que tienen un tamaño que
supera la función normal de las herramientas de software de base de datos,
como el almacenamiento, la captura, el procesamiento y el análisis. Se refiere a
una colección de conjuntos de datos que son muy grandes y complejos, además
de estructurados trata con datos no estructurados de manera que no se puede
procesar utilizando herramientas de administración de bases de datos
tradicionales. (Jones, 2019)
• Visualización de datos: Consiste en la aplicación de técnicas para seleccionar,
procesar y poner a disposición de una audiencia una cantidad de datos,
517
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
518
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
519
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
• El reconocimiento de la experiencia
• El análisis de los datos contextualizados
• La capacidad de extraer e integrar datos de múltiples fuentes
• El procesamiento de los registros obtenidos en información útil para el
conocimiento de la organización
• La búsqueda de relaciones de causa y efecto, trabajando con hipótesis y
desarrollando estrategias y acciones competitivas (Puerta Gálvez, 2016).
520
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
12.2.4. Tableau
Tableau es una herramienta de visualización de datos, es decir, el usuario
tiene la posibilidad de interactuar con los datos: comparar, filtrar, conectar unas
variables con otras; además, la plataforma y los paneles que se pueden crear con
la herramienta son muy visuales; facilita la comprensión rápida de los datos; tiene
algunas ventajas interesantes con bases de datos; acepta formatos con Excel,
Access y texto; se puede acceder a muchas bases de datos comunes como
Microsoft SQL Server, MySQL, Oracle, entre otros (Flores Avendaño & Villacís
Vera, 2017).
521
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
522
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
un enfoque totalmente centrado en cómo las personas ven y comprenden los datos
con una plataforma robusta y escalable, lo cual le ha permitido volverse efectiva
incluso para las organizaciones más grandes del mundo.
523
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
R abarca una amplia gama de técnicas estadísticas que van desde los
modelos lineales a las más modernas técnicas de clasificación pasando por los test
clásicos y análisis de series temporales.
Cuenta con la licencia GNU GPL o software libre, es decir, se puede instalar
sin licencia o de uso comercial, respeta la libertad de los usuarios, paquetes
descargables elaborados por una comunidad de programadores y software libre
publicado por otras personas.
524
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
525
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
526
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Durante el año 2010, se entregan varios proyectos de salud, entre los cuales
están: el Laboratorio Estatal de Salud Pública, el Hospital General de Lerdo, la
UNEME-CISAME en Durango, Dgo., el Centro de Salud de la Col. 5 de Mayo en
Durango, Dgo., el Hospital Integral de Villa Unión, en Poanas, Dgo. Y la UNEME-
EC de Santiago Papasquiaro.
527
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
528
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
529
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
12.3. Desarrollo
En la actualidad la Ciencia de los Datos permite apoyar los sistemas y
procesos tecnológicos empleando las estadísticas recopilando una gran cantidad
de información, garantizando una rapidez, precisión y eficacia, impulsando a la
correcta toma de decisiones.
530
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Figura 3. Reporte de Enfermedades Diarreicas Agudas (EDAs) 2017. SUAVE. Elaboración propia
Figura 4. Reporte de Enfermedades Diarreicas Agudas (EDAs) 2018. SUAVE. Elaboración propia
531
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
532
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Se busca que los informes generados por las dos propuestas permitan
visualizar la información requerida por el o las distintas áreas involucradas de
manera desglosada y comparativa por fecha para así observar el comportamiento
de los diagnósticos y permita evitar o prever epidemias, brotes, aumentos
inadecuados de enfermedades entre otras de interés social y epidemiológico
533
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
534
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
535
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Por mencionar algunos de los campos que concentra este informe es Estado,
Programa, Tipo de Trabajos, Tramo, Ubicación, Meta, Asignación, Número de
536
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Figura 9. Informe del proceso de licitación, contratación, ejecución y terminación de las obras.
Elaboración propia
Algunos datos que contiene el reporte son Tipo de Red, Partida Presupuestal,
Número SAOP, Número de Contrato, Nombre de la Empresa, RFC, Tipo de Trabajo,
Nombre de la Obra, Ubicación, Meta, Asignación, Avances Físicos y Financieros,
fechas diversas, entre otros.
538
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
539
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Figura 11 Avance físico financiero de obra en Durango (Primera parte) de Julio 2020 (SCT.
Subecretaría de Infraestructura. Dirección General de Conservación de Carreteras, 2020).
540
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Figura 12 Avance físico financiero de obra en Durango (Segunda parte) de Julio 2020 (SCT.
Subecretaría de Infraestructura. Dirección General de Conservación de Carreteras, 2020).
541
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
542
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
543
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Figura 16. Ejemplo de visualizaciones en Tableau con de población de INEGI. (Sada, 2013).
Conclusiones
Debido a los avances de la tecnología producidos sobre todo a lo largo del
siglo XX, la humanidad se ha transformado en una sociedad de la información con
el uso de las nuevas tecnologías.
544
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
545
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
permite observar de manera más fácil y rápida y así poder detectar algo anormal en
el comportamiento de la información y poder tomar decisiones y realizar acciones
que beneficien a la población.
546
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
Referencias
Alcalde Perea, I. (2015). Visualización de la información: De los datos al conocimiento. Barcelona:
UOC.
Ayala, J., Ortiz, J. G., & Maya, E. (2018). Herramientas de Business Intelligence (BI) modernas,
basadas en memoria y con lógica asociativa . REVISTA PUCE. ISSN: 2528-8156. NÚM.106,
20.
Carrión, J. (s.f. de s.f. de s.f.). Diferencia entre Dato, Información y Conocimiento. Obtenido de
Diferencia entre Dato, Información y Conocimiento:
http://biblioteca.udgvirtual.udg.mx:8080/jspui/bitstream/123456789/869/3/Diferencia_entre_
dato_informaci%c3%b3n.pdf
De Juana, R. (18 de 02 de 2019). MCPRO. Obtenido de El Cuadrante Mágico de Gartner: casi todo
lo que tienes que saber: https://www.muycomputerpro.com/2019/02/18/el-cuadrado-magico-
de-gartner-casi-todo-lo-que-tienes-que-saber
Flores Avendaño, P. A., & Villacís Vera, A. E. (01 de 09 de 2017). Análisis Comparativo de las
Herramientas de Big Data. En la Facultad de Ingeniría de la Pontificia Universidad Católica
del Ecador. Quito, Quito, Ecuador: Pontifica Universidad Católica del Ecuador. Facultad de
Ingeniería de Sistemas y Computación.
Jones, H. (2019). Analítica de Datos. La guía definitiva de análisis de Big Data para empresas,
técnicas de minería de datos, recopilación de datos y conceptos de inteligencia empresarial.
México: Independently published.
Jones, H. (2019). Ciencia de los Datos. Lo que saben los mejores científicos de datos sobre el
análisis de datos, minería de datos, estadísticas, aprendizaje automático y Big Data que
usted desconoce. México: Amazon Mexico Services, Inc.
Martínez, R. (s.f. de s.f. de s.f.). Empoderamiento de los ciudadnos en el análisis de los datos
abiertos. Obtenido de Empoderamiento de los ciudadnos en el análisis de los datos abiertos:
547
CIENCIA DE LOS DATOS. PROPUESTAS Y CASOS DE USO
http://openaccess.uoc.edu/webapps/o2/bitstream/10609/72847/6/xyulexTFM0118memoria.
pdf
Sedeño Valdellós, A. (2016). La visualización de datos como recurso social: posibilidades educativas
y de activismo. Razón y palabra. Primera Revista Electrónica en Iberoamérica Especializada
en Comunicación. Vol. 20, Núm 1, 14.
548