Pi 3

Actividad 8:
Proyecto Integrador Etapa 3
Equipo: 8
Nombres: Héctor Alejandro Rojas Ortíz

Carlos Alberto Rojas Guerrero
Manuel Alejandro Ruiz Quezada
Materia: Explotación de datos empresariales
Programa: Maestría Ciencia de Datos
Docente: Dr. Patricia Rayón Villela
San Nicolás de los Garza, N. L., a 10 de agosto 2019
0
Contenido
Introducción................................................................................................................................2
Proyecto Etapa 1.......................................................................................................................3
Plan de Instalación R y R Studio.........................................................................................3
Preguntas.........................................................................................................................17
Proyecto Etapa 2.....................................................................................................................22
Ejercicio 1.............................................................................................................................22
Ejercicio 2.............................................................................................................................28
Ejercicio 3.............................................................................................................................32
Ejercicio 4.............................................................................................................................32
Etapa 3......................................................................................................................................33
Ejercicio 1.............................................................................................................................33
Ejercicio 2.............................................................................................................................37
Informe del proyecto...............................................................................................................39
Conclusión................................................................................................................................40
Referencias..............................................................................................................................40
Introducción
1
En este documento consiste en aplicar los conocimientos adquiridos a lo
largo del curso y retomar lo aprendido en asignaturas previas, de modo que
se integraran diferentes disciplinas. De igual forma, se toman como
referente actividades elaboradas previamente, lo que garantiza la
transversalidad de los contenidos revisados para fortalecer el desarrollo de
competencias.
Lo planteado en el proyecto integrador ayuda a demostrar la aplicabilidad

de las técnicas de análisis a cualquier ámbito empresarial. Esto permite
extrapolar el conocimiento adquirido a conjuntos de datos del ámbito
profesional, con la finalidad de preparar datos para su análisis mediante la
aplicación de modelos predictivos.
2
Proyecto Etapa 1
Plan de Instalación R y R Studio
Paso 1
En primera instancia se instalará R y el cual se descarga del siguiente

enlace:
https://cran.r-project.org/
Paso 2
Seleccionamos el cual se acomode a nuestro sistema operativo, en mi

caso elegí para Windows:
3
Paso 3
Pulsamos en base
Paso 4
Descargamos R 3.5.1
4
Paso 5
Haciendo doble clic sobre el fichero comenzamos la instalación y

pulsamos en ejecutar.
Paso 6
Elegimos el idioma de instalación
5
Paso 7
A continuación, arranca el Asistente de instalación, pulsar siguiente:
Paso 8
Informa sobre la licencia, pulsar siguiente.
6
Paso 9
Indicar la ruta de instalación y pulsar siguiente.
Paso 10
Seleccionar los paquetes a instalar, pulsar siguiente.
7
Paso 11
Elegir NO para las opciones de configuración, pulsar siguiente.
Paso 12
Elegir la carpeta del menú inicio donde colocar los accesos directos a los
elementos del paquete, pulsar siguiente.
Paso 13
8
Selección de las tareas adicionales, pulsar siguiente.
Paso 14
Instalación de la aplicación que puede demorar un minuto.
Paso 15
9
Una vez finalizada el proceso de instalación sale una ventana
indicándolo. Pulsar Finalizar.
Paso 16
Se agregará el icono en el escritorio.
Paso 17
Abrimos la aplicación para validar que se ejecute sin ningún error:
10
Paso 18
En segunda instancia se instalará R Studio y el cual se descarga del

siguiente enlace:
https://www.rstudio.com/
Paso 19
Seleccionamos la versión free:
11
Paso 20
Elegimos la que se adapte a nuestro sistema operativo del ordenador (en mi

caso elegí para Windows)
Paso 21
Haciendo doble clic sobre el fichero comenzamos la instalación y pulsamos en

ejecutar.
12
Paso 22
Aparece el Asistente de instalación, pulsar siguiente.
Paso 23
Elegir el directorio de instalación del paquete, pulsar siguiente.
13
Paso 24
Elegir la carpeta del menú inicio donde colocar los accesos directos a los
elementos del paquete, pulsar Instalar.
Paso 25
A continuación, comienza la instalación que dura menos de un minuto

aproximadamente.
14
Paso 26
Enseguida aparece el asistente indicando que ha finalizado la

instalación. Pulsar Terminar.
Paso 28
Aparecerá el icono del RStudio que hemos instalado.
15
Paso 29
Al arrancar Rstudio nos aparece lo siguiente:
Preguntas
1) ¿Qué problemas encontraste al instalar RStudio y cómo los resolviste?
16
Al momento de instalar la herramienta no se presentó ningún detalle, el
único problema que se presentó fue al momento de instalar un paquete:
install.packages("proto")
Mensaje:
Los paquetes de origen descargados están en

?/tmp/Rtmph4YKLX/downloaded_packages?
Actualizar índice HTML de paquetes en '. Biblioteca '
Advertencia en install.packages:
no se puede crear el archivo
' / opt/POC/lib64/Revo-7.3/R-3.1.1/lib64/R/doc/html/packages.html',
razón
'Permiso denegado'
Solución:
Este error se mostró porque no se tiene los permisos de archivo

necesarios para poder escribir en la carpeta de biblioteca R actual como
el usuario, actualmente está conectado. Puede utilizar la función de R
'.libPaths()' para ambas consultas y cambiar la ubicación actual que r
utilizará para instalar nuevas bibliotecas aportados por el usuario.
Por ejemplo:
>.libPaths("/home/testuser/Rlib")
2) ¿Qué tipo de datos relacionados con tu ámbito laboral te interesaría

analizar y cuál sería su finalidad?
Con relación la herramienta R, se pueden cubrir casi todos los rubros de la

empresa donde trabajo en relación al análisis de datos, para tareas
relacionadas con minería de datos se puede utilizar con grandes resultados,
tiene paquetes con los que puedes hacer modelos de regresión lineal, análisis
17
temporal, correlación factorial, ANOVA. También se puede hacer fácilmente
exploración de datos para poder determinar la limpieza de los mismos. En este
sentido también se puede hablar de que se pueden hacer reportes completos
con el uso de otros paquetes de esta herramienta. Existen gran cantidad de
paquetes para gráficos y mapas, dando así una solución rápida a las
necesidades de BI de cualquier empresa. No se tiene la certeza por lo pronto
de su conectividad con las bases de datos más populares, como Oracle o
Netezza, y no contamos con información propia para evaluar el desempeño al
manejar grandes volúmenes de datos, hablando de entre 10 a 100 GB de
información por día, esto sería un tema a investigar. Pero la parte bondadosa
de R es su comunidad y soporte, con esto me refiero a que hay solución para
casi cualquier problema en la red acerca del uso de R.
3) ¿Qué ventajas podrías señalar a partir de la utilización de RStudio y su

relación con el tratamiento de bases de datos?
Ventajas:
 R es un software libre:
o Cuenta con la licencia GNU GPL el cual consta de 4
libertades
 Libertad 0: la libertad de ejecutar el programa como
desee y con cualquier propósito
 Libertad 1: libertad de estudiar el funcionamiento del
programa y adaptarlo a sus necesidades.
 Libertad 2: La libertad de rescribir copias para
ayudar a los demás.
 Libertad 3: La libertad de manejar el programa y
publicar las mejorar, de manera que toda
comunidad se beneficie.
 Es multiplataforma, R funciona en Mac, Windows, y en números
sistemas UNIX.
18
 Es de código abierto, existe una gran comunidad de voluntarios
trabajando para mejorarlo, lo cual permite ser moldeado y dirigido
a cuestiones específicas.
 R es una plataforma estadística, lo cual ofrece todas las
técnicas de análisis de datos.
 Los gráficos disponibles en R son de gran calidad y de una
versatilidad impresionante.
 R remplaza la combinación de varios programas, puedes
realizar todo el análisis de datos e inclusive leer archivos de
diferentes formatos.
 R se está convirtiendo en un estándar en la sociedad científica,
por hacer figuras de calidad de publicación.
4) Investiga al menos dos herramientas alternativas a RStudio para el

análisis de datos y menciona brevemente sus características, ventajas y
desventajas considerando el ámbito laboral y/o profesional en el que te
desenvuelves
Herramienta de minería de texto T-lab
Hablando de la exploración de textos se puede utilizar una herramienta llamada

T-lab que te permite hacer agrupamiento, explorar relaciones y explorar
semejanzas y diferencias entre archivos de texto, esta herramienta consta de
una interfaz fácil de usar para científicos, estudiantes y docentes, a pesar de
que tiene una interfaz gráfica se tiene que tener un bagaje para saber utilizarlo
cómodamente.
A diferencia de Matlab, tiene suits especializadas en varios temas diferentes,

en este caso no se tiene que escribir gran cantidad de código en T-lab como se
hace manualmente en R. esto implica varias diferencias, al utilizar un código
nativo para R entonces se tiene más libertad de hacer lo que se quiera
programar, pero obviamente se necesita más conocimiento especializado en
codificación y bases de datos.
19
Otra diferencia es el tipo de licencia que tiene, R al ser soportado por una
comunidad lo podemos usar libremente y podemos descargar bastantes
librerías que son generadas por esta misma comunidad y se pueden usar sin
ningún problema. En T-lab no se cuenta con dicha comunidad, pero al ser
especializada para las empresas entonces tiene una licencia que tiene un costo
y si tiene derechos reservados entonces no hay una comunidad que esté
continuamente añadiendo funcionalidades.
Herramienta de minería de datos WEKA
Una de las herramientas utilizadas para el análisis y manipulación de datos que

puede ser alternativa a RStudio es WEKA.
Este software es una herramienta muy potente que está escrita en Java, lo cual
permite que pueda ser instalada y usada prácticamente en cualquier dispositivo
que cuente con este ambiente. Otra de las principales características, al igual
que RStudio, es que se mantiene como un software libre y que cuenta con una
comunidad activa para poder solucionar problemas o mejorar el sistema al
mismo tiempo.
Weka es un software capaz de crear algoritmos de machine learning, además

de poder contar con herramientas para la minería de datos, clasificación,
regresión, clustering y visualización. Otra ventaja importante de Weka es que
proporciona acceso a las bases de datos SQL, ya que utiliza la conectividad
que tiene Java con las bases de datos utilizando JDBC para poder manipular la
información almacenada de forma fácil.
Dentro de sus posibles campos de aplicación por el tipo de datos que utiliza y
los métodos de minería de datos que brinda pueden ser el marketing,
manufactura, salud, finanzas y medicina.
20
Proyecto Etapa 2
Para poder realizar los ejercicios, se necesita instalar las librerías necesarias y
la base de datos de diamantes.
Ejercicio 1
Explore la distribución de price. ¿Descubres algo inusual o sorprendente?

(Sugerencia: piense cuidadosamente binwidthy asegúrese de probar una
amplia gama de valores).
Hacemos un plot de la variable precio, podemos ver que hay tres tendencias,
una que incrementa mucho su valor, otra incremente discretamente y otra se
mantiene igual.
21
Podemos ver que los precios se comportan de manera usual, hay más
diamantes baratos y menos caros.
22
Vamos a estudiar los diamantes caros de más de 15000, por eso hacemos un
set de datos separado con estos datos.
En los diamantes caros, el corte que prevalece es el Premium.
En el set de diamantes normales el corte que prevalece es ideal lo que quiere

decir que es muy posible que el corte tenga mucho que ver en el precio.
No hay diferencia entre el set de datos normal y el de diamantes caros con

respecto a depth.
hist(diamantescaros$depth)
23
hist(diamantes$depth)
24
SI2 prevalece en diamantes caros, y SI1 en diamantes, puede ser que el la
claridad tenga algo que ver.
plot(diamantescaros$clarity)
plot(diamantes$clarity)
25
El color L prevalece en diamantes caros, es diferente la distribución en
diamantes, puede ser que sea un factor relevante.
plot(diamantescaros$color)
plot(diamantes$color)
26
El kilaje prevalece en 2 en diamantes caros, entre el dos y el tres. La
distribución es completamente diferente en diamantes, este puede ser el factor
principal.
El costo de los diamantes al parecer tiene que ver con la claridad, el color, el
corte y sobre todo carat, no con depth.
27
Ejercicio 2
¿Cuántos diamantes son 0.99 quilates? ¿Cuántos son 1 quilate? ¿Cuál

crees que es la causa de la diferencia?
Se puede observar que hay un gran número de diamantes con carat 1 y pocos
con .99 y .98
Hacemos un set de datos con estas ocurrencias y catar al parecer tiene que ver
con el corte, cuando carat es 1 entonces el corte es Premium, de otra manera
es ideal.
28
La variable depth parece no tener diferencia entre los set de datos.
29
x es un valor muy significativo, hay una gran diferencia en las distribuciones de
diamantes carat y diamantes.
30
Y tiene diferencia pero no se aprecia claramente
Podemos concluir que el corte aporta mucho al kilaje exacto de 1, y la variable

x, en cambio la variable depth no tiene nada que ver.
31
Ejercicio 3
Visualice la distribución de quilates, dividida por precio.
Ejercicio 4
¿Cómo se compara la distribución de precios de los diamantes muy grandes

con los diamantes pequeños? ¿Es como esperabas o te sorprende?
El histograma remueve valores irregulares, esto quiere decir que

automáticamente hace un análisis de varianza y los datos irregulares los
remueve.
na.rm false en mean and sum hacen que retorne un NA pero si esta en true
solo ignora el valor, en caso de mean ignora la línea para que no afecte el
promedio ya que la suma se divide entre el número de ocurrencias.
32
Etapa 3
El objetivo de la tercera parte del proyecto integrador es realizar ejercicios de

covarianza en RStudio, para identificar relaciones entre variables en los datos.
Esta relación ayuda a identificar la tendencia de dos variables a cambiar con alguna
función de dependencia. Para ello, se utiliza nuevamente los conjuntos de datos
diamonds (información sobre atributos de diamantes), faithful (erupciones del geiser
Faithful en Yellowstone) y mpg (información de rendimiento en combustible de autos).
Ejercicio 1
¿Qué variable en el conjunto de datos de diamantes es el más importante para

predecir el precio de un diamante?¿Cómo se correlaciona esa variable corte? ¿Por
qué la combinación de esas dos relaciones hace que los diamantes de menor calidad
sean más caros?
Como parte de la exploración hacemos una gráfica de caja de cada elemento de corte
con la variable precio, se visualiza que hay observaciones anormales en todos. Esto
significa que hay precios muy elevados en todos los cortes, pero también los hay en
cortes tipo fair.
boxplot(diamantes$price~diamantes$cut)
33
Identificar estadísticamente si en verdad las variables de corte, color y claridad son un
factor relevante en el precio. Procedemos con el análisis de varianza para comprobar:
anova(lm(diamantes$price~factor(diamantes$cut)))
anova(lm(diamantes$price~factor(diamantes$color)))
anova(lm(diamantes$price~factor(diamantes$clarity)))
Se demuestra que todos los factores son relevantes en el precio con el set de
datos completo, aunque el menos significativo de los tres es el corte.
Subdividimos el set de datos en los diamantes más caros, arriba de 1300
diamantescaros <- filter(diamantes,diamantes$price > 13000)
Se realiza de nuevo el análisis de varianza para el set de datos de diamantes

caros:
anova(lm(diamantescaros$price~factor(diamantescaros$cut)))
34
anova(lm(diamantescaros$price~factor(diamantescaros$color)))
anova(lm(diamantescaros$price~factor(diamantescaros$clarity)))
Aquí se observa que el corte no es un factor significativo en este set de datos,

lo que verifica que en verdad estas observaciones son anormales. Esto quiere
decir que hay pocos datos o poca densidad de datos de corte de mala calidad
que son caros. Se requiere una gráfica para comprobar:
boxplot(diamantescaros$price~diamantescaros$cut)
35
En este set se puede verificar que la media de los diamantes caros para corte
de mala calidad es menor:
plot(diamantescaros$cut)
En la gráfica anterior se observa que hay muy pocos datos de diamantes arriba
de 13000 que tienen un corte de baja calidad, en realidad se tratan de
observaciones anormales.
diamantescaros
En realidad, hay menos de 40 observaciones de mala calidad en diamantes

caros de 2800 observaciones, esto es casualidad, no es un factor significativo,
36
estas observaciones son totalmente anormales y significa una inflación del
vendedor en un diamante de mala calidad.
Ejercicio 2
Instalar el paquete ggstance y crear un boxplot horizontal. ¿Cómo se compara esto

con el uso de coord_flip()?
Instalar el paquete ggtance

install.packages("ggstance")
A continuación, se muestra una gráfica de cajas de los mismos datos del

ejercicio anterior, la densidad de diamantes arriba de 10000 es muy escasa
para el corte fair:
boxplot(diamantes$price~diamantes$cut, horizontal = T)
boxplot(diamantescaros$price~diamantescaros$cut, horizontal = T)
37
Se concluye que hay casos de abuso al incrementar el precio de diamantes de
baja calidad, y son observaciones anormales.
38
Informe del proyecto
El poder de R consiste en la modularidad de sus componentes, cada

desarrollador o equipo de desarrollo que ha escrito código para R tiene
diferentes aproximaciones para dar una solución a un problema, así podemos
ver que existen muchas librerías de gráficos, unos más recomendables y
fáciles de usar que otros, pero todos coinciden en la importancia de los
gráficos. Es muy difícil visualizar que está pasando con el set de datos
existentes si solo vemos números y valores de variables, es por eso por lo que
tenemos graficas que nos representan de manera rápida el comportamiento de
estos datos, como el histograma y la gráfica de cajas. Hay una máxima común
en los ingenieros mecánicos que dice: “una gráfica dice más que mil
ecuaciones” y esto es cierto para cada rama de ciencia que tenga números y
valores.
En el caso de este proyecto, las gráficas son la herramienta principal para la

inspección de datos, tanto el histograma como la gráfica de cajas sirven no solo
para verificar que los datos sean consistentes, sino también para darnos una
idea del comportamiento de los datos, incluso para saber una aproximación de
la distribución del set de datos.
Gracias a las gráficas generadas por R se pueden presentar hipótesis que

después podemos verificar con métodos estadísticos, y es precisamente de
esta forma que se debe de hacer el descubrimiento de conocimiento. La
exploración de datos es el primer paso de explotación de los datos y por lo
tanto es el más importante, después de la exploración vendrá la comprobación
con métodos estadísticos y la generación de modelos.
39
Conclusión
R es una herramienta versátil y modular, no sé qué tan poderosa sea en el uso

de hardware dado un volumen considerable de datos, pero creo que el tema a
resaltar de R son sus paquetes. R es conocido mundialmente y es un software
libre, su comunidad está desarrollando continuamente nuevos paquetes gratis
para dar solución a nuevos problemas. Lo que significa R es un punto de
encuentro para desarrolladores e interesados en tecnologías de información
para el crecimiento de conocimiento.
Referencias
 Experimental Learning (02 de abril de 2017). R - Install R and R Studio

on Windows 10 [Archivo de video]. Recuperado de https://youtu.be/9-
RrkJQQYqY
 rvaquerizo. (2009). Manual. Curso introducción de R. Capítulo 15:

Análisis Cluster con R (II). octubre 7, 2018, de analisisydecision.es Sitio
web: http://analisisydecision.es/manual-curso-introduccion-de-r-capitulo-
15-analisis-cluster-con-r-ii/
 Unknown . (2015). Ventajas y Desventajas de utilizar R. Julio 28, 2019,

de http://rstadistica.blogspot.com Sitio web:
http://rstadistica.blogspot.com/2015/10/VentajasDesventajasR
 Garrett Grolemund (Enero de 2017). R for Data Science. Recuperado de

https://r4ds.had.co.nz/
40

Pi 3

Cargado por

Copyright:

Formatos disponibles

Pi 3

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Pi 3

Cargado por

Copyright:

Formatos disponibles

Actividad 8:

Proyecto Integrador Etapa 3

Nombres: Héctor Alejandro Rojas Ortíz

Materia: Explotación de datos empresariales

Programa: Maestría Ciencia de Datos

Docente: Dr. Patricia Rayón Villela

San Nicolás de los Garza, N. L., a 10 de agosto 2019

Lo planteado en el proyecto integrador ayuda a demostrar la aplicabilidad

Plan de Instalación R y R Studio

En primera instancia se instalará R y el cual se descarga del siguiente

Seleccionamos el cual se acomode a nuestro sistema operativo, en mi

Haciendo doble clic sobre el fichero comenzamos la instalación y

Elegimos el idioma de instalación

A continuación, arranca el Asistente de instalación, pulsar siguiente:

Informa sobre la licencia, pulsar siguiente.

Indicar la ruta de instalación y pulsar siguiente.

Seleccionar los paquetes a instalar, pulsar siguiente.

Elegir NO para las opciones de configuración, pulsar siguiente.

Instalación de la aplicación que puede demorar un minuto.

Se agregará el icono en el escritorio.

Abrimos la aplicación para validar que se ejecute sin ningún error:

En segunda instancia se instalará R Studio y el cual se descarga del

Seleccionamos la versión free:

Elegimos la que se adapte a nuestro sistema operativo del ordenador (en mi

Haciendo doble clic sobre el fichero comenzamos la instalación y pulsamos en

Aparece el Asistente de instalación, pulsar siguiente.

Elegir el directorio de instalación del paquete, pulsar siguiente.

A continuación, comienza la instalación que dura menos de un minuto

Enseguida aparece el asistente indicando que ha finalizado la

Aparecerá el icono del RStudio que hemos instalado.

Al arrancar Rstudio nos aparece lo siguiente:

1) ¿Qué problemas encontraste al instalar RStudio y cómo los resolviste?

Los paquetes de origen descargados están en

Este error se mostró porque no se tiene los permisos de archivo

2) ¿Qué tipo de datos relacionados con tu ámbito laboral te interesaría

Con relación la herramienta R, se pueden cubrir casi todos los rubros de la

3) ¿Qué ventajas podrías señalar a partir de la utilización de RStudio y su

4) Investiga al menos dos herramientas alternativas a RStudio para el

Herramienta de minería de texto T-lab

Hablando de la exploración de textos se puede utilizar una herramienta llamada

A diferencia de Matlab, tiene suits especializadas en varios temas diferentes,

Herramienta de minería de datos WEKA

Una de las herramientas utilizadas para el análisis y manipulación de datos que

Weka es un software capaz de crear algoritmos de machine learning, además

Explore la distribución de price. ¿Descubres algo inusual o sorprendente?

En los diamantes caros, el corte que prevalece es el Premium.

En el set de diamantes normales el corte que prevalece es ideal lo que quiere

No hay diferencia entre el set de datos normal y el de diamantes caros con

¿Cuántos diamantes son 0.99 quilates? ¿Cuántos son 1 quilate? ¿Cuál

Podemos concluir que el corte aporta mucho al kilaje exacto de 1, y la variable

Visualice la distribución de quilates, dividida por precio.

¿Cómo se compara la distribución de precios de los diamantes muy grandes

El histograma remueve valores irregulares, esto quiere decir que

El objetivo de la tercera parte del proyecto integrador es realizar ejercicios de

¿Qué variable en el conjunto de datos de diamantes es el más importante para

Se realiza de nuevo el análisis de varianza para el set de datos de diamantes

Aquí se observa que el corte no es un factor significativo en este set de datos,

En realidad, hay menos de 40 observaciones de mala calidad en diamantes