Pi 3
Pi 3
Pi 3
Equipo: 8
0
Contenido
Introducción................................................................................................................................2
Proyecto Etapa 1.......................................................................................................................3
Plan de Instalación R y R Studio.........................................................................................3
Preguntas.........................................................................................................................17
Proyecto Etapa 2.....................................................................................................................22
Ejercicio 1.............................................................................................................................22
Ejercicio 2.............................................................................................................................28
Ejercicio 3.............................................................................................................................32
Ejercicio 4.............................................................................................................................32
Etapa 3......................................................................................................................................33
Ejercicio 1.............................................................................................................................33
Ejercicio 2.............................................................................................................................37
Informe del proyecto...............................................................................................................39
Conclusión................................................................................................................................40
Referencias..............................................................................................................................40
Introducción
1
En este documento consiste en aplicar los conocimientos adquiridos a lo
largo del curso y retomar lo aprendido en asignaturas previas, de modo que
se integraran diferentes disciplinas. De igual forma, se toman como
referente actividades elaboradas previamente, lo que garantiza la
transversalidad de los contenidos revisados para fortalecer el desarrollo de
competencias.
2
Proyecto Etapa 1
Paso 1
https://cran.r-project.org/
Paso 2
3
Paso 3
Pulsamos en base
Paso 4
Descargamos R 3.5.1
4
Paso 5
Paso 6
5
Paso 7
Paso 8
6
Paso 9
Paso 10
7
Paso 11
Paso 12
Elegir la carpeta del menú inicio donde colocar los accesos directos a los
elementos del paquete, pulsar siguiente.
Paso 13
8
Selección de las tareas adicionales, pulsar siguiente.
Paso 14
Paso 15
9
Una vez finalizada el proceso de instalación sale una ventana
indicándolo. Pulsar Finalizar.
Paso 16
Paso 17
10
Paso 18
Paso 19
11
Paso 20
Paso 21
12
Paso 22
Paso 23
13
Paso 24
Elegir la carpeta del menú inicio donde colocar los accesos directos a los
elementos del paquete, pulsar Instalar.
Paso 25
14
Paso 26
Paso 28
15
Paso 29
Preguntas
16
Al momento de instalar la herramienta no se presentó ningún detalle, el
único problema que se presentó fue al momento de instalar un paquete:
install.packages("proto")
Mensaje:
Solución:
Por ejemplo:
>.libPaths("/home/testuser/Rlib")
17
temporal, correlación factorial, ANOVA. También se puede hacer fácilmente
exploración de datos para poder determinar la limpieza de los mismos. En este
sentido también se puede hablar de que se pueden hacer reportes completos
con el uso de otros paquetes de esta herramienta. Existen gran cantidad de
paquetes para gráficos y mapas, dando así una solución rápida a las
necesidades de BI de cualquier empresa. No se tiene la certeza por lo pronto
de su conectividad con las bases de datos más populares, como Oracle o
Netezza, y no contamos con información propia para evaluar el desempeño al
manejar grandes volúmenes de datos, hablando de entre 10 a 100 GB de
información por día, esto sería un tema a investigar. Pero la parte bondadosa
de R es su comunidad y soporte, con esto me refiero a que hay solución para
casi cualquier problema en la red acerca del uso de R.
Ventajas:
R es un software libre:
o Cuenta con la licencia GNU GPL el cual consta de 4
libertades
Libertad 0: la libertad de ejecutar el programa como
desee y con cualquier propósito
Libertad 1: libertad de estudiar el funcionamiento del
programa y adaptarlo a sus necesidades.
Libertad 2: La libertad de rescribir copias para
ayudar a los demás.
Libertad 3: La libertad de manejar el programa y
publicar las mejorar, de manera que toda
comunidad se beneficie.
Es multiplataforma, R funciona en Mac, Windows, y en números
sistemas UNIX.
18
Es de código abierto, existe una gran comunidad de voluntarios
trabajando para mejorarlo, lo cual permite ser moldeado y dirigido
a cuestiones específicas.
R es una plataforma estadística, lo cual ofrece todas las
técnicas de análisis de datos.
Los gráficos disponibles en R son de gran calidad y de una
versatilidad impresionante.
R remplaza la combinación de varios programas, puedes
realizar todo el análisis de datos e inclusive leer archivos de
diferentes formatos.
R se está convirtiendo en un estándar en la sociedad científica,
por hacer figuras de calidad de publicación.
19
Otra diferencia es el tipo de licencia que tiene, R al ser soportado por una
comunidad lo podemos usar libremente y podemos descargar bastantes
librerías que son generadas por esta misma comunidad y se pueden usar sin
ningún problema. En T-lab no se cuenta con dicha comunidad, pero al ser
especializada para las empresas entonces tiene una licencia que tiene un costo
y si tiene derechos reservados entonces no hay una comunidad que esté
continuamente añadiendo funcionalidades.
Este software es una herramienta muy potente que está escrita en Java, lo cual
permite que pueda ser instalada y usada prácticamente en cualquier dispositivo
que cuente con este ambiente. Otra de las principales características, al igual
que RStudio, es que se mantiene como un software libre y que cuenta con una
comunidad activa para poder solucionar problemas o mejorar el sistema al
mismo tiempo.
Dentro de sus posibles campos de aplicación por el tipo de datos que utiliza y
los métodos de minería de datos que brinda pueden ser el marketing,
manufactura, salud, finanzas y medicina.
20
Proyecto Etapa 2
Para poder realizar los ejercicios, se necesita instalar las librerías necesarias y
la base de datos de diamantes.
Ejercicio 1
Hacemos un plot de la variable precio, podemos ver que hay tres tendencias,
una que incrementa mucho su valor, otra incremente discretamente y otra se
mantiene igual.
21
Podemos ver que los precios se comportan de manera usual, hay más
diamantes baratos y menos caros.
22
Vamos a estudiar los diamantes caros de más de 15000, por eso hacemos un
set de datos separado con estos datos.
23
hist(diamantes$depth)
24
SI2 prevalece en diamantes caros, y SI1 en diamantes, puede ser que el la
claridad tenga algo que ver.
plot(diamantescaros$clarity)
plot(diamantes$clarity)
25
El color L prevalece en diamantes caros, es diferente la distribución en
diamantes, puede ser que sea un factor relevante.
plot(diamantescaros$color)
plot(diamantes$color)
26
El kilaje prevalece en 2 en diamantes caros, entre el dos y el tres. La
distribución es completamente diferente en diamantes, este puede ser el factor
principal.
El costo de los diamantes al parecer tiene que ver con la claridad, el color, el
corte y sobre todo carat, no con depth.
27
Ejercicio 2
Se puede observar que hay un gran número de diamantes con carat 1 y pocos
con .99 y .98
Hacemos un set de datos con estas ocurrencias y catar al parecer tiene que ver
con el corte, cuando carat es 1 entonces el corte es Premium, de otra manera
es ideal.
28
La variable depth parece no tener diferencia entre los set de datos.
29
x es un valor muy significativo, hay una gran diferencia en las distribuciones de
diamantes carat y diamantes.
30
Y tiene diferencia pero no se aprecia claramente
31
Ejercicio 3
Ejercicio 4
32
Etapa 3
Esta relación ayuda a identificar la tendencia de dos variables a cambiar con alguna
función de dependencia. Para ello, se utiliza nuevamente los conjuntos de datos
diamonds (información sobre atributos de diamantes), faithful (erupciones del geiser
Faithful en Yellowstone) y mpg (información de rendimiento en combustible de autos).
Ejercicio 1
Como parte de la exploración hacemos una gráfica de caja de cada elemento de corte
con la variable precio, se visualiza que hay observaciones anormales en todos. Esto
significa que hay precios muy elevados en todos los cortes, pero también los hay en
cortes tipo fair.
boxplot(diamantes$price~diamantes$cut)
33
Identificar estadísticamente si en verdad las variables de corte, color y claridad son un
factor relevante en el precio. Procedemos con el análisis de varianza para comprobar:
anova(lm(diamantes$price~factor(diamantes$cut)))
anova(lm(diamantes$price~factor(diamantes$color)))
anova(lm(diamantes$price~factor(diamantes$clarity)))
Se demuestra que todos los factores son relevantes en el precio con el set de
datos completo, aunque el menos significativo de los tres es el corte.
Subdividimos el set de datos en los diamantes más caros, arriba de 1300
diamantescaros <- filter(diamantes,diamantes$price > 13000)
34
anova(lm(diamantescaros$price~factor(diamantescaros$color)))
anova(lm(diamantescaros$price~factor(diamantescaros$clarity)))
boxplot(diamantescaros$price~diamantescaros$cut)
35
En este set se puede verificar que la media de los diamantes caros para corte
de mala calidad es menor:
plot(diamantescaros$cut)
En la gráfica anterior se observa que hay muy pocos datos de diamantes arriba
de 13000 que tienen un corte de baja calidad, en realidad se tratan de
observaciones anormales.
diamantescaros
Ejercicio 2
boxplot(diamantescaros$price~diamantescaros$cut, horizontal = T)
37
Se concluye que hay casos de abuso al incrementar el precio de diamantes de
baja calidad, y son observaciones anormales.
38
Informe del proyecto
39
Conclusión
Referencias
40