Estadistica Exel

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 10

lOMoARcPSD|19132310

Datos del alumno Fecha:

Nombres: Patricio Aldahir


Apellidos: Pallasco Herrera 06/01/2023

Desarrollo de la
Actividad

ESTADÍSTICA
UNIDAD 2: TAREA 2

Para resolver los ejercicios de esta tarea se recomienda crear un proyecto llamado
U2EST T2

1. Un entusiasta de las caminatas tiene una nueva aplicación para su teléfono


inteligente que resume sus caminatas usando un dispositivo GPS. Veamos la
distancia recorrida (en km) y la altitud máxima (en m) durante las últimas 10
caminatas:
Distanci 12, 29, 14 18, 7, 16, 16 27, 12 17,
a 5 9 ,8 7 6 2 ,5 4 ,1 5
Altitud 34 124 50 55 3 67 79 91 23 46
2 5 2 5 9 0 6 2 8 6
8

a) Calcule la media aritmética y la mediana tanto para la distancia como para la altitud.

b) Determine el primer y tercer cuartiles para las variables de distancia y altitud.

c) Analice la forma de la distribución dados los resultados de (a) y (b).


lOMoARcPSD|19132310

d) Calcule el rango intercuartílico, la desviación media absoluta y la desviación


estándar para ambas variables. ¿cuál es su conclusión sobre la variabilidad de los
datos?

e) Un metro corresponde a aproximadamente 3.28 pies. ¿Cu´al es la altitud promedio

cuando se mide en pies en lugar de metros?

f) Dibuje e interprete el diagrama de caja tanto para la distancia como para la altitud
Distancia<- c(12.5,29.9,14.8,18.7,7.6,16.2,16.5,27.4,12.1,17.5)
Altitud<- c(342,1245,502,555,398,670,796,912,238,466)
df<- factor(Distancia) df
af<- factor(Altitud) af
grupo<- data.frame(distancia=df, altitud=af)
grupo

# LITERAL A
med_dis<- mean(Distancia, na.rm = TRUE) paste('La
media de la distancia es',med_dis) median_dis<-
median(Distancia)
paste('La mediana de la distancia es', median_dis)
med_al<- mean(Altitud, na.rm=TRUE)
paste('La media de la altitud es', med_al)
median_al<- median(Altitud)
paste('La mediana de la altitud es ',median_al)

# LITERAL B
primer_cuartil_dist<-quantile(Distancia)[2] tercer_cuartil_dis<-
quantile(Distancia)[4]
paste('En la distancia, su primer cuartil es', primer_cuartil_dist,'y
el tercero es ',tercer_cuartil_dis) primer_cuartil_alt<-
quantile(Altitud)[2] tercer_cuartil_alt<-quantile(Altitud)[4]
paste('En la altitud, su primer cuartil es', primer_cuartil_alt,' y el
tercero es ',tercer_cuartil_alt)

# LITERAL C
hist(Distancia, prob = TRUE, main = "Histograma con curva
normal", ylab = "Densidad")
x <- seq(min(Distancia), max(Distancia), length = 50) f
<- dnorm(x, mean = mean(Distancia), sd = sd(Distancia))
lines(x, f, col = "blue", lwd = 2)

hist(Altitud, prob = TRUE, main = "Histograma con curva


normal", ylab = "Densidad")
x <- seq(min(Altitud), max(Altitud), length = 50) f
<- dnorm(x, mean = mean(Altitud), sd = sd(Altitud))
lines(x, f, col = "yellow", lwd = 2)

# LITERAL D
rn_in_dist<- IQR(Distancia)
paste('El rango intercuartilico de la distancia es', rn_in_dist)
des_dist<-mean(abs(Distancia-mean(Distancia)))
lOMoARcPSD|19132310

paste('La desvacion media absoluta de la distancia es', des_dist)


des_es_dist<-sd(Distancia)
paste('La desviacion estandar de la distancia es', des_es_dist)
rn_in_al<- IQR(Altitud)
paste('El rango intercuartilico de la altitud es', rn_in_al) des_al<-
mean(abs(Altitud-mean(Altitud)))
paste('La desvacion media absoluta de la altitud es', des_al)
des_es_al<-sd(Altitud)
paste('La desviacion estandar de la altitud es', des_es_al)
paste('Analizando los datos obtenidos,en la desviacion media absoluta
hay menor variabilidad de datos, lo cual lo hace mas preciso')

# LITERAL E
alt_pies<-Altitud*3.28 med_altpies<-mean(alt_pies)
paste('El promedio de la altitud en pies es',
med_altpies)

# LITERAL F
boxplot(Distancia ,horizontal = T,main="Diagrama de caja para la
distancia")
boxplot(Altitud ,horizontal = T,main="Diagrama de caja para la
altitud")

2. El conjunto rankingconstruccion.csv contiene los datos del año 2018 de las


empresas que se dedican al sector de la construcción. La revista Vistazo elabora
cada año un ranking de las empresas por cada sector de la producción al que
pertenecen las empresas y un ranking general. Investigue el uso de la función
top n y con la ayuda de esta función seleccione las primeras 500 empresas de
acuerdo a la utilidad, almacene estos resultados en el un conjunto llamado
rank500 construcción y de este conjunto de datos, realice los siguientes
ejercicios:

a) Elabore una tabla de frecuencia con las utilidades de las empresas.


b) Elabore una tabla de frecuencia de las empresas de acuerdo al sector.
c) Elabore una tabla de frecuencia con las ventas de las empresas.
d) Elabore una tabla de contingencia que relacione el tamaño de la empresa con
la región a la que pertenece la empresa.
e) Construya un diagrama de barras de las empresas por tamaño
f) Construya un diagrama de barras de las empresas por tamaño de acuerdo a la
región.
g) Determine las medidas de tendencia central y de dispersión de las ventas de
acuerdo a la región, almacene los resultados en una tabla llamada ventas
construcción y guarde sus resultados en una hoja de cálculo.
lOMoARcPSD|19132310

h) Determine los tres cuartiles de las utilidades de acuerdo al tipo de compañía,


i) Elabore el diagrama de caja de las utilidades
j) Elabore el diagrama de caja de las utilidades de acuerdo al tipo de compañía.
# EJERCICIO 2
library(tidyverse)
rankingconstruccion<-read.csv2('C:/Users/eva_a/Documents/4TO
SEMESTRE/ESTADISTICA/TAREA6_U2T2/rankingconstruccion.csv')
rank500_construccion<-rankingconstruccion %>% top_n(500,
UTILIDAD)

# LITERAL A
library(agricolae)
x<-
nclass.Sturges(rank500_construccion$UTILIDAD)
w<-range(rank500_construccion$UTILIDAD)
amplitud<-(w[2]-w[1])/x tab_freq_utilidad<-
table.freq(hist((rank500_construccion$UTILIDAD), breaks =
seq(from=w[1],to=(w[2]),by=amplitud), include.lowest = T, right =
F, plot = F))
tab_freq_utilidad

# LITERAL B
tab_sector<-table(rank500_construccion$SECTOR) tab_sector2<-
prop.table(tab_sector) tab_freq_sector<-cbind(F.Absoluta=
tab_sector,
F.Relative=tab_sector2)
tab_freq_sector

# LITERAL C
k<-nclass.Sturges(rank500_construccion$VENTAS) L<-
range(rank500_construccion$VENTAS) amplitud<-(L[2]-L[1])/k
tab_Freq_Ventas<-table.freq(hist((rank500_construccion$VENTAS),
breaks = seq(from=L[1],to=(L[2]),by=amplitud), include.lowest =
T, right = F, plot = F))
tab_Freq_Ventas

# LITERAL D
rank500_construccion %>%
select(TAMAÑO, REGIÓN) %>%
table()

# LITERAL E
tab_tam<-table(rank500_construccion$TAMAÑO)
barplot(tab_tam, main='Diagrama de barras de las empresas por
tamaño')

# LITERAL F
tab_reg<-table(rank500_construccion$REGIÓN)
barplot(tab_tam~tab_reg, main='Diagrama de barras de las empresas
por tamaño de acuerdo a la region')

# LITERAL G
#Medidas de tendencia central
lOMoARcPSD|19132310

med_vent<-aggregate(rank500_construccion$VENTAS,
by=list(rank500_construccion$REGIÓN),mean) paste('La media de las
ventas de acuerdo a la region es',med_vent)
media_vent<-aggregate(rank500_construccion$VENTAS,
by=list(rank500_construccion$REGIÓN), median)
paste('La mediana de las ventas de acuerdo a la region es',
media_vent)
moda<-aggregate(rank500_construccion$VENTAS,
by=list(rank500_construccion$REGIÓN), which.max)
paste('La moda de las ventas de acuerdo a la region es', moda)
#Medidas de dispersion
var_vent<-aggregate(rank500_construccion$VENTAS,
by=list(rank500_construccion$REGIÓN),var)
paste('La varianza de las ventas de acuerdo a la region es',
var_vent)
desv_vent<-aggregate(rank500_construccion$VENTAS,
by=list(rank500_construccion$REGIÓN),sd)
paste('La desvaicon de las ventas de acuerdo a la region es',
desv_vent)
max_vent<-aggregate(rank500_construccion$VENTAS,
by=list(rank500_construccion$REGIÓN),max) min_vent<-
aggregate(rank500_construccion$VENTAS,
by=list(rank500_construccion$REGIÓN), min) ran_vent<-max_vent[2]-
min_vent[2]
paste('El rango de las ventas de acuerdo a la region es',
ran_vent) library(openxlsx)
x<-cbind(med_vent, media_vent[2])
w<-cbind(x, moda[2]) u<-
cbind(w,var_vent) v<-
cbind(u,desv_vent) z<-
cbind(v,ran_vent) t<-cbind(z)
dat<-write.xlsx(t,'.xlsx')
saveworkbook(dat, file='ventasconstruccion.xlsx', overwrite=TRUE)
openXL('ventasconstruccion.xlsx')

# LITERALH
cuart<-aggregate(rank500_construccion$UTILIDAD,
by=list(rank500_construccion$TIPO), quantile)
cuart

# LITERAL I
boxplot(rank500_construccion$UTILIDAD, horizontal = T)

# LITERAL J
boxplot(rank500_construccion$UTILIDAD ~
rank500_construccion$TIPO,horizontal = T)

3. En el ejercicio anterior se elaboró´ el ranking de las empresas del sector construcción, la


revista Vistazo publica además un ranking de las mejores 500 empresas de todos los
sectores de acuerdo a su utilidad. Elabore el ranking de las 500 mejores empresas
utilizando los archivos de valores separados por comas (csv) rankingagricultura,
lOMoARcPSD|19132310

rankingcomercio, rankingconstruccion, rankinginmobiliaria y rankingmanufactura. El


flujo de trabajo recomendado para esta actividad es:

a) Cargar cada conjunto de datos por separado, almacenando cada conjunto en una
variable que usted decida.

b) Unir los conjuntos de datos en un solo conjunto, para esto debe utilizar la función
brinda (). Investigue el uso de esta función y utilícela para formar un único conjunto
de datos.

c) Con ayuda de la función top n () seleccione las primeras 500 empresas de acuerdo a
la utilidad. Guarde este ranking en un conjunto llamado ranking2018todos. Con el
conjunto ranking2018todos se pide:

1) Calcular las medidas de tendencia central y dispersión por sector de las


utilidades.
2) Determinar los deciles de las utilidades para todas las empresas.
3) Determinar los deciles de las utilidades por sector.
4) Elaborar tablas de contingencia relacionando el sector y el tamaño de las
empresas.
5) ¿De qué ciudad son la mayoría de empresas del ranking? Elabore una
tabla de frecuencia de las empresas por ciudad.
6) ¿A qué sector productivo pertenecen la mayoría de empresas del
ranking?

# LITERAL A
rankingagricultura<-read.csv2('C:/Users/eva_a/Documents/4TO
SEMESTRE/ESTADISTICA/TAREA6_U2T2/rankingagricultura.csv')
rank500_agricultura<-rankingagricultura%>% top_n(500, UTILIDAD)
rankingcomercio<-read.csv2('C:/Users/eva_a/Documents/4TO
SEMESTRE/ESTADISTICA/TAREA6_U2T2/rankingcomercio.csv')
rank500_comercio<-rankingcomercio%>% top_n(500, UTILIDAD)
rankinginmobiliaria<-read.csv2('C:/Users/eva_a/Documents/4TO
SEMESTRE/ESTADISTICA/TAREA6_U2T2/rankinginmobiliaria.csv')
rank500_inmobiliaria<-rankinginmobiliaria%>% top_n(500, UTILIDAD)
rankingmanufactura<-read.csv2('C:/Users/eva_a/Documents/4TO
SEMESTRE/ESTADISTICA/TAREA6_U2T2/rankingmanufactura.csv')
rank500_manufactura<-rankingmanufactura%>% top_n(500, UTILIDAD)
# LITERAL B
conj_1<-rbind(rank500_agricultura, rank500_comercio) conj_2<-
rbind(rank500_inmobiliaria, rank500_manufactura) conj_3<-rbind(conj_1,
conj_2)
conj_total<-rbind(conj_3, rank500_construccion)

# LITERAL C
lOMoARcPSD|19132310

ranking2018todos<-conj_total%>% top_n(500, UTILIDAD)


view(ranking2018todos)

#----LITERAL C1---#Medidas
de tendencia
med_rank2018<-mean(ranking2018todos$UTILIDAD) paste('La
media del ranking total es', med_rank2018)
media_rank2018<-median(ranking2018todos$UTILIDAD)
paste('La mediana del ranking total es', media_rank2018)
install.packages('modeest') library(modeest)
mod_rank2018<-mlv(as.numeric(ranking2018todos$UTILIDAD), method='mfv')
paste('La moda del ranking total es', mod_rank2018)
#Dispercion
var_rank2018<-var(ranking2018todos$UTILIDAD) paste('La
varianza del ranking total es', var_rank2018)
desv_rank2018<-sd(ranking2018todos$UTILIDAD) paste('La
desviacion del ranking total es', desv_rank2018)
rang_rank2018<-
max(ranking2018todos$UTILIDAD)min(ranking2018todos$UTILIDA
D)
paste('El rango del ranking total es', rang_rank2018)

#----LITERAL C2----
decil_empr<-aggregate(ranking2018todos$UTILIDAD,
by=list(ranking2018todos$TIPO), FUN=quantile, probs=seq(0,1,
length=11))
paste('Los deciles de las utilidades para todas las empresas son',
decil_empr)

#----LITERAL C3----
decil_sect<-aggregate(ranking2018todos$UTILIDAD,
by=list(ranking2018todos$SECTOR), FUN=quantile,
probs=seq(0,1,length=11))
paste('Los deciles de las utilidades por sector son', decil_sect)

#----LITERAL C4---ranking2018todos
%>%
select(SECTOR, TAMAÑO) %>%
table()

#----LITERAL C5----
tab_ciu<-table(ranking2018todos$CIUDAD) tab_ciu2<-
prop.table(tab_ciu)
tab_fre_ciu<-cbind(F.Absoluta=tab_ciu, F.Relativa=tab_ciu2)
tab_fre_ciu
#Quito es la ciudad con mas empresas

#----LITERAL C6----
tab_prod<-table(ranking2018todos$SECTOR_PROD) tab_prod2<-
prop.table(tab_prod)
tab_fre_prod<-cbind(F.Absoluta=tab_prod, F.Relativa=tab_prod2)
tab_fre_prod
#El sector comercial tiene la mayoria de empresas
lOMoARcPSD|19132310

4. Los datos de entrega de pizzas (pizza delivery.csv) son un conjunto de datos


simulados. Los datos se refieren a un restaurante que ofrece pizza a domicilio.
Contiene los pedidos recibidos durante un periodo de un mes: mayo de 2014. Hay
tres sucursales del restaurante. La entrega de pizzas se gestiona de forma
centralizada: un operador recibe una llamada telefónica y reenvía el pedido a la
sucursal más cercana a la dirección del cliente. Uno de los cinco conductores (dos de
los cuales solo trabajan a tiempo parcial los fines de semana) entrega el pedido. El
conjunto de datos captura la cantidad de pizzas ordenadas, así como la factura final,
que también puede incluir bebidas, ensaladas y platos de pasta. El dueño del negocio
observó un mayor número de quejas, principalmente porque las pizzas llegan
demasiado tarde y demasiado frías. Para mejorar la calidad del servicio de su
negocio, el propietario quiere medir (i) el tiempo desde la llamada hasta la entrega y
(mi) la temperatura de la pizza a la llegada (lo que se puede hacer con un dispositivo
especial). Idealmente, una pizza llega dentro de los 30 minutos posteriores a la
llamada; si tarda más de 40 minutos, se promete a los clientes una botella de vino
gratis (aunque no siempre se entrega). La temperatura de la pizza debe estar por
encima de los 65◦ en el momento de la entrega. El análisis de los datos tiene como
objetivo determinar los factores que influyen en el tiempo de entrega y la temperatura
de las pizzas.

a) Calcule la media, la mediana, el mínimo, el máximo, el primer cuartil y el tercer


cuartil para todas las variables cuantitativas.

b) Determine e interprete el percentil 99 para el tiempo de entrega y la temperatura.

c) Grafique un diagrama de caja para el tiempo de entrega y la temperatura.

d) Construya una tabla de frecuencias para el tiempo de entrega.

e) Construya una tabla de frecuencias para la temperatura

pizza_delivery<-read.csv2('C:/Users/eva_a/Documents/4TO
SEMESTRE/ESTADISTICA/TAREA6_U2T2/pizza_delivery.csv')

# LITERAL A
med_time=mean(pizza_delivery$time)
med_time
med_temp=mean(pizza_delivery$temperature)
med_temp
med_bill=mean(pizza_delivery$bill)
med_bill
lOMoARcPSD|19132310

med_pizza=mean(pizza_delivery$pizzas)
med_pizza
median_time=median(pizza_delivery$time)
median_time
median_temp=median(pizza_delivery$temperature)
median_temp
median_bill=median(pizza_delivery$bill)
median_bill
median_pizza=median(pizza_delivery$pizzas)
median_pizza
min_time=min(pizza_delivery$time)
min_time
min_temp=min(pizza_delivery$temperature)
min_temp
min_bill=min(pizza_delivery$bill)
min_bill
min_pizza=min(pizza_delivery$pizzas)
min_pizza
max_time=max(pizza_delivery$time)
max_time
max_temp=max(pizza_delivery$temperature)
max_temp
max_bill=max(pizza_delivery$bill)
max_bill
max_pizza=max(pizza_delivery$pizzas)
max_pizza
prim_time=quantile(pizza_delivery$time)[2]
prim_time
prim_temp=quantile(pizza_delivery$temperature)[2]
prim_temp prim_bill=quantile(pizza_delivery$bill)
[2] prim_bill
prim_pizza=quantile(pizza_delivery$pizzas)[2]
prim_pizza terc_time=quantile(pizza_delivery$time)
[4] terc_time
terc_temp=quantile(pizza_delivery$temperature)[4]
terc_temp terc_bill=quantile(pizza_delivery$bill)
[4] terc_bill
terc_pizza=quantile(pizza_delivery$pizzas)[4]
terc_pizza

# LITERAL B

perc99_time=quantile(pizza_delivery$time, prob=seq(0, 1, length =


101))[100]
perc99_time
perc99_temp=quantile(pizza_delivery$temperature, prob=seq(0, 1, length
= 101))[100]
perc99_temp

# LITERAL C
lOMoARcPSD|19132310

boxplot(pizza_delivery$time ,horizontal = T,main="Diagrama de caja


para el tiempo")
boxplot(pizza_delivery$temperature,horizontal = T,main="Diagrama de
caja para la temperatura")

# LITERAL D
library(agricolae)
m=nclass.Sturges(pizza_delivery$time)
n=range(pizza_delivery$time) ampl=(n[2]-
xn[1])/m
tab_fre_time=table.freq(hist((pizza_delivery$time), breaks =
seq(from=n[1],to=(n[2]),by=ampl), include.lowest = T, right = F, plot
= F))
tabl_fre_time

# LITERAL E
k=nclass.Sturges(pizza_delivery$temperature)
x=range(pizza_delivery$temperature) amplitud=(x[2]-
x[1])/k
tab_fre_temp=table.freq(hist((pizza_delivery$temperature), breaks =
seq(from=x[1],to=(x[2]),by=amplitud), include.lowest = T, right = F,
plot = F)) tab_fre_temp

También podría gustarte