Estadistica Exel
Estadistica Exel
Estadistica Exel
Desarrollo de la
Actividad
ESTADÍSTICA
UNIDAD 2: TAREA 2
Para resolver los ejercicios de esta tarea se recomienda crear un proyecto llamado
U2EST T2
a) Calcule la media aritmética y la mediana tanto para la distancia como para la altitud.
f) Dibuje e interprete el diagrama de caja tanto para la distancia como para la altitud
Distancia<- c(12.5,29.9,14.8,18.7,7.6,16.2,16.5,27.4,12.1,17.5)
Altitud<- c(342,1245,502,555,398,670,796,912,238,466)
df<- factor(Distancia) df
af<- factor(Altitud) af
grupo<- data.frame(distancia=df, altitud=af)
grupo
# LITERAL A
med_dis<- mean(Distancia, na.rm = TRUE) paste('La
media de la distancia es',med_dis) median_dis<-
median(Distancia)
paste('La mediana de la distancia es', median_dis)
med_al<- mean(Altitud, na.rm=TRUE)
paste('La media de la altitud es', med_al)
median_al<- median(Altitud)
paste('La mediana de la altitud es ',median_al)
# LITERAL B
primer_cuartil_dist<-quantile(Distancia)[2] tercer_cuartil_dis<-
quantile(Distancia)[4]
paste('En la distancia, su primer cuartil es', primer_cuartil_dist,'y
el tercero es ',tercer_cuartil_dis) primer_cuartil_alt<-
quantile(Altitud)[2] tercer_cuartil_alt<-quantile(Altitud)[4]
paste('En la altitud, su primer cuartil es', primer_cuartil_alt,' y el
tercero es ',tercer_cuartil_alt)
# LITERAL C
hist(Distancia, prob = TRUE, main = "Histograma con curva
normal", ylab = "Densidad")
x <- seq(min(Distancia), max(Distancia), length = 50) f
<- dnorm(x, mean = mean(Distancia), sd = sd(Distancia))
lines(x, f, col = "blue", lwd = 2)
# LITERAL D
rn_in_dist<- IQR(Distancia)
paste('El rango intercuartilico de la distancia es', rn_in_dist)
des_dist<-mean(abs(Distancia-mean(Distancia)))
lOMoARcPSD|19132310
# LITERAL E
alt_pies<-Altitud*3.28 med_altpies<-mean(alt_pies)
paste('El promedio de la altitud en pies es',
med_altpies)
# LITERAL F
boxplot(Distancia ,horizontal = T,main="Diagrama de caja para la
distancia")
boxplot(Altitud ,horizontal = T,main="Diagrama de caja para la
altitud")
# LITERAL A
library(agricolae)
x<-
nclass.Sturges(rank500_construccion$UTILIDAD)
w<-range(rank500_construccion$UTILIDAD)
amplitud<-(w[2]-w[1])/x tab_freq_utilidad<-
table.freq(hist((rank500_construccion$UTILIDAD), breaks =
seq(from=w[1],to=(w[2]),by=amplitud), include.lowest = T, right =
F, plot = F))
tab_freq_utilidad
# LITERAL B
tab_sector<-table(rank500_construccion$SECTOR) tab_sector2<-
prop.table(tab_sector) tab_freq_sector<-cbind(F.Absoluta=
tab_sector,
F.Relative=tab_sector2)
tab_freq_sector
# LITERAL C
k<-nclass.Sturges(rank500_construccion$VENTAS) L<-
range(rank500_construccion$VENTAS) amplitud<-(L[2]-L[1])/k
tab_Freq_Ventas<-table.freq(hist((rank500_construccion$VENTAS),
breaks = seq(from=L[1],to=(L[2]),by=amplitud), include.lowest =
T, right = F, plot = F))
tab_Freq_Ventas
# LITERAL D
rank500_construccion %>%
select(TAMAÑO, REGIÓN) %>%
table()
# LITERAL E
tab_tam<-table(rank500_construccion$TAMAÑO)
barplot(tab_tam, main='Diagrama de barras de las empresas por
tamaño')
# LITERAL F
tab_reg<-table(rank500_construccion$REGIÓN)
barplot(tab_tam~tab_reg, main='Diagrama de barras de las empresas
por tamaño de acuerdo a la region')
# LITERAL G
#Medidas de tendencia central
lOMoARcPSD|19132310
med_vent<-aggregate(rank500_construccion$VENTAS,
by=list(rank500_construccion$REGIÓN),mean) paste('La media de las
ventas de acuerdo a la region es',med_vent)
media_vent<-aggregate(rank500_construccion$VENTAS,
by=list(rank500_construccion$REGIÓN), median)
paste('La mediana de las ventas de acuerdo a la region es',
media_vent)
moda<-aggregate(rank500_construccion$VENTAS,
by=list(rank500_construccion$REGIÓN), which.max)
paste('La moda de las ventas de acuerdo a la region es', moda)
#Medidas de dispersion
var_vent<-aggregate(rank500_construccion$VENTAS,
by=list(rank500_construccion$REGIÓN),var)
paste('La varianza de las ventas de acuerdo a la region es',
var_vent)
desv_vent<-aggregate(rank500_construccion$VENTAS,
by=list(rank500_construccion$REGIÓN),sd)
paste('La desvaicon de las ventas de acuerdo a la region es',
desv_vent)
max_vent<-aggregate(rank500_construccion$VENTAS,
by=list(rank500_construccion$REGIÓN),max) min_vent<-
aggregate(rank500_construccion$VENTAS,
by=list(rank500_construccion$REGIÓN), min) ran_vent<-max_vent[2]-
min_vent[2]
paste('El rango de las ventas de acuerdo a la region es',
ran_vent) library(openxlsx)
x<-cbind(med_vent, media_vent[2])
w<-cbind(x, moda[2]) u<-
cbind(w,var_vent) v<-
cbind(u,desv_vent) z<-
cbind(v,ran_vent) t<-cbind(z)
dat<-write.xlsx(t,'.xlsx')
saveworkbook(dat, file='ventasconstruccion.xlsx', overwrite=TRUE)
openXL('ventasconstruccion.xlsx')
# LITERALH
cuart<-aggregate(rank500_construccion$UTILIDAD,
by=list(rank500_construccion$TIPO), quantile)
cuart
# LITERAL I
boxplot(rank500_construccion$UTILIDAD, horizontal = T)
# LITERAL J
boxplot(rank500_construccion$UTILIDAD ~
rank500_construccion$TIPO,horizontal = T)
a) Cargar cada conjunto de datos por separado, almacenando cada conjunto en una
variable que usted decida.
b) Unir los conjuntos de datos en un solo conjunto, para esto debe utilizar la función
brinda (). Investigue el uso de esta función y utilícela para formar un único conjunto
de datos.
c) Con ayuda de la función top n () seleccione las primeras 500 empresas de acuerdo a
la utilidad. Guarde este ranking en un conjunto llamado ranking2018todos. Con el
conjunto ranking2018todos se pide:
# LITERAL A
rankingagricultura<-read.csv2('C:/Users/eva_a/Documents/4TO
SEMESTRE/ESTADISTICA/TAREA6_U2T2/rankingagricultura.csv')
rank500_agricultura<-rankingagricultura%>% top_n(500, UTILIDAD)
rankingcomercio<-read.csv2('C:/Users/eva_a/Documents/4TO
SEMESTRE/ESTADISTICA/TAREA6_U2T2/rankingcomercio.csv')
rank500_comercio<-rankingcomercio%>% top_n(500, UTILIDAD)
rankinginmobiliaria<-read.csv2('C:/Users/eva_a/Documents/4TO
SEMESTRE/ESTADISTICA/TAREA6_U2T2/rankinginmobiliaria.csv')
rank500_inmobiliaria<-rankinginmobiliaria%>% top_n(500, UTILIDAD)
rankingmanufactura<-read.csv2('C:/Users/eva_a/Documents/4TO
SEMESTRE/ESTADISTICA/TAREA6_U2T2/rankingmanufactura.csv')
rank500_manufactura<-rankingmanufactura%>% top_n(500, UTILIDAD)
# LITERAL B
conj_1<-rbind(rank500_agricultura, rank500_comercio) conj_2<-
rbind(rank500_inmobiliaria, rank500_manufactura) conj_3<-rbind(conj_1,
conj_2)
conj_total<-rbind(conj_3, rank500_construccion)
# LITERAL C
lOMoARcPSD|19132310
#----LITERAL C1---#Medidas
de tendencia
med_rank2018<-mean(ranking2018todos$UTILIDAD) paste('La
media del ranking total es', med_rank2018)
media_rank2018<-median(ranking2018todos$UTILIDAD)
paste('La mediana del ranking total es', media_rank2018)
install.packages('modeest') library(modeest)
mod_rank2018<-mlv(as.numeric(ranking2018todos$UTILIDAD), method='mfv')
paste('La moda del ranking total es', mod_rank2018)
#Dispercion
var_rank2018<-var(ranking2018todos$UTILIDAD) paste('La
varianza del ranking total es', var_rank2018)
desv_rank2018<-sd(ranking2018todos$UTILIDAD) paste('La
desviacion del ranking total es', desv_rank2018)
rang_rank2018<-
max(ranking2018todos$UTILIDAD)min(ranking2018todos$UTILIDA
D)
paste('El rango del ranking total es', rang_rank2018)
#----LITERAL C2----
decil_empr<-aggregate(ranking2018todos$UTILIDAD,
by=list(ranking2018todos$TIPO), FUN=quantile, probs=seq(0,1,
length=11))
paste('Los deciles de las utilidades para todas las empresas son',
decil_empr)
#----LITERAL C3----
decil_sect<-aggregate(ranking2018todos$UTILIDAD,
by=list(ranking2018todos$SECTOR), FUN=quantile,
probs=seq(0,1,length=11))
paste('Los deciles de las utilidades por sector son', decil_sect)
#----LITERAL C4---ranking2018todos
%>%
select(SECTOR, TAMAÑO) %>%
table()
#----LITERAL C5----
tab_ciu<-table(ranking2018todos$CIUDAD) tab_ciu2<-
prop.table(tab_ciu)
tab_fre_ciu<-cbind(F.Absoluta=tab_ciu, F.Relativa=tab_ciu2)
tab_fre_ciu
#Quito es la ciudad con mas empresas
#----LITERAL C6----
tab_prod<-table(ranking2018todos$SECTOR_PROD) tab_prod2<-
prop.table(tab_prod)
tab_fre_prod<-cbind(F.Absoluta=tab_prod, F.Relativa=tab_prod2)
tab_fre_prod
#El sector comercial tiene la mayoria de empresas
lOMoARcPSD|19132310
pizza_delivery<-read.csv2('C:/Users/eva_a/Documents/4TO
SEMESTRE/ESTADISTICA/TAREA6_U2T2/pizza_delivery.csv')
# LITERAL A
med_time=mean(pizza_delivery$time)
med_time
med_temp=mean(pizza_delivery$temperature)
med_temp
med_bill=mean(pizza_delivery$bill)
med_bill
lOMoARcPSD|19132310
med_pizza=mean(pizza_delivery$pizzas)
med_pizza
median_time=median(pizza_delivery$time)
median_time
median_temp=median(pizza_delivery$temperature)
median_temp
median_bill=median(pizza_delivery$bill)
median_bill
median_pizza=median(pizza_delivery$pizzas)
median_pizza
min_time=min(pizza_delivery$time)
min_time
min_temp=min(pizza_delivery$temperature)
min_temp
min_bill=min(pizza_delivery$bill)
min_bill
min_pizza=min(pizza_delivery$pizzas)
min_pizza
max_time=max(pizza_delivery$time)
max_time
max_temp=max(pizza_delivery$temperature)
max_temp
max_bill=max(pizza_delivery$bill)
max_bill
max_pizza=max(pizza_delivery$pizzas)
max_pizza
prim_time=quantile(pizza_delivery$time)[2]
prim_time
prim_temp=quantile(pizza_delivery$temperature)[2]
prim_temp prim_bill=quantile(pizza_delivery$bill)
[2] prim_bill
prim_pizza=quantile(pizza_delivery$pizzas)[2]
prim_pizza terc_time=quantile(pizza_delivery$time)
[4] terc_time
terc_temp=quantile(pizza_delivery$temperature)[4]
terc_temp terc_bill=quantile(pizza_delivery$bill)
[4] terc_bill
terc_pizza=quantile(pizza_delivery$pizzas)[4]
terc_pizza
# LITERAL B
# LITERAL C
lOMoARcPSD|19132310
# LITERAL D
library(agricolae)
m=nclass.Sturges(pizza_delivery$time)
n=range(pizza_delivery$time) ampl=(n[2]-
xn[1])/m
tab_fre_time=table.freq(hist((pizza_delivery$time), breaks =
seq(from=n[1],to=(n[2]),by=ampl), include.lowest = T, right = F, plot
= F))
tabl_fre_time
# LITERAL E
k=nclass.Sturges(pizza_delivery$temperature)
x=range(pizza_delivery$temperature) amplitud=(x[2]-
x[1])/k
tab_fre_temp=table.freq(hist((pizza_delivery$temperature), breaks =
seq(from=x[1],to=(x[2]),by=amplitud), include.lowest = T, right = F,
plot = F)) tab_fre_temp