Práctica 3 Cuartiles Percentiles y Diagramas de Cajas

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 17

ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL

Año: 2020 Periodo: I PAO


Materia: Estadística I
Práctica: Percentiles y Diagramas de cajas
Fecha: Duración 60
: minutos
Práctica 3. Percentiles y Diagramas de cajas
Tema 1.
Durante el mes de abril de 2009 se registran en miles de galones diarios, el caudal de un
afluente que desemboca en el Rio Guayas; los resultados son las siguientes treinta
lecturas:
4.054, 4.024, 4.030, 3.976, 3.947, 3.969, 3.937, 4.057, 3.964, 3.908, 4.047, 3.980, 4.017,
3.906, 3.963, 4.053, 3.951, 4.007, 3.970, 3.927, 4.015, 3.978, 3.944, 3.981, 3.951, 3.947,
3.992, 3.918, 4.031, 3.926
Realice lo siguiente: a) Ordene la muestra y asígnela en un vector de datos.
Comandos:

quantile(X, probs=c(p1,p2,…) #Acorde a los datos ordenados de X se determinan los


percentiles p1, p2, …etc.
summary(X) #calcula las principales medidas de resumen de posición
IQR(X) #rango intercuartílico Q3-Q1

Solución:
X=c(4.054, 4.024, 4.030, 3.976, 3.947, 3.969, 3.937, 4.057, 3.964, 3.908,
4.047, 3.980, 4.017, 3.906, 3.963, 4.053, 3.951, 4.007, 3.970, 3.927,
4.015, 3.978, 3.944, 3.981, 3.951, 3.947, 3.992, 3.918, 4.031, 3.926)
X=sort(X)
print(X)

## [1] 3.906 3.908 3.918 3.926 3.927 3.937 3.944 3.947 3.947 3.951 3.951
3.963
## [13] 3.964 3.969 3.970 3.976 3.978 3.980 3.981 3.992 4.007 4.015 4.017
4.024
## [25] 4.030 4.031 4.047 4.053 4.054 4.057

b) Calcule los tres cuartiles de los datos, rango de datos, rango intercuartil, los
percentiles quinto y nonagésimo quinto.
Solución:
extremo=range(X) #valores del rango de datos extremo[1] mínimo,
extremo[2] máximo
min(X) #valor mínimo

## [1] 3.906

max(X) #valor máximo

## [1] 4.057

rango=max(X)-min(X) #rango de datos


quantile(X) #determina los valores de los Q1, Q2, y Q3, así como los
extremos

## 0% 25% 50% 75% 100%


## 3.9060 3.9470 3.9730 4.0165 4.0570

quantile(X, probs = c(0.25,0.5,0.75)) #determina el Q1, Q2, Q3

## 25% 50% 75%


## 3.9470 3.9730 4.0165

RI=IQR(X) #calcula el rango intercuartil Q3-Q1


RI

## [1] 0.0695

quantile(X, probs = c(0.05,0.95)) #determina el percentil quinto y


nonagémiso quinto

## 5% 95%
## 3.91250 4.05355

summary(X) #resumen de medidas de posición median=Q2

## Min. 1st Qu. Median Mean 3rd Qu. Max.


## 3.906 3.947 3.973 3.979 4.016 4.057

c) Determine la existencia o no de valores aberrantes.


Q1=quantile(X, probs = 0.25)
Q3=quantile(X, probs = 0.75)
cerca_interior=Q1-1.5*RI
cerca_exterior=Q3+1.5*RI
v_logico1=X<cerca_interior
v_logico1

## [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
FALSE
## [13] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
FALSE
## [25] FALSE FALSE FALSE FALSE FALSE FALSE

sum(v_logico1) #cantidad de datos por debajo de la cerca_interior


## [1] 0

ifelse(sum(v_logico1)==0,"No existe valores aberrantes inferiores",


X[v_logico1])

## [1] "No existe valores aberrantes inferiores"

v_logico2=X>cerca_exterior
v_logico2

## [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
FALSE
## [13] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
FALSE
## [25] FALSE FALSE FALSE FALSE FALSE FALSE

sum(v_logico2) #cantidad de datos superior de la cerca_exterior

## [1] 0

ifelse(sum(v_logico2)==0,"No existe valores aberrantes superiores",


X[v_logico2])

## [1] "No existe valores aberrantes superiores"

d) Contruya la Ojiva correspondiente y Diagrama de Caja para el caudal del río.


Comandos:

boxplot(X, horizontal=T) #Elaborar un Diagrama de Cajas, el argumento horizontal

Solución:
p=c(0.05, 0.25, 0.5, 0.75, 0.95, 1)
valores=quantile(X,probs = c(0.05, 0.25, 0.5, 0.75, 0.95, 1))
valores

## 5% 25% 50% 75% 95% 100%


## 3.91250 3.94700 3.97300 4.01650 4.05355 4.05700

#Ojiva
plot(valores, p, main="Ojiva", xlab="Galones en miles" , ylab="Frecuencia
relativa acumulada")
lines(valores,p)
#Diagrama de cajas
boxplot(X, horizontal = TRUE)
Tema 2. Diagramas de cajas
Considerando los datos de Iris cargados en Rstudio, realice lo siguiente:
a) Diagrama de cajas de longitud del pétalo y Diagrama de cajas de longitud del sépalo,
adicionalmente incorpore los histogramas de frecuencia.
Solución:
D=iris
head(D,5)

## Sepal.Length Sepal.Width Petal.Length Petal.Width Species


## 1 5.1 3.5 1.4 0.2 setosa
## 2 4.9 3.0 1.4 0.2 setosa
## 3 4.7 3.2 1.3 0.2 setosa
## 4 4.6 3.1 1.5 0.2 setosa
## 5 5.0 3.6 1.4 0.2 setosa

print("Petal.Length")

## [1] "Petal.Length"

summary(D$Petal.Length)

## Min. 1st Qu. Median Mean 3rd Qu. Max.


## 1.000 1.600 4.350 3.758 5.100 6.900

print("Sepal.Length")

## [1] "Sepal.Length"

summary(D$Sepal.Length)

## Min. 1st Qu. Median Mean 3rd Qu. Max.


## 4.300 5.100 5.800 5.843 6.400 7.900

par(mfrow=c(2,2))
boxplot(D$Petal.Length, horizontal = T, xlab="Longitud de Pétalos")
boxplot(D$Sepal.Length, horizontal =T, xlab="Longitud de Sépalos")
hist(D$Petal.Length)
hist(D$Sepal.Length)
par(mfrow=c(1,1))

b) Realice un diagrama de cajas por especie de la longitud de sépalo


Solución:
boxplot(D$Sepal.Length ~ D$Species)
boxplot(D$Sepal.Length ~ D$Species, horizontal = T)
Tema 3. Resumen
a) Descargar el archivo de bank.csv y léalo, luego almacénelo en un objeto de nombre
banco.
Solución:
download.file(
url = "https://raw.githubusercontent.com/jboscomendoza/r-principiantes-
bookdown/master/datos/bank.csv",
destfile = "bank.csv"
)
banco <- read.csv(file = "bank.csv", sep = ";")
View(banco)

b) Considerando el campo Edad, calcule los tres cuartiles de los datos, rango de datos,
rango intercuartil, los percentiles quinto y nonagésimo quinto.

Comando:

#Cuartiles
quantile(edad)
quantile(edad, probs = c(0.25,0.5,0.75))
#Rango
min(edad)
max(edad)
rango=max(edad)-min(edad)
rango
#Rango Intercuartílico
RI=IQR(edad)
RI
#Percentiles
quantile(edad, probs = c(0.05,0.95))
summary(edad)

Solución:
c) Determine la existencia o no de valores aberrantes

Comando:

#LiteralC
#Valores Aberrantes
Q1=quantile(edad, probs = 0.25)
Q3=quantile(X, probs = 0.75)
cerca_interior=Q1-1.5*RI
cerca_exterior=Q3+1.5*RI
v_logico1=edad<cerca_interior
v_logico1
sum(v_logico1)
ifelse(sum(v_logico1)==0,"No existe valores aberrantes inferiores", edad[v_logico1])
v_logico2=edad>cerca_exterior
v_logico2
sum(v_logico2)
ifelse(sum(v_logico2)==0,"No existe valores aberrantes superiores", edad[v_logico2])

Solución:
d) Construya la Ojiva correspondiente con los valores del literal “b”.

Comando:

#Ojiva
p=c(0.05, 0.25, 0.5, 0.75, 0.95, 1)
valores=quantile(edad,probs = c(0.05, 0.25, 0.5, 0.75, 0.95, 1))
valores
plot(valores, p, main="Ojiva", xlab="Edad" , ylab="Frecuencia relativa acumulada")
lines(valores,p)

Solución:

e) Realice un diagrama de cajas para la variable edad (age)

Comando:

#Diadrama de Caja
boxplot(edad, horizontal = TRUE)
f) Realice un diagrama de cajas para cada nivel de educación analizar cómo se
distribuye la edad(age).

Comando:

#Diagrama de caja
educacion=banco$education
boxplot(edad ~ educacion)

Solución:

También podría gustarte