Estadistica Experimental Parte 1 - Maestria UNP
Estadistica Experimental Parte 1 - Maestria UNP
Estadistica Experimental Parte 1 - Maestria UNP
M odelos
E s t a d í s ti cos
Obtención y análisis
Observaciones de datos
Herramientas
I nform áticas
INCERTIDUMBRE EN EL RESULTADO
a) Cuantitativos
Cuantitativa continua
- Pesos de las jabas de mango
TABLA UNIVARIANTE
DIAGRAMA DE BARRAS
DIAGRAMA DE SECTORES
GRAFICO MOSAICO
Frecuencia de vehículos de 4
cilindros del año 80
GRAFICO MOSAICO
HISTOGRAMAS
HISTOGRAMA.
Datos continuos:
Datos continuos:
GRÁFICO DE DISPERSIÓN
Es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para
mostrar los valores de dos variables para un conjunto de datos. Se utiliza para
investigar la relación entre un par de variables continuas.
De la investigación médica
se observa que existe una
relación positiva entre el
Índice de masa corporal
(IMC) y el porcentaje de
grasa corporal en las
adolescentes.
• Descripción de datos mediante tablas y gráficos
2
Datos continuos:
GRÁFICO DE DISPERSIÓN
Se puede utilizar una tercera variable a través del ares de los puntos
representados. A este gráfico se llama gráfico de burbujas.
De la investigación
bancaria se examina las
relaciones entre los
ingresos, los ahorros y las
deudas de un grupo de
solicitantes de préstamos
• Conceptos básicos
1
Medidas de centralización
Media aritmética
Mediana
centro de la
distribución de datos
• Medidas características de un conjunto de datos
3
Medidas de centralización
Media
Ejemplo: 𝑥 = {1,2,3,3,5,5,5,6,6}
σ𝑛𝑖 = 1 𝑥
𝑥 = 1+2+3+3+5+5+5+6+6 =4 𝑥=
9MSc. Ing. Gerson La Rosa Lama 𝑛
Medidas características de un conjunto de datos
3
Medidas de centralización
MEDIA ARITMETICA
Cuanto más asimétrica sea más se desplaza la media hacia la cola.
Media Media
MEDIANA
Es el valor que deja a cada lado el 50% de los datos.
1 2 5 8 11 13 24 28 31 9 datos
Mediana=11
1 2 3 5 8 11 13 24 28 31 10 datos
Mediana=(8+11)/2=9,5
Con un número par de datos: la media de los dos centrales
MEDIANA
Es el valor que deja a cada lado el 50% de los datos.
MEDIANA
Es el valor que deja a cada lado el 50% de los datos.
50% 50%
Mediana Media
• Rango o recorrido
X: 1 2 5 8 11 13 24 28 31
Rango: 31-1=30
• Varianza
Promedio de desviaciones a la media, al cuadrado
Ejemplo: 𝑥 = {1,2,3,3,5,5,5,6,6}
𝑥 =4
Varianza
• Varianza
Promedio de desviaciones a la media, al cuadrado
• Varianza
Poca dispersión
Baja varianza
Baja desviación típica
Bajo CV
media
Mucha dispersión
Alta varianza
Alta desviación típica
Alto CV
media
• Medidas características de un conjunto de datos
3
Medidas de dispersiòn
• Cuartiles Q1, Q2, Q3
Son los valores que dividen la muestra en 4 grupos, cada uno con el 25% de los
datos (aproximadamente)
Entre el mínimo y Q1
25% de los datos
Entre Q1 y Q2 50%
25% de los datos
Entre Q2 y Q3 25% de los datos
50%
Entre Q3 y el máximo 25% de los datos
min Q1 Q2 Q3 max
• Medidas características de un conjunto de datos
3
Medidas de dispersiòn
Q1 Q2 Q3
Comparar grupos
d 1,5d
¿Datos atípicos?
• Medidas características de un conjunto de datos
3
Medidas de dispersiòn
EJEMPLO
EJERCICIO
EJERCICIO
EJERCICIO
¡ NO NECESARIAMENETE !
MSc. Ing. Gerson La Rosa Lama
4
• Inferencia sobre la media y varianza.
EJERCICIO
La diferencia entre medias puede deberse al azar del
muestreo, de hecho nunca saldrá exactamente igual a
2000 gramos
frente
“Hipótesis Alternativa” H1 € H1: m ≠2000
H1 : m ≠ m0 ¿Cómo decido si es
cierta H0 o H1?
MSc. Ing. Gerson La Rosa Lama
4
• Inferencia sobre la media y varianza.
Distribución de T student
t15
t100
t10
Distribución de T student
95%
H0 : m = m0 s
α /2 s α /2
IC para m X- t , X+ t
H1 : m ≠ m0 N-1
N
N-1
N
Con un Nivel de
Si m0 ∈ IC Aceptar H0 Confianza (1-α)%
Si m0 ∉ IC Rechazar H0 Aceptar H1
frente
“Hipótesis Alternativa” H1: σ2 ≠ 361
(N − 1)S 2
(N − 1)S 2
, Intervalo de Confianza para σ2
g2 g1
95%
14x392
= 1 4 .5
2 6 .1 g1
INTERVALO DE CONFIANZA PARA σ (95%)
(14,5 , 31,2) gramos
Riesgo de 1ª especie = α = 0,05
Nivel de Confianza (1-α)%=(1- 0,05)*100 = 95%
MSc. Ing. Gerson La Rosa Lama
4
• Inferencia sobre la media y varianza.
(N − 1)S 2 (N − 1)S 2
IC PARA σ ,
g2 g1
Si σ0 ∈ IC Con un Nivel de
Aceptar H0
Confianza (1-α)%
Si σ0 ∉ IC Rechazar H0 Aceptar H1
H0 : σ = σ0=19 H1 : σ ≠ 19
EJERCICIO
Obtenga intervalo de confianza para la media, la desviación estándar con una confiabilidad
de 99%, 95% y 90%
POBLACIÓN:
¿Es posible estudiar la totalidad de los individuos de una población para obtener
información sobre esta? Si la respuesta es no, entonces hacemos muestreo.
PROBABILÍSTICOS NO PROBABILISTICOS
EJEMPLO.
• Muestreo probabilístico
• Muestreo aleatorio simple
• Muestreo aleatorio estratificado
• Muestro por clusters
• Muestreo sistemático
• Muestreo no probabilístico
• Muestreo de conveniencia
• Muestreo de juicios
• Muestreo por cuotas
• Muestreo de “bola de nieve”
https://www.questionpro.com/blog/es/muestreo-no-probabilistico/
MUESTREO PROBABILÍSTICO
• MUESTREO ALEATORIO SIMPLE
• Consiste en tomar la muestra de tal modo que todos los
elementos de la población tengan la misma
oportunidad/probabilidad de ser elegidos.
• Necesitamos conocer el censo de la población y hacer una selección
totalmente al azar.
• MUESTREO SISTEMÁTICO
• De la serie ordenada de individuos de una población se selecciona
uno de cada k individuos, ordenadamente (el 8º, el 18º, el 28º,...), a
partir de un elemento elegido al azar
• Se establece la secuencia de muestreo en base a la relación entre
muestra y población.
• Si k es el intervalo entre unidades elegidas:
k=N/n
MSc. Ing. Gerson La Rosa Lama
• Tamaño de muestra y técnicas de muestreo
5
EJERCICIO
MUESTREO PROBABILÍSTICO
• MUESTREO ESTRATIFICADO
• Se divide la población en subgrupos o estratos
• De cada estrato se selecciona al azar una muestra como si fuera un
M.A.S o se puede usar un muestreo sistémico de cada estrato.
MUESTREO PROBABILÍSTICO
• MUESTREO ESTRATIFICADO
𝑛 = 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛
𝑛ℎ = 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑑𝑒 𝑐𝑎𝑑𝑎 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 ℎ
𝐻 = 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑒𝑠𝑡𝑟𝑎𝑡𝑜𝑠
𝑁ℎ = 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑐𝑎𝑑𝑎 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 ℎ
𝐻
𝑁ℎ = 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛
ℎ=1
MUESTREO PROBABILÍSTICO
• MUESTREO ESTRATIFICADO
𝑛 = 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛
𝑛ℎ = 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑑𝑒 𝑐𝑎𝑑𝑎 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 ℎ
𝐻 = 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑒𝑠𝑡𝑟𝑎𝑡𝑜𝑠
𝑁ℎ = 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑐𝑎𝑑𝑎 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 ℎ
𝐻
𝑁ℎ = 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛
ℎ=1
MUESTREO PROBABILÍSTICO
• MUESTREO ESTRATIFICADO
𝑛 = 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑆ℎ = 𝑒𝑠𝑡𝑖𝑚𝑎𝑐𝑖ó𝑛 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎
𝑛ℎ = 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑑𝑒 𝑐𝑎𝑑𝑎 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 ℎ 𝑑𝑒𝑛𝑡𝑟𝑜 𝑑𝑒𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 ℎ
𝐻 = 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑒𝑠𝑡𝑟𝑎𝑡𝑜𝑠
𝑁ℎ = 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑐𝑎𝑑𝑎 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 ℎ
𝐻
𝑁ℎ = 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛
ℎ=1
MUESTREO PROBABILÍSTICO
• MUESTREO ESTRATIFICADO
𝑛 = 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑆ℎ = 𝑒𝑠𝑡𝑖𝑚𝑎𝑐𝑖ó𝑛 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎
𝑛ℎ = 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑑𝑒 𝑐𝑎𝑑𝑎 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 ℎ 𝑑𝑒𝑛𝑡𝑟𝑜 𝑑𝑒𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 ℎ
𝑁ℎ = 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛
ℎ=1
EJERCICIO
MUESTREO PROBABILÍSTICO
EJERCICIO
San José
San Pablo
San Carlos
San Ricardo
San Roberto
San Benito
Santo domingo
San Pedro
MSc. Ing. Gerson La Rosa Lama
• Tamaño de muestra y técnicas de muestreo
5
San José
San Pablo
San Carlos
San Ricardo
San Roberto
San Benito
Santo domingo
San Pedro
MSc. Ing. Gerson La Rosa Lama
• Tamaño de muestra y técnicas de muestreo
5
San José
San Pablo
San Carlos
San Ricardo
San Roberto
San Benito
Santo Domingo
San Pedro
San José
San Pablo
San Carlos
San Ricardo
San Roberto
San Benito
Santo Domingo
San Pedro
Una vez especificadas las características que ha de tener la muestra, hay que
determinar su tamaño (n), de forma que sea suficientemente representativa de la
población y que asegure, para un nivel de confianza (1-α) dado, un error muestral (ε)
máximo permitido. La población puede ser infinita (a veces, suele considerarse infinita
cuando tiene más de 100.000 elementos) o de tamaño finito N, que es lo más general.
VARIABLES CUANTITATIVAS
- Talla media de pescado
- Cantidad de fruta por planta
- Nivel de histamina
- Cantidad de cadmio
- Grados brix de la fruta
- Peso por clamshell producido
- Nivel de satisfacción de un cliente
- Temperatura en túnel
- Solidos en suspensión - mg/L
- Cloro residual libre - ppm
𝑡𝛼 𝑠𝑝
𝜀= 2
, 𝑛𝑝 −1
n
𝑡𝛼2,𝑛 −1 𝑠𝑝 2 𝑁𝑡𝛼2,𝑛 𝑠 2
−1 𝑝
VARIANZA 2 𝑝 2 𝑝
𝑛= 𝑛=
𝜀 2 + 𝑡𝛼2
DESCONOCIDA
𝜀2 𝑁−1 𝑠𝑝 2
,𝑛 −1
2 𝑝
En la mayoría de los casos se desconoce el valor de σ, por lo que es necesario establecer un
proceso de muestreo previo con información más reducida (muestra piloto p) y a partir de ahí
2
estimar la σ a la que llamaremos 𝑆𝑝 . En ese caso en vez de utilizar 𝑧𝛼/2 utilizamos 𝑡𝛼2,𝑛 −1 donde
2 𝑝
𝑛𝑝 es el tamaño de la muestra piloto
MSc. Ing. Gerson La Rosa Lama
• Tamaño de muestra y técnicas de muestreo
5
2
𝑧1−𝛼/2 𝜎2 1,962 𝑥 502
𝑛= = = 385
𝜀2 52
2
𝑁 𝑧𝛼/2 𝜎2 50000 𝑥 1,962 𝑥 502
𝑛= 2 = = 381
𝑁−1 𝜀 2 +𝑧1−𝛼/2 𝜎2 50000−1 52 +1,962 𝑥 502
𝑡𝛼2,𝑛 𝑠 2
2
2 𝑝
−1 𝑝 𝑡2,5, 24 502 2,06 𝑥 502
𝑛= = = = 426
𝜀2 52 5 2
2
𝑁𝑡𝛼 𝑠𝑝 2
2 ,𝑛𝑝 −1 50000 𝑥 2,062 𝑥 502
𝑛= = = 423
𝑁−1 𝜀 2 +𝑧𝛼2 𝑠𝑝 2 50000−1 52 +2,062 𝑥 502
,𝑛 −1
2 𝑝
VARIABLES DICOTOMICAS
- Lotes de productos con presencia o ausencia de
coliformes
- Porcentaje de productos con nivel de aceptación Extra
- Porcentaje de productos en mal estado
- Proporción de empresas que tienen implementada BRC
- Porcentaje de empresas con tratamiento biológico de
residuos
- Porcentaje de fruta de calibre jumbo
- Porcentaje de plantas con arañita roja
- Lotes con ausencia o no de mosca de fruta
2
𝑧𝛼/2 𝑝𝑞 4 𝑥 0,5 𝑥 0,5 1
𝑛= = = 2
𝜀2 𝜀 2 𝜀
2
𝑁 𝑧𝛼/2 𝑝𝑞
𝑛= 2 = 223
𝑁−1 𝜀2 + 𝑧1−𝛼/2 𝑝 𝑞