Guia Me 2019 Ii PDF
Guia Me 2019 Ii PDF
Guia Me 2019 Ii PDF
INDICE
Capítulo I ......................................................................................................................................... 2
APLICACIONES DE LA DISTRIBUCIÓN CHI-CUADRADO .................................................. 2
Capítulo II ..................................................................................................................................... 47
DISEÑOS EXPERIMENTALES .................................................................................................. 47
Capítulo III .................................................................................................................................... 56
DISEÑO COMPLETAMENTE AL AZAR (D.C.A.)................................................................... 56
DISEÑO DE BLOQUES COMPLETOS AL AZAR (D.B.C.A) .................................................. 91
Capítulo V ................................................................................................................................... 113
DISEÑO CUADRADO LATINO (D.C.L) ................................................................................. 113
Capítulo VI .................................................................................................................................. 130
PRUEBAS NO PARAMÉTRICAS RELACIONADAS A DISEÑOS EXPERIMENTALES .. 130
Capítulo VII................................................................................................................................. 151
EXPERIMENTO FACTORIAL ................................................................................................. 151
Capítulo VIII ............................................................................................................................... 181
ANÁLISIS DE CORRELACIÓN ............................................................................................... 181
ANÁLISIS DE REGRESIÓN LINEAL SIMPLE ...................................................................... 192
Capítulo X ................................................................................................................................... 208
ANALISIS DE REGRESION LINEAL MÚLTIPLE ................................................................. 208
Capítulo XI .................................................................................................................................. 224
ANALISIS DE COVARIANZA ................................................................................................. 224
1
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Capítulo I
OBJETIVO
Introducción
A pesar que las pruebas no paramétricas son más robustas que las paramétricas. En
otras palabras, son válidas en un rango más amplio de situaciones (exigen menos
condiciones de validez); las pruebas paramétricas son las más utilizadas por los
investigadores, debido a su mayor difusión.
2
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Las aplicaciones de la prueba Chi Cuadrado son las de mayor uso en los estudios de
análisis con datos de conteo o de frecuencias. Karl Pearson (1857-1936) prominente
científico, matemático y pensador británico, demostró que la distribución Chi Cuadrado
puede aplicarse como prueba para verificar la congruencia entre los datos resultados de
una observación y las hipotéticas, siempre que los datos sean de conteo o frecuencias.
Está basada en la comparación de las frecuencias observadas (muestrales) versus
frecuencias esperadas o teóricas (poblacionales), las mismas que pueden provenir o no
de tablas de contingencia.
En síntesis, la distribución Chi Cuadrado puede ser utilizada para diferentes propósitos.
Entre las principales pruebas y su respectivo uso tenemos:
Como se mencionó las pruebas de bondad de ajuste se utiliza para probar sin un
conjunto de datos muestrales, como es el caso de las distribuciones: multinomial,
binomial, Poisson, normal, etc. sigue o se ajusta a una determinada distribución teórica.
Los datos en las pruebas de bondad de ajuste no provienen de tablas de contingencia.
Ejemplos:
3
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Para poder aplicar adecuadamente esta prueba se debe contar con una tabla de
frecuencias de una variable cualitativa o cuantitativa, de la siguiente manera:
Frecuencia
Valor de la variable cuantitativa o observadas
N°
Categoría de la variable cualitativa
oi
1 A1 o1
2 A2 o2
k Ak ok
Total n
o
i 1
i n
Esta prueba se aplica cuando se desea verificar si al menos una de las frecuencias
observadas oi perteneciente a la i-ésima categoría o valor de la variable (mutuamente
excluyentes) difiere significativamente de su respectiva frecuencia teórica o frecuencia
esperada ei .
ei n i
i 1
i 1
4
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
k
A partir de la expresión anterior es fácil deducir que: e
i 1
i n
Estadístico de Prueba
k
(oi ei )2 2
2
c ~ ( k m1)
i 1 ei
Región Crítica
El percentil (1 ; k m 1) o valor crítico crit (también conocido como valor tabular, tab2 )
2 2
es determinado por el complemento del nivel de significación asignado (es decir, 1-α) y
el número de grados de libertad es el número de categorías o valores de la variable en
que se dividen los datos en la tabla de frecuencia (k) (gl = k – m –1) menos el número de
parámetros estimados a partir de la muestra (m) menos una unidad.
Los parámetros estimados a partir de la muestra son utilizados para calcular los i y
dependen de la distribución teórica propuesta en las hipótesis y si estos son conocidos
o desconocidos.
5
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Casos especiales:
a) Agrupación de Clases
b) Corrección de Yates
o e 0.5
2
k
c2 ~ (2k m1)
i i
i 1 ei
6
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Por ejemplo, en una investigación la hipótesis nula podría ser que en una ciudad el 60%
de personas prefieren la marca Toyota, el 30% la marca Nissan y el 10% la marca
Volkswagen, mientras que la hipótesis alterna seria al menos una de las proporciones es
diferente a las especificadas.
Procedimiento:
Utilizando el p-valor
P4) Conclusión
7
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
oi ei
2
k
P3) Estadístico de prueba
2
c ~ (2k 1)
i 1 ei
P4) Desarrollo de la prueba
0.10
0.04
2
crit tab
2
21 ,k 1
0.02
0.00
0 Chi Critico
P6) Conclusión
Ejemplo de aplicación 1
Una fábrica cuenta con tres máquinas para la producción de un mismo producto.
Durante la última semana de producción se han producido 135 artículos. El jefe de
producción cree que las máquinas no producen en cantidades similares. Por lo que ha
solicitado clasifiquen cada producto según la máquina que la ha producido. A
continuación se presenta la tabla de frecuencia de las cantidades producidas por cada
máquina:
Máquina A Máquina B Máquina C
43 53 39
8
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Proporción Contribución
Categoría Observado de prueba Esperado a Chi-cuad.
A 43 0,333333 45 0,08889
B 53 0,333333 45 1,42222
C 39 0,333333 45 0,80000
P-valor de la prueba
estadística
1) Planteamiento de la hipótesis.
H0: Las tres máquinas producen en igual proporción.
H1: Las tres máquinas no producen en igual proporción.
2) = 0,05
1) Planteamiento de la hipótesis.
H0: Las tres máquinas producen en igual proporción.
H1: Las tres máquinas no producen en igual proporción.
2) =0,05
oi ei
2
k
3) Estadístico de prueba.
2
c
i 1 ei
~ (32 1)
4) Desarrollo de la Prueba.
A continuación se muestra la tabla que contiene las frecuencias observadas, las
frecuencias esperadas entre otros valores que se requieren para esta prueba.
Máquina oi i ei n i (oi-ei)2/ei
A 43 1/3 45 0,08888889
B 53 1/3 45 1,42222222
C 39 1/3 45 0,80000000
Total 135 1 135 2.31111111
9
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Observe que las probabilidades para cada máquina deben ser las mismas, pues debe
tenerse igual frecuencia teórica en el supuesto de que la producción es la misma para
cada máquina.
2
k
oi ei 2 2.3111
c
i 1 ei
5) Decisión
Chi-Square, df=2
0.5
Como:
0.4
crit
2
tab
2
20.95,2 5.9915
0.3
Luego:
0.2 2c = 2.3111 5.9915
0.1
Entonces, no se rechaza H0.
0.05
0.0
0 5.99
X
6) Conclusión.
Ejemplo de aplicación 2
¿Se puede afirmar que el número de clientes del distrito de Surco que han solicitado
regularizar sus montos de cuentas atrasadas, no siguen la proporción de 3:4:3 ? Use
el p-valor y la prueba estadística.
10
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
N GL Chi-cuad. Valor p
66 2 6.51263 0.039
1) Planteamiento de la hipótesis
H0: El número de clientes del distrito de Surco que han solicitado regularizar sus
montos de cuentas atrasadas, sigue la proporción de 3:4:3
H1: El número de clientes del distrito de Surco que han solicitado regularizar sus
montos de cuentas atrasadas, NO sigue la proporción de 3:4:3
2) =0.05
4) Conclusión: Con un nivel de significación del 5%, se puede afirmar que el número
de clientes del distrito de Surco que han solicitado regularizar sus montos de
cuentas atrasadas no siguen la proporción de 3:4:3
1) Planteamiento de la hipótesis.
H0: El número de clientes del distrito de Surco que han solicitado regularizar sus
montos de cuentas atrasadas, sigue la proporción de 3:4:3
H1: El número de clientes del distrito de Surco que han solicitado regularizar sus
montos de cuentas atrasadas, NO sigue la proporción de 3:4:3
2) =0.05
oi ei
2
k
3) Estadística de prueba.
2
c
i 1 ei
~ (32 1)
4) Desarrollo de la Prueba.
A continuación se muestra la tabla que contiene las frecuencias observadas, las
frecuencias esperadas entre otros valores que se requieren para esta prueba.
11
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
oi ei
2
k
2
c 6,5126
i 1 ei
5) Decisión
Chi-Square, df=2
0.5 Como:
0.4
crit
2
tab
2
20.95,2 5.9915
Luego 2c = 6.5126 5,9915
0.3
0.2
Entonces se rechaza H0 y se
acepta H1
0.1
0.05
0.0
0 5.99
X
6) Conclusión
A un nivel de significación del 5%, se puede afirmar que el número de clientes del
distrito de Surco que han solicitado regularizar sus montos de cuentas atrasadas no
siguen la proporción de 3:4:3
r x rx
p (1 p) x 0,1, 2 , r
P( X x) x .
0 c.c.
12
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Si es desconocido debe ser estimado utilizando la muestra a partir del valor esperado de
la distribución Binomial E ( X ) rp , de tal manera que:
E( X )
p
r
El valor esperado en una tabla de frecuencia para una variable discreta puede ser
estimado mediante:
k
xo i i
E( X ) i 1
n
Procedimiento:
1) Planteamiento de la hipótesis.
H0: Los datos provenientes de la variable en estudio "X" se ajustan a una distribución
teórica Binomial.
H1: Los datos provenientes de la variable en estudio "X" no se ajustan a una distribución
teórica Binomial.
3) Estadística de prueba.
oi ei
2
k
2
c ~ (2k m1)
i 1 ei
Donde:
oi: frecuencia observada para el valor i de la variable X.
ei: frecuencia esperada para el valor i de la variable X.
4) Desarrollo de la prueba
13
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
5) Criterios de decisión
0.02
0.00
0 Chi Critico
6) Conclusión.
Ejemplo de Aplicación 1
Número de ventas
Número de días
realizadas
0 50
1 75
2 65
3 15
4 5
Solución:
1) Planteamiento de la hipótesis
H0: Los datos provenientes del número de ventas realizadas por el vendedor de
seguros se ajustan a una distribución Binomial.
H1: Los datos provenientes del número de ventas realizadas por el vendedor de
seguros no se ajustan a una distribución Binomial.
2) =0,05
oi ei
2
k
3) Estadística de prueba
2
c ~ (2k m1)
i 1 ei
14
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
4) Desarrollo de la Prueba
270 1,2857143
E ( X ) rp 1.2857143 pˆ 0.3214286
210 4
Esta probabilidad de éxito será utiliza para calcular las probabilidades teóricas que a la
vez servirán para calcular las frecuencias esperadas:
4
1 P X 0 0.3210 (1 0.321)40 0.212
0
5 P( x 4) 1 P x 3 0.011
0 50 0.212023 44.5247586
1 75 0.401727 84.3627004
2 65 0.285438 59.9419187
3 15 0.090138 18.929027
4 5 0.010674 2.2415953
Total 210 1,000000 210
2
k
oi ei 2 2.2039 ~ (22 )
c
i 1 ei
15
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
5) Criterios de decisión
Luego entonces tenemos 4-1-1 = 2 grados de libertad para la estadística de prueba
Chi-cuadrado y con α = 0.05, el valor critico es 5.9915
Chi-Square, df=2
0.5
0.4
0.3
0.05
0.0
0 5.99
X
6) Conclusión
A un nivel de significación del 5% no se rechaza Ho, no se puede afirmar que la
variable número de ventas realizadas tenga una distribución distinta a la Binomial.
Ejemplo de Aplicación 2
Un Ingeniero Zootecnista ha recogido información de 105 hembras que tuvieron solo dos
crías; para examinar su estado físico y determinar si las crías están en óptimas
condiciones de crecimiento o no. Se sabe que el porcentaje de crías que se desarrollan
en óptimas condiciones es del 60%. Los datos se presentan a continuación:
¿A qué distribución cree usted se ajustaría mejor la variable en estudio? Use =0,05
Solución:
1) Planteamiento de la hipótesis.
H0: El número de crías por hembra en óptimas condiciones se ajustan a una
distribución Binomial con una proporción de éxito p = 0.6.
H1: El número de crías por hembra en óptimas condiciones NO se ajustan a una
distribución Binomial con una proporción de éxito p = 0.6.
2) =0.05
oi ei
2
k
3) Estadística de prueba 2
c ~ (2k m1)
i 1 ei
16
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
4) Desarrollo de la Prueba.
Chi-cuadrada con 2 GL
Proporción Contribución
Categoría Observado de prueba Esperado a Chi-cuad. P( X ≤ x ) x
1 11 0.16 16.8 2.0024 0.95 5.99146
2 36 0.48 50.4 4.1143
3 58 0.36 37.8 10.7947
N GL Chi-cuad. Valor p
105 2 16.9114 0.000
5) Criterios de decisión
Utilizando Valor p:
Como valor p = 0.000 < α= 0.05, RHo y se acepta H1
6) Conclusión
A un nivel de significación del 5% se rechaza Ho. Por lo tanto se puede afirmar que el
número de crías en óptimas condiciones NO se ajustan a una distribución Binomial
con una proporción de éxito p = 0.6.
En esta prueba las probabilidades teóricas i , que serán utilizadas para calcular las
frecuencias esperadas deben ser estimadas a partir de la distribución de Poisson
e x
x 0,1, 2...
P( X x) x ! .
0 c.c.
Cuando se tiene que estimar el parámetro a partir de la muestra el valor de m =1, y los
grados de libertad en el valor crítico es igual a: k – 1 – 1 = k – 2; si no hay necesario
estimar el parámetro , el valor de m =0, y sus grados de libertad es k – 0 – 1 = k – 1.
17
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Procedimiento:
Utilizando el p-valor
1) Planteamiento de la hipótesis.
H0: Los datos provenientes de la variable en estudio "X" se ajustan a una distribución
de Poisson.
H1: La variable X no tiene distribución de Poisson
2) = 0,05
4) Conclusión.
1) Planteamiento de la hipótesis.
H0: Los datos provenientes de la variable en estudio "X" se ajustan a una Distribución
Poisson.
H1: Los datos provenientes de la variable en estudio "X" no se ajustan a una
Distribución Poisson.
Donde:
oi: frecuencia observada para el valor i de la variable X.
ei: frecuencia esperada para el valor i de la variable X.
4) Desarrollo de la prueba
5) Criterios de decisión
0.06
crit
2
tab
2
21 ,k m1
0.04
0.02
0.00
0 Chi Critico
6) Conclusión
18
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejemplo de Aplicación 1
N° accidentes oi
0 34
1 25
2 11
3 7
4 3
Nº Probabilidad Contribución
Accidentes Observado de Poisson Esperado a Chi-cuad.
0 34 0,367879 29,4304 0,70953
1 25 0,367879 29,4304 0,66693 Aparece como “>=3”
2 11 0,183940 14,7152 0,93798
porque el programa realizó
>=3 10 0,080301 6,4241 1,99047
la unión de filas, ya que el
valor esperado de la última
N N* GL Chi-cuad. Valor p fila resulto menor a 5
80 0 2 4,30491 0,116
Hipótesis
1) Planteamiento de la hipótesis.
H0: Los datos provenientes del número de accidentes automovilísticos en el cruce de
las avenidas de interés sigue una distribución de Poisson.
H1: Los datos provenientes del número de accidentes automovilísticos en el cruce de
las avenidas de interés no sigue una distribución de Poisson.
2) =0.05
Conclusión
A un nivel de significación del 5%, no se puede rechazar que el número diario de
accidentes sigue una distribución Poisson.
19
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
1) Planteamiento de la hipótesis.
H0: Los datos provenientes del número de accidentes automovilísticos en el cruce de
las avenidas de interés sigue una distribución de Poisson.
H1: Los datos provenientes del número de accidentes automovilísticos en el cruce de
las avenidas de interés no sigue una distribución de Poisson.
2) =0.05
oi ei
2
k
3) Estadística de prueba.
2
c
i 1 ei
~ (2k m1)
4) Desarrollo de la Prueba
N° accidentes (xi) oi xi oi
0 34 0
1 25 25
2 11 22
3 7 21
4 3 12
80 80
xo i i
80
i 1
1
n 80
A continuación tenemos otros cálculos que nos permiten realizar la prueba y obtener
los grados de libertad de la estadística de prueba.
e1 1
0
1 P X 0 0.3679
0!
5 P X 4 1 P X 4 1 P X 3 1 0.081 0.019
N° accidentes i ei n i
0 0.3679 29.43
1 0.3679 29.43
2 0.1839 14.72
3 0.0613 4.91
4 o más 0.0190 1.52
1.0000 80.00
Observe que hay dos clases con ei < 5 que deben ser agrupadas.
20
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
N° accidentes oi ei n i (oi-ei)2/ei
(x)
0 34 29.43 0.7096
1 25 29.43 0.6668
2 11 14.72 0.9401
3 o más 10 6.42 1.9963
80 80 4.3129
2
k
oi ei 2 4.3129
c
i 1 ei
5) Criterios de decisión
Los grados de libertad para la distribución Chi- cuadrado de la prueba son: k – m - 1
= 4 – 1 - 1 = 2 grados de libertad.
0.3
0.2
0.1
0.05
0.0
0 5.99
X
6) Conclusión.
A un nivel de significación del 5% no se rechaza Ho. Por lo tanto no podemos afirmar
que la variable número de accidentes automovilísticos en el cruce de las avenidas de
interés tenga una distribución distinta a la distribución de Poisson.
Ejemplo de Aplicación 2
21
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
1) Planteamiento de la hipótesis
H0: El número de crías vivas por hembra se ajusta a una distribución Poisson
H1: El número de crías vivas por hembras NO se ajusta a una distribución Poisson
2) =0.05
oi ei
2
k
3) Estadística de prueba.
2
c
i 1 ei
~ (2k m1)
4) Desarrollo de la Prueba
REPORTE DE MINITAB
5) Criterios de decisión
Utilizando Valor P
6) Conclusión
A un nivel de significación del 5% No se rechaza Ho. Por lo tanto NO se puede afirmar
que el número de crías vivas NO se ajusta a una distribución Poisson.
22
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejercicios Propuestos
¿Se puede afirmar que el número de clientes por distrito que han solicitado descuentos
por las compras, siguen la proporción de 2:3:1:2? Plantee las hipótesis respectivas y
concluya. Use = 0.05
Use los siguientes datos para probar la hipótesis de que las llamadas, que entran al
conmutador de una empresa agrícola durante intervalos de un minuto, no tiene
distribución de Poisson. Use = 0.10
4. Un vendedor de semillas hace cuatro llamadas diarias. Una muestra aleatoria de 100
días da como resultado las frecuencias de ventas que vemos a continuación:
Número de ventas 0 1 2 3 4
Número de días 30 32 25 10 3
23
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
En los registros históricos se conoce que el 30% de las llamadas se concretaron en una
venta. Suponga que las llamadas son independientes, ¿el número de ventas que se
concretan por día sigue una distribución binomial? Use = 0.01
5. Una empresa estudia el número de defectos en unas tarjetas de video que se fabrican
para unos equipos de meteorología. Se obtiene una muestra aleatoria de las tarjetas y
se observa el número de defectos que hay. Los resultados obtenidos se muestran a
continuación:
Número de defectos 0 1 2 3 4
Frecuencia 17 13 9 5 7
¿Se puede afirmar que el número de automóviles que llegan a la estación de servicio en
un intervalo dado se ajusta a una distribución de Poisson con = 2 Use = 0.05.
7. Una caja contiene 5 semillas de un gran valor. La preocupación que se tiene de estas
cajas es que existan semillas que no germinen. Se hizo un experimento en donde se
evaluó 100 cajas y se contó el número de semillas que no germinaron. A continuación,
se presentan los resultados:
N° de cajas 30 32 25 10 3
N° de semillas que no germinaron 1 2 3 4 5
Usando un nivel de significación de 0.05. ¿Se puede afirmar que el número de semillas
que no germinaron por caja sigue una distribución teórica conocida? Concluya de
acuerdo al caso.
24
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Realice una prueba, con un nivel de significación de 5%, de la hipótesis que afirma que
los datos no provienen de una distribución de teórica con promedio 2 accidentes.
10. Se realizó un estudio que consistió en evaluar 600 bolsas de peras, cada una de las
bolsas contiene 3 peras de las cuales algunas se encuentran en buen estado y otras en
mal estado. Los resultados al evaluar las 600 bolsas son los siguientes:
Usando un nivel de significación de 0.05. ¿Se puede afirmar que el número de peras en
mal estado por bolsa sigue una distribución teórica conocida? Concluya de acuerdo al
caso.
Referencias
Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of
data analysis. Australia: Duxbury/Thomson Learning
Agresti, A. (2002) Categorical Data Analysis, (2nd Ed). Wiley-Interscience. New Yersey
25
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Tablas de Contingencia f x c
Es un cuadro de doble entrada en el cual se recoge la frecuencia conjunta de los datos
de una o varias muestras aleatorias. Estas frecuencias son clasificadas de acuerdo a las
clases o categorías de una variable A y a las clases o categorías de una variable B.
Sea "A" una característica con sus categorías a1, a2, ,ac y "B" una característica con sus
categorías b1, b2,..., bf
Característica A
Total
a1 a2 … ac
b1 o11 o12 … o1c n1.
b2 o21 o22 … o2c n2.
Carac. B
bf of1 of2 … ofc nr.
Total n.1 n.2 n.c n..
Donde:
i = 1, 2, ...., f "filas"
j = 1, 2, ...., c "columnas"
c f f c
ni oij n j oij n oij
j 1 i 1 i 1 j 1
Estadístico de Prueba
26
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Región Crítica
Hay diversas inferencias usando tablas de contingencia, en el curso solo se verá dos:
Prueba de Independencia
Prueba de Homogeneidad de Subpoblaciones
Observaciones:
o ~
2
f c eij 0.5
c2
ij 2
(( f 1)( c 1))
i 1 j 1 eij
Se aplica cuando los datos de una muestra aleatoria son clasificados de acuerdo a dos
características (variables) y lo que se desea es probar si las características utilizadas
como criterios de clasificación son independientes entre sí ó si existe alguna relación
entre ellas. Los totales marginales de filas y columnas son aleatorios.
Procedimiento
1) Planteamiento de la Hipótesis
H0: Las características "A" y "B" son independientes (no están relacionadas) entre sí.
H1: Las características "A" y "B" no son independientes (si están relacionadas).
5) Criterios de Decisión:
27
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
0.04
2
crit tab
2
21 , f 1 c 1
0.02
0.00
0 Chi Critico
6) Conclusiones
c2
C
c2 n
C toma valores entre 0 y 1. Valores cercanos a cero muestran una baja asociación entre
las variables y los valores próximos a 1 una alta asociación.
Ejemplo de aplicación 1
El jefe de una planta industrial desea determinar si existe relación entre el rendimiento
en el trabajo y turno laboral del empleado. Se tomó una muestra aleatoria de 400
empleados y se obtuvo los siguientes resultados:
Deficiente 23 60 29 112
Promedio 28 79 60 167
Muy bueno 9 49 63 121
Total 60 188 152 400
a. ¿La calificación del rendimiento del trabajador está asociada con el turno en el
que labora el empleado? Analice la magnitud de la asociación, si la hubiera
28
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
1) Formulación de hipótesis.
H0: El rendimiento de un empleado y el turno que labora en el trabajo son
independientes.
H1: El rendimiento de un empleado y el turno que labora en el trabajo no son
independientes.
2) = 0,01
Conclusión.
A un nivel de significación del 1%, se puede afirmar que existe relación entre el
rendimiento del empleado y el turno en el laboral.
1) Formulación de hipótesis.
H0: El rendimiento de un empleado y el turno que labora en el trabajo son
independientes.
H1: El rendimiento de un empleado y el turno que labora en el trabajo no son
independientes.
2) = 0,01
f c
o eij
2
3) Estadístico de prueba.
2
c
i 1 j 1
ij
eij
~ 2 f 1c1
29
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
4) Desarrollo de la prueba
La siguiente tabla muestra tanto las frecuencias observadas como las esperadas
(entre paréntesis)
5) Criterios de decisión
0.10
0.05
0.01
0.00
0 13.3
6) Conclusión
Con nivel de significación 0,01 se rechaza Ho. Por lo tanto se puede afirmar que la
calificación del rendimiento real de un empleado en el trabajo está relacionada con
el turno en el que labora.
c2 20.18
C 0.219151
c2 n 20.18 400
30
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejemplo de aplicación 2
a. ¿Es posible relacionar la comida que consumen con más frecuencia fuera de casa
con el sexo de los estudiantes? Use α = 0.01 Utilice el P-valor.
Reporte de Minitab
Prueba Estadistica:
C1 C2 Total
1 154 85 239
138.26 100.74
2 80 101 181
104.71 76.29
3 46 18 64
37.02 26.98
1) Formulación de hipótesis.
H0: La comida que consumen fuera de casa es independiente del sexo.
H1: La comida que consumen fuera de casa no es independiente del sexo.
2) = 0.01
4) Conclusión
Con un nivel de significación de 0.01 se puede afirmar que la comida que consumen
fuera de casa no es independiente del sexo, es decir si existe relación entre las dos
variables.
31
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
c2 23.246
C 0.21407
n
2
c 23.246 484
Esta prueba se aplica cuando se desea verificar si las “K” categorías de una variable en
estudio tiene un comportamiento semejante ú homogéneo en “P” muestras o sub
poblaciones provenientes de igual número de poblaciones. De verificarse este
comportamiento homogéneo se puede inferir que las subpoblaciones provienen de una
misma población. En una prueba de homogeneidad de subpoblaciones uno de los totales
marginales de filas y columnas es aleatorio y el otro es fijo.
Procedimiento:
1) Planteamiento de la Hipótesis
H0: Los “K” categorías de la variable se distribuyen homogéneamente en las “P” muestras
o subpoblaciones.
H1: Los “K” categorías de la variable no se distribuyen homogéneamente en las “P”
muestras o subpoblaciones.
4) Desarrollo de la prueba
5) Criterios de Decisión
0.06
2
crit tab
2
21 , f 1 c 1
0.04
0.02
0.00
0 Chi Critico
6) Conclusiones
32
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejemplo de aplicación 1
Use un nivel de significancia de 0.05 para probar si, en las condiciones establecidas, la
probabilidad de desintegración es diferente en al menos uno de los tres tipos de
materiales. Use el valor P y prueba estadística.
C1 C2 C3 Total
1 41 27 22 90
36.00 24.00 30.00
0.694 0.375 2.133
2 79 53 78 210
84.00 56.00 70.00
0.298 0.161 0.914
3) P-valor = 0.101
33
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
2
f c o
ij eij
2
4) Desarrollo de la Prueba.
Cálculos previos:
Tipo de Material
Condición Total
Material A Material B Material C
41 27 22
Desintegrados (36) (24) (30) 90
Permanecieron 79 53 78
intactos (84) (56) (70) 210
Total 120 80 100 300
5) Criterios de decisión
0.2
0.1
0.05
0.0
0 5.99
X
6) Conclusión
Con nivel de significación 0,05 no se rechaza la hipótesis nula. Por lo tanto, la
condición de desintegración se distribuye similarmente en los tres tipos de materiales.
34
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejemplo de aplicación 2
Para probar la protección de dos vacunas contra los abortos producidos por cierta
enfermedad, se han seleccionado tres grupos de vacas (Grupo 1, Grupo 2 y Grupo 3),
cada uno de los cuales tiene un total de 150 vacas sometidas al estudio. Estos grupos
de vacas fueron vacunados de la forma siguiente:
Reporte de MINITAB
Prueba Chi-cuadrada: Grupo_1, Grupo_2, Grupo_3
2) α = 0.05
3) p-valor = 0.004
A un nivel de significación del 5% se rechaza Ho. Por lo tanto, se puede afirmar que
la proporción de abortos no es la misma en los tres grupos de vacas.
35
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
2) α = 0.05
f c o eij
2
3) Estadística de prueba.
2
c
ij
~ 21 , f 1c 1
i 1 j 1 eij
Chi-cuadrada = 10.843,
Chi-cuadrada con 2 GL
P( X <= x ) x
0.95 5.99146
5) Conclusión.
A un nivel de significación del 5% se rechaza Ho. Luego se puede afirmar que la
proporción de abortos no es la misma en los tres grupos de vacas.
36
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejercicios Propuestos
Distritos
Calidad del
servicio Lince San Borja San Miguel San Martín
Regular 15 20 30 20
Buena 25 40 35 25
Muy buena 40 50 40 30
Realice la prueba más adecuada para este caso. Plantee las hipótesis respectivas y
concluya. Use un nivel de significación del 0.05
2) Se realizó una encuesta para saber si existe una relación entre el género y la confianza
que la gente tiene en los alimentos transgénicos. Los resultados de una muestra
aleatoria se presentan en la siguiente tabla:
Use un nivel de significación del 0.05 para probar sí existe una relación del género y
la confianza en los alimentos transgénicos.
37
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
4) Se recolectaron datos sobre un conjunto de cerdos a los cuales se les dio un tipo
especial de alimentación con la finalidad de incrementar el peso. Se registró el tipo
de raza (A, B, C, D) y la ganancia de peso que obtuvieron. Los resultados se muestran
en la tabla adjunta:
Tipo de raza
Ganancia de peso A B C D
De 2 a 5kg 127 53 50 57
Más de 5kg 71 47 43 42
Tipo de insecticida
Nivel
A B C
Bajo 11 13 9
Medio 32 28 27
Alto 7 9 14
Pruebe la hipótesis, con un nivel de significación del 5%, que los tres tipos de
insecticidas no tienen el mismo nivel de efectividad en la curación.
38
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Nota Importante
Esta prueba estadística no pertenece al grupo de pruebas no paramétricas.
Es presentada en este capítulo como parte de las aplicaciones de la distribución Chi
Cuadrado dado que será utilizada como supuesto en los diseños experimentales
Procedimiento
1) Formulación de Hipótesis
H0: 12 22 t2 2
H1: Al menos un i2 es diferente i 1, 2, ,t
2) Nivel de significación .
3) Estadístico de prueba
El estadístico de prueba tiene una distribución Chi-cuadrado con t 1 grados de libertad
t
ni 1 LnSi2
t
i
2
n 1 LnS p
Q i 1 i 1
~ 2t 1
1 t 1 1
1
3 t 1 i 1 (ni 1) t
ni 1
i 1
ni
Si2 es la variancia muestral de cada muestra Si2 j 1 j 1
(ni 1) (ni 1)
2 n 1 Si i
2
n 1
i 1
i
4) Desarrollo de la prueba
39
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
5) Criterio de Decisión
Ejemplo de Aplicación 1
Una empresa usa 4 máquinas para el llenado de bolsas de detergente. Todas las
máquinas son de la misma marca y modelo. Dichas máquinas están programadas para
llenar 250 gr. en cada bolsa de detergente. El jefe de producción se ha quejado de que
las 4 máquinas presentan cierto nivel de variabilidad en la cantidad de detergente de
cada bolsa. Un especialista encargado por la compañía selecciona al azar 6 bolsas de
c/u de las máquinas y posteriormente pesa las bolsas. Los resultados obtenidos se
muestran a continuación:
Máquinas
Repetición
A B C D
1 250.3 249.3 250.0 251.1
2 250.2 246.8 251.1 250.1
3 249.9 248.3 250.9 248.9
4 249.3 247.9 248.3 249.3
5 250.6 249.7 248.9 251.0
6 250.3 249.9 249.9 249.9
Total 1500.6 1491.9 1499.1 1500.3
Promedio 250.10 248.65 249.85 250.05
Si2 0.20 1.44 1.20 0.78
PRUEBAS DE NORMALIDAD
A B
Probability Plot of A Probability Plot of B
Normal Normal
99 99
Mean 250.1 Mean 248.7
StDev 0.4517 StDev 1.200
95 N 6 95 N 6
AD 0.391 AD 0.255
90 90
P-Value 0.254 P-Value 0.576
80 80
70 70
Percent
Percent
60 60
50 50
40 40
30 30
20 20
10 10
5 5
1 1
249.0 249.5 250.0 250.5 251.0 246 247 248 249 250 251 252
A B
pvalor=0.254 p-valor=0.576
40
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
C D
Probability Plot of C Probability Plot of D
Normal Normal
99 99
Mean 249.9 Mean 250.1
StDev 1.095 StDev 0.8849
95 N 6 95 N 6
AD 0.239 AD 0.242
90 90
P-Value 0.630 P-Value 0.621
80 80
70 70
Percent
Percent
60 60
50 50
40 40
30 30
20 20
10 10
5 5
1
1
247 248 249 250 251 252 253 248 249 250 251 252
C D
pvalor=0.63 pvalor=0.621
1) Hipótesis
H0: Los pesos de las bolsas de detergente medidos por la máquina i tienen
distribución normal
H1: Los pesos de las bolsas de detergente medidos por la máquina i no tienen
distribución normal
Para todo i= A, B, C, D
2) 0.05
4) Conclusión:
Con un nivel de significación del 5% no se rechaza H0. Por lo tanto no se puede afirmar
que las variancias sean heterogéneas. Se cumple el supuesto de homogeneidad de
varianzas
Reporte Minitab:
Prueba de varianzas iguales: A, B, C, D
Pruebas
41
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
5) Hipótesis
H0: 12 22 32 42 2
H1: Al menos un i2 es diferente i 1, 2,3, 4
6) 0.05
7) P-valor = 0.248
Conclusión:
Con un nivel de significación del 5% no se rechaza H 0. Por lo tanto no se puede
afirmar que las variancias sean heterogéneas. Se cumple el supuesto de
homogeneidad de varianzas.
1) Hipótesis
H0: 12 22 32 42 2
H1: Al menos un i2 es diferente i 1, 2,3, 4
2) 0.05
3) Estadístico de prueba
El estadístico de prueba tiene una distribución Chi-cuadrado con t 1 grados de
libertad
t
ni 1 LnS p ni 1 LnSi
t
2 2
Q i 1 i 1
~ 2t 1
1 t 1 1
1 t
3 t 1 i 1 (ni 1)
ni 1
i 1
4) Desarrollo de la prueba:
42
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
5) Criterio de Decisión:
0.25 Se rechaza la hipótesis nula con un
nivel de significación 0.05 si:
0.20
Q tab
2
20.95,3 7.8147
0.15
0.10
0.05
0.05
0.00
0 7.81
X
6) Conclusión
Con un nivel de significación del 5% no se rechaza H0. Por lo tanto no se puede afirmar
que las variancias sean heterogéneas. Se cumple el supuesto de homogeneidad de
varianzas.
Ejemplo de Aplicación 2
Un ingeniero Agrónomo quiere saber si la variabilidad del rendimiento por planta (en Kg.)
es diferente en al menos una localidad donde se realizaron sus plantaciones y se aplicó
el uso de agroquímicos como práctica cultural. Para esto decidió correr sus datos en un
conocido programa estadístico. Obtuvo los siguientes resultados:
Solución:
1) Hipótesis
H0: 12 22 32 2
H1: Al menos un i2 es diferente i 1, 2,3
2) 0.05
3) Estadístico de prueba
t
ni 1 LnSi2
t
i
2
n 1 LnS p
Q i 1 i 1
~ 2t 1
1 t 1 1
1 t
3 t 1 i 1 ni 1
ni 1
i 1
43
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
4) Desarrollo de la prueba:
S p2 0.008123
1 1 1 1
1
3 2 77 17 226
5) Criterio de Decisión
6) Conclusión
Con nivel de significación 0.05 no se rechaza la hipótesis nula. Por lo tanto no se puede
afirmar que las varianzas del rendimiento (en Kg.) por localidad donde se aplicaron
agroquímicos sean heterogéneas. Se cumple el supuesto de homogeneidad de
varianzas.
44
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejercicios Propuestos
A B C D
29 40 50 41
32 39 45 38
36 41 46 39
34 44 52 44
35 46 49 46
1. Una empresa que vende fertilizantes está considerando invertir en un centro comercial a
construirse en el sector medio de una capital del país. Para la empresa, es muy
importante el nivel de las ventas semanales en diversas tiendas. Para el estudio, se
evalúan 4 ciudades: Arequipa, Iquitos, Piura y Trujillo y en cada una de ellas se
seleccionaron muestras aleatorias de tiendas. Las ventas semanales en dólares son:
45
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Referencias
R.G.D. Steel, & Torrie, J.H. (1985). Bioestadística Principios y Procedimientos. McGraw
Hill, ed Bogotá, Colombia.
Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of
data analysis. Australia: Duxbury/Thomson Learning
Agresti, A. (2002) Categorical Data Analysis, (2nd Ed). Wiley-Interscience. New Yersey
46
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Capítulo II
DISEÑOS EXPERIMENTALES
OBJETIVOS.
Introducción
Hasta ahora Ud. solo tiene el conocimiento del desarrollo de pruebas de hipótesis para
comparar dos medias poblacionales (prueba de diferencia de medias) o dos variancias
poblacionales (prueba de razón de varianzas). Sin embargo en muchas aplicaciones, se
desea comparar el promedio de una variable de interés en más de dos poblaciones. En
estos casos el planteamiento de un Diseño Experimental es de gran utilidad.
Los Diseños Experimentales mediante el ANVA (o ANOVA por Analysis of Variance) que
es la descomposición de la variabilidad total en cada una de sus componentes permiten
probar si dos o más poblaciones tienen la misma media. Aun cuando el propósito del
ANVA es hacer pruebas para hallar las diferencias en las medias poblacionales, implica
un examen de las variancias muestrales; de allí el término de análisis de variancia.
En este capítulo se presentará los conceptos básicos de Diseños Experimentales.
1. Conceptos Básicos
a) Factor:
Es una variable independiente que afecta los resultados del experimento. El factor en
estudio es controlado por el investigador y es de interés estudiarlo. A las distintas
categorías o valores que puede tomar el factor se le denomina niveles del factor. En
un experimento se puede evaluar un solo factor o más factores.
Ejemplo:
Factor: Métodos de enseñanza en cuanto a la relación profesor alumno
Niveles: Individual, Recíproco, Colectivo
Factor: Razas de perros
Niveles: Pastor Alemán, Labrador, Doberman, Dálmata.
Factor: Porcentaje de Nitrógeno
Niveles; 0%, 10%, 20%
47
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
b) Tratamiento:
A cada nivel de un factor o a cada combinación de los niveles de varios factores
considerados en el experimento se le denomina tratamiento.
Ejemplo:
c) Unidad Experimental:
Es el elemento al cual se le aplica un tratamiento. Al conjunto de unidades
experimentales se le denomina material experimental. Cada unidad experimental
contiene una o mas unidades muestrales en las cuales las condiciones
experimentales planeadas previamente se realizan, como por ejemplo:
En un experimento agrícola para evaluar el rendimiento de algunas variedades de
maíz, la unidad experimental puede ser una porción de terreno de tamaño óptimo
preestablecido, usualmente denominada parcela, o un número de plantas o un
número de mazorcas.
En un estudio clínico, un paciente sometido a un tratamiento terapéutico puede
ser considerado como una unidad experimental.
En un trabajo en entomología la unidad experimental puede ser un insecto, una
colonia o toda una especie.
e) Dato u observación:
Es el registro numérico obtenido después de la aplicación del tratamiento a la unidad
experimental.
Ejemplo:
15 puntos.
1.3 kg.
18.5 minutos.
48
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
2. Diseño Experimental
Es la distribución de los tratamientos (niveles de un factor o combinación de los
niveles de varios factores) a las unidades experimentales. Así, también involucra la
elección del tamaño muestral y la disposición de las unidades experimentales.
El uso del diseño experimental adecuado permite minimizar el error experimental.
A D C B
C B D A
B A D D
A C B C
Bloque I A D C B
Bloque II C B D A
Bloque III B A C D
Bloque IV A D B C
49
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Note que ningún tratamiento se repite en cada bloque. El bloqueo puede representarse
en las filas o columnas
Note que hay un doble bloqueo de tal manera que ningún tratamiento se repite en fila y
columna
3. Error Experimental
Son las diferencias observadas en los valores de la variable respuesta de cada una de
las unidades experimentales por una acción diferente a la de los tratamientos.
4.1 Repetición:
Consiste en aplicar el tratamiento a más de una unidad experimental. Es decir es el
proceso de repetir en condiciones similares el experimento para cada tratamiento. La
repetición permite:
La estimación del error experimental.
Obtener estimaciones más precisas del efecto medio de cualquier tratamiento en
estudio, ya que la variancia estimada mediante dicho tratamiento disminuye a
medida que se incrementa el número de repeticiones.
50
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
4.2 Aleatorización
Es el procedimiento que permite que cada unidad experimental tenga iguales
condiciones para recibir cualquier tratamiento. Es decir, consiste en la asignación
aleatoria de los tratamientos a las unidades experimentales. La aleatorización
permite:
Hacer validas nuestras conclusiones o inferencia estadística.
Que las observaciones sean independientes. Es decir que no exista correlación
entre las unidades experimentales.
Evitar sesgos en la estimación del error experimental y los efectos de los
tratamientos.
Yij i eij
6. Análisis de Varianza
Es una técnica estadística que permite descomponer la variabilidad total de los
resultados de un experimento en sus distintas fuentes (tratamientos o niveles de factor,
interacciones de niveles, covariables, error experimental, bloques).
52
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejercicios Propuestos
53
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
d) Tratamientos: _________________________________________________.
54
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Referencias
Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of
data analysis. Australia: Duxbury/Thomson Learning.
55
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Capítulo III
Objetivos.
Introducción
Ventajas
Es un diseño flexible debido a que el número de tratamientos y de repeticiones esta
limitado solo por el número de unidades experimentales.
El número de repeticiones puede variar entre tratamientos, aunque generalmente lo
ideal es tener el mismo número de repeticiones por cada tratamiento.
El análisis estadístico es simple.
El número de grados de libertad para estimar el error experimental es máximo. Esto
mejora la precisión del experimento.
Desventajas
Solo es aplicable en situaciones en las que el material experimental es homogéneo.
Debido a que no hay restricciones de aleatoriedad, toda la variabilidad existente en
las unidades experimentales tratadas con el mismo tratamiento estará incluida en el
error experimental.
1. Croquis Experimental
56
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
unidad experimental, se debe aleatorizar los tratamientos sin tener ninguna restricción,
de tal manera que una posible aleatorización de los tratamientos en las unidades
experimentales podría ser la siguiente:
T2 T4 T2 T4
T1 T3 T1 T3
T3 T2 T4 T1
2. Cuadro de Datos
Tratamientos Totales
Repetición
1 2 T
1 Y11 Y21 Yt1
ni Y1ni Ytnt
t ri
Promedios Y 1 Y 2 Y t Y
Y
n
ni
Donde Yi Y
j 1
ij y Y i
Yi
ni
para todo i 1, 2, , t
Yij i ij i 1, 2, , t j 1, 2, , ni
Donde:
Yij : Es el valor generado en el i-ésimo tratamiento por la j-ésima repetición o u.e.
: Es el efecto de la media general.
i : Es el efecto del i-ésimo tratamiento.
ij : Es el efecto del error experimental en el i-ésimo tratamiento y la j-ésima repetición.
57
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Para las pruebas de hipótesis se asume que ij es una variable independiente distribuida
normalmente con media cero y variancia común 2 (es decir ij ~ N 0, 2 .
Los efectos del modelo son estimados por el método de Mínimos Cuadrados. Con este
método se pueden obtener los valores de y i (i=1,2,…,t) que minimizan la suma de
los errores al cuadrado. Es decir:
ni ni
Q ij2 Yij i
t t
2
i 1 j 1 i 1 j 1
Q
t ni
2 Yij i 0 (i=1,2,…,t)
i ˆ ,ˆi i 1 j 1
El resultado sería:
t ni
nˆ ˆi Y
i 1 j 1
ni 1
i i 0
Y
De la primera ecuación se tiene: nˆ Y ˆ Y
n
Yi Y
De la segunda ecuación se tiene: nˆ niˆi Yi ˆi Y i Y
ni n
ˆij Yij Y i
58
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
5. Análisis de Varianza
t ni t t ni
ni Yi Y Yij Y i
2 2 2
Yij Y
i 1 j 1 i 1 i 1 j 1
ni ni
t t
Y2
SC Total SC Y Yij Y Yij
2
2
i 1 j 1 i 1 j 1 n
Y2
A la expresión se le conoce como término de corrección (TC)
n
La variabilidad explicada por los tratamientos (o suma de cuadrados de los tratamientos)
se calcula de la siguiente manera:
Yi2
t t
SC Trat ni Yi Y
2
TC
i 1 i 1 ni
De los dos resultados anteriores se puede deducir que la variabilidad explicada por el
error puede ser calculada por:
ni ni
t t t
Yi2
SC Error Yij Y i Yij
2
2
i 1 j 1 i 1 j 1 i 1 ni
donde n n1 n2 ... nt
Bajo el supuesto que los errores son variables aleatorias independientes distribuidas
normalmente con media cero y variancia común se puede demostrar que:
CM Trat
Fcal ~ Ft 1, n t
CM Error
59
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Formulación de Hipótesis:
En cualquiera de los casos, la hipótesis nula significa que los tratamientos no afectan a
la variable respuesta, o que con cualquiera de los tratamientos se obtienen los mismos
resultados.
Regla de Decisión
La hipótesis nula ( H 0 ) se rechaza con un nivel de significación si:
Fcal F1 ,t 1,nt , donde F1 ,t 1,nt es el valor crítico o valor tabular
CME
CV 100
Y
Ejemplo de aplicación 1
Programa
Repetición
Alfa Beta Gamma Sigma
1 64 59 65 58
2 67 58 68 60
3 62 61 63 59
4 64 59 64 62
5 66 58 65 60
Total 323 295 325 299
Promedio 64.6 59.0 65.0 59.8
66
64
Tiempo
62
60
58
Mediante este gráfico se puede observar que existen diferencias entre los tiempos
medianos de los cuatro métodos en estudio. Ya se puede tener una idea preliminar de
que tratamiento es el mejor.
61
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
b. Defina el modelo aditivo lineal con cada uno de sus componentes según el enunciado
del problema.
Yij i ij i 1, 2,3, 4 j 1, 2, ,5
Donde:
Yij : Tiempo de ensamblaje obtenido con el i-ésimo programa de motivación en el j-ésimo
empleado.
: Efecto de la media general del tiempo de ensamblaje.
i : Efecto del i-ésimo programa de motivación
ij : Efecto del error experimental en el i-ésimo programa de motivación y el j-ésimo
empleado.
Normalidad de errores
H0: Los errores se distribuyen normalmente
H1: Los errores no se distribuyen normalmente
0.05
p-valor = 0.155
Conclusión
A un nivel de significación de 0.05, no existe evidencia estadística para rechazar H 0.
Por lo tanto no se puede afirmar que los errores no se distribuyan normalmente.
Se cumple el supuesto de normalidad de errores.
62
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Homogeneidad de varianzas
H0: 12 22 32 42 2
H1: Al menos un i2 es diferente i 1, 2, ,4
0.05
p-valor = 0.811
Conclusión
A un nivel de significación de 0.05, no existe evidencia estadística para rechazar H0.
Por lo tanto no se puede afirmar que las variancias de los tratamientos sean
heterogéneas. Se cumple el supuesto de homogeneidad de varianzas.
Beta
Programa
Gamma
Sigma
0 1 2 3 4 5 6 7 8 9
Intervalos de confianza de Bonferroni de 95% para Desv.Est.
d. ¿Se puede afirmar que al menos uno de los programas de motivación difiere del resto al
analizar el tiempo medio de ensamblaje? De sus conclusiones a un nivel de significación
de 0.05.
Análisis de Varianza
El análisis de varianza nos permitirá probar si existen diferencias en los tiempos
promedios de los métodos de ensamblado.
63
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Análisis de Varianza
R-cuad. R-cuad.
Hipótesis S R-cuad. (ajustado) (pred)
i 1,77.06%
H0: i 1.65831 ,4 72.76% 0: 0
64.16%
H i i 1, ,4
H1: i para al menos algún i ó H1: i 0 para al menos algún i
0.05
Usando el Valor-p
Conclusión
A un nivel de significación de 0.05, se puede afirmar que al menos uno de los programas
de motivación difiere del resto al analizar el tiempo medio de ensamblaje.
Cálculos previos:
12422
TC 77128.2
20
ni
Y2
642 602 TC = 191.8
t
SC Total Y 2
ij
i 1 j 1 n
t
Yi 2 3232 2992
SC Trat TC TC 77276 77128.2 147.8
i 1 ni 5 5
SC( Error ) 191.8 147.8 44
Nota:
Cuando en la última columna del cuadro anterior aparece (n.s.), significa que la prueba
resultó no significativa, es decir, que no existe evidencia suficiente para rechazar H0.
Es usual utilizar un asterisco “*” para denotar diferencias o efectos significativos a un
0.05 y dos asteriscos “**” para denotar diferencias o efectos significativos con
0.01 . En el primer caso se dice que la diferencia o efecto es “significativo” y en el
segundo que es “altamente significativo”.
64
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Hipótesis
H0: i i 1, ,4 H0: i 0 i 1, ,4
H1: i para al menos algún i ó H1: i 0 para al menos algún i
0.05
CM Trat
Estadística de Prueba: Fcal ~ Ft 1,nt
CM Error
Criterio de Decisión
0.8
0.7
Como
0.6
Fcal 17.92 F 0.95,3,16 3.2388
0.5 se rechaza H0 y se acepta H1
0.4
0.3
0.2
0.1
0.05
0.0
0 3.24
X
Conclusión
A un nivel de significación de 0.05, se puede afirmar que al menos uno de los programas
de motivación difiere del resto al analizar el tiempo medio de ensamblaje.
65
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
7. Pruebas de Comparación
Existen muchas pruebas para la comparación de tratamientos, cada una de las pruebas
tiene un uso y exigencia específica. Por ejemplo existen pruebas para un par de
tratamientos, para todos los pares de tratamientos, para todos los tratamientos versus
un control, para comparar un grupo de tratamientos.
Para todas las pruebas se requiere que la prueba de igualdad de medias de tratamientos
que utiliza el ANVA sea significativa a excepción de la prueba de Tukey.
Prueba de Tukey
Esta prueba es útil para realizar todas las comparaciones de medias por pares de
tratamientos. Si se cuenta en un experimento con t tratamientos el número total de
hipótesis a analizar es obtenido mediante C2t
Para aplicar esta prueba es necesario que los ij sean variables aleatorias
independientes y ij ~ N 0, 2 . En esta prueba no se necesita que las comparaciones
sean previamente planeadas y que la prueba F del ANVA resulte significativa. Lo que se
considera en esta prueba es un “error por familia”.
Hipótesis
H 0 : i j i j i, j 1, 2, ,t
H1 : i j
Nivel de significación α
CME
r
Regla de Decisión
La hipótesis nula se rechaza con un nivel de significación si Y i Y j ALS (T )
Ejemplo de aplicación 2.
Realice la prueba de Tukey para el caso del ejemplo de aplicación 1
Hipótesis
H 0 : 1 2 H 0 : 1 3 H 0 : 1 4
H1 : 1 2 H1 : 1 3 H1 : 1 4
H 0 : 2 3 H 0 : 2 4 H 0 : 3 4
H1 : 2 3 H1 : 2 4 H1 : 3 4
2.75
ALS (T ) 4.05 3.004
5
Resumen
Esta simbología es muy útil para presentar los resultados de pruebas múltiples en las
que se evalúan un gran número de hipótesis. Otra representación muy útil es mediante
líneas. El método consiste en ordenar las medias de los tratamientos en forma
ascendente o descendente y unir con líneas todos los tratamientos que no presentan
diferencias significativas.
67
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Reporte de MINITAB:
IC
Diferencia de Diferencia EE de simultáneo Valor p
Programa niveles de medias diferencia de 95% Valor T ajustado
Beta - Alfa -5.60 1.05 (-8.60, -2.60) -5.34 0.000
Gamma - Alfa 0.40 1.05 (-2.60, 3.40) 0.38 0.980
Sigma - Alfa -4.80 1.05 (-7.80, -1.80) -4.58 0.002
Gamma - Beta 6.00 1.05 ( 3.00, 9.00) 5.72 0.000
Sigma - Beta 0.80 1.05 (-2.20, 3.80) 0.76 0.870
Sigma - Gamma -5.20 1.05 (-8.20, -2.20) -4.96 0.001
El programa Minitab presenta los intervalos de confianza de Tukey para todas las
comparaciones, las cuales se obtienen mediante la siguiente expresión:
CME 1 1 CME 1 1
Y i
Y j AES (T )
2 ni n j
i j Y i Y j AES (T )
2 ni n j
Si se usan los p valores (Valor p ajustado) se obtienen las mismas conclusiones que
usando la regla de decisión de la prueba.
Finalmente, el programa usa letras para representar las diferencias significativas de los
tratamientos. Las medias de los tratamientos se encuentran ordenadas en forma
descendente. Si dos tratamientos comparten una letra entonces no presentan diferencia
significativa, caso contrario sí presentan diferencia significativa.
Conclusión
A un nivel de significación de 0.05, se puede afirmar que:
68
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Prueba t
Hipótesis
Bilateral Unilateral
Caso A Caso B Caso C
H 0 : i j 0 H 0 : i j 0 H 0 : i j 0
H1 : i j 0 H1 : i j 0 H1 : i j 0
Donde: i j i, j 1, 2, ,t
Estadística de Prueba. tc
Y i
Y j 0
~ tGLE
1 1
CME
n n
i j
2CME
r
Regla de Decisión
Ejemplo de aplicación 3
Suponga que un objetivo del ejemplo de aplicación 1 es comparar los programas de
motivación Alfa y Beta. Pruebe si el tiempo medio de ensamblaje del método Alfa es
superior al método Beta en más de 3 minutos. De sus conclusiones a un =0.05.
H 0 : 1 2 3
H1 : 1 2 3
69
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
0.05
Estadística de Prueba. tc
Y i
Y j 0
~ tGLE
1 1
CME
n n
i j
Criterio de Decisión
0.4
0.1
0.05
0.0
0 1.75
X
Desarrollo de la Prueba
tc
64.6 59.0 3 2.479
2 2.75
5
Conclusión
A un nivel de significación de 0.05 existe suficiente evidencia estadística para rechazar
H 0 por lo que se acepta H1 . Por lo tanto, se puede afirmar que el tiempo medio de
ensamblaje al aplicar el programa de motivación Alfa es mayor al de Beta en más de 3
minutos.
Prueba DLS
La prueba DLS de Fisher es una forma abreviada de la prueba t para el caso bilateral
cuando la diferencia hipotética es cero (Caso A). La prueba consiste en calcular una
diferencia límite significativa (DLS) de modo que cualquier diferencia entre las medias de
dos tratamientos mayor a dicho límite sea significativa. Los supuestos para la realización
de esta prueba son los mismos que para la prueba t . Esta prueba también debe ser
planeada con anterioridad.
Hipótesis
H 0 : i j
H1 : i j
70
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
1 1
Diferencia Límite Significativa. DLS t CME
1 ,GLE n n
2 i j
Regla de Decisión
La hipótesis nula se rechaza con un nivel de significación si Y i Y j DLS
Ejemplo de aplicación 4
H 0 : 3 4
H1 : 3 4
0.05
2 2.75
DLS t 0.975,16 2.119 1.04 2.222
5
Como 65.0 59.8 5.2 DLS se rechaza H 0 y se acepta H1 .
Conclusión
A un nivel de significación de 0.05 existe suficiente evidencia estadística para rechazar
H 0 y aceptar H1 . Por lo tanto, se puede afirmar que existen diferencias en el tiempo
medio de ensamblaje al aplicar los programas de motivación Gamma y Sigma.
En Minitab se puede obtener intervalos de confianza para cada comparación, los cuales
pueden ser obtenidos mediante la siguiente expresión:
1 1 1 1
Y i
Y j t
1 , GLE n n
CME i j Y i Y j t CME
1 , GLE n n
2 i j 2 i j
IC
Diferencia de Diferencia EE de individual
Programa niveles de medias diferencia de 95% Valor T Valor p
Sigma - Gamma -5.20 1.05 (-7.42, -2.98) -4.96 0.000
Prueba de Dunnett
71
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Hipótesis
H 0 : i T i T (Tratamiento Testigo)
H1 : i T
Donde:
t(Dn): Es el valor obtenido de la tabla de Dunnett con nivel de significación y el número
de tratamientos en el experimento sin incluir el control (t-1) y los grados de libertad del
error experimental.
Regla de Decisión
La hipótesis nula se rechaza con un nivel de significación si Y i Y j ALS ( Dn)
Ejemplo de aplicación 5
Suponga que para el ejemplo de aplicación 1 el programa de motivación Alfa es
considerado como tratamiento testigo y que las comparaciones con dicho tratamiento
fueron planeadas. Realice la prueba de Dunnett a un nivel de significación de 0.05
Hipótesis
H 0 : 1 2 H 0 : 1 3 H 0 : 1 4
H1 : 1 2 H1 : 1 3 H1 : 1 4
Resumen
Beta Sigma Alfa Gamma
72
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
El programa Minitab presenta los intervalos deIC confianza de Dunnet para todas las
Diferencia de Diferencia EE de simultáneo Valor p
comparaciones, las cuales
Programa niveles se obtienen
de medias mediante
diferencia la siguiente
de 95% Valorexpresión:
T ajustado
Beta - Alfa -5.60 1.05 (-8.32, -2.88) -5.34 0.000
Gamma - Alfa 0.40 1.05 (-2.32, 3.12) 0.38 0.963
-4.80 0.001
Sigma - Alfa 1.05 (-7.52, -2.08) -4.58
1 1
Y i
Y j t ( Dn) CME
n= 98.04%
Nivel de confianza individual n
1
1
i j Y i Y j t ( Dn) CME
i j ni n j
Si se usan los p valores (Valor p ajustado) se obtienen las mismas conclusiones que
usando la regla de decisión de la prueba.
A diferencia del reporte de Tukey, se usará una sola letra para representar las diferencias
significativas entre el tratamiento control y el resto de tratamientos. Si un tratamiento no
presenta letra entonces tiene diferencia significativa con el tratamiento control, caso
contrario no tiene diferencia significativa.
Conclusión
A un nivel de significación de 0.05, se puede afirmar que existen diferencias significativas
entre el programa de motivación Alfa (testigo) con los programas de motivación Beta y
Sigma al analizar el tiempo medio de ensamblaje.
73
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
t t
L CiYi rC
i i i
i 1 i 1
En donde
t
rC
i 1
i i 0
C
i 1
i 0
Bilateral Unilateral
Caso A Caso B Caso C
H 0 : L L0 H 0 : L L0 H 0 : L L0
H1 : L L0 H1 : L L0 H1 : L L0
Estadístico de Prueba
L L0
tc ~ tGLE
SL
Donde
t t 2
C
Lˆ Ci Y i es el contraste estimado y S L CME i es la desviación estándar del
i 1 i 1 r
contraste estimado.
Criterio de Decisión
Ejemplo de Aplicación 6
Suponga que para el ejemplo de aplicación 1 los programas de motivación Alfa y Beta
fueron desarrollados por psicólogos egresados de la universidad A y los programas de
74
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
1 2 3 4
1 2 3 4 0
2 2
Hipótesis
H 0 : 1 2 3 4 0
H1 : 1 2 3 4 0
L L0
Estadístico de Prueba. tc ~ tGLE
SL
Desarrollo de la Prueba
L 64.6+59.0-65.0-59.8= 1.2
12 12 12 12
S L 2.75 1.483
5 5 5 5
1.2 0
tc 0.809
1.483
Criterio de Decisión
0.4
Como tc t 0.05,16 -1.746 no
se rechaza H 0
0.3
0.2
0.1
0.05
0.0
-1.75 0
X
Conclusión
A un nivel de significación del 0.05 no podemos afirmar que el tiempo medio de
ensamblaje de los programas de motivación desarrollados por psicólogos egresados de
la universidad A sea inferior al tiempo medio de ensamblaje de los programas de
motivación desarrollados por psicólogos egresados de la universidad B.
75
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejemplo de aplicación 7
Este experimento fue conducido bajo los lineamientos de un DCA, por lo que el modelo
aditivo lineal es el siguiente:
t ri
Y2
SC(Total) Yij2
i 1 j 1 r
232.8 2
SC(Total) (11.12 10.9 2 ... 10.4 2 ) 2470.6 2463.45 7.1527
22
t
Y2
SC(Tratamientos) i TC
i 1 ri
76
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Cuadro ANVA
Fuentes de Variación GL SC CM Fc
Tratamientos 3 4.2657 1.4219 8.87
Error Experimental 18 2.8870 0.1604
Total 21 7.1527
Para cumplir con las prueba con contrastes ortogonales con desigual número de
t
repeticiones se tiene que cumplir con rC
i 1
i i 0 , donde Ci y ri es el coeficiente de
A B C D
Yi 65.10 66.00 52.50 49.20
Yi 10.85 11.00 10.50 9.84
ri 6 6 5 5
t t
Sea L rC
i i i donde el valor estimado es L rC
ˆ
i iYi
i 1 i 1
A B C D
Yi 10.85 11.00 10.50 9.84
ri 6 6 5 5
Ci 5 5 5 -17
t
Luego, las hipótesis son en función L rC
i i i :
i 1
77
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Estadístico de Prueba:
L L0
tc ~ tGLE
SL
t
t 2
Donde Lˆ rC Y
i i i y S Lˆ
CME rC i i
i 1 i 1
4
rC
i 1
i i (6)(5) (6)(5) (5)(5) (5)(17) 0 se cumple el contraste
4
Luego Lˆ rC
i iYi (6)(5)(10.85) (6)(5)(11.0) (5)(5)(10.5) (5)( 17)(9.84) 81.6
i 1
y L0 0
t 2
S Lˆ CME rC i i 0.1604 (6)(5)2 (6)(5)2 (5)(5)2 (5)(17)2 17.3190
i 1
81.6 0
tc 4.7116 ~ t18
17.3190
Criterio de decisión:
ttab1 t 0.025,18 2.101 ttab 2 t0.975,18 2.101
Conclusión:
Con un nivel de significación del 5% se rechaza H 0 . Por lo tanto se puede afirmar las
dietas A, B y C, en forma conjunta ocasionan un peso promedio distinto al de la dieta
D (tratamiento control).
t t
L rC
i i i donde el valor estimado es L rC
ˆ
i iYi
i 1 i 1
78
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
A B C D
Yi 10.85 11.00 10.50 9.84
ri 6 6 5 5
Ci 5 5 -12 0
t
Luego, las hipótesis son en función L rC
i i i :
i 1
Estadístico de Prueba:
L L0
tc ~ tGLE
SL
t
t 2
Donde L rC i iYi y S Lˆ CME rC
ˆ i i
i 1 i 1
rC
i 1
i i (6)(5) (6)(5) (5)(12) (5)(0) 0 se cumple el contraste
4
Luego Lˆ rC
i iYi (6)(5)(10.85) (6)(5)(11.0) (5)( 12)(10.5) (5)(0)(9.84) 25.5
i 1
y L0 0
t 2
S Lˆ CME rC i i 0.1604 (6)(5)2 (6)(5)2 (5)(12)2 (5)(0)2 12.7909
i 1
25.5 0
tc 1.9936 ~ t18
12.7909
Criterio de decisión:
ttab1 t0.025,18 2.101 ttab 2 t0.975,18 2.101
79
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Conclusión:
Con un nivel de significación del 5% no se rechaza H 0 . Por lo tanto no se puede
afirmar las dietas A y B, en forma conjunta, ocasionan un incremento de peso
promedio distinto al de la dieta C.
A B C D
Yi 10.85 11.00 10.50 9.84
ri 6 6 5 5
Ci 6 -6 0 0
H 0 : 361 362 0 H 0 : 1 2 0
o también
H1 : 361 362 0 H1 : 1 2 0
Estadístico de Prueba:
L L0
tc ~ tGLE
SL
t
t 2
Donde Lˆ rC Y
i i i y S Lˆ
CME rC i i
i 1 i 1
rC
i 1
i i (6)(6) (6)(6) (5)(0) (5)(0) 0 se cumple el contraste
4
Luego Lˆ rC
i iYi (6)(6)(10.85) (6)( 6)(11.0) (5)(0)(10.5) (5)(0)(9.84) 5.4
i 1
80
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
y L0 0
t 2
S Lˆ CME rC i i 0.1604 (6)(6)2 (6)(6)2 (5)(0)2 (5)(0)2 8.3242
i 1
5.4 0
tc 0.6487 ~ t18
8.3242
Criterio de decisión:
ttab1 t0.025,18 2.101 ttab 2 t0.975,18 2.101
Conclusión:
Con un nivel de significación del 5% no se rechaza H 0 . Por lo tanto no se puede
afirmar las dietas A y B tengan un incremento de peso promedio distinto.
81
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
82
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejercicios Propuestos
t ni
Y
i 1 j 1
2
ij 402.99
83
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Salidas Minitab:
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Variedad 3 20.50 6.8318 6.90 0.002
Error 20 19.79 0.9895
Total 23 40.29
Diferencia
Diferencia de las EE de Valor p
de niveles medias diferencia IC de 95% Valor T ajustado
V2 - V1 -1.993 0.602 (-3.680, -0.307) -3.31 0.017
V3 - V1 -1.776 0.553 (-3.326, -0.227) -3.21 0.021
V4 - V1 -0.050 0.574 (-1.658, 1.558) -0.09 1.000
V3 - V2 0.217 0.582 (-1.414, 1.848) 0.37 0.982
V4 - V2 1.943 0.602 ( 0.257, 3.630) 3.23 0.020
V4 - V3 1.726 0.553 ( 0.177, 3.276) 3.12 0.026
Diferencia
Diferencia de las EE de Valor p
de niveles medias diferencia IC de 95% Valor T ajustado
V1 - V2 1.993 0.602 ( 0.472, 3.515) 3.31 0.009
V3 - V2 0.217 0.582 (-1.254, 1.688) 0.37 0.963
V4 - V2 1.943 0.602 ( 0.422, 3.465) 3.23 0.011
Raciones
A B C D
43 35 35 42
46 33 35 42
50 36 36 43
45 35 34 44
44 32 34 43
42 30 33 45
40 33 34 42
Suma 310 234 241 301
Promedio 44.29 33.429 34.429 43.000
84
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
t ni
Y
i =1 j =1
2
ij =42892
b) Pruebe si al menos una de las raciones tiene efecto sobre la ganancia de peso de
los cerdos. Use α=0.05.
c) El ingeniero zootecnista afirma que existe diferencia significativa entre la ración A
y la ración D al analizar la ganancia promedio de peso (en Kg). ¿Es cierta la
afirmación del ingeniero? Realice una prueba estadística adecuada. Use α=0.05.
d) Realice la prueba Tukey para comparar la ganancia promedio de peso. Use
α=0.05.
e) El ingeniero zootecnista afirma que la ganancia promedio obtenida de aplicar las
raciones A y B, en forma conjunta, supera a la obtenida de aplicar las raciones C
y D, también en forma conjunta. ¿Es cierta la afirmación del ingeniero? Realice la
prueba estadística más adecuada. Use α=0.05.
Salidas Minitab:
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Ración 3 669.9 223.286 53.13 0.000
Error 24 100.9 4.202
Total 27 770.7
Diferencia
Diferencia de las EE de Valor p
de niveles medias diferencia IC de 95% Valor T ajustado
B - A -10.86 1.10 (-13.88, -7.84) -9.91 0.000
C - A -9.86 1.10 (-12.88, -6.84) -9.00 0.000
D - A -1.29 1.10 ( -4.31, 1.74) -1.17 0.649
C - B 1.00 1.10 ( -2.02, 4.02) 0.91 0.798
D - B 9.57 1.10 ( 6.55, 12.59) 8.74 0.000
D - C 8.57 1.10 ( 5.55, 11.59) 7.82 0.000
85
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
T1 T2 T3 T4
29 40 50 41
32 39 45 38
36 41 46 39
34 44 52 44
35 46 49 46
t ni
Y
i =1 j =1
2
ij =34840
Salidas Minitab:
Análisis de Varianza
86
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Diferencia
Diferencia de las EE de Valor p
de niveles medias diferencia IC de 95% Valor T ajustado
B - A 8.80 1.89 ( 3.38, 14.22) 4.65 0.001
C - A 15.20 1.89 ( 9.78, 20.62) 8.03 0.000
D - A 8.40 1.89 ( 2.98, 13.82) 4.44 0.002
C - B 6.40 1.89 ( 0.98, 11.82) 3.38 0.018
D - B -0.40 1.89 ( -5.82, 5.02) -0.21 0.997
D - C -6.80 1.89 (-12.22, -1.38) -3.59 0.012
4) Con la finalidad de probar 4 raciones alimenticias (R1, R2, R3 y R4) para vacas en
lactación, se realizó un experimento conducido en un diseño completamente al azar.
Los resultados de la producción de leche (en litros/día) son los siguientes:
Repetición R1 R2 R3 R4
1 26.6 23.5 29.3 23.3
2 24.5 26.1 28.3 21.6
3 25.6 24.3 29.2 22.4
4 24.5 24.2 26.8 22.5
5 25.7 26.8 29.2 21.1
6 26.6 28.1
Promedio 25.5833 24.980 28.4833 22.180
Variancia 0.8857 1.9570 0.9417 0.727
87
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Salidas Minitab:
Análisis de Varianza
R1 Valor p 0.760
R2
Ración
R3
R4
0 1 2 3 4 5 6
Intervalos de confianza de Bonferroni de 95% para Desv.Est.
88
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Diferencia
de Ración Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado
R1 - R2 0.603 0.636 (-1.023, 2.229) 0.95 0.661
R3 - R2 3.503 0.636 ( 1.877, 5.129) 5.51 0.000
R4 - R2 -2.800 0.665 (-4.498, -1.102) -4.21 0.001
Diferencia
Diferencia de las EE de Valor p
de niveles medias diferencia IC de 95% Valor T ajustado
R2 - R1 -0.603 0.636 (-2.403, 1.196) -0.95 0.780
R3 - R1 2.900 0.607 ( 1.184, 4.616) 4.78 0.001
R4 - R1 -3.403 0.636 (-5.203, -1.604) -5.35 0.000
R3 - R2 3.503 0.636 ( 1.704, 5.303) 5.51 0.000
R4 - R2 -2.800 0.665 (-4.680, -0.920) -4.21 0.003
R4 - R3 -6.303 0.636 (-8.103, -4.504) -9.91 0.000
5) Se desea evaluar la eficacia de cinco fármacos diferentes (F1, F2, F3, F4 y F5) como
anestesia. Para ello se observa el tiempo (en min.) que tarda en hacer efecto en
cachorros. Además del balanceo, se considera que los factores edad y peso pueden
influir en los resultados. Por esta razón, los cachorros que fueron parte de este
experimento balanceado tuvieron la misma edad y peso.
Tabla de promedios:
F1 F2 F3 F4 F5
9.88 9.38 10.52 7.54 7.6
Cuadro ANVA:
Fuente GL SC CM Valor F
Fármaco
Error
Total 24 49.63
89
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Referencias
Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of
data analysis. Australia: Duxbury/Thomson Learning.
90
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Capítulo IV
DISEÑO DE BLOQUES COMPLETOS AL AZAR (D.B.C.A)
Objetivos
• Identificar si existe una característica o factor bloque para agrupar las unidades
experimentales.
• Realizar el análisis estadístico de un diseño en bloques completamente
aleatorizado (DBCA).
• Aplicar los procedimientos de comparaciones múltiples y toma de decisiones en
la comparación de grupos de tratamientos.
Introducción
El Diseño Completamente al Azar (DCA) es aplicable en casos en los que la única fuente
de variabilidad son los tratamientos y cuando se utilizan unidades experimentales
homogéneas. Sin embargo, en algunos experimentos se puede identificar de antemano
otras fuentes de variación, que no constituyen el objetivo de la investigación, pero que si
contribuirían a la reducción del error experimental.
Estas fuentes de variación pueden ser controladas mediante la formación de grupos
denominados bloques. Es decir se agrupan las unidades experimentales en bloques, de
tal manera que las unidades experimentales dentro de cada bloque sean lo mas
homogéneas posible y las unidades experimentales entre bloques distintos sean
heterogéneas. Si bien es cierto que el bloque puede ser considerado como otro factor en
el estudio, para aplicar este diseño, se debe asumir que no existe interacción entre los
bloques y los tratamientos de interés.
Los bloques deben ser definidos por el investigador antes de llevarse a cabo el
experimento, quien debe estar completamente seguro de la existencia de este factor
externo. Una vez realizado el experimento y recolectado los datos utilizando un DBCA,
si los bloques no resultan significativos (no hay diferencia entre bloques), los datos no
deberían ser analizado como un DCA.
Se denominan bloques completos porque en los experimentos existe al menos una
unidad experimental en cada bloque para cada uno de los tratamientos en estudio. A
este diseño también se le conoce como diseño de clasificación de dos vías sin interacción
(Two Way).
Ventajas
El agrupamiento de las unidades experimentales en bloques, debido a la existencia
real de esta fuente de variabilidad, aumenta la precisión del experimento con relación
al D.C.A.
No existe restricción en cuanto al número de tratamientos o bloques.
El análisis estadístico es simple.
Si se pierde los datos de un bloque completo, estos pueden omitirse sin mayores
complicaciones para el estudio. Si faltan datos de unidades experimentales, estos
pueden estimarse (estimación de unidades perdidas).
91
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Desventajas
Cuando la variabilidad entre las unidades experimentales dentro de los bloques es
grande, resulta un error experimental considerable. Esto ocurre usualmente cuando
el número de tratamientos es muy grande.
Si existe interacción entre los bloques y los tratamientos, esta va incluida en el error
experimental.
Si no existe una real diferencia entre los bloques, habrá una pérdida de precisión en
el experimento con relación al D.C.A., debido a la disminución de los grados de
libertad del error.
Croquis Experimental
Sin embargo no siempre las unidades experimentales son estáticas, lo que implica que
no necesariamente los bloques deben aparecer ordenados, (recuerde que el criterio de
bloqueo de las unidades experimentales lo asume inicialmente el investigador).
92
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
1. Cuadro de Datos
Suponga que se desea comparar t tratamientos y que cada tratamiento cuenta con b
bloques y de cada unidad experimental se obtiene solo una observación.
Luego, se obtiene el siguiente cuadro de datos:
Tratamientos
Bloque Totales
1 2 t
1 Y11 Y21 Yt1 Y1
2 Y12 Y22 Yt 2 Y2
Promedios Y 1 Y 2 Y t Y
Y
n
La disposición de los datos donde los tratamientos son las columnas y los bloques son
las filas no debe tomarse como una regla debido a que se puede presentar los datos de
los tratamientos en filas y los bloques en columnas.
Yij i j ij i 1, 2, , t j 1, 2, , b
Donde:
Yij : Es el valor observado en el i-ésimo tratamiento y el j-ésimo bloque.
: Es el efecto de la media general.
i : Es el efecto del i-ésimo tratamiento.
j : Es el efecto del j-ésimo bloque.
ij : Es el efecto del error experimental en el i-ésimo tratamiento y el j-ésimo
bloque.
Los efectos del modelo , i y j , son estimados de modo que se minimice la siguiente
i 1 j 1 i 1 j 1
t b
i 1
i 0
i 1
j 0
los parámetros:
El efecto de la media y de los bloques mide la diferencia entre el i-ésimo tratamiento (j-
ésimo bloque) con respecto a sula media general.
4. Análisis de Variancia
Y2
t b t b
SC Total SC Y Yij Y Yij2
2
i 1 j 1 i 1 j 1 tb
2
Y
Aquí es el término de corrección (TC).
tb
t
Yi2
SC Tratamientos TC
i 1 b
b
Y2j
SC Bloques TC
j 1 t
94
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Bajo el supuesto que los errores son variables aleatorias independientes distribuidas
normalmente con media cero y variancia común se puede demostrar que:
CM Trat
Fcal ~F t 1, t 1 b 1
CM Error
Posibles Resultados
El cuadro anterior muestra los posibles resultados que se podrían obtener en el Análisis
de Varianza de un D.B.C.A.
Los dos primeros resultados significan que se justifica el uso del D.B.C.A , dado que
existen diferencias significativas entre los bloques.
Los dos últimos resultados significan que no se justifica el uso del D.B.C.A, dado que no
existen diferencias significativas entre los bloques. Eso no implica que el experimento
este mal hecho sino que no se escogió el diseño adecuado (el factor de bloqueo
correcto). De acuerdo a estos resultados se debería recomendar para un próximo
experimento futuro de similares características el uso de un D.C.A. Lo que si estaría mal
es analizar el experimento como un DCA dado que la aleatorización de las unidades
experimentales fue hecha como un DBCA.
Hipótesis
H0: 2 0 i 1, , t
H1: 0
2
para al menos algún i
En cualquiera de los casos, la hipótesis nula significa que los tratamientos no afectan a
la variable respuesta, o que con cualquiera de los tratamientos se obtienen los mismos
resultados.
95
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Estadístico de Prueba
CMTrat
F ~ FGLTrat ,GLError
CMError
Regla de Decisión
La hipótesis nula ( H 0 ) se rechaza con un nivel de significación si:
Fcal F1 ,GLtrat ,GLError . F tab Fcrit F1 ,GLTrat ,GLError
Ejemplo de Aplicación 1
Una fisioterapeuta desea comparar métodos para enseñar a los pacientes el uso de un
determinado mecanismo de prótesis. Intuía que la rapidez de aprendizaje sería distinta
en pacientes de diferentes edades y deseaba diseñar un experimento en el que la
influencia de la edad pudiera ser tomada en cuenta. Se eligieron 5 pacientes de cada
uno de los cuatro grupos de edades, y a cada paciente se le asignó aleatoriamente uno
de los métodos, evaluándose el tiempo (en días) que requirió para aprender a usar la
prótesis. Los resultados del experimento se muestran en el siguiente cuadro:
Análisis Descriptivo
Antes de realizar el Análisis de Variancia es recomendable elaborar gráficos descriptivos
y obtener algunas medidas descriptivas
96
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
15.0
12.5
Tiempo
10.0
7.5
5.0
A B C D E
Metodos
15.0
12.5
Tiempo
10.0
7.5
5.0
E1 E2 E3 E4
Edad
Donde:
Yij : Tiempo que se requiere para aprender a utilizar la prótesis con el i-ésimo método de
enseñanza en el j-ésimo grupo de edad.
: Es el efecto de la media general del tiempo de aprendizaje
i : Es el efecto del i-ésimo método de enseñanza.
j : Es el efecto del j-ésimo grupo de edad.
ij : Es el efecto del error experimental en el i-ésimo método de enseñanza en el j-ésimo
grupo de edad.
97
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Prueba de Normalidad
Dado que el p-valor=0.632 es superior a α=0.05, los errores se ajustan a una distribución
normal.
Homogeneidad de Varianzas
Se verifica que los residuos están distribuidos aleatoriamente y tienen una varianza
constante. Los puntos están ubicados aleatoriamente a ambos lados del 0, con patrones
no detectables en los puntos.
98
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Los gráficos anteriores muestran que la varianza de los residuos aumenta con los valores
ajustados, lo cual indica que la variabilidad de los errores aumenta al aumentar su media.
Cálculos previos:
1962
TC 1920.8
20
ni
Y2
72 152 TC = 141.2
t
SC Total Y 2
ij
i 1 j 1 tb
t
Yi 2 342 542
SC Trat TC TC 2038.5 1920.8 117.7
i 1 b 4 4
t
452
Y 2j 572
SC Bloques TC TC 1940 1920.8 19.2
i 1 t 5 5
SC ( Error ) 141.2 117.7 19.2 4.3
Hipótesis
H0: i i 1, ,5 ó H0: i 0 i 1, ,5
99
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
0.05
CM Trat
Prueba Estadística Fcal ~ FGLtrat ,GLError
CM Error
Desarrollo de la Prueba. Fcal 82.1239
Criterio de Decisión
0.7 Como Fcal 82.1239 F0.95,4,12 3.259
0.6
se rechaza H0 y se acepta H1
0.5
0.4
0.3
0.2
0.1
0.05
0.0
0 3.26
X
Conclusión
A un nivel de significación del 5%, existe evidencia estadística para afirmar que al menos
uno de los métodos difiere del resto al analizar el tiempo medio que se requiere para
aprender a utilizar la prótesis.
Reporte de Minitab
Nota:
Dado que existen diferencias significativas entre los bloques (pvalor=0.000), se justifica
el uso del DBCA.
0.358
El coeficiente de variabilidad es: cv 100% 6.105%
9.8
Aquí se presentarán algunas de las pruebas que también fueron desarrolladas para el
D.C.A. Los supuestos y características de cada una de las prueba son las mismas. A
continuación se presentan las desviaciones estándar a utilizar en cada una de las
pruebas (como se puede observar con las mismas expresiones de las desviaciones
estándar para cada prueba pero asumiendo un DCA balanceado debido a que el DBCA
es completo):
100
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
2CME
Prueba t y DLS: Sd
b
CME t 2
Prueba Contrastes Ortogonales S L Ci
b i 1
CME
Prueba de Tukey: Sd
b
2CME
Prueba de Dunnett: S L
b
H 0 : A B 0
H1 : A B 0
0.05
Estadística de Prueba y Desarrollo
tc
Y 1 Y 2 0 8.50 9.75 0
2.95 ~ tGLE t12
2CME 2 0.358
b 4
Criterio de Decisión
0.4 Si tc t 0.05,12 1.782
0.3
Entonces se rechaza H 0 y se acepta
H1
0.2
0.1
0.05
0.0
-1.78 0
X
Conclusión
A un nivel de significación de 0.05 existe suficiente evidencia estadística para rechazar
H 0 y aceptar H1 . Por lo tanto, se puede afirmar que el tiempo promedio de aprendizaje
bajo el método A es menor al tiempo promedio de aprendizaje bajo el método B. Lo que
indica que el mejor método entre estos dos es el A.
101
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
H 0 : C D
H1 : C D
0.05
2 0.358
DLS t 0.975,12 2.178 0.423 0.921
4
Si 11 6.25 4.75 DLS se rechaza H 0 y se acepta H1 .
Conclusión
A un nivel de significación de 0.05 existe suficiente evidencia estadística para rechazar
H 0 y aceptar H1 .
Por lo tanto, se puede afirmar que el tiempo promedio de aprendizaje bajo el método C
es diferente al tiempo promedio de aprendizaje bajo el método D.
Utilice la prueba de Tukey para comparar los tratamientos en estudio de sus conclusiones
a un nivel de significación de 0.05.
H 0 : A B H 0 : A C H 0 : A D H 0 : A E
H1 : A B H1 : A C H1 : A D H1 : A E
H 0 : B C H 0 : B D H 0 : B E H 0 : C D
H1 : B C H1 : B D H1 : B E H1 : C D
H 0 : C E H 0 : D E
H1 : C E H1 : D E
Gráfico de líneas:
102
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Reporte Minitab:
H 0 : E A H 0 : E B H 0 : E C H 0 : E D
H1 : E A H1 : E B H1 : E C H1 : E D
0.05
El valor de la tabla con 5% , p= t 1 4 y 12 grados de libertad para el error
experimental es t(Dn) =2.81 . En el siguiente cuadro se resumen los cálculos necesarios
para efectuar las 4 comparaciones:
E C B A D
Reporte en Minitab
Diferencia
de Método Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado
1 - 5 -5.000 0.423 (-6.188; -3.812) -11.81 0.000
2 - 5 -3.750 0.423 (-4.938; -2.562) -8.86 0.000
3 - 5 -2.500 0.423 (-3.688; -1.312) -5.91 0.000
4 - 5 -7.250 0.423 (-8.438; -6.062) -17.13 0.000
1 2 3 4 5
31 32 23 24 25 0
2 3
Hipótesis
L L0
Estadístico de Prueba. tc ~ tGLE
SL
Desarrollo de la Prueba
L 25.5+29.25-22-12.5-27=-6.75
32 32 2 2 2 2 2 2
S L 0.358 1.638596
4
6.75 0
tc 4.11938
1.638596
104
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Criterio de Decisión
0.4
0.2
0.1
0.025 0.025
0.0
-2.18 0 2.18
X
Conclusión
A un nivel de significación de 0.05 podemos afirmar que el tiempo de aprendizaje de los
métodos A y B son en promedio diferentes al tiempo de aprendizaje de los métodos C,
D y E.
Eybis J. , Saavedra H. Ríos O. , Castillo T. , Barrera (2015) Efecto de cinco dosis de humus de lombriz en el
cultivo de tomate (Lycopersicon esculentum Mill), en suelos ácidos, sector Aucaloma-San Martín – Perú.
Descargado de: http://blog.jooble.org/latam/wp-content/uploads/2015/02/Efecto-de-cinco-dosis-de-
humus-de-lombriz-en-el-cultivo-de-tomate.pdf
105
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejercicios Propuestos
Para las siguientes preguntas, de ser necesario use un nivel de significación del 5%:
FÓRMULA
SUELO
1 2 3 4
Arcilloso 7 7 11 12
Arenoso 11 10 16 16
Franco Arenoso 13 12 18 19
Fuente GL SC CM Fcal
Fórmula 28.8889
Suelo 80.167
Error 1.833
Total 11 168.667
106
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Salidas Minitab:
Diferencia
de Fórmula Diferencia EE de IC individual
niveles de medias diferencia de 95% Valor T Valor p
2 - 1 -0.667 0.451 (-1.771, 0.438) -1.48 0.190
3 - 1 4.667 0.451 (3.562, 5.771) 10.34 0.000
4 - 1 5.333 0.451 (4.229, 6.438) 11.82 0.000
3 - 2 5.333 0.451 (4.229, 6.438) 11.82 0.000
4 - 2 6.000 0.451 (4.896, 7.104) 13.29 0.000
4 - 3 0.667 0.451 (-0.438, 1.771) 1.48 0.190
107
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Diferencia
de Fórmula Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado
2 - 1 -0.667 0.451 (-2.066, 0.732) -1.48 0.389
3 - 1 4.667 0.451 (3.268, 6.066) 10.34 0.000
4 - 1 5.333 0.451 (3.934, 6.732) 11.82 0.000
Diferencia
de Fórmula Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado
2 - 1 -0.667 0.451 (-2.230, 0.897) -1.48 0.503
3 - 1 4.667 0.451 (3.103, 6.230) 10.34 0.000
4 - 1 5.333 0.451 (3.770, 6.897) 11.82 0.000
3 - 2 5.333 0.451 (3.770, 6.897) 11.82 0.000
4 - 2 6.000 0.451 (4.436, 7.564) 13.29 0.000
4 - 3 0.667 0.451 (-0.897, 2.230) 1.48 0.503
2) Una ironía de la era espacial es que mientras los humanos envían mensajes
codificados a distintas galaxias en busca de formas de vida inteligente, la
comunicación con animales inteligentes en este planeta permanece en un
misterio. En un estudio, un investigador enseñó diez señales del lenguaje
americano (ASL) a cuatro chimpancés (Datos de R.S. Fouts, “Acquisiton and
Testing of Gestural Signs in Four Young Chimpanzees”. Science 180 (1973):978-
80).
El objetivo del estudio fue determinar si algunas señales eran adquiridas más
fácilmente que otras por los chimpancés. Los sujetos evaluados fueron cuatro
chimpancés Booee, Cindy, Bruno y Thelma, que se suponen podrían tener niveles
diferentes de comprensión. Las señales ASL enseñadas fueron: escuchar,
sombrero, zapato, fruta, beber, comer, mirar, llave, cadena y alimento, las cuales
cubrían un amplio rango de objetos, acciones y conceptos que fueron evaluados.
A los chimpancés se les enseñó individualmente usando un sistema de
recompensa hasta que respondieran correctamente en cinco ocasiones
consecutivas. La tabla dada a continuación muestra el tiempo en minutos
requerido en aprender cada señal a cada sujeto.
108
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Escuchar Beber Zapato Llave Comer Alimento Fruta Sombrero Mirar Cadena
Booee 12 15 14 10 10 80 80 78 115 129
Cindy 10 25 18 25 15 55 20 99 54 476
Bruno 2 36 60 40 225 14 177 178 345 287
Thelma 15 18 20 40 24 190 195 297 420 372
Salidas de Minitab:
Análisis de Varianza
109
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Análisis de Varianza
Las medias no etiquetadas con la letra A son significativamente diferentes de la media del
nivel de control.
Diferencia
de Dieta Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado
2 - 1 1.405 0.154 (0.912, 1.898) 9.09 0.000
3 - 1 1.708 0.154 (1.215, 2.200) 11.05 0.000
4 - 1 1.968 0.154 (1.475, 2.460) 12.74 0.000
5 - 1 2.460 0.154 (1.967, 2.953) 15.92 0.000
110
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
a) ¿Se puede afirmar que al menos una dieta produce una ganancia promedio de
peso distinta a las demás? Realice la prueba estadística más adecuada.
b) ¿Existen diferencias significativas entre las dietas 4 y 2 al analizar la ganancia
promedio de peso? Realice una prueba estadística más adecuada.
c) Realice la prueba de comparaciones de Tukey y use los resultados obtenidos para
determinar cuál es la dieta menos recomendada.
d) Si la dieta 1 es el tratamiento control, realice la prueba estadística más adecuada
para comparar todos los tratamientos versus el control.
e) El ingeniero afirma que la ganancia promedio de peso de las dietas 3 y 4, en forma
conjunta, superan a la obtenida con la dieta 5 en más de 200 gramos ¿Es cierta
la afirmación del ingeniero? Realice la prueba estadística más adecuada.
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Pescador 3 0.5139 0.1713 0.82 0.514
Palangre 3 45.3802 15.1267 72.57 0.000
Error 9 1.8761 0.2085
Total 15 47.7702
Diferencia
de Pescador Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 99% Valor T ajustado
2 - 1 -0.493 0.323 (-1.854, 0.867) -1.53 0.462
3 - 1 -0.225 0.323 (-1.585, 1.136) -0.70 0.896
4 - 1 -0.146 0.323 (-1.506, 1.215) -0.45 0.968
3 - 2 0.268 0.323 (-1.092, 1.629) 0.83 0.838
4 - 2 0.347 0.323 (-1.013, 1.708) 1.08 0.712
4 - 3 0.079 0.323 (-1.282, 1.440) 0.24 0.994
111
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Diferencia
de Palangre Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 99% Valor T ajustado
2 - 1 1.576 0.323 ( 0.216, 2.937) 4.88 0.004
3 - 1 3.940 0.323 ( 2.579, 5.301) 12.20 0.000
4 - 1 3.993 0.323 ( 2.632, 5.353) 12.37 0.000
3 - 2 2.364 0.323 ( 1.003, 3.724) 7.32 0.000
4 - 2 2.416 0.323 ( 1.056, 3.777) 7.48 0.000
4 - 3 0.053 0.323 (-1.308, 1.413) 0.16 0.998
Diferencia
de Pescador Diferencia EE de IC individual
niveles de medias diferencia de 99% Valor T Valor p
2 - 1 -0.493 0.323 (-1.542, 0.556) -1.53 0.161
3 - 1 -0.225 0.323 (-1.274, 0.825) -0.70 0.504
4 - 1 -0.146 0.323 (-1.195, 0.904) -0.45 0.663
3 - 2 0.268 0.323 (-0.781, 1.318) 0.83 0.427
4 - 2 0.347 0.323 (-0.702, 1.397) 1.08 0.310
4 - 3 0.079 0.323 (-0.970, 1.128) 0.24 0.812
Diferencia
de Palangre Diferencia EE de IC individual
niveles de medias diferencia de 99% Valor T Valor p
2 - 1 1.576 0.323 ( 0.527, 2.626) 4.88 0.001
3 - 1 3.940 0.323 ( 2.891, 4.989) 12.20 0.000
4 - 1 3.993 0.323 ( 2.944, 5.042) 12.37 0.000
3 - 2 2.364 0.323 ( 1.315, 3.413) 7.32 0.000
4 - 2 2.416 0.323 ( 1.367, 3.466) 7.48 0.000
4 - 3 0.053 0.323 (-0.996, 1.102) 0.16 0.874
Utilice solo la información de mayor interés en los resultados para realizar todas las
comparaciones posibles mediante la prueba estadística más adecuada y concluya de
acuerdo al caso anterior
Referencias
R.G.D. Steel, & Torrie, J.H.(1985). Bioestadística Principios y Procedimientos. McGraw
Hill, ed Bogotá, Colombia.
Montgomery, D. C. (2005). Diseño y análisis de experimentos (2nd. Ed). México: Limusa
Wiey.
Kuehl, R. O., (2001). Diseño de experimentos: principios estadísticos para el diseño y
análisis de investigaciones. (2nd Ed). International Thomson Editores, S.A. de C.V.,
Mexico, DF.
Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of
data analysis. Australia: Duxbury/Thomson Learning
112
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Capítulo V
OBJETIVOS
Introducción
En el capítulo anterior se estudió el Diseño Bloque Completo al Azar (D.B.C.A) que utiliza
un solo criterio de aleatorización de los tratamientos a las unidades experimentales
(bloques), sin embargo, en algunas situaciones puede suceder que el problema
experimental obligue al investigador considerar un doble criterio de aleatorización (filas
y columnas). En este caso el diseño más adecuado a utilizar es el Diseño Cuadrado
Latino (D.C.L)
El presente capitulo tiene como objetivo exponer la metodología del Diseño Cuadrado
Latino.
Ventajas:
El control de variabilidad de las unidades experimentales por filas y columnas y su
separación en el análisis de variancia permite incrementar la precisión experimental.
Es posible estimar los valores de las unidades experimentales pérdidas.
Desventajas:
No es flexible en la medida que el número de tratamientos depende del número de filas
y columnas que se disponga.
113
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
1. Croquis Experimental
Supongamos que en un experimento con 4 tratamientos, 4 bloques filas y 4 bloques
columna, cada celda representa una unidad experimental; los tratamientos deben ser
distribuidos aleatoriamente dentro de cada bloque fila y columna, de tal manera, que un
tratamiento no se repita más de una vez por fila o por columna. Un ejemplo, de una
posible aleatorización de los tratamientos en las unidades experimentales seria la
siguiente:
i = 1, 2, 3,..................,t (tratamientos)
j = 1, 2, 3,..................,t (filas)
k = 1, 2, 3,..................,t (columnas)
Donde:
Y(i)jk : Valor observado de la variable en estudio para la U.E. bajo el j-esimo bloque fila,
k-esimo bloque columna, sometida al i-esimo tratamiento.
: Efecto de la media general.
(i) : Efecto del i-esimo tratamiento.
j : Efecto del j-esimo bloque fila.
k : Efecto del k-esimo bloque columna.
(i)jk : Efecto del error experimental bajo el j-esimo bloque fila, k-esimo bloque columna,
sometida al i-esimo tratamiento.
114
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
t b t t
Q Yi jk i j k
2
2
i jk
i 1 j 1 i 1 j 1
t t t
i 0
i 1
j 0
i 1
i 1
k 0
4. Análisis de Variancia
Var (Total) = Var (Tratamientos) + Var (Bloq. Fila) + Var(Bloq Col) + Var (Error)
Y2
Y
t t t b
SC Total SC Y Yi jk Y
2
2
i jk
j 1 k 1 i 1 j 1 t2
Y 2
Aquí es el término de corrección (TC).
t2
t Y i2
SC Tratamientos TC
i 1 t
t Y2 j
SC Bloques Fila TC
j 1 t
115
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
t Y2k
SC Bloques Columna TC
j 1 t
Posibles Resultados
Fuente de Variación Sig. Sig. Sig. Sig. Sig. Sig. Sig. Sig
Tratamientos * n.s. * * n.s. n.s. * n.s.
Bloques Fila * * * n.s * n.s n.s. n.s.
Bloques Columna * * n.s. * n.s * n.s. n.s.
El cuadro anterior muestra los posibles resultados que se podrían obtener en el Análisis
de Varianza de un D.C.L.
Los dos primeros resultados significan que se justifica el uso del D.C.L, dado que existen
diferencias significativas entre los bloques.
Los cuatro siguientes resultados significan que no se justifica el uso del D.C.L., dado que
no existen diferencias significativas entre uno de los bloques (fila o columna). Eso no
implica que el experimento este mal hecho sino que no se escogió el diseño adecuado
(el factor de bloqueo correcto). De acuerdo a estos resultados se debería recomendar
para un próximo experimento futuro de similares características el uso de un D.B.C.A. Lo
que si estaría mal es analizar el experimento como un DBCA dado que la aleatorización
de las unidades experimentales fue hecha como un DCL.
En los dos últimos resultados significan que no se justifica el uso del D. C.L, dado que
no existen diferencias significativas entre los bloques fila y columna (analizados
independientemente). Eso no implica que el experimento este mal hecho sino que no se
escogió el diseño adecuado (el factor de bloqueo de fila y columna correcto). De acuerdo
a estos resultados se debería recomendar en experimento futuro de similares
características el uso de un D.C.A. Estaría mal analizar el experimento como un DCA
dado que la aleatorización de las unidades experimentales fue hecha como un DCL.
116
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Hipótesis
H0: i 0 i 1, , t
H1: i 0 para al menos algún i
H0: i i 1, , t
H1: i para al menos algún i
H0: 2 0 i 1, , t
H1: 2 0 para al menos algún i
En cualquiera de los casos, la hipótesis nula significa que los tratamientos no afectan a
la variable respuesta, o que con cualquiera de los tratamientos se obtienen los mismos
resultados.
Estadístico de Prueba
CMTrat
F ~ FGLTrat ,GLError
CMError
Regla de Decisión
La hipótesis nula ( H 0 ) se rechaza con un nivel de significación si:
Fcal F1 ,GLtrat ,GLError Ftab Fcrit F1 ,GLTrat ,GLError
Aquí se presentarán algunas de las pruebas que también fueron desarrolladas en el DCA
y DBCA, los supuestos y características de cada prueba son las mismas. A continuación
se presentan las desviaciones estándar a utilizar en cada una de las pruebas:
2CME
Prueba t y DLS: Sd
t
CME t 2
Prueba de Contrastes Ortogonales S L Ci
t i 1
117
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
CME
Prueba de Tukey: Sd
t
2CME
Prueba de Dunnett: Sd
t
Ejemplo de Aplicación
Para comparar el rendimiento de cuatro variedades de trigo (A, B, C y D) se llevó a cabo
un experimento conducido en D.C.L. en parcelas con diferentes concentraciones de
fósforo y diferentes tipos de riego. Los resultados experimentales se presentan
expresados en Kg. por parcela.
4 4
Y 1837.64
2
( i ) jk
i 1 j 1
Solución:
Análisis Descriptivo
Antes de realizar el Análisis de Variancia es recomendable elaborar gráficos descriptivos
y obtener algunas medidas descriptivas
118
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
13
12
Rendimiento 11
10
5
1 2 3 4
Variedad
13
12
11
Rendimiento
10
5
1 2 3 4
Concentración
13
12
11
Rendimiento
10
5
1 2 3 4
Riego
119
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
b. Defina el modelo aditivo lineal con cada uno de sus componentes según el enunciado del
problema
Donde:
c. A un nivel de significación del 5%, ¿existe alguna variedad que tiene diferente
rendimiento a las demás? Realice la prueba estadística más adecuada asumiendo los
supuestos necesarios.
Análisis de Varianza
El análisis de varianza nos permitirá probar si existen diferencias en los tiempos
promedios de aprendizaje del uso de la prótesis.
Cálculos previos
167.22
TC 1747.24
42
120
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Hipótesis
H0: i i 1, ,4
H1: i para al menos algún i
0.05
CM Trat
Prueba Estadística. Fcal ~ FGLtrat ,GLError
CM Error
Criterio de Decisión
0.5
Como
Fcal 58.03 F 0.95,3,6 4.76
0.4
Entonces se rechaza H0 y se
0.3 acepta H1 .
0.2
0.1
0.05
0.0
0 4.76
X
Conclusión.
Con un nivel de significación del 0.05, se rechaza Ho. Por lo tanto, existe evidencia
estadística para afirmar que al menos uno de las variedades de trigo difiere del resto al
analizar el rendimiento medio en Kg/parcela.
Reporte de Minitab
121
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Nota:
Dado que solo existen diferencias significativas entre los bloques columna-tipo de riego
no se justifica el DCL. Se recomienda en un próximo experimento utilizar un DBCA.
d. Si antes de la ejecución del experimento se planeó comparar las variedades de trigo “A”
y “B”, realice la prueba de D.L.S. Use = 0.01
Prueba DLS
H 0 : A B
H1 : A B
0.01
2 0.4533
DLS t 0.995,6 3.71 0.474 1.759
4
Reporte en Minitab
122
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
e. Con fines aplicativos solo se realizará la prueba de Tukey para comparar las variedades
de trigo “C” y “D”. Use = 0.01
Prueba de Tukey
H 0 : C D
H1 : C D
0.01
CME 0.4533
ALS (T ) AES (T ) 7.03 2.36
t 4
Conclusión
A un nivel de significación de 0.01 existe suficiente evidencia estadística para rechazar
H 0 y aceptar H1
Reporte en Minitab
Diferencia
de Variedad Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado
2 - 1 0.275 0.476 (-1.375; 1.925) 0.58 0.935
3 - 1 -1.200 0.476 (-2.850; 0.450) -2.52 0.153
4 - 1 -5.275 0.476 (-6.925; -3.625) -11.08 0.000
3 - 2 -1.475 0.476 (-3.125; 0.175) -3.10 0.077
4 - 2 -5.550 0.476 (-7.200; -3.900) -11.66 0.000
4 - 3 -4.075 0.476 (-5.725; -2.425) -8.56 0.001
123
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Prueba de Dunnett
H 0 : T i
H1 : T i
0.01
2CME 2(0.4533)
ALS ( Dn) t ( Dn) 4.51 2.14
t 4
2- 1 0.275 2.14 Ns
2–3 1.475 2.14 Ns
2–4 5.55 2.14 *
Conclusión
A un nivel de significación de 0.01, se puede afirmar que el rendimiento medio de la
variedad B (testigo) es diferente al rendimiento medio de la variedad D. Respecto a las
otras comparaciones, no se puede afirmar que el rendimiento medio de la variedad B
(testigo) es diferente al rendimiento medio de las variedad A, y tampoco hay diferencias
con la variedad C.
124
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejercicios Propuestos
Para las siguientes preguntas, de ser necesario use un nivel de significación del 5%:
DENSIDADES Total
TAMAÑO
1 2 3 4
1 4 (I) 3 (II) 2 (III) 5 (IV) 20
2 5 (II) 5 (I) 4 (IV) 6 (III) 21
3 3 (IV) 6 (III) 6 (I) 10 (II) 25
4 2 (III) 4 (IV) 6 (II) 9 (I) 21
Total 15 24 18 30 87
Salidas Minitab:
Análisis de Varianza
125
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
FV GL SC CM Fcal
Pendiente
Riego 0.0148
Variedad 2.9063
Error
Total 23.7322
126
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Salidas Minitab:
Análisis de Varianza
Diferencia
de Palangre Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado
2 - 1 1.750 0.935 (-1.149, 4.649) 1.87 0.240
3 - 1 5.750 0.935 ( 2.851, 8.649) 6.15 0.002
4 - 1 3.500 0.935 ( 0.601, 6.399) 3.74 0.023
127
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Análisis de Varianza
128
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Diferencia
de Variedad Diferencia EE de IC simultáneo de Valor p
niveles de medias diferencia 95% Valor T ajustado
V2 - V1 1.1500 0.0260 (0.9971, 1.3029) 44.29 0.001
V3 - V1 -0.1467 0.0260 (-0.2996, 0.0063) -5.65 0.054
V3 - V2 -1.2967 0.0260 (-1.4496, -1.1437) -49.94 0.001
Referencias
Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of
data analysis. Australia: Duxbury/Thomson Learning
129
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Capítulo VI
OBJETIVOS
Introducción
1. Pruebas No Paramétricas
130
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Mediante este cuadro se pretende brindar un resumen que ayude al fácil uso de las
pruebas no paramétricas.
Ventajas:
131
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Desventajas:
a) Aspectos Generales
b) Supuestos:
a) Las n1, n2,…nk observaciones de los k grupos se combinan en una sola serie de tamaño
n y se disponen en orden de magnitud desde la más pequeña hasta la más grande.
Cuando dos o más observaciones tienen el mismo valor, a cada una de ellas se le asigna
la media de los rangos con los cuales está relacionado.
b) Los rangos asignados a las observaciones en cada uno de los k grupos se suman por
separado para dar k sumas de rangos:
ni
Ri R X ij
j 1
1 k Ri2 n n 1
2
H 2 ~ (k-1)
2
S i 1 ni 4
Donde:
1 k ni 2 n n 1
2
S
2
R X ij
n 1 i 1 j 1 4
132
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
n n 1
2
2
Si no hay empates S se simplifica a , entonces H se simplifica a:
4
12 k Ri
2
H 3(n 1)~ (k-1)
2
n(n 1) i 1 ni
Donde:
Criterio de Decisión
El valor crítico o valor tabular se define como tab
2
21 ,k 1 . Si H 21 ,k 1 se rechaza
Ho
d) Comparaciones Múltiples
Si la hipótesis nula en la prueba general de Kruskal-Wallis es rechazada, se puede usar
el siguiente procedimiento para determinar cuál de los pares de tratamientos tienden a
ser diferentes. Así, para ver si existe diferencia entre los tratamientos i y j a un nivel de
significación se compara:
Ri R j
ni n j
S 2 n 1 H 1 1
Con ALS ( K W ) t
1 , n k
2 nk ni n j
𝑅 𝑅
De tal forma que, si |𝑛𝑖 − 𝑛𝑗| > 𝐴𝐿𝑆(𝐾 − 𝑊) entonces se Rho, y existe diferencia entre
𝑖 𝑗
los tratamientos i y j a un nivel de significación
Ejemplo de Aplicación 1
Se analizaron muestras de cuatro marcas diferentes de margarina de dieta o de
imitación, para determinar el nivel de ácidos grasos poliinsaturados fisiológicamente
activos (PAPFUA, en porcentajes). La prueba de Anderson Darling da un valor calculado
es 1.145 y un p-valor 0.004; la prueba de Bartlett da un valor calculado de 17.614 y un
p-valor de 0.001. Asumiendo que hay independencia entre y dentro de tratamientos y
que las cuatro poblaciones tienen distribuciones de probabilidad idénticas:
133
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
1. Planteamiento de Hipótesis
R X ij Ri
1 n n 1 1 20 21
2 2
R X ij
2
S
2
2865.5 34.76316
n 1 ij 4 20 1
4
1 k Ri2 n n 1
2
H 2 ~ k 1
2
S i 1 ni 4
20 21
2
1
H 2640.11667 12.51660 ~ (3)
2
34.76316 4
4. Criterios de decisión
5. Conclusión
134
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Reporte Minitab:
Clasificación
Marca N Mediana del promedio Z
1 5 14.10 17.3 2.97
2 6 12.75 4.8 -2.80
3 5 13.10 9.5 -0.44
4 4 13.30 11.8 0.47
General 20 10.5
H = 12.43 GL = 3 P = 0.006
H = 12.52 GL = 3 P = 0.006 (ajustados para los vínculos)
S 2 n 1 H 1 1 34.76316 20 1 12.52 1 1
ALS ( K W ) t t 0.995,16
1 ,n k
2 nk ni n j 20 4 ni n j
Número de Ri R j ALS K W
Comparaciones repeticiones Significación
ni n j
AyB 5y6 12.4667 6.6385 **
AyC 5y5 7.8000 6.9337 **
AyD 5y4 5.5500 7.3543 ns
ByC 6y5 4.6667 6.6385 ns
ByD 6y4 6.9167 7.0766 ns
CyD 5y4 2.2500 7.3543 ns
Gráfico de líneas
B C D A
135
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
P4) Conclusión
Ejemplo de Aplicación 2
Quince alumnos en un curso técnico son aleatoriamente asignados a tres tipos diferentes
de métodos de instrucción, todos los cuales persiguen el desarrollo de un nivel específico
de habilidad en diseño asistido por computadora. Para analizar la efectividad de los
métodos se contabilizó el número de diseños desarrollados por cada alumno en la
temporada de primavera, la información obtenida según el método de instrucción al cual
asistió, se presenta a continuación:
Solución:
136
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
0.05
1 k Ri2 n n 1
2
S i 1 ni 4
Donde:
1 k ni 2 n n 1
2
S
2
R X ij
n 1 i 1 j 1 4
Desarrollo de la Prueba
1 2 15 15 1
2
S
2
15 1
12 1 2
1239.5 960 19.9643
4
19.9643 5 4
Criterio de Decisión
H0
0.4
0.3
0.2
0.1
0.05
0.0
0 5.99
X
Conclusión:
A un nivel de significación de 0.05, existe suficiente evidencia estadística para afirmar
que el número promedio de diseños bajo los métodos de instrucción no son los mismos.
137
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Reporte Minitab:
Clasificación
Método N Mediana del promedio Z
1 5 81.00 8.4 0.24
2 5 88.00 11.5 2.14
3 5 68.00 4.1 -2.39
General 15 8.0
H = 6.91 GL = 2 P = 0.032
H = 6.92 GL = 2 P = 0.031 (ajustados para los vínculos)
Solución
Como la cantidad promedio de diseños desarrollados no son los mismos bajo al menos
uno de los métodos de instrucción entonces se pueden realizar las pruebas de
comparación.
0.05
S 2 n 1 H 1 1
ALS ( K W ) t
1 , n k
2 nk ni n j
138
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ri R j
Comparaciones ALS(K-W) Sig
ni n j
A1 vs A2 42 57.5
3.3 4.7306 n.s.
5 5
A1 vs A3 42 20.5
3.9 4.7306 n.s
5 5
A2 vs A3 57.5 20.5
7.2 4.7306 *
5 5
Gráfico de líneas
A3 A1 A2
______
Conclusión
Ejemplo de Aplicación 3
Un Ing. Agrónomo realizó un experimento para comparar 3 variedades de papa. Los
resultados en Tn/Ha se presentan a continuación:
A un nivel de significación de 0.05, diga Ud. con que variedad se obtiene el mayor
rendimiento promedio.
139
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Variedad
2
0 1 2 3 4
Intervalos de confianza de Bonferroni de 95% para Desv.Est.
Solución
Como la variable es de tipo cuantitativa continua, se podría aplicar el Análisis de Varianza
en DCA, pero antes de hacerlo debemos verificar el cumplimiento de los supuestos
(normalidad de errores y homogeneidad de varianzas).
Normalidad de errores
H0: Los errores se distribuyen normalmente
H1: Los errores no se distribuyen normalmente
0.05
Prueba de Anderson Darling: p-valor = 0.516
Conclusión
A un nivel de significación de 0.05, no existe evidencia estadística para rechazar H 0.
Por lo tanto no se puede afirmar que los errores no se distribuyan normalmente.
Homogeneidad de varianzas
H0: 12 22 32 2
H1: Al menos un i2 es diferente i 1, 2,3
0.05
Prueba de Bartlett: Pvalor = 0.009
Conclusión
A un nivel de significación de 0.05, existe evidencia estadística para afirmar que las
variancias de los tratamientos sean heterogéneas.
140
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Reporte Minitab
Clasificación
Variedad N Mediana del promedio Z
1 5 3.200 8.0 0.00
2 5 2.400 4.6 -2.08
3 5 3.600 11.4 2.08
General 15 8.0
H = 5.78 GL = 2 P = 0.056
H = 5.80 GL = 2 P = 0.055 (ajustados para los vínculos)
a) Aspectos Generales
b) Supuestos
b 2 k k 1
2
k 1 bB
4
S ~ 2k-1
bk k 1
2
A
4
Donde:
A R X ij
k b
1 k 2
Ri
2
B
i 1 j 1 b i 1
141
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
- Comparar este valor calculado con el valor 2 tabulado con k-1 grados de libertad
y 1-
Si S 21 ,k 1 se rechaza H0. tab
2
21 ,k 1
d) Comparaciones Múltiples
2b A B
Ri R j ALS ( Fr ) t
1 , b1 k 1
2
b 1 k 1
Ejemplo de Aplicación 1
Se está realizando un experimento para analizar el sabor de una nueva marca de
gaseosa sabor cola antes de que se lance al mercado. Las marcas de gaseosas colas
en comparación fueron dadas a 5 jueces especializados y se estableció una escala de
valores de (1-5) donde 1 es el de peor sabor y 5 el de mejor sabor
Los resultados del experimento se muestran a continuación:
Solución
142
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
b2k k 1
2
k 1 bB
4
Estadístico de prueba: S ~ (2k 1)
bk k 1
2
A
4
Donde:
A R X ij
k b
1 k
B Ri2
2
i 1 j 1 b i 1
Desarrollo de la prueba
19.52 62 122 12.52
A 42 2.52 148 B 143.3
5
524 4 1
2
4 1 5 143.3
4
S 11.93 ~ (3)
2
5 4 4 1
2
148
4
Criterio de Decisión:
0.25
0.20
0.15
Como 20.95,3 7.81 11.93
0.10
se rechaza H0
0.05
0.05
0.00
0 7.81
X
Conclusión:
A un nivel de significación de 0.05 se rechaza Ho. Luego se puede afirmar que las
gaseosas de sabor cola en estudio no tienen igual preferencia.
Reporte Minitab:
S = 10.98 GL = 3 P = 0.012
S = 11.93 GL = 3 P = 0.008 (ajustados para los vínculos)
143
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Mediana Suma de
Marcas N Est. clasificaciones
1 5 5.000 19.5
2 5 2.000 6.0
3 5 3.000 12.0
4 5 3.000 12.5
2b A B 2 5148 143.3
ALS ( Fr ) t t 0.975,51 41 2.18 1.97
2
1 , b 1 k 1
b 1 k 1 5 1 4 1
𝐴𝐿𝑆(𝐹𝑟) = 4.3143443
144
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Gráfico de líneas:
P4) Conclusión
Ejemplo de Aplicación 2
Se realizó una prueba de degustación en la cual 6 clientes de un supermercado probaron
4 marcas diferentes de queso Mozarella vendidas en el establecimiento. Se le pidió a
cada cliente dar un calificativo dentro de una escala de 0 a 10 a cada queso, donde 10
representa una calificación excelente. Los resultados obtenidos fueron:
Marcas de queso
Cliente
Q1 Q2 Q3 Q4
1 5 6.5 7.2 4.8
2 6 5 6 7
3 8.2 7.6 5.9 3.5
4 7.9 7.1 7.6 7.4
5 5.6 6.5 6.5 7
6 4.5 7.2 6.8 6.5
b. Realice la(s) prueba(s) más adecuada(s) para determinar cuál o cuáles de los 4 tipos de
queso es el mejor.
Hipótesis
0.05
145
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Reporte Minitab:
S = 0.55 GL = 3 P = 0.908
S = 0.57 GL = 3 P = 0.903 (ajustados para los vínculos)
Mediana Suma de
Marca N Est. clasificaciones
1 6 6.2031 14.5
2 6 6.4781 14.5
3 6 6.6906 17.0
4 6 6.4406 14.0
Conclusión
A un nivel de significación del 5% no evidencia estadística para rechazar Ho. Luego no
se puede afirmar que la calificación en las 4 marcas de queso no es la misma. Como la
prueba de Friedman resultó no significativa no se puede determinar cuál es la mejor
marca de queso ya que tienen la misma calificación.
Ejercicios Propuestos
Para las siguientes preguntas, de ser necesario use un nivel de significación del 5%:
146
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Prueba de Kruskal-Wallis:
Clasificación
Trat N Mediana del promedio Z
1 5 2.000000000 12.4 2.69
2 5 1.000000000 8.0 0.00
3 5 0.000000000 3.6 -2.69
General 15 8.0
H = 9.68 GL = 2 P = 0.008
H = 10.53 GL = 2 P = 0.005 (ajustados para los vínculos)
R X
k r 2
ij 1217.5
i 1 j 1
a) Realice la prueba estadística más adecuada para probar si con los tres
tratamientos se obtiene el mismo nivel de pudrición.
b) Realice la prueba de comparación correspondiente
Salidas de Minitab:
Prueba de Friedman: Calificación vs. Sabores bloqueado por Jueces
S = 6.13 GL = 2 P = 0.047
S = 7.54 GL = 2 P = 0.023 (ajustados para los vínculos)
Mediana Suma de
Sabores N Est. clasificaciones
NM 4 1.917 5.5
NP 4 2.083 6.5
NPI 4 3.750 12.0
R X
k b 2
ij 54.5
i 1 j 1
a. Realice la prueba estadística más adecuada para probar si los tres sabores en
estudio no tienen la misma preferencia.
147
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
SABORES
Jueces
Sandia Fresa Vainilla Chocolate
1 3 1 2 1
2 5 2 1 3
3 4 4 1 1
4 4 3 2 3
5 5 2 2 2
S = 8.40 GL = 3 P = 0.038
S = 10.00 GL = 3 P = 0.019 (ajustados para los vínculos)
Mediana Suma de
Sabor N Est. clasificaciones
Chocolate 5 2.250 10.5
Fresa 5 2.500 11.5
Sandia 5 4.500 19.5
Vainilla 5 1.750 8.5
R X
k b 2
ij 146
i 1 j 1
148
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
AD=0.793 Q=17.91
Valor p= 0.029 Valor p= 0.000
R X ij 818.5
k r
2
i 1 j 1
Prueba de Kruskal-Wallis: Tiempo vs. Medicamento
Clasificación
Medicamento N Mediana del promedio Z
A 5 20.000 11.0 2.93
B 4 8.000 6.5 -0.31
Control 4 3.500 2.5 -2.78
General 13 7.0
H = 10.68 GL = 2 P = 0.005
H = 10.71 GL = 2 P = 0.005 (ajustados para los vínculos)
Bebidas
Jueces Súper Maca Maca
Maca Plus UNALM
1 2 3 1
2 2 3 2
3 1 2 1
4 3 2 1
5 1 3 2
Salidas en Minitab:
149
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
S = 5.20 GL = 2 P = 0.074
S = 5.78 GL = 2 P = 0.056 (ajustados para los vínculos)
Mediana Suma de
Bebidas N Est. clasificaciones
MP 5 3.0000 14.0
MU 5 2.0000 7.0
SM 5 2.0000 9.0
R X
k b 2
ij 69
i 1 j 1
Referencias
Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of
data analysis. Australia: Duxbury/Thomson Learning
150
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Capítulo VII
EXPERIMENTO FACTORIAL
OBJETIVOS
1. Introducción
En los diseños experimentales simples (DCA, DBCA y DCL) los tratamientos son los
niveles de un factor en estudio, sin embargo, existen situaciones experimentales donde
se requiere estudiar en forma simultánea dos o más factores, debido a la posible
interacción entre los factores y donde los tratamientos se forman por la combinación de
los niveles de los factores en estudio. La técnica estadística que permite resolver este
problema es el Arreglo Factorial o Experimento Factorial, el cual no es un diseño
experimental propiamente dicho, sino más bien, una metodología que debe conducirse
en diseño experimental simple. En este capítulo se muestra la metodología de un
experimento factorial con dos factores conducido en los diseños experimentales simples:
DCA y DBCA.
Ventajas
Obtener información sobre varios factores en forma simultánea. Todas las unidades
experimentales se utilizan para la evaluación de los efectos.
151
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Desventajas
El análisis estadístico es más complicado que con los experimentos de un solo factor
y la interpretación de los resultados se hace más difícil a medida que aumenta el
número de factores y niveles por factor en el experimento.
Los tres tipos de efectos de mayor interés en un experimento factorial son: los efectos
simples, los efectos principales y los efectos de interacción. Estos efectos se miden con
el cuadro de promedios obtenido a partir del cuadro de totales el cual es elaborado con
los datos originales. Con el siguiente ejemplo se explicará el procedimiento de medición
de cada uno de ellos.
Ejemplo de aplicación 1:
Efectos simples
Los efectos simples de un factor son las medidas de cambio en los niveles de un factor
manteniendo constante uno de los niveles del otro factor. El efecto simple de la
152
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
L2 ES A b2 7 5 2
L3 ES B a1 5 8 3
L4 ES B a2 7 11 4
Efectos principales
Son las medidas de cambio en los niveles de un factor, en promedio sobre los niveles de
otro factor. El efecto principal de la temperatura sobre el número de manzanas
malogradas es la diferencia entre las medias marginales de la temperatura:
L5 EP A B 9 6.5 2.5 . Cuando se promedian sobre ambas humedades la
diferencia del número promedio de manzanas malogradas a las temperaturas de 70 °F
y 50°F es de 2.5, indicando esto que hay más manzanas malogradas a 70°F. De manera
similar:
Efectos de interacción
Está dado por la variación entre los efectos simples de un factor a diferentes niveles del
otro factor. Se obtiene por las diferencias entre los efectos simples de un factor a
diferentes niveles del otro factor. La diferencia: L7 EI AB L2 L1 2 3 1 , mide la
interacción entre los factores temperatura y humedad cuando afectan el número de
manzana malogradas. La diferencia entre las temperaturas de 70°F y 50°F fue de 1
manzana malograda más con una humedad de 50% que con 10%. De igual manera:
L8 EI AB L4 L3 4 3 1 .
La gráfica del efecto de interacción permite visualizar la posible interacción entre los
factores; esto se explica porque es elaborado con datos muestrales y su valor
interpretativo tiene alcance sólo para la muestra. Si en la gráfica las líneas guardan
paralelismo es posible que no haya interacción, pero si estas tienden a cruzarse,
entonces es posible que si haya interacción.
153
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
4. Pruebas de hipótesis
La prueba de hipótesis de los efectos principales se debe realizar con mucho cuidado,
tal como se menciona en la siguiente referencia bibliográfica:
Para concluir, los efectos principales, sea que haya interacción o no, se definen en
términos de los promedios marginales. La interpretación de los mismos ante la presencia
de una interacción significativa puede o no ser de utilidad, dependiendo de los objetivos
del ensayo. Luego, se realizan las siguientes consideraciones finales (Cox 1958): 1) si
aun presentándose una interacción significativa, la tendencia general de un factor es la
misma para todos los niveles del otro factor, o bien el promedio marginal de los niveles
de un factor tuviera un significado biológico directo, el efecto principal podría ser un
indicador útil para explicar el fenómeno en cuestión; 2) en los casos en que el promedio
marginal tuviera un sentido artificial, dando poca información sobre lo que sucede con
un factor, la interpretación de los efectos principales no es adecuada, debiéndose
continuar el análisis con las pruebas de hipótesis que correspondan a cada situación en
particular (Willems y Raffaele, 2001).
154
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
H 0 : i 0 , i
H1 : i 0 , para al menos algún i
H 0 : j 0 , j
H1 : j 0 , para al menos algún j
H 0 : 2 0
H1 : 2 0
H 0 : 2 0
H1 : 2 0
H 0 :
2
0
H1 :
2
0
5. Estadísticos de prueba:
CM A
Para el efecto principal de A: Fc ~ F gl A ,gl Error
CM Error
155
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
CM B
Para el efecto principal de B: Fc ~ F gl B ,gl Error
CM Error
CM AB
Para el efecto de la interacción AB: Fc ~ F gl AB ,gl Error
CM Error
Etapa 1:
Etapa 2:
Ejemplo de aplicación 2:
Periodo (días)
b1 (0) b2 (3) b3 (7)
54.6 49.4 42.7
Marca a1 51.8 42.8 40.4
56.2 49.2 48.8
48.5 53.2 47.6
Marca
56.0 48.8 55.2
Marca a2 49.6 44.0 48.0
48.0 44.0 50.0
48.4 42.4 49.2
156
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
El modelo aditivo lineal de un arreglo factorial con 2 factores conducido en un DCA es:
Estimación de efectos
La estimación de los efectos de las componentes del modelo se obtiene por el método
de mínimos cuadrados. La suma de cuadrados del error (SCE) es:
p q rij p q rij
i 1 j 1 k 1 i 1 j 1 k 1
p q p q
ˆ Y...
ˆi Yi.. Y...
ˆ j Y. j . Y...
ˆ ˆij Yij . Yi.. Y. j . Y...
ˆ ij Yij .
ˆijk Yijk Yij .
157
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Tabla de Totales
Yij .
b1 b2 b3 Yi..
a1 211.1 194.6 179.5 585.20
a2 202.0 179.2 202.4 583.6
Y. j . 413.1 373.8 381.9 Y... 1168.8
Tabla de Promedios
Yij .
Yi..
b1 b2 b3
a1 52.775 48.650 44.875 48.767
a2 50.500 44.800 50.600 48.633
Y. j . 51.6375 46.725 47.7375 Y... 48.7
Y... 1168.8
La media estimada. ˆ Y... 48.7
pqr 2 3 4
Y23. 202.4
ˆ 23 Y23. 50.6
r 4
Efecto estimado de la interacción entre el nivel 2 del factor A y el nivel 1 del factor B
ˆ ˆ21 Y21. Y2.. Y.1. Y... 50.5 48.633 51.6375 48.7 1.0705
158
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Gráfico de interacción
Interpretación:
Análisis de Variancia
Donde:
159
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
2
p q r
Yijk 2 2
TC Y... 1168.8 56920.56
i 1 j k
pqr pqr 2 3 4
i 1 j k i 1 j k
p q r
SC Total Yijk2 TC 54.62 49.42 49.22 TC 445.86
i 1 j k
p q
Yij2.
SC Combinado AB TC
i 1 j r
211.12 194.62 179.52 2022 179.22 202.42
TC 213.195
4
Se demuestra que:
SC Combinado AB SC A SC B SC AB
p
Yi..2 585.22 583.62
SC A TC TC 0.1067
i 1 qr 3 4
q
Y. 2j . 413.12 373.82 381.92
SC B TC TC 107.6475
j 1 pr 2 4
SC AB SC Combinado AB SC A SC B
213.195 0.1067 107.6475 105.4408
160
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Cuadro ANVA
F.V. GL SC CM Fc
A p-1=1 0.1067 0.1067 0.0083
B q-1=2 107.6475 53.8238 4.1641
AB (p-1)(q-1) = 2 105.4408 52.7204 4.0787 (*)
Error Exp. pq(r-1) = 18 232.665 12.9258
Total pqr-1 = 23 445.86
CME 12.9258
cv 100 7.3824%
Y... 48.7
Análisis de Varianza
1. Planteamiento de hipótesis
3. Estadístico de prueba
CM AB
Para el efecto de la interacción AB: Fc 4.0787 ~ F 2,18 .
CM Error
4. Criterio de Decisión
161
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
5. Conclusión
Hipótesis
H 0 : 1 j . 2 j . pj .
H1 : Al menos un ij . es diferente.
Sumas de cuadrados
Yij2. Y. 2j .
p
SC Ab j
i 1 r pr
Hipótesis
H 0 : i1. i 2. iq.
H1 : Al menos un ij . es diferente.
Sumas de cuadrados
q
Yij2.
Yi..2
SC Bai
j 1 r qr
1. Planteamiento de hipótesis
162
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Cálculos
p
Yi1.2 Y.1.2 211.12 2022 413.12
SC Ab1 10.35125
i 1 r pr 4 2 4
p
Yi 2.2 Y.2.2 194.62 179.22 373.82
SC Ab2 29.645
i 1 r pr 4 2 4
p
Yi 3.2 Y.3.2 179.52 202.42 381.92
SC Ab3 65.55125
i 1 r pr 4 2 4
q
Y12j. Y1..2 211.12 194.62 179.52 585.22
SC Ba1 124.90167
j 1 r qr 4 3 4
q
Y22j . Y2..2 2022 179.22 202.42 583.62
SC Ba2 88.18667
j 1 r qr 4 3 4
F.V GL SC CM Fc Ftab
Ab1 p-1=1 10.35125 10.35125 0.8008 (NS) F 0.95,1,18 4.41
Ab2 p-1=1 29.64500 29.64500 2.2935 (NS) F 0.95,1,18 4.41
Ab3 p-1=1 65.55125 65.55125 5.0713 (*) F 0.95,1,18 4.41
Ba1 q-1=2 124.90167 62.45084 4.8315 (*) F 0.95, 2,18 3.55
Ba2 q-1=2 88.18667 44.09334 3.4113 (NS) F 0.95, 2,18 3.55
Error Exp. pq(r-1)=18 232.665 12.9258
4. Conclusión
163
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
En el Ejemplo 2, resultaron significativas las pruebas de los efectos simples Ab3 y Ba1 .
Como el factor A tiene sólo dos niveles no es necesario realizar las pruebas de Tukey
para el efecto simple Ab3 , pero sí para Ba1 .
Realice la prueba de comparaciones múltiples de Tukey para el efecto simple Ba1 . Use
0.05
1. Planteamiento de hipótesis
164
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
CME 12.9258
ALS T AES T 3.61 6.4894
r 4
4. Conclusión
Prueba de Comparación t
Verifique si hay evidencias estadísticas para afirmar que con el periodo de 0 días se
obtiene un promedio de ácido ascórbico que excede en más de 2.5 miligramos por litro
al promedio que se obtiene durante el periodo de 7 días considerando la marca 1 en el
concentrado de jugo de naranja. Use 0.05
1. Planteamiento de hipótesis
3. Estadístico de Prueba
4. Criterio de decisión
165
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
5. Conclusión
Ejemplo de Aplicación 3:
a1 a2 a3 a4
Bloques Y..k
b1 b2 b1 b2 b1 b2 b1 b2
I 158 152 144 154 154 150 140 145 1197
II 151 148 145 132 132 135 125 130 1098
III 163 156 142 154 160 162 150 138 1225
IV 154 163 152 155 151 140 140 139 1194
Yij . 626 619 583 595 597 587 555 552 4714
Presente el modelo aditivo lineal e interprete cada uno de sus componentes en términos
del problema.
En el problema p 4 , q 2 , b 4 .
Donde:
Yijk rendimiento obtenido con la i-ésima variedad de lechuga y el j-ésimo tipo de
siembra en el k-ésimo bloque.
Es el efecto del rendimiento medio general.
i Es el efecto de la i-ésima variedad.
166
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Halle los efectos estimados del rendimiento medio de lechuga, variedades, tipos de
siembra, 32 , bloques y 214 .
Y... 4714
ˆ Y... 147.3125
pqb 4 2 4
Cuadro de Totales Yij . y promedios
a1 a2 a3 a4 Y. j .
1245
ˆ1 Y1.. Y... 147.3125 8.3125
8
1178
ˆ 2 Y2.. Y... 147.3125 0.0625
8
1184
ˆ3 Y3.. Y... 147.3125 0.6875
8
1107
ˆ 4 Y4.. Y... 147.3125 8.9375
8
2361
ˆ1 Y.1. Y... 147.3125 0.25
16
2353
ˆ2 Y.2. Y... 147.3125 0.25
16
167
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
La suma da cero.
Estimación de la interacción del nivel 3 del factor A con el nivel 2 del factor B
1197
1 Y..1 Y... 147.3125 2.3125
8
1098
2 Y..2 Y... 147.3125 10.0625
8
1225
3 Y..3 Y... 147.3125 5.8125
8
1194
4 Y..4 Y... 147.3125 1.9375
8
La suma da cero.
Gráfica de interacción
168
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Interpretación:
Análisis de Variancia
p q
Y...2 b
47142
SC Total Y 158 151 ... 139
2 2
2 2
3166.875
4 2 4
ijk
i 1 j 1 k 1 pqb
p q
Yij2. 6262 5522 47142
SC Comb. AB TC ... 1233.375
i 1 j 1 b 4 4 4 2 4
p
Yi..2 12452 11072 47142
SC A TC 1195.625
i 1 qb 2 4 2 4 4 2 4
q
Y. 2j . 23612 23532 47142
SC B TC 2
j 1 pb 4 4 4 4 4 2 4
SC AB SC Comb. AB SC A SC B 35.75
Y..2k b
11972 11942 47142
SC Bloques TC 1153.125
k 1 pq 4 2 4 2 4 2 4
Cuadro ANVA
F.V GL SC CM Fc
Bloques b-1=3 1153.125 384.375 10.346 (**)
A p-1=3 1195.625 398.542 10.725 (**)
B q-1=1 2.000 2.000 0.054 (ns)
AB (p-1)(q-1) =3 35.75 11.917 0.321 (ns)
Error Exp. (pq-1)(b-1) = 21 780.375 37.161
Total pqb-1 = 31 3166.875
169
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
CME 37.161
cv 100 4.138%
Y... 147.3125
Análisis de Varianza
1. Planteamiento de hipótesis
3. Estadístico de prueba
CM AB
Para el efecto de la interacción AB: Fc 0.32 ~ F 3, 21 .
CM Error
4. Criterio de Decisión
5. Conclusión
A un nivel de significación del 5% no existe evidencia estadística para rechazar
H0. Luego no se puede afirmar que existe interacción entre la variedad de lechuga
y el tipo de siembra
170
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Efecto principal de A
1. Planteamiento de hipótesis
H 0 : i 0 , i 1, 2,3, 4
H1 : i 0 , para al menos algún i
3. Estadístico de prueba
CM A
Para el efecto principal de A: Fc 10.72 ~ F 3,21 .
CM Error
4. Criterio de Decisión
Como Fc 10.72 es mayor a F 0.99,3, 21 4.87 entonces se rechaza H0
5. Conclusión
A un nivel de significación del 1% existe evidencia estadística para rechazar H0.
Luego se puede afirmar que al menos una de las variedades de lechuga obtiene
un rendimiento distinto a las demás
Efecto principal de B
1. Planteamiento de hipótesis
H 0 : j 0 , j 1, 2
H1 : j 0 , para al menos algún j
3. Estadístico de prueba
CM B
Para el efecto principal de B: Fc 0.05 ~ F 1, 21
CM Error
4. Criterio de Decisión
Como Fc 0.05 es menor a F 0.99,1,21 8.02 entonces no se rechaza H0
5. Conclusión
171
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Use la prueba de Tukey para evaluar si existen diferencias significativas entre las
variedades de lechuga. Use 0.05
1. Planteamiento de hipótesis
172
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
CME 37.161
ALS T AES T 3.96 8.535
qb 2 4
4. Conclusión
Diferencia
de Variedad Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado
173
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
1. Planteamiento de hipótesis
H 0 : 1.. 3..
H1 : 1.. 3..
2CME 2 37.161
DLS t
t0.975,21 6.3398
2
1 ,GLE
qb 24
2.08
4. Conclusión
174
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejercicios propuestos
Y 2
ijk 39576.32
Cuadro de promedios
b1 b2 Total
a1 24.3 40.925 32.6125
a2 36.4 67.675 52.0375
a3 0.675 20.925 10.8
Total 20.4583 43.175 31.8167
Cuadro de totales
b1 b2 Total
a1 97.2 163.7 260.9
a2 145.6 270.7 416.3
a3 2.7 83.7 86.4
Total 245.5 518.1 763.6
Fuente GL SC CM Fcal
Distancia 3404.9
Altura 1 3096.3
Distancia*Altura
Error 18
Total
175
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Diferencia
de Distancia Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado
2 - 1 19.42 8.45 (-2.15, 41.00) 2.30 0.082
3 - 1 -21.81 8.45 (-43.39, -0.24) -2.58 0.047
3 - 2 -41.24 8.45 (-62.81, -19.66) -4.88 0.000
a1 a2 a3
b1 b2 b1 b2 b1 b2
23.4 23.1 22.2 18.4 19.6 23.4
22.4 20.9 24.4 17.5 19 20.8
24.4 18.1 26.5 22.1 18 21.5
23.4 20.7 24.4 19.3 18.9 21.9
176
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Dosis de potasio
9.5 kg/ha (a1) 12 kg/ha (a2)
Dosis de Fertilizante Dosis de Fertilizante
Nitrogenado Nitrogenado
Tipo de 9 kg/ha 12 kg/ha 18 kg/ha 9 kg/ha 12 kg/ha 18 kg/ha
suelo (b1) (b2) (b3) (b1) (b2) (b3)
1 2.0 2.7 2.7 2.1 2.9 3
2 2.0 2.5 2.4 2.2 2.7 3.2
3 2.7 2.4 2.9 2 3.2 3.5
4 2.1 2.9 2.7 2.4 3.2 3.3
177
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Cuadro de totales
b1 b2 b3 Total
a1 8.8 10.5 10.7 30
a2 8.7 12 13 33.7
Total 17.5 22.5 23.7 63.7
Cuadro de promedios
b1 b2 b3 Total
a1 2.2 2.625 2.675 2.5
a2 2.175 3 3.25 2.8083
Total 2.1875 2.8125 2.9625 2.6542
178
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Los datos registrados acerca de la ganancia de peso (en Kg.) de los pollos se
presentan en la siguiente tabla:
a1 a2 a3
Piso b1 b2 b3 b1 b2 b3 b1 b2 b3
1 2.2 2 2.6 2.1 2.3 2.9 2 2 2.5
2 2 1.9 2.9 2.3 2.5 2.8 2.2 1.9 2.6
3 2.1 2.4 2.8 2.2 2.7 3.2 2.2 2.3 2.7
Totales 6.3 6.3 8.3 6.6 7.5 8.9 6.4 6.2 7.8
Donde:
Diferencia de
Alimentacion Diferencia EE de IC simultáneo de Valor T Valor p
niveles de medias diferencia 95%
179
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Referencias
Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of
data analysis. Australia: Duxbury/Thomson Learning
180
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Capítulo VIII
ANÁLISIS DE CORRELACIÓN
CORRELACIÓN DE VARIABLES CUANTITATIVAS
Correlaciones:
Si r =0 nula
Si r > 0 y r < ± 0.10 Casi nula
Si r ≥ ± 0,10 y r < ± 0,20 Muy baja
Si r ≥ ± 0,20 y r < ± 0,40 Baja
Si r ≥ ± 0,40 y r < ± 0,60 Media
Si r ≥ ± 0,60 y r < ± 0,80 Alta
Si r ≥ ± 0,80 y r < ± 1 Muy alta
Si r =± 1 Perfecta
SP(XY)
𝑟=
√𝑆𝐶(𝑋)𝑆𝐶(𝑌)
Siendo:
181
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
𝑛
(∑ 𝑋𝑖 )( ∑𝑌𝑖 )
𝑆𝑃(𝑋𝑌) = ∑ 𝑋𝑖 𝑌𝑖 −
𝑛
𝑖=1
𝑛
2
(∑ 𝑋𝑖 ) 2
𝑆𝐶(𝑋) = ∑ 𝑋 𝑖 −
𝑛
𝑖=1
𝑛
2
(∑ 𝑌𝑖 ) 2
𝑆𝐶(𝑌) = ∑ 𝑌 𝑖 −
𝑛
𝑖=1
Hipótesis:
Estadístico de prueba:
r
tc ~ t( n 2)
(1 r ) / (n 2)
2
Regla de Decisión:
Usando p-valor:
Ejemplo de aplicación 1
Un ingeniero pesquero está interesado en evaluar 12 ejemplares de trucha en un estudio
de índole acuícola, con la finalidad de verificar si existe una correlación entre la longitud
del cuerpo y su ancho.
Longitud 66 63 64 76 76 60 73 69 67 65 70 72
Ancho 6 7 6 7 4 3 4 5 4 5 9 7
182
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Cálculos previos:
X: Longitud
Y: Ancho
SP(XY) 17.0833
r 0.1746
SC ( X ) SC (Y ) 290.9167(32.9167)
Existe una muy baja correlación positiva entre la longitud y el ancho de las truchas.
b. Realice la prueba estadística más adecuada para verificar si existe correlación entre
la longitud y el ancho de las truchas. Use α=0.05
r 0.1746
tc 0.5607 ~ t(10)
(1 r ) / (n 2)
2
(1 0.17462 ) / (12 2)
0.3
Densidad
0.2
0.1
0.025 0.025
0.0
-2.228 0 2.228
X
P5) Conclusión
A un nivel de significación del 5% no se rechaza Ho. Luego no se puede afirmar que
exista correlación entre la longitud y el ancho de las truchas.
183
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Reporte Minitab
n n 1
2
Donde:
di = son las diferencias entre los ordenamientos de los distintos n pares de datos.
Hipótesis:
Estadístico de prueba:
n
6 di2
rs 1 i 1
n n 1
2
Regla de Decisión:
184
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Nota:
Si n > 30, se puede calcular y utilizar la tabla de la distribución normal
.
Ejemplo de aplicación 2
1. Clasificar por jerarquía los valores de X desde 1 hasta n (el número de pares de
valores de X e Y en la muestra).
2. Clasificar por jerarquía los valores de Y desde 1 hasta n.
3. Calcular di, para cada par de jerarquía de observaciones, restando la jerarquía de
Yi de la jerarquía de Xi.
4. Elevar al cuadrado cada di y calcular la suma de los valores elevados al cuadrado.
5. Calcular rs
185
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Solución:
Calculo de rs
6 x52
rs 1 0,818
12 x 122 1
-0.5804 0.5804
Como rs =0.818 es mayor a rs,/2= 0.5804 , entonces se rechaza Ho.
P5) Conclusión
A un nivel de significación del 5% se rechaza Ho. Por lo tanto hay correlación entre la
cobertura de Poa bulbosa y la humedad del suelo.
186
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejemplo de aplicación 3
187
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Conocimientos Desempeño
Técnico
básicos laboral
J. SMITH 82 4
JONES 73 7
D. BOONE 60 6
M. LEWIS 80 3
G. CLARK 67 5
LINCOLN 94 1
G. WASHINTONG 89 2
Solución
TÉCNICO EXAMEN
X Y X-Y (X - Y)^2 = d2i
J. SMITH 82 3 4 -1 1
JONES 73 5 7 -2 4
D. BOONE 60 7 6
1 1
M. LEWIS 80 4 3 1 1
G. CLARK 67 6 5
1 1
A. LINCOLN 94 1 1
0 0
G. WASHINTONG 89 2 2
0 0
Suma 0 8
6 x8
rs 1 0,8571
7 x 72 1
Reporte Minitab:
188
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
EJERCICIOS PROPUESTOS
1. Los grillos hacen sus chirridos rozando rápidamente una de sus alas sobre la otra.
Mientras más rápido ellos mueven sus alas, más fuerte es el chirrido que ellos
producen, los científicos han notado que los grillos mueven sus alas más rápido
cuando hace calor que cuando hace frio. Por lo tanto, escuchando el tono de los
chirridos, es posible establecer la temperatura del aire.
A continuación, se presentan registros del tono (en vibraciones por segundo) de los
chirridos de grillos en 15 diferentes temperaturas:
Vibraciones por 20 16 20 18 17 16 15 17 15 16 15 17 16 17 14
segundo (X)
Temperatura 89 72 93 84 81 75 70 82 69 83 80 83 81 84 76
(Y)
Cálculos:
∑x=249 ∑y=1202 ∑x2=4175 ∑y2=96952 ∑xy=20087
X: Perímetro (cm) 12.4 12.4 12.7 9.8 12.3 10.1 11.8 11.4 9.4 11.5
Y: Peso (grs.) 32.3 29.4 30.8 15.6 29.8 16.9 28.1 23.3 14.1 25.4
x i 113.8 y i 245.7 x 2
i 1307.96 y 2
i 6449.77 xy 2868.19
Pruebas de Normalidad
Perímetro AD=0.549 Pvalor=0.117
Peso AD=0.522 Pvalor=0.137
189
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
3. Siete frutos son calificados por dos jurados con una escala del 0 al 100. Evalúe si
existe relación en el criterio de calificación de los jurados, las calificaciones se
muestran en la siguiente tabla:
Lugar n x y x 2
S y2 xy
Lumber 73 78.7 39.411 115.1352 69.156 3316.669
Wacamaw 98 125.09 40.388 226.3547 75.392 5545.807
190
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Longitud N° de nidos
Playa
de playa (m) destrozados
1 798.4 4
2 947.2 7
3 648.3 0
4 2645.6 9
5 467.4 0
6 1456.4 7
7 579.3 3
8 3234.6 15
9 3121.7 15
10 2603.5 10
11 835.5 5
12 846.8 4
Referencias
Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of
data analysis. Australia: Duxbury/Thomson Learning.
191
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Capítulo IX
ANÁLISIS DE REGRESIÓN LINEAL SIMPLE
Introducción
En 1903, Karl Pearson, amigo de Galton, colectó más de 1000 registros de tallas de
padres e hijos y con esta información estimó la siguiente línea para explicar la talla del
hijo en función a la del padre (en pulgadas):
Si bien queda claro que padres altos suelen tener hijos altos y padres bajos hijos bajos,
Pearson notó una tendencia en los padres bajos a tener hijos bajos pero en promedio
no tan bajos como ellos (por ejemplo padres de 59 a 65 pulgadas tendían a tener hijos
de 64.5 a 67 pulgadas).
De igual manera observó que padres altos tendían a tener hijos altos pero en promedio
no tan altos como ellos (por ejemplo padres de 70 a 75 pulgadas tendían a tener hijos
de 70 a 72 pulgadas). Este es el concepto de “regresión a la media”, es decir, existe una
tendencia a que los valores extremos se muevan hacia el promedio de la población.
La regresión lineal simple tiene como propósito predecir o estimar una variable, llamada
respuesta o dependiente, a partir de otra variable llamada predictora, explicativa o
independiente mediante la utilización de un modelo matemático. A la variable
dependiente, por convencionalismo, se le representa generalmente con la letra Y,
mientras que a la variable independiente se le representa generalmente con la letra X.
192
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejemplo de Aplicación 1.
Conforme los quesos maduran, ocurren varios procesos químicos que determinan el
sabor del producto final. En un estudio en queso cheddar, 10 muestras de queso fueron
analizadas en su composición química. Además, una medida subjetiva del sabor fue
obtenida combinando los puntajes asignados por varios sujetos que probaron el queso.
Los datos se dan a continuación:
Muestra 1 2 3 4 5 6 7 8 9 10
Sabor 12.3 47.9 37.3 21 0.7 40.9 18 15.2 16.8 0.7
AA 4.543 5.759 5.892 5.242 4.477 6.365 5.247 5.298 5.366 5.328
60
50
40
Sabor
30
20
10
0
4 4.5 5 5.5 6 6.5
AA
En este caso la variable respuesta “Y” sería el sabor y la variable predictora “X” es el
logaritmo de la concentración del ácido acético. El gráfico muestra una aparente
relación de dependencia entre ambas variables en el sentido de que a mayor
concentración de ácido acético, mayor será la calificación del sabor.
Yi 0 1 X i i
193
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Y / X 0 1 X i
i
Donde Y / X i
es el valor esperado obtenida de la ecuación regresión poblacional
Yi b0 b1 X i ei
Yˆi b0 b1 X i i 1, 2,..., n
n n 2
i 1
2
i Yi 0 1 X i
i 1
194
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
n n
SP X n n
X X X
2
i i
2
nX 2
i 1 i 1
b0 ˆ0 Y b1 X
𝑛 ∑ 𝑥𝑖 𝑛 𝑛 2
| 𝑖=1
|
|𝑋′𝑋| = 𝑛 𝑛 = 𝑛 ∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )
| | 𝑖=1 𝑖=1
∑ 𝑥𝑖 ∑ 𝑥𝑖2
𝑖=1 𝑖=1
195
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
2) Invertir la matriz
𝑛 𝑛
∑ 𝑥𝑖2 − ∑ 𝑥𝑖
1 𝑖=1 𝑖=1
(𝑋′𝑋)−1 = 𝑛
|𝑋′𝑋|
− ∑ 𝑥𝑖 𝑛
[ 𝑖=1 ]
∑ 𝑥𝑖2 − ∑ 𝑥𝑖 ∑ 𝑦𝑖 𝑦̅ − 𝑏1 𝑥̅
𝑏 1
𝑏 = [ 0 ] = (𝑋 ′ 𝑋)−1 (𝑋′𝑌) = 𝑖=1
𝑛
𝑖=1 𝑖=1
𝑛 = [ 𝑆𝑃(𝑥𝑦) ]
𝑏1 |𝑋′𝑋|
− ∑ 𝑥𝑖 𝑛 ∑ 𝑥𝑖 𝑦𝑖 𝑆𝐶(𝑥)
[ 𝑖=1 ] [ 𝑖=1 ]
Ejemplo de aplicación 2.
Se quiere analizar la influencia del diámetro (pulg) de los árboles sobre el volumen (pies
cúbicos). A continuación se presenta el gráfico N° 2, para la muestra completa de 20
árboles cuyos diámetros van desde 8.3 hasta 20.4 pulgadas. Interprete
100
80
Volumen
60
40
20
0
0 10 20 30
Diámetro
La curva sólida muestra la relación entre ambas variables para los datos de los 20
árboles y la línea punteada corresponde a la ecuación estimada. Como se puede
apreciar, la línea recta es bastante buena para describir la relación entre el diámetro y el
volumen para árboles con diámetros de entre 16 y 18 pulgadas, pero su ajuste ya no es
tan bueno conforme los valores de X se alejan de dicho rango.
El modelo lineal simple podría ser aceptable para estimar el volumen de un árbol con un
diámetro de 25 o inclusive 14 pulgadas pero definitivamente no para uno de 10.
196
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Aun suponiendo que un diámetro de cero fuera posible, la interpretación del valor
estimado de Y cuando X = 0 no sería válida ya que para la construcción del modelo se
emplearon datos de diámetros comprendidos entre 16 y 18 pulgadas.
Ejemplo de Aplicación 3.
Para el ejemplo anterior, se quiere estimar el puntaje subjetivo del sabor (Sabor),
obtenido combinando los puntajes de varios sujetos, en función del logaritmo natural
de la concentración de ácido acético (AA).
Muestra 1 2 3 4 5 6 7 8 9 10
Sabor(Y) 12.3 47.9 37.3 21 0.7 40.9 18 15.2 16.8 0.7
AA (X) 4.543 5.759 5.892 5.242 4.477 6.365 5.247 5.298 5.366 5.328
Y 21.08 X 5.353 X 2
i 289.4845 Y i
2
6789.06 X Y 1194.159
i i
SP( XY )
X iYi nXY
1194.159 10*(21.08)*(5.353)
b1 i n1 22.374889
289.4845 10*(5.353)2
X
SC ( X )
i
2
nX 2
i 1
197
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Procedimiento matricial:
10 53.53 10 53.53
𝑋′𝑋 = [ ] 𝐷𝑒𝑡𝑒𝑟𝑚. = | | = 29.3841
53.53 289.4845 53.53 289.4845
(𝑋 ′ 𝑋)−1 = [
9.851739546 −1.82173352
] (𝑋 ′ 𝑌) = [ 210.8 ]
−1.82173352 0.34471347 1194.159
60
50
40 𝑌̂= -98.69 + 22.37 X
Sabor
30
20
10
0
4 4.5 5 5.5 6 6.5
AA
198
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Hipótesis:
H 0 : 1 0 No existe dependencia lineal de Y respecto a X
H1 : 1 0 Existe dependencia lineal de Y respecto a X
Fuentes de Gl SC CM Fc
variación
Regresión 1 b1 SP(XY) 𝑆𝐶(𝑅𝑒𝑔) 𝐶𝑀(𝑅𝑒𝑔)
𝑔𝑙(𝑅𝑒𝑔) 𝐶𝑀(𝐸𝑟𝑟𝑜𝑟)
Error n–2 SC(Y) – b SP(XY) 𝑆𝐶(𝐸𝑟𝑟𝑜𝑟)
𝑔𝑙(𝐸𝑟𝑟𝑜𝑟)
Total n-1 SC(Y) =SC(Total)
Estadístico de Prueba:
CM (Re g )
Fc F(1,n 2)
CM ( Error )
Regla de Decisión:
La hipótesis nula se rechaza con un nivel de significación α si el F c resulta mayor que el
valor de tabla, F(1-α, 1, n – 2).
Ejemplo de aplicación 4.
Solución
Cálculos:
n
SC Total SC (Y ) Yi 2 nY 2 6789.06 10 21.08 2345.396
2
i 1
Fuentes de gl SC CM Fc
variación
Regresión 1 1471.073 1471.073 13.46
Error 8 874.323 109.29
Total 9 2345.396
199
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Procedimiento matricial:
210.8
𝑆𝐶(𝑅𝑒𝑔) = 𝑏 ′ (𝑋 ′ 𝑌) − 𝑛𝑦̅ 2 = [−98.692785 22.374889] [ ] − 10(21.08)2
1194.159
= 1471.07293
𝑆𝐶(𝑇𝑜𝑡𝑎𝑙) = 𝑌 𝑌 − 𝑛𝑌̅ 2 = 6789.06 − 10(21.08)2 = 2345.396
′
Prueba Hipótesis
H 0 : 1 0
0.05 Fc 13.46 ~ F1,8 Ftab F 0.95,1,8 5.318
H1 : 1 0
El valor de tabla para un nivel de significación del 5% es F(0.95,1, 8) = 5.318. Como el valor
calculado es mayor al valor de tabla se rechaza H0. En conclusión, existe suficiente
evidencia estadística para afirmar que el sabor del queso depende linealmente de la
concentración de ácido acético.
SC ( Reg )
r² =
SC (Total )
Reporte Minitab
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 1471.1 1471.1 13.46 0.006
x 1 1471.1 1471.1 13.46 0.006
Error 8 874.3 109.3
Total 9 2345.4
200
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante -98.7 32.8 -3.01 0.017
x 22.37 6.10 3.67 0.006 1.00
Ecuación de regresión
Sabor(Y) = -98.7 + 22.37 AA (X)
Por otro lado, si se está estudiando la relación entre el volumen de madera y el diámetro
del árbol, uno estaría más interesado (por cuestiones de manejo forestal) en el volumen
medio de madera de un árbol en particular con dicho diámetro. De hecho, el valor de
predicción para un valor individual tendrá mayor variabilidad que la media estimada.
201
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
El intervalo de predicción de 100 (1- α) % para un valor de Y dado X está dado por:
1 ( x0 X )2
IP(Y / X x0 ) Yˆ t * CME 1
(1 , n 2)
2 n SC ( X )
El intervalo de confianza de 100 (1- α) % para la media de Y dado X está dado por:
1 ( x0 X )2
IC (Y / X x0 ) Yˆ t * CME
(1 , n 2)
2 n SC ( X )
Ejemplo de aplicación 5.
Encontrar un intervalo de predicción de un valor individual y un intervalo de confianza
para el valor medio a un 95% para evaluar el sabor del queso cuando el logaritmo de
ácido acético es 5.2.
Solución:
1 (5.2 5.353)2
IC (Y / X 5.2) 17.656 2.306 109.29 9.7347, 25.5773
10 2.938
202
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
EJERCICIOS DESARROLLADOS
1) En un estudio, se recopilan datos para evaluar la relación que existe entre la publicidad
por radio y las ventas de un producto durante 10 semanas. Los tiempos de duración
en minutos de la publicidad por semana (X) y el número de artículos vendidos (Y). Se
presentan algunos resultados
X 500 Y 1100 X 2
28400 Y 2
134660 XY 61800
a.- Calcule los coeficientes de la ecuación de regresión lineal estimada.
n
i
61800
10
r r 0.9978
x 2
y 2
28400
500 2
* 134660
1100 2
x 2
i
n
i
* y 2
i
n
i
10 10
Y 910 915 867 908 902 875 889 894 878 869
X 30 25 100 35 40 80 60 50 75 90
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 2809.35 2809.35 646.77 0.000
X 1 2809.35 2809.35 646.77 0.000
Error 8 34.75 4.34
Total 9 2844.10
203
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Model Summary
Pearson correlation of Y
Coefficients and X = -0.994
Term Coef SE Coef T-Value P-Value VIF P-Value = 0.000
Constant 929.60 1.67 558.10 0.000
X -0.6650 0.0261 -25.43 0.000 1.00
Regression Equation
Y = 929.60 - 0.6650 X
a.- Calcule la ecuación de regresión estimada e Interprete el valor de cada uno de los
coeficientes de la ecuación de regresión.
x y 585*8907
x yi 516835
i i
i
b1 ˆ1 n 10 0.665014
x i
2
5852
40575
x 2
i
n 10
8907 585
b0 ˆ0 y ˆ1 x ˆ0 0.665014 * ˆ0 929.603319
10 10
c.- ¿Puede Ud. afirmar que la pendiente de la recta es significativamente distinta de cero,
con = 0,05?
H o : 1 0
H1 : 1 0
204
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
y 2
8907 2
SCTotal y 7936309 - 2844.1
2 i
i
n 10
SC Re g ˆ1 * x i yi
x i y i 0.665014 * 516835 585 * 8907
n 10
2809.352597
EJERCICIOS PROPUESTOS
Ingesta de zinc 0 2 4 8 12 16 30
Peso medio % 100 92 95 90 98 85 67
Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant 99.47 3.04 32.77 0.000
x -0.962 0.216 -4.46 0.007 1.00
Regression Equation
y = 99.47 - 0.962 x
205
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Analysis of Variance
Model Summary
S R-sq R-sq(adj)
39.3863 68.74% 67.00%
Coefficients
Term Coef SE Coef T-Value P-Value
Constant 278.3 35.5 7.85 0.000
Inmunización(X) -2.832 0.450 -6.29 0.000
Regression Equation
Mortalidad(Y) = 278.3 - 2.832 Inmunización(X)
3. Se hace un estudio para determinar la relación entre el tiempo de uso (en años)
de un grupo de máquinas de una fábrica y las eficiencias de las mismas (%). Los
datos se dan a continuación:
Tiempo de uso (X) 2 4 11 9 4 6 7 8
Eficiencia (Y) 90 65 25 40 80 60 35 50
Model Summary
S R-sq R-sq(adj)
8.53691 87.58% 85.51%
Coefficients
Term Coef SE Coef T-Value P-Value
Constant 100.64 7.55 13.33 0.000
Tiempo de uso (X) -7.06 1.09 -6.51 0.001
Regression Equation
Eficiencia (Y) = 100.64 - 7.06 Tiempo de uso (X)
206
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 745.702 745.702 1391.75 0.000
Error 10 5.358 0.536
Total 11 751.060
Model Summary
S R-sq R-sq(adj)
0.731984 99.29% 99.22%
Coefficients
Term Coef SE Coef T-Value P-Value
Constant 0.661 0.756 0.87 0.402
ENERGÍA (Mwh) (X) 0.32332 0.00867 37.31 0.000
Regression Equation
CONSUMO (m3) (Y) = 0.661 + 0.32332 ENERGÍA (Mwh) (X)
Referencias
Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of
data analysis. Australia: Duxbury/Thomson Learning
207
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Capítulo X
ANALISIS DE REGRESION LINEAL MÚLTIPLE
OBJETIVOS
1. Introducción
El análisis de regresión lineal múltiple es una técnica cuyo propósito es predecir una
variable dependiente (Variable Y) mediante más de una variable independiente
(variables X). La diferencia con el análisis de regresión lineal simple es solamente el
número de variables independientes que participan en el modelo. El incluir mayor número
de variables independientes en el modelo supondría mayor precisión para la predicción
de la variable dependiente Y.
Y / X , X
1 2 ,... X k
0 1 X1,i 2 X 2,i 3 X 3,i ...... k X k ,i
Donde:
Yi : variable respuesta u observada.
𝛽0 : Coeficiente de intersección poblacional
𝛽1 , 𝛽2 , … , 𝛽𝑘 : Coeficientes de regresión parcial poblacional
X1,i , X 2,i ,..., X k ,i : son variables predictoras independientes de la i-ésima observación.
i : error aleatorio de la i-ésima observación
208
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
(𝑋 ′ 𝑋) 𝑏 = (𝑋 ′ 𝑌) ⟹ 𝑏 = (𝑋 ′ 𝑋)−1 (𝑋′𝑌)
1 𝑥1,1 𝑥2,1 𝑦1
1 𝑥1,2 𝑥2,2 𝑦2
𝑋= 𝑌=[⋮]
⋮ ⋮ ⋮
[1 𝑥1,𝑛 𝑥2,𝑛 ] 𝑦𝑛
𝑛 𝑛 𝑛
𝑛 ∑ 𝑥1,𝑖 ∑ 𝑥2,𝑖 ∑ 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛 𝑛
2
𝑋 ′ 𝑋 = ∑ 𝑥1,𝑖 ∑ 𝑥1,𝑖 ∑ 𝑥1,𝑖 𝑥2,𝑖 𝑋 ′ 𝑌 = ∑ 𝑥1,𝑖 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛 𝑛
2
∑ 𝑥2,𝑖 ∑ 𝑥1,𝑖 𝑥2,𝑖 ∑ 𝑥2,𝑖 ∑ 𝑥2,𝑖 𝑦𝑖
[ 𝑖=1 𝑖=1 𝑖=1 ] [ 𝑖=1 ]
4. Supuestos
209
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Un valor de r2 cercano a uno significa que la ecuación es muy exacta porque explica
una gran porción de la variabilidad de Y. Se define como:
SC Regresión
r2
SC Total
6. Prueba de hipótesis
Debido que en la regresión múltiple se tienen que evaluar el efecto de varias variables
de X, es necesario hacer dos tipos de pruebas hipótesis: La Prueba Global (utilizando
el ANVA y la dsiitribución F) y la Prueba de efectos adicionales (utilizando la
distribución T de student)
Prueba Global
El objetivo de esta prueba hipótesis es la de probar si existe una dependencia lineal de
la variable dependiente Y con al menos una de las variables X. El cuadro ANVA es el
siguiente:
H 0 : 1 2 ... k 0
H1 : Al menos un j es distinto de cero
Nivel de significación:
CM Reg
Fcalc F k ,nk 1
CME
Además la estimación de , ˆ 2 S 2 CME CMError
210
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Conclusión.
H 0 : 1 0 H 0 : 2 0 H 0 : k 0
….
H1 : 1 0 H1 : 2 0 H1 : k 0
Nivel de significación:
bj
tc j ~ t n k 1
sb j
Donde los resultados se obtienen de la siguiente tabla:
Conclusiones
211
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
yˆ0 t S ˆ
y t S Donde:
yˆ0
1 ;n k 1
y X 0 0 yˆ0
1 ;n k 1
2 2
S ŷ0 S 2 X'0 (X´X)-1 X0
yˆ0 t S y ˆ
y t S Donde:
yˆ0 y0
1 ;n k 1
0 0 yˆ0 y0
1 ;n k 1
2 2
Ejemplo de Aplicación 1
212
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Observación Y X1 x2
1 275.3 40 3
2 363.8 27 3
3 264.3 40 10
4 40.8 73 6
5 94.3 64 6
6 230.9 34 6
7 366.7 9 6
8 300.6 8 10
9 237.8 23 10
10 121.4 63 3
11 31.4 65 10
12 203.5 41 6
13 441.1 21 3
14 323 38 3
15 52.47 58 10
X1.X
Observación Y X1 X2 Y2 X12 X22 Y.X1 Y.X2 2
1 275.3 40 3 75790.09 1600 9 11012 825.9 120
2 363.8 27 3 132350.44 729 9 9822.6 1091.4 81
3 264.3 40 10 69854.49 1600 100 10572 2643 400
4 40.8 73 6 1664.64 5329 36 2978.4 244.8 438
5 94.3 64 6 8892.49 4096 36 6035.2 565.8 384
6 230.9 34 6 53314.81 1156 36 7850.6 1385.4 204
7 366.7 9 6 134468.89 81 36 3300.3 2200.2 54
8 300.6 8 10 90360.36 64 100 2404.8 3006 80
9 237.8 23 10 56548.84 529 100 5469.4 2378 230
10 121.4 63 3 14737.96 3969 9 7648.2 364.2 189
11 31.4 65 10 985.96 4225 100 2041 314 650
12 203.5 41 6 41412.25 1681 36 8343.5 1221 246
13 441.1 21 3 194569.21 441 9 9263.1 1323.3 63
14 323 38 3 104329 1444 9 12274 969 114
15 52.47 58 10 2753.1009 3364 100 3043.26 524.7 580
3347.3 982032.53 3030 102058.3 19056.
suma= 7 604 95 1 8 725 6 7 3833
15 604 95 3347.37
𝑋 ′ 𝑋 = [604 30308 3833] 𝑋 ′ 𝑌 = [102058.36] 𝑌 ′ 𝑌 = 982032.531
95 3833 725 19056.7
213
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
𝑏0 550.33
𝑏 (𝑋 ′ −1 (𝑋 ′
𝑏 = [ 1] = 𝑋) . 𝑌) = [−5.4449]
𝑏2 −17.040
ANVA
𝑆𝐶(𝑅𝑒𝑔) = 𝑏 ′ (𝑋 ′ 𝑌) − 𝑛𝑦̅ 2
3347.37 3347.37 2
= [550.32542 −5.44493 −17.03972] [102058.36] − 15 ( )
19056.7 15
= 214729
3347.37 2
𝑆𝐶(𝑇𝑜𝑡𝑎𝑙) = 𝑌 ′ 𝑌 − 𝑛𝑌̅ 2 = 982032.531 − 15 ( 15 ) = 235040
𝑆𝐶(𝑅𝑒𝑠) = 𝑆𝐶(𝑇𝑜𝑡𝑎𝑙) − 𝑆𝐶(𝑅𝑒𝑔) = 235040.1 − 214728.9 = 20311
Matriz Variancia-Covariancia
𝑆𝐶(𝑅𝑒𝑠) 20311
𝐶𝑀𝐸 = = = 1693
𝐺𝐿(𝑅𝑒𝑠) 12
Reporte en Minitab:
Correlación: Y, X1, x2
Y X1
X1 -0.872
x2 -0.398 0.009
Análisis de regresión: Y vs. X1, x2
La ecuación de regresión es
Y = 550 - 5.44 X1 - 17.0 x2
Coef.
Predictor Coef de EE T P
Constante 550.33 33.36 16.50 0.000
X1 -5.4449 0.5317 -10.24 0.000
x2 -17.040 3.705 -4.60 0.001
214
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Análisis de varianza
Fuente GL SC MC F P
Regresión 2 214729 107364 63.43 0.000
Error residual 12 20311 1693
Total 14 235040
Valores pronosticados para nuevas observaciones
Nueva Ajuste
Obs Ajuste SE IC de 95% PI de 95%
1 203.8 12.4 (176.7, 230.9) (110.1, 297.4)
Valores de predictores para nuevas observaciones
Nueva
Obs X1 x2
1 48.0 5.00
Solución:
a. Según la matriz de correlaciones, observamos que existe una alta correlación
negativa entre Y e X1 (-0.872) y una correlación moderada negativa entre Y e X2 (-
0.398), es casi cero entre X1 y X2 y es como debe de ser, no debe existir asociación
entre las variables independientes.
c. Si X1= 50 X2= 10
d. R2= 0.91358
Ho: 1 2 0
H1: Existe al menos una βi diferente a cero
α = 0.05
215
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
CM Re g
Fcalc ~ F(p-1, n-p)
CME
107364.458
Fcalc 63.43 ; F(2, 12 gl,0.95) = 3.88
1692.6013
Como Fc > Ft, entonces, se rechaza la Ho y se acepta la H1.
Conclusión: A un nivel de significación del 5%, podemos afirmar que al menos ya
sea temperatura o aislamiento se relacionan con el consumo de petróleo.
f.
Efecto Lineal Adicional
Prueba estadística:
bj
tc j ~ t12
sb j
−5.4449 −17.04
𝑡 = 0.5317316 = −10.24 𝑡 = 3.704712 = −4.5995
Para X1:
Con un nivel de significación del 5% se rechaza Ho. Por lo tanto la variable
temperatura (X1) si influye en el modelo de regresión.
Para X2:
Con un nivel de significación del 5% se rechaza Ho. Por lo tanto la variable cantidad
de aislamiento (X2) si influye en el modelo de regresión.
α = 0.05
CM Re g
Fcalc
CME
216
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
F de V GL SC CM F F de V GL SC CM F
Regresión 1 178922 178922 41.45 Regresión 1 37247 37247 2.45
Residual 13 56118 4317 Residual 13 197793 15215
Total 14 235040 Total 14 235040
F(1,13;0.95)=4.67
i. Selección de Variables.
Ho: 1 2 0
H1: Existe al menos una βi diferente a cero
α = 0.05
−5.4449 −17.04
𝑡 = 0.5317316 = −10.24 𝑡 = 3.704712 = −4.5995
t(12,0.975)=2.179
En ambos casos se rechaza Ho. Por lo tanto las dos variables forman parte del modelo
y proceso de selección termina, por lo tanto, el modelo estimado es:
217
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
IC :(176.7, 230.9)
Ejemplo de Aplicación 2
A continuación se dan los pesos de Y (Kg.), las alturas de X1 (cm) y la edad de X2 (años)
de 9 alumnos universitarios.
Peso (Y) 68 71 53 67 55 58 77 57 56
Altura(X1) 177 179 169 182 171 170 175 168 172
Edad (X2) 19 20 16 21 18 17 20 19 20
Reportes de Minitab:
Correlación: Peso (Y), Altura(X1), Edad (X2)
Peso (Y) Altura(X1)
Altura(X1) 0.742
0.022
218
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Coeficientes
EE del
Término Coef coef. Valor T Valor p VIF
Constante -135.4 93.7 -1.44 0.199
Altura(X1) 1.013 0.679 1.49 0.186 2.13
Edad (X2) 1.16 2.04 0.57 0.591 2.13
Solución:
Considerando una prueba hipótesis para cada correlación entre la variables peso (Y) vs.
altura (X1) y peso (Y) vs. edad (X2), se tendría lo siguiente:
H 0 : Y , X1 0 H 0 : Y , X 2 0
H1 : Y , X1 0 H1 : Y , X 2 0
0.05 0.05
rY , X1 0.742 rY , X 2 0.644
P valor 0.022 P valor 0.061
Ho: 1 2 0
H1: Existe al menos una βi diferente a cero
α = 0.05
El estadístico de prueba es:
219
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
CM Re g
Fcalc ~ F(p-1, n-p)
CME
Conclusión:
α = 0.05
𝑏
𝑡 = 𝑆 1 ~𝑡(𝐺𝐿(𝐸𝐸))
𝑏1
1.0132127 1.1572851
𝑡= = 1.491407 𝑡= = 0.56782517
0.679867 32.08810102
t(6,0.975)=2.447
220
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
EJERCICIOS PROPUESTOS
Fuente GL SC CM Fc
Regresión 17526
Error 3912
Total
c. Calcule e interprete el coeficiente de determinación.
d. Determine el mejor modelo.
e. Estime el precio de la vivienda, con un área construida de 90 metros cuadrados, que
tiene una distancia al centro comercial de 50 metros y con una antigüedad de 5 años.
221
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Análisis de Varianza
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
4.34038 97.41% 96.11% 94.19%
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 62.08 7.22 8.60 0.000
X1 0.382 0.138 2.77 0.032 1.29
X2 0.2878 0.0220 13.05 0.000 1.54
X3 -0.0812 0.0641 -1.27 0.252 1.59
Parcela X1 X2 X3
A 37 40 15
B 80 50 70
222
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
87.1557 72.48% 68.07% 55.67%
Coeficientes
EE del
Término Coef coef. Valor T Valor p FIV
Constante 1470 465 3.16 0.004
X1 30.97 7.87 3.93 0.001 1.17
X2 9.94 6.41 1.55 0.134 1.79
X3 7.42 5.35 1.39 0.178 1.79
X4 -26.57 4.67 -5.69 0.000 1.13
a. Complete el cuadro ANVA, y luego pruebe si al menos una de las variables influye
linealmente sobre el contenido energético de los desperdicios. Use α=0.01
Fuente GL SC CM Fcal
Regresión
Error 7596
Total 689930
Referencias
Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of
data analysis. Australia: Duxbury/Thomson Learning
223
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Capítulo XI
ANALISIS DE COVARIANZA
Objetivos:
1. Introducción
En este capítulo se tratará al análisis de covarianza con una sola variable independiente
y se presentará el análisis para el Diseño completamente al azar y el Diseño de Bloques
Completos al Azar.
Ventajas
224
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Desventajas
El cálculo manual (sin el uso de un programa estadístico) para realizar el análisis es
laborioso.
Si existe interacción entre la covariable con el tratamiento y/o con el bloque, y entre
el tratamiento con el bloque, estas van incluidas en el error experimental.
Presenta una elevada cantidad de supuestos.
Donde:
Yij : es el valor observado de la variable respuesta obtenido del i- ésimo tratamiento en
la j-ésima repetición.
: es el efecto de la media general.
i : es el efecto del i-ésimo tratamiento.
: es el coeficiente de regresión lineal del Y explicado por X.
X ij : es el valor observado de la variable independiente en el i-ésimo tratamiento y
la j-ésima repetición
X : es el promedio de la variable independiente.
ij : es el efecto del error experimental obtenido del i-ésimo tratamiento en la j-ésima
repetición.
Cuadro ANCOVA
F.V G.L S.C. Y S.P. S.C. aj. G.L aj. C.M. aj.
X2 XY Y2 Y2 -(XY)2/X2
Trat t -1 Txx Txy Tyy
SCE = Eyy – (Exy)2 SCEaj
Error n-t Exx Exy Eyy Exx n–t-1
GLEaj
Trat + Error SCT+E = SCyy - (SPxy)2
n – 1 SCxx SPxy SCyy SCxx
(Total)
DIFERENCIA PARA PRUEBAS DE CMTrataj
SCTrataj = SCT+E – SCE t-1
MEDIAS AJUSTADAS DE TRAT GLTrataj
225
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
t r t r
SC XX X ij2 TC X SPXY X ijYij TC XY
i 1 j 1 i 1 j 1
t r
SCYY Yij2 TCY
i 1 j 1
Donde:
X
2
TC XY
X Y Y
2
TC X TCY
n n n
Para tratamientos:
X i
t 2 t
X iYi
TXX TC X TXY TC XY
i 1 ni i 1 ni
Yi
2
t
TYY TCY
i 1 ni
2 2
E XY SPXY
SCE EYY SCT E SCYY
E XX SC XX
Pruebas de Hipótesis
226
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
2
E XY
E XX
Fcal ~ F(1,GLE aj )
CME aj
P5) Conclusión
CMTrat aj
Fcal ~ F(GLTrat aj ,GLE aj )
CME aj
P5) Conclusión
227
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
1 1 ( X i X j )2
t y DLS Sd CMEaj
r r EXX
i j
CMEaj 1 1 ( X i X j )2
Tukey Sd
2 ri rj EXX
1 1 ( X X T )2
Dunett Sd CMEaj i
ri rT E XX
Ejemplo de Aplicación 1
A B C
Repetición
X Y X Y X Y
1 3 12 8 20.2 10 19
2 4 14 9 21.3 10 19.2
3 7 16 8 18.9 11 20
Total 14 42 25 60.4 31 58.2
228
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Yij : es el peso final (en kg.) obtenido con el i-ésimo tipo de alimento en el j-ésimo cerdo.
: es el efecto de la media general del peso final.
i : es el efecto del i-ésimo tipo de alimento.
: es el coeficiente de regresión lineal del peso final de los cerdos explicado por el peso
inicial.
X ij : es el peso inicial (en kg.) correspondiente al i-ésimo tipo de alimento y al j-ésimo
cerdo.
X : es el peso inicial promedio de los cerdos.
ij : es el efecto del error experimental obtenido con el i-esimo tipo de alimento en el j-
ésimo cerdo.
Análisis de Covariancia
𝑡 𝑟
𝑡 𝑟
𝐸𝑋𝑌 2 𝑆𝑃𝑋𝑌 2
𝑆𝐶𝐸 = 𝐸𝑌𝑌 − 𝑆𝐶𝑇+𝐸 = 𝑆𝐶𝑌𝑌 −
𝐸𝑋𝑋 𝑆𝐶𝑋𝑋
Cuadro ANCOVA
F.V G.L
S.C. Y S.P. S.C Ajust. G.L aj. C.M.aj.
X2 XY Y2 Y2 -(XY)2/X2
TRAT 2 49.56 51.62 67.32
EE 6 10.00 09.77 11.44 1.89 5 0.3789
TRAT + EE 8 59.56 61.39 78.76 15.49
DIFERENCIA PARA PRUEBAS DE
13.589 2 6.79
MEDIAS AJUSTADAS DE TRAT.
P1) 𝐻0 : 𝛽 = 0
𝐻1 : 𝛽 ≠ 0
P2) 𝛼 = 0.05
𝐸𝑋𝑌 2 9.772
𝐸
= 10 = 25.19 ∼ 𝐹(1,𝑔𝑙 Eajust.)
P3) 𝑋𝑋
𝐹𝐶 =
𝐶𝑀𝐸𝑎𝑗 0.3789
P4)
P5) Conclusión: Con un nivel de significación del 5% se rechaza Ho. Luego podemos
afirmar que existe suficiente evidencia estadística para afirmar que el peso final de los
cerdos depende linealmente de su peso inicial.
d) Pruebe si al menos una de las dietas produce diferente peso promedio final.
Use α = 0.05
P2) 𝛼 = 0.05
231
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
2
𝐶𝑀𝐸ajust 1 1 (𝑋 − 𝑋.𝑗 )
𝑆𝑑 = √ ∗ ( + + 𝑖. )
2 𝑟𝑖 𝑟𝑗 𝐸𝑋𝑋
𝐴𝐸𝑆(𝑇) = 4.60
0.3789 1 1 (4.67−8.33)2
A y B ----------- 𝐴𝐸𝑆(𝑇) ∗ √ ∗( + + )
2 3 3 10
0.3789 1 1 (4.67−10.33)2
A y C ----------- 𝐴𝐸𝑆(𝑇) ∗ √ ∗( + + )
2 3 3 10
0.3789 1 1 (8.33−10.33)2
B y C ----------- 𝐴𝐸𝑆(𝑇) ∗ √ ∗( + + )
2 3 3 10
Gráfico de líneas:
C A B
P5) Conclusión:
A un nivel de significación del 5% se puede afirmar que al analizar el peso final medio de
los cerdos ajustado por su peso inicial:
No existen diferencias significativas entre la dieta A con las dietas B y C. Pero si existe
diferencia significativa entre la dieta B y C.
La dieta a recomendar sería la B ya obtiene el mayor peso final medio,
232
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Reporte Minitab:
Método
Análisis de Varianza
Diferencia
de Dietas Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado
2 - 1 2.552 0.876 (-0.297; 5.402) 2.91 0.073
3 - 1 -0.13 1.22 ( -4.09; 3.82) -0.11 0.993
3 - 2 -2.687 0.638 (-4.762; -0.612) -4.21 0.019
_
Yij ti j ( X ij X .. ) ij i=1,…,t j=1,…b
233
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Donde:
Cuadro ANCOVA
t r t r
SC XX X ij2 TC X SPXY X ijYij TC XY
i 1 j 1 i 1 j 1
t r
SCYY Yij2 TCY
i 1 j 1
Donde:
X X Y Y
2 2
TC X TC XY TCY
n n n
Para bloques:
234
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
X
2
b b X jY j
BXX BXY
j
TC X TC XY
j 1 t j 1 t
X
2
b
BYY
j
TCY
j 1 t
Para tratamientos:
X i
t 2 t
X iYi
TXX TC X TXY TC XY
i 1 b i 1 b
Yi
t 2
TYY TCY
i 1 b
2 2
E XY SPXY
SCE EYY SCT E SCYY
E XX SC XX
Pruebas de Hipótesis
Las pruebas de hipótesis sobre la influencia de la covariable y las medias ajustadas son
las mismas que en el caso de un diseño completamente al azar.
De la misma manera como ocurre para un diseño completamente al azar, las medias de
los tratamientos deben ajustarse por la covariable si esta resultó significativa. La
expresión para calcular las medias de tratamientos ajustadas es la siguiente:
E XY
ˆ
E XX
235
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
1 1 ( X i X j ) 2
t y DLS Sd CMEaj
b b E XX
CMEaj 1 1 ( X i X j )2
Tukey Sd
2 b b E XX
1 1 ( X i X T ) 2
Dunett Sd CMEaj
b b E XX
Estas fórmulas se aplican si el diseño es un DBCA, las repeticiones (ri y rj) que aparecían
en las fórmulas para un DCA son reemplazadas por b, que es el número de bloques en
el experimento.
Ejemplo de aplicación 1
T1 T2 T3 T4 T5 TOTAL
Bloq.
X Y X Y X Y X Y X Y X Y
I 20.4 24.6 27.2 32.6 26.8 31.7 22.4 29.1 21.8 27.0 118.6 145.0
II 19.6 23.4 32.0 36.6 26.5 30.7 23.2 28.9 24.3 30.5 125.6 150.1
III 25.1 30.3 33.0 37.7 26.8 30.4 28.6 35.2 30.3 36.4 143.8 170.0
IV 18.1 21.8 26.8 31.0 28.6 33.8 24.4 30.2 29.3 35.0 127.2 151.8
Total 83.2 100.1 119.0 137.9 108.7 126.6 98.6 123.4 105.7 128.9 515.2 616.9
a) Presente el modelo aditivo lineal y describa cada uno de sus componentes en términos del
enunciado.
_
Yij ti j ( X ij X .. ) ij i=1,…,5 j=1,…,4
Donde:
𝑌𝑖𝑗 : es el peso final de una bolsa de ostras tratada con la i- ésima temperatura de agua
(tratamiento) en el j-ésimo mes (bloque).
236
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Totales:
𝑡 𝑏
2
𝑆𝐶(𝑋) = ∑ ∑ 𝑋𝑖𝑗 − 𝑇𝐶𝑥
𝑖=1 𝑗=1
515.2²
= (20.4² + 19.6² + …+ 29.3²) – = 309.79
(5)(4)
𝑡 𝑏
Bloques
𝑏 2
𝑋•𝑗
𝐵𝑋𝑋 = ∑ − 𝑇𝐶𝑥
𝑡
𝑗=1
b X . jY. j
BXY TC XY
j 1 t
𝑏
𝑌•𝑗2
𝐵𝑌𝑌 = ∑ − 𝑇𝐶𝑦
𝑡
𝑗=1
237
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Tratamientos
𝑡
𝑋𝑖•2
𝑇𝑋𝑋 = ∑ − 𝑇𝐶𝑥
𝑏
𝑖=1
𝑡
𝑋𝑖• 𝑌𝑖•
𝑇𝑋𝑌 = ∑ − 𝑇𝐶𝑋𝑌
𝑏
𝑖=1
Errores:
Cuadro ANCOVA:
238
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
H0: β = 0 (El peso final de las ostras no depende linealmente del peso inicial)
H1: β = 0 (El peso final de las ostras sí depende linealmente del peso inicial)
P2) α=0.05
E2 xy 74.50²
Exx
P3) Fc = = 64.63
= 313.05 ~ F(1,11)
CME aj. 0.2743
P5) Conclusión:
El valor de tabla para un nivel de significación del 5% se rechaza Ho. Luego se puede
afirmar que existe suficiente evidencia estadística para aceptar que el peso final de las
ostras depende linealmente del peso inicial.
d) Pruebe si con al menos una temperatura se obtiene un peso medio final diferente
para las ostras
P2) α=0.05
Conclusión:
A un nivel de significación del 5% se rechaza Ho. Luego se puede afirmar que existe
suficiente evidencia estadística para aceptar que con al menos una temperatura se
obtiene un peso medio final diferente para las ostras.
Reporte Minitab
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
X 1 85.876 85.8755 313.05 0.000
Trat 4 12.597 3.1493 11.48 0.001
Bloq 3 1.205 0.4016 1.46 0.278
Error 11 3.017 0.2743
Total 19 358.669
239
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
P1)
H0: 𝜇 i aj. = 𝜇 j aj. ∀ 𝑖 𝑗 = 1,2, … 5, 𝑐𝑜𝑛 𝑖 ≠ 𝑗
H1:: 𝜇 i aj. ≠ 𝜇 j aj.
P2) α = 0.05
Las medias de las variables X e Y sin ajustar para cada tratamiento son:
Gráfico de líneas:
T4 T5 T1 T3 T2
240
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
P5) Conclusión
A un nivel de significación del 5% se puede afirmar que al analizar el peso final medio
de las ostras ajustado por su peso inicial:
Reporte Minitab
Diferencia
de Trat Diferencia EE de IC simultáneo Valor p
niveles de medias diferencia de 95% Valor T ajustado
2 - 1 -0.867 0.691 (-3.099, 1.365) -1.26 0.722
3 - 1 -0.724 0.556 (-2.522, 1.075) -1.30 0.697
4 - 1 1.387 0.447 (-0.058, 2.832) 3.10 0.062
5 - 1 0.716 0.521 (-0.968, 2.400) 1.37 0.655
3 - 2 0.143 0.407 (-1.171, 1.457) 0.35 0.996
4 - 2 2.254 0.498 ( 0.646, 3.862) 4.53 0.006
5 - 2 1.583 0.429 ( 0.196, 2.969) 3.69 0.024
4 - 3 2.111 0.405 ( 0.801, 3.420) 5.21 0.002
5 - 3 1.440 0.374 ( 0.232, 2.647) 3.85 0.018
5 - 4 -0.671 0.388 (-1.925, 0.583) -1.73 0.456
241
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejemplo de Aplicación 2
Un científico de plantas realizó un experimento para estudiar los efectos del nivel de
irrigación por goteo en el crecimiento, cosecha y calidad del elote dulce. Se usaron tres
niveles de irrigación A, B y C y se condujo el experimento con un diseño de bloques
completo aleatorizado para controlar la variabilidad del campo. Una de las variables
respuesta medida fue la cantidad de elote dulces en la parcela (en t.) Como se optimizó
la humedad del suelo para establecer la mejor cosecha, los niveles de irrigación
impuestas, después de establecer la cosecha, no afectaron el número de plantas por
parcela. La cosecha de elotes dulces (Y = toneladas métricas por parcela de elotes
dulces y X = número de plantas por parcela), se muestran a continuación:
Nivel de irrigación
Totales
Bloque A B C
X Y X Y X Y X Y
1 45 1.5 54 1.9 43 1.1 142 4.5
2 58 3.1 57 1.8 60 1.8 175 6.7
3 61 3.8 55 2.9 71 3.7 187 10.4
4 59 3.3 56 2.3 48 1.8 163 7.4
Totales 223 11.7 222 8.9 222 8.4 667 29
Promedios 55.75 2.925 55.5 2.225 55.5 2.1
Además:
X 2
37711 Y 2
79.12 XY 1671.7 X 667 Y 29
i 1, 2,3
Yij i j ( X ij X .. ) ij
j 1, 2,3, 4
Yij = La cantidad de elotes dulces por parcela obtenida con el i-ésimo nivel de irrigación
en el j-ésimo bloque.
242
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Para totales
667 2
SCX 37711 636.92
12
(667)(29)
SCXY 1671.7 59.783
12
29 2
SCY 79.12 9.037
12
Para bloques
Para tratamientos
2232 222 2 222 2 667 2
TXX 0.167
4 (3)(4)
(223)(11.7) (222)(8.9) (222)(8.4) (667)(29)
TXY 0.508
4 (3)(4)
11.7 2 8.9 2 8.4 2 29 2
TYY 1.582
4 (3)(4)
243
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
2
E XY
SCE EYY
E XX
SC Error ajustado:
17.0252
SCE 1.515 0.4355
268.503
SC (Trat+Error) ajustado:
17.5332
SCT E 3.097 1.95
268.67
SC Tratamientos ajustados :
P1)
Ho : = 0 (las toneladas métricas por parcela de elote dulce no depende linealmente
del número de plantas por parcela)
Ha : 0 (las toneladas métricas por parcela de elote dulce si depende linealmente del
número de plantas por parcela)
P2) = 0.05
P3)
E xy2 17.0252
E xx
Fc 268.503 12.39387
CMEajustad o 0.0871
P1)
Ho : 1.aj= 2.aj = 3.aj
Ha : al menos un i.aj es a los demás. para todo i=1,2,3
P2) = 0.05
P3)
CM (trat ajustado ) 0.75725
Fc 8.694 ~ F( 2,5)
CME ajustado 0.0871
244
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
P4)
Reporte Minitab:
Método
Análisis de Varianza
P1)
Ho : A=B
H1 : A>B
P2) α=0.05
P3)
Cálculos previos:
E xy 17.025
ˆ 0.0634
E xx 268.503
Y i ajustado Y i. ˆ ( X i. X .. )
245
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
1 1 ( X A X B )2 1 1 (55.75 55.5) 2
Sd CMEajust 0.0871 0.2087
b b E xx 4 4 268.503
RODRIGUEZ LEYES, Eduardo A. et al. Estudio de estabilidad acelerada del ingrediente activo
D-004 en diferentes envases. Rev Cubana Plant Med [online]. 2009, vol.14, n.3 [citado 2016-
03-08], pp. 54-60 . Disponible en: <http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1028-
47962009000300008&lng=es&nrm=iso>. ISSN 1028-4796.
246
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Ejercicios Propuestos
Dieta proteica
16% 18% 20%
Peso Peso Peso Peso Peso Peso
inicial final inicial final inicial final
1 9.1 10.9 9.5 11.7 6.8 7.2
2 10.7 12.2 7.5 9.7 6.5 6.8
3 11.0 12.6 7.7 9.6 8.4 9.1
4 8.9 10.8 8.1 10.1 6.0 6.3
5 9.5 11.3 9.8 11.7 8.4 9.5
6 8.9 10.6 7.3 9.0 5.9 6.3
SUMA 58.1 68.4 49.9 61.8 42.0 45.2
247
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Tabla 2. ANCOVA
S.C. Y S.P.
FV GL X2 Y2XY SCaj Glaj CMaj
Trat 1.52
Error
Trat+Error 3.02 -13.42 71.76
DIFERENCIA PARA PRUEBAS DE MEDIAS
AJUSTADAS DE TRAT
Variedades
I II III
X Y X Y X Y
Suma 25 2.74 18 1.04 17 0.65
Promedio 5.00 0.55 3.60 0.21 3.40 0.13
Suma de
129 1.506 80 0.241 63 0.086
cuadrados
Suma de
13.64 3.27 2.17
productos
variedad usada fue “V1” y el cultivo se efectuó con riego. Los datos recolectados se
presentan en la siguiente tabla:
a) Presente el modelo aditivo lineal y defina cada uno de sus componentes en términos
del problema.
b) Complete el siguiente cuadro ANCOVA:
Cuadro ANCOVA
S.C. Y S.P.
FV GL X2 Y2 XY SCaj Glaj CMaj
Bloque
Trat
Error
Trat+Error
DIFERENCIA PARA PRUEBAS DE MEDIAS
AJUSTADAS DE TRAT
249
UNIVERSIDAD NACIONAL AGRARIA LA MOLINA
Dpto. de Estadística e Informática Métodos Estadísticos para la Investigación I
Coeficientes
EE del
Término Coef coef. Valor T Valor p VIF
Constante 100.64 4.29 23.47 0.000
Planta -3.527 0.780 -4.52 0.006 1.80
Insect
A -14.40 1.70 -8.47 0.000 1.77
B 13.39 1.51 8.86 0.000 1.40
Bloque
1 -0.85 1.88 -0.45 0.670 1.62
2 -3.80 2.09 -1.82 0.128 2.00
3 1.01 1.83 0.55 0.604 1.53
Fuente X2 XY Y2
Total 38.667 -72.333 1733.67
Bloque 10.000 -58.667 377.67
Tratamiento 7.1671 62.167 1023.167
Error 21.4999 -75.833 332.833
Referencias
R.G.D. Steel, & Torrie, J.H. (1985). Bioestadística Principios y Procedimientos. McGraw
Hill, ed Bogotá, Colombia.
Montgomery, D. C. (2005). Diseño y análisis de experimentos (2nd. Ed). México: Limusa
Wiey.
Kuehl, R. O., (2001). Diseño de experimentos: principios estadísticos para el diseño y
análisis de investigaciones. (2nd Ed). International Thomson Editores, S.A. de C.V.,
Mexico, DF.
Ramsey, F. L., & Schafer, D. W. (2002). The statistical sleuth: A course in methods of
data analysis. Australia: Duxbury/Thomson Learning
250