R CU 511 2014 UAC Evaluacion Pregrado
R CU 511 2014 UAC Evaluacion Pregrado
R CU 511 2014 UAC Evaluacion Pregrado
TABLAS DE CONTINGENCIA
Hasta ahora hemos descrito las variables categóricas mediante la proporción de veces que se ha dado
cada una de sus posibles respuestas (frecuencias relativas) independientemente de los valores que
toman otras variables. A esta distribución de la respuesta, que ignora el valor de otras variables, le
llamamos distribución marginal de la variable.
Una tabla de contingencia describe de forma simultánea dos variables cualitativas (escala nominal). En
dicha tabla cada fila y cada columna representan las categorías de cada una de las dos variables que
estamos resumiendo, y en cada casilla de la tabla de contingencia disponemos del número de veces que
hemos observado la correspondiente combinación de ambas variables en nuestra muestra.
Ejemplos.
a) Si existe relación entre las complicaciones tras una intervención quirúrgica y el sexo del paciente
en el hospital en él que se lleva a cabo la intervención.
b) Supongamos el estudio sobre la relación de migrañas y el nivel de exposición el tabaco en 300
jóvenes menores de 25 años.
c) Una encuesta de 150 adultos clasificados según su género y la cantidad de películas que vieron
películas en el cine el mes pasado. Cada entrevistado se clasifica de acuerdo con dos criterios: la
cantidad de películas que ha visto y el género.
Género
Películas Hombres Mujeres Total
vistas
0 20 40 60
1 40 30 70
2 o más 10 10 20
Total 70 80 150
En este caso todas las técnicas de inferencia vistas hasta ahora para variables cuantitativas no son
aplicables, y para ello utilizaremos una prueba de hipótesis basado en el estadístico Chi cuadrado 𝜒 2
que nos permitirá evaluar si dos variables cualitativas son dependientes (están relacionados) o
independientes.
En el gráfico anterior observamos varias distribuciones, y es que la distribución Chi cuadrado al igual
que la distribución t tiene como parámetro los grados de libertad. Así observamos que cuanto mayor es
el número de grados de libertad la distribución Chi cuadrado admite valores mayores, es decir una
variable Chi cuadrado con un número de grados de libertad bajo tomará valores bajos mientras que una
variable con un número alto de grados de libertad en su distribución tomará valores más altos con mayor
probabilidad.
1
BIOESTADISTICA MEDICINA HUMANA
I Prueba de Independencia. Mediante el cual el investigador pretende estudiar la relación entre dos
variables cualitativas en una población.
2. Seleccionar una muestra aleatoria y anotar en cada celda de la tabla de contingencia las frecuencias
observadas.
3. Calcular las frecuencias esperadas de cada celda de la tabla de contingencia bajo el supuesto de
independencia.
Donde:
𝑘: Es el número de categorías.
Nota: Si una tabla de contingencia tiene n filas y m columnas, el estadístico de prueba tienen
distribución chi-cuadrada con (𝑛 − 1) ∗ (𝑚 − 1) grados de libertad, siempre y cuando en todas la
categorías las frecuencias esperadas sean 5 o más.
5. Regla de rechazo
Se rechaza la 𝐻0 si 𝒳 2 ≥ 𝒳[2(𝑛−1)∗(𝑚−1);𝛼]
Donde 𝛼 es el nivel de significancia, y las n filas y las m columnas dan los (𝑛 − 1) ∗ (𝑚 − 1) grados de
libertad.
2
BIOESTADISTICA MEDICINA HUMANA
La prueba de independencia siempre es una prueba de una cola, en la que la región de rechazo
se encuentra en la cola superior de la distribución chi-cuadrada.
Las frecuencias esperadas en cada celda de la tabla de contingencia debe ser 5 o más.
Ejemplo 1. Una empresa produce y distribuye 3 tipos de cerveza: Ligera, Clara y Oscura. Al analizar
los segmentos de mercado de las tres cervezas, el grupo de investigación de mercado de la empresa se
pregunta si las preferencias de los consumidores por estos tipos de cerveza difieren entre hombres y
mujeres. Los resultados muéstrale se muestran en la tabla siguiente.
Cerveza preferida
Género Ligera Clara Oscura Total
Hombre 20 40 20 80
Mujer 30 30 10 70
Total 50 70 30 150
En caso de que las preferencias fueran independientes del género del consumidor, la empresa
iniciará una campaña publicitaria para todas las cervezas.
Si las preferencias por los distintos tipos de cerveza dependen del género del consumidor, la
empresa ajustaría sus promociones a los mercados.
Con nivel de significancia 𝛼 = 5%, responder la pregunta de los investigadores.
Solución
Para determinar si la preferencia por un tipo de cerveza (ligera, clara u oscura) es independiente del
género del consumidor (hombre o mujer) usaremos una prueba de independencia. Las hipótesis para
esta prueba de independencia son las siguientes:
1. Pruebas de Hipótesis
H0 : La preferencia por un tipo de cerveza es independiente del genero del consumidor.
H1 : La preferencia por un tipo de creveza No es independiente del género del consumidor.
Cerveza preferida
Género Ligera Clara Oscura Total
Hombre 20 40 20 80
Mujer 30 30 10 70
Total 50 70 30 150
3. Tabla de frecuencias esperadas
3
BIOESTADISTICA MEDICINA HUMANA
(80)(50) 4000 (80)(70) 5600
𝐸11 = 150
= 150
= 26.67 𝐸12 = 150
= 150
= 37.33
(80)(30) 2400
𝐸13 = = = 16
150 150
(70)(50) 3500 (70)(70) 4900
𝐸21 = 150
= 150
= 23.33 𝐸22 = 150
= 150
= 32.67
(70)(30) 2100
𝐸33 = = = 14
150 150
Primero se supone que la hipótesis nula es verdadera, es decir, que la cerveza preferida es independiente
del género del consumidor.
Se observa que en la muestra de 150 consumidores de cerveza:
50 prefirieron la cerveza ligera, 70 prefirieron la cerveza clara, y 30 prefirieron la cerveza oscura.
En términos de proporciones se concluye que:
50⁄ 1
150 = ⁄3 de los consumidores prefirió la cerveza ligera,
70⁄ 7
150 = ⁄15 Prefirieron la cerveza clara y
30⁄ 1
150 = ⁄5 prefirió la cerveza oscura.
Si la suposición de independencia es correcta, estas proporciones serán las que se observen tanto entre
los hombres como entre las mujeres. Por consiguiente, bajo la suposición de independencia, es de
esperarse que en la muestra de 80 consumidores del sexo masculino,
(1⁄3) ∗ 80 = 26.67 prefieran la cerveza ligera,
(7⁄15) ∗ 80 = 37.33 prefieran la cerveza clara y
(1⁄5) ∗ 80 = 16 prefieran la cerveza oscura.
Aplicando las proporciones correspondientes a los 70 consumidores del sexo femenino,
(1⁄3) ∗ 70 = 23.33 prefieran la cerveza ligera,
(7⁄15) ∗ 70 = 32.67 prefieran la cerveza clara y
(1⁄5) ∗ 70 = 14 prefieran la cerveza oscura.
5. Regla de rechazo
Se rechaza la 𝐻0 si 𝜒 2 ≥ 𝜒[2(𝑛−1)∗(𝑚−1);𝛼]
4
BIOESTADISTICA MEDICINA HUMANA
6. Conclusión.- Por lo tanto la preferencia por un tipo de cerveza dependen del género del consumidor.
Ejemplo 2. Supongamos que el estudio sobre la relación de migrañas y nivel de exposición al tabaco
hemos recogido información sobre 300 jóvenes menores de 25 años. A continuación mostramos cómo
quedará la tabla de contingencia
SOLUCIÓN
2. Seleccionar una muestra aleatoria y anotar en cada celda de la tabla de contingencia las frecuencias
observadas.
𝑘 𝑘 2
2
(𝑓𝑖𝑗 − 𝑒𝑖𝑗 ) (39 − 43)2 (43 − 45)2 (188 − 180)2 (11 − 5)2 (7 − 5)2 (12 − 20)2
𝜒 = ∑∑ = + + + + +
𝑒𝑖𝑗 45 45 180 5 5 20
𝑖 𝑗
5
BIOESTADISTICA MEDICINA HUMANA
𝜒[2(𝑛−1)∗(𝑚−1);𝛼] = 𝜒[2(2−1)∗(3−1);0.05]
= 𝜒[2(1)∗(2);0.05]
= 𝜒[22 ; 0.05]
= 5.99
Se rechaza la Ho
6
BIOESTADISTICA MEDICINA HUMANA
EJERCICIOS PROPUESTOS 1 – TABLAS DE CONTINGENCIA
NOMBRE:………………………………………………………………………………………………
I. Ejercicio 8.1. En una empresa que utilizaba para la fabricación de pinturas cierto producto químico se
detectó que algunos empleados comenzaron a tener ciertos problemas de salud relacionados con
alteraciones respiratorias. Se estaba contemplando la posibilidad de que el producto químico pudiera
tener algo que ver con los problemas respiratorios. Para valorar esta hipótesis se seleccionó al azar a
500 empleados de la empresa, los cuales fueron clasificados en base a su nivel de exposición al producto
y si tengan o no los síntomas de tales alteraciones respiratorias. Los resultados se presentan en la
siguiente tabla:
¿Tenemos evidencias que indiquen, a nivel de significación 0.05, la existencia de relación entre el nivel
de exposición y la presencia de síntomas de alteraciones respiratorias entre los empleados? Plantea y
resuelve el contraste de hipótesis. Explica las conclusiones obtenidas.
7
BIOESTADISTICA MEDICINA HUMANA
II. Ejercicio 8.2. Un estudio realizado por logopedas tenía como objetivo valorar la relación del grupo
socioeconómico de las familias de los niños y la presencia o ausencia de cierto defecto en la pronunciación.
Para valorar esta relación seleccionó aleatoriamente a 500 niños de escuela primaria, los cuales fueron
clasificados con el grupo socioeconómico de sus familias (como Alto, Medio-Alto, Medio-Bajo, Bajo y la
presencia o ausencia del defecto en la pronunciación. Los resultados fueron los siguientes:
¿Son compatibles estos datos con la hipótesis de que el defecto en la pronunciación no está relacionado
con el estado socioeconómico (𝛼= 0.05)?. Plantea y resuelve el contraste de hipótesis adecuado para
responder a esta pregunta.
8
BIOESTADISTICA MEDICINA HUMANA
ANALISIS DE VARIANZA DE UN FACTOR (ANOVA)
Diseño de Experimentos.- Los modelos de diseño de experimentos son modelos estadísticos clásicos
cuyo objetivo es averiguar si unos determinados factores influyen en una variable de interés y, si existe
influencia de algún factor, cuantificar dicha influencia.
Ejemplos
1. Supongamos que estamos interesados en comprobar si existen diferencias significativas en el nivel
medio de hemoglobina (Hb) en tres tratamientos diferentes para personas con cierto tipo de
anemia diagnosticada.
2. Una compañía telefónica está interesada en conocer la influencia de varios factores en la variable
duración de una llamada telefónica. Los factores son los siguientes: hora a la que se produce la
llamada; día de la semana en que se realiza la llamada y sexo del que realiza la llamada.
Debe tenerse en cuenta que en el tratamiento matemático de los modelos de diseño de experimento los
factores cuantitativos son tratados como cualitativos y sus niveles son elegidos y son codificados. Por lo
general, un factor no suele tener más de cuatro niveles.
Conceptos Generales
Unidades experimentales: (personas, elementos físicos, ···)
Factor: Variable controlable por el experimentador
Tratamiento: Niveles del factor (o combinaciones de los niveles del factor).
Variable de interés: Variable Respuesta.
Error experimental o perturbación: Resulta de las variables no controlables por el experimentador.
Tamaño del experimento: número total de observaciones.
O equivalentemente
2) Todos los tratamientos tienen el mismo efecto.
𝐻0 : 𝜏1 = 𝜏2 = ⋯ = 𝜏𝑘 = 𝜇
𝐻1 : 𝜏𝑖 ≠ 𝜏𝑗 por lo menos para algun par (𝑖, 𝑗)
9
BIOESTADISTICA MEDICINA HUMANA
Donde 𝜇𝑗 : media de la j_esima población.
Se supone que para cada una de las k tratamientos se toma una muestra aleatoria simple de tamaño
𝑛𝑗 . Para los datos muestrales, sean
MODELO ESTADÍSTICO
𝒚𝒊𝒋 = 𝝁 + 𝝉𝒋 + 𝒆𝒊𝒋
Donde
𝜇: La media global
𝜏𝑗 : Efecto del 𝑗_esimo tratamiento
𝑦𝑖𝑗 : Variable respuesta.
𝑒𝑖𝑗 : Error aleatorio
Las fórmulas para la media muestral y la varianza muestral del tratamiento j son las siguientes:
Tratamientos
1 2 … k
𝑦11 𝑦12 𝑦1𝑘
𝑦21 𝑦22 𝑦2𝑘
𝑦31 𝑦32 𝑦3𝑘
𝑛 2
∑𝑘𝑗=1 ∑𝑖=1
𝑗
(𝑦𝑖𝑗 − 𝑦̅)
2
𝑆 = , varianza total
𝑁−1
𝑘
𝑌.. = ∑ ∑ 𝑦𝑖𝑗
𝑗=1 𝑖=1
𝑛 2
(∑𝑘𝑗=1 ∑𝑖=1
𝑗
𝑦𝑖𝑗 ) 𝑌..2
𝐶= =
𝑁
𝑛
𝑁 𝑛𝑗
𝑘 𝑗 𝑘
2 2
𝑆𝐶𝑇 = ∑ ∑(𝑦𝑖𝑗 − 𝑦̅) = ∑ ∑(𝑦𝑖𝑗 ) − 𝐶 = suma de cuadrados totales
𝑗=1 𝑖=1 𝑗=1 𝑖=1
𝑛𝑗
𝑇.𝑗2
𝑆𝐶𝑇𝑟𝑎 = ∑ − 𝐶, suma de cuadrados de tratamientos
𝑛𝑗
𝑗=1
𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝑇𝑟𝑎, suma de cuardrados de errores.
𝑘 𝑛𝑗 𝑘 𝑘 𝑛𝑗
2 2 2
∑ ∑(𝑦𝑖𝑗 − 𝑦̅) = ∑ 𝑛𝑗 (𝑦̅.𝑗 − 𝑦̅) + ∑ ∑(𝑦𝑖𝑗 − 𝑦̅.𝑗 )
𝑗=1 𝑖=1 𝑗=1 𝑗=1 𝑖=1
10
BIOESTADISTICA MEDICINA HUMANA
2. Normalidad.- Los valores de la variable se distribuyen normalmente (o siguen una distribución
Normal) en cada uno de los grupos definidos por el factor, es decir, para cada grupo i, Yij ∼
N(𝜇𝑖 ; 𝜎 2 ). El no cumplimiento de este supuesto no afecta mucho a las conclusiones del análisis de
la varianza si el tamaño de las muestras de cada grupo es relativamente grande (por ejemplo más
de 30 datos por grupo).
3. Homocedasticidad.- La Homocedasticidad, o lo que es lo mismo, la Homogeneidad de varianzas,
asume que las varianzas de todos los grupos a comparar son homogéneas (es decir, que no se
detectan diferencias significativas entre las varianzas de los grupos a comparar). El no
cumplimiento de esta hipótesis impide asumir como correctos los resultados que de este análisis
se deriven, y por tanto impiden la utilización de ANOVA. Las poblaciones estudiadas tienen la
misma varianza.
PRUEBA DE HIPÓTESIS
1. Prueba de hipótesis para la igualdad de medias
𝐻0 : 𝜇1 = 𝜇2 = ⋯ = 𝑢𝐾
2. Nivel de significancia: 𝜶
3. Estadístico de prueba
𝐶𝑀𝑇𝑅
𝐹=
𝐶𝑀𝐸
4. Regla de rechazo
5. Conclusión
11
BIOESTADISTICA MEDICINA HUMANA
Observación
Se utiliza el nombre de análisis de la varianza ya que el elemento básico del análisis estadístico será
precisamente el estudio de la variabilidad de la variable de interés. Teóricamente es posible dividir la
variabilidad de la variable que se estudia en dos partes:
1. La originada por el factor en cuestión.
2. La producida por los factores restantes que entran en juego, conocidos o no, controlables o no,
que se conocen con el nombre de error experimental.
Ejemplo 1. Se desea saber si el grado de ansiedad es el mismo, en tres enfermedades distintas. Para
ello se tomaron tres muestras de 10, 12 y 8 personas, respectivamente, con esas enfermedades, pasándole
a cada una de ellas un test que mide el grado de ansiedad del individuo. Los resultados se dan en la
tabla adjunta.
Enfermedad Grado de ansiedad
A 4 6 5 5 6 3 3 2 6 5
B 2 1 5 5 4 6 4 4 4 3 3 2
C 7 5 8 7 9 3 4 4
Solución
Número de Enfermedad
observaciones A B C
1 4 2 7
2 6 1 5
3 5 5 8
4 5 5 7
5 6 4 9
6 3 6 3
7 3 4 4
8 2 4 4
9 6 4
10 5 3
11 3
12 2
Totales 45 38 47 𝑌.. =130
Promedios 4.5 3.17 5.88
Varianzas 2.06 2.08 4.69
n 10 12 8
H0 : 𝜇𝐴 = 𝜇𝐵 = 𝑢𝐶
𝐻1 : No todas las medias poblacionales son iguales.
2. 𝛼 = 0.05
3. ESTADISTICO DE PRUEBA
𝑁 = 10 + 12 + 8 = 30
𝑌..2 (130)2
𝐶= = = 563.333
𝑁 30
𝑘 𝑛𝑗
2
𝑆𝐶𝑇 = ∑ ∑(𝑦𝑖𝑗 ) − 𝐶 = 𝟒𝟐 + 𝟔𝟐 + 𝟓𝟐 + 𝟓𝟐 + 𝟔𝟐 + 𝟑𝟐 + 𝟑𝟐 + 𝟐𝟐 + 𝟔𝟐 + 𝟓𝟐 + 22 + 12 + 52 + 52 + 42 + 62
𝑗=1 𝑖=1
+ 42 +42 + 42 + 32 + 32 + 22 + 𝟕𝟐 + 𝟓𝟐 + 𝟖𝟐 + 𝟕𝟐 + 𝟗𝟐 + 𝟑𝟐 + 𝟒𝟐 + 42 − 563.33
= 707 − 563.333 = 143.667
12
BIOESTADISTICA MEDICINA HUMANA
Suma de cuadrados de tratamientos
𝑛𝑗
𝑇.𝑗2 452 382 472
𝑆𝐶𝑇𝑟𝑎 = ∑ −𝐶 = [ + + ] − 563.33 = 598.958 − 563.333 = 35.625
𝑛𝑗 10 12 8
𝑗=1
Suma de cuadrados de errores
Tabla ANOVA
FUENTES DE VARIACION GRADOS DE SUMA DE CUADRADO F
LIBERTAD CUADRADOS MEDIO
Tratamientos (Entre grupos) 3−1 = 2 35.625 15.812 3.951
Total 30 − 1 = 29 143.667
4. Región de rechazo
𝐹(3−1, 30−3; 𝛼) = 𝐹(2,27; 0.05) = 3.3541
5. Conclusión.- Existe diferencia del nivel de ansiedad de los tres tipos de enfermedades.
Ejemplo 2.- Número de unidades producidas por 15 trabajadores, aplicando diferentes métodos de
producción:
Método
A B C
58 58 48
64 69 57
55 71 59
66 64 47
67 68 49
Solución
Método
A B C
58 58 48
64 69 57
55 71 59
66 64 47
67 68 49
Totales 310 330 260 900
Promedios 62 66 52
Varianzas 27.5 46.5 156
nj 5 5 5
H0 : 𝜇𝐴 = 𝜇𝐵 = 𝑢𝐶
𝐻1 : No todas las medias poblacionales son iguales.
2. 𝛼 = 0.05
13
BIOESTADISTICA MEDICINA HUMANA
3. ESTADISTICO DE PRUEBA
𝑛 2
(∑𝑘𝑗=1 ∑𝑖=1 (900)2 810000
𝑗
𝑦𝑖𝑗 )
𝐶= = = = 54000
𝑁 15 15
𝑘 𝑛𝑗
2
𝑆𝐶𝑇 = ∑ ∑(𝑦𝑖𝑗 ) − 𝐶 = (58)2 + (64)2 + (55)2 + (66)2 + (67)2 + (58)2 + ⋯ (49)2 − 54000
𝑗=1 𝑖=1
𝑆𝐶𝑇 = (58)2 + (64)2 + (55)2 + (66)2 + (67)2 + (58)2 + ⋯ (49)2 − 54000 = 54860 − 54000 = 860
𝑛𝑗
𝑇.𝑗2 (310)2 (330)2 (260)2
𝑆𝐶𝑇𝑟𝑎 = ∑ −𝐶 = + + − 54000 = 54520 − 54000 = 520
𝑛𝑗 5 5 5
𝑗=1
𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝑇𝑟𝑎 = 860 − 520 = 340
Total 860 14
COMPARACIONES MULTIPLES
Una vez contrastado el que existen diferencias significativas mediante el análisis de la varianza, nos
interesa conocer que niveles del factor o tratamientos son los que han influido más para que se de este
resultado. Técnicas cuyo objeto es identificar:
Qué tratamientos son diferentes (estadísticamente) y
En cuánto oscila el valor de esas diferencias.
Comparar entre sí las medias de tratamientos o grupos de ellas. Se comparan por parejas los efectos de
los tratamientos, bajo las siguientes hipótesis.
𝐻0 : 𝜇𝑖 = 𝜇𝑗
𝐻1 : 𝜇𝑖 ≠ 𝜇𝑗
Existen varios métodos para comparar los efectos de los tratamientos
Metodo LSD
Metodo de Tukey o método HSD
Metodo de rango multiple de Duncan
Metodo de Bonferroni
14
BIOESTADISTICA MEDICINA HUMANA
Por lo tanto, se concluye que la pareja de medias 𝜇𝑖 y 𝜇𝑗 son estadísticamente diferentes si
|𝑦̅𝑖. − 𝑦̅𝑗. | > 𝐿𝑆𝐷
Donde 𝐿𝑆𝐷, se denomina mínima diferencia significativa, viene dada por:
1 1
𝐿𝑆𝐷 = 𝑡(𝑁−𝑘; 𝛼⁄ ) √𝐶𝑀𝐸 ( + )
2 𝑛𝑖 𝑛𝑗
Siendo 𝑛𝑖 𝑦 𝑛𝑗 el número de observaciones que corresponde a cada media.
(𝑁 − 𝑘) el número de grados de libertad del error o varianza residual.
𝑡(𝑁−𝑘; 𝛼⁄ ) el valor crítico de la distribución t-student con N-k grados de libertad, con probabilidad 𝛼⁄2.
2
Si el diseño es balanceado (todos los tratamientos tienen el mismo número de observaciones), entonces
el valor de LSD se reduce a
2
𝐿𝑆𝐷 = 𝑡(𝑁−𝑘; 𝛼⁄ ) √( ) 𝐶𝑀𝐸
2 𝑛
Además proporciona también intervalos de confianza para diferencias de medias. Dichos intervalos son
de la forma:
((𝑦̅𝑖. − 𝑦̅𝑗. ) − 𝐿𝑆𝐷; (𝑦̅𝑖. − 𝑦̅𝑗. ) + 𝐿𝑆𝐷)
Ejemplo 3.- Número de unidades producidas por 15 trabajadores, aplicando diferentes métodos de
producción. Realizar las comparaciones múltiples usando LSD.
A B C
Promedios 62 66 52
2 2 2
𝐿𝑆𝐷 = 𝑡(𝑁−𝑘; 𝛼⁄ ) √( ) 𝐶𝑀𝐸 = 𝑡(12; 0.05⁄ ) √( ) 28.33 = 𝑡(12; 0.025) √( ) 28.33 = 2.178√11.332 = 7.331
2 𝑛 2 5 5
|𝑦̅𝐴 − 𝑦̅𝐵 | = |62 − 66| = 4 < 7.33 Se acepta la Ho, por lo tanto las medias de los tratamientos son iguales.
|𝑦̅𝐴 − 𝑦̅𝐶 | = |62 − 52| = 10 > 7.33 Se rechaza la Ho, por lo tanto las medias de los tratamientos son
diferentes.
|𝑦̅𝐵 − 𝑦̅𝐶 | = |66 − 52| = 14 > 7.33 Se rechaza la Ho, por lo tanto las medias de los tratamientos son
diferentes.
Prueba de Tukey
Tukey propuso una procedimiento para probar H0 : μi = μj contra H1 : μi ≠ μj para todos los p pares
posible de medias, en el que el nivel de significación global es exactamente αg para tamaños de muestras
iguales y es, a lo sumo, αg para tamaños de muestras diferentes. En este procedimiento se utiliza el
estadístico de rango estudentizado q.
𝑌̅𝑚𝑎𝑥 − 𝑌̅𝑚𝑖𝑛
𝑞=
√𝐶𝑀𝐸
𝑛
Donde 𝑌̅𝑚𝑎𝑥 y 𝑌̅𝑚𝑖𝑛 son las medias muestrales mayor y menor, respectivamente, sacadas de un grupo de
p medias muestrales.
Para una prueba de dos colas, el criterio de rechazo para cada par de medias sería:
15
BIOESTADISTICA MEDICINA HUMANA
16
BIOESTADISTICA MEDICINA HUMANA
EJERCICIOS PROPUESTOS 2 – ANALISIS DE VARIANZA
NOMBRE:………………………………………………………………………………………………
I. Ejemplo 3.- En un colectivo de 5 individuos se aplican 3 fármacos para estudiar su influencia sobre
sus movimientos respiratorios (número de inspiraciones por minuto). Los valores obtenidos para cada
individuo vienen expresados en la tabla:
Estudie si el efecto de estos fármacos en la variación respiratoria producida puede considerarse o no el
mismo. Realice las comparaciones múltiples. Use 𝛼 = 0.05
Individuos
1 2 3 4 5
Antes del tratamiento 14 16 18 15 20
Después de I fármaco 16 17 21 16 24
Después de II fármaco 15 14 18 15 22
Después de III fármaco 17 16 20 13 18
17
BIOESTADISTICA MEDICINA HUMANA
II. Para evaluar la influencia del tipo de acidosis del recién nacido en los niveles de glucemia medidos
en el cordón umbilical del mismo, se obtuvieron los datos de la siguiente tabla:
18
BIOESTADISTICA MEDICINA HUMANA
ANALISIS DE REGRESION LINEAL MULTIPLE
El análisis de regresión lineal múltiple estudia la relación de una variable dependiente con dos o más
variables independientes. Para denotar el número de variables independientes usaremos 𝑝.
Su forma matricial
Donde
𝒀 = 𝑿𝜷 + 𝒆
𝒀: Es un vector columna n dimensional.
𝑿: Es una matriz de dimensión 𝑛 × (𝑘 + 1)
𝜷: Es el vector de coeficientes de regresión a ser estimados, de dimensión (𝑘 + 1)
𝒆: Es un vector columna aleatorio de dimensión 𝒏 × 𝟏
̂ = 𝒃𝟎 + 𝒃𝟏 𝒙𝟏 + 𝒃𝟐 𝒙𝟐 + ⋯ +𝒃𝒑 𝒙𝒌
𝒚
Estimación de los parámetros 𝜷𝒊 por el Método de Mínimos Cuadrados.- Este método se usa
para obtener la ecuación de regresión múltiple estimada. El criterio de los mínimos cuadrados es el
siguiente:
Dónde:
𝑖 Error aleatorio para la observación 𝑖.
𝑒𝑖 = 𝑦𝑖 − 𝑦̂:
𝑦𝑖 : Valor observado de la variable dependiente en la observación i.
𝑖 Valor estimado para la variable dependiente en la observación i.
𝑦̂:
19
BIOESTADISTICA MEDICINA HUMANA
Derivando la ecuación anterior con respecto al vector de parámetros 𝛃 se obtiene la siguiente ecuación:
̂ = (𝐗 ´ 𝐗)−𝟏 𝐗 ´ 𝐘
𝛃
−𝟏
Donde (𝐗 ´ 𝐗) representa la matriz inversa de (𝐗 ´ 𝐗). Note que (𝐗 ´ 𝐗) es simétrica, pues su transpuesta
da la misma matriz.
Análisis de Varianza en la regresión múltiple.- Puede efectuarse un análisis de varianza que arroje
luz sobre la calidad de la ecuación de regresión. Una hipótesis que sirve para determinar si el modelo
explica una cantidad significativa de variación, es la siguiente:
𝐻0 : 𝛽1 = 𝛽2 = 𝛽3 = ⋯ = 𝛽𝑘 = 0
𝐻1 : 𝛽𝑖 ≠ 𝛽𝑗
20
BIOESTADISTICA MEDICINA HUMANA
FUENTES DE GRADOS DE SUMA DE CUADRADO F Valor
VARIACION LIBERTAD CUADRADOS MEDIO de P
Regresión 𝑘 SCR 𝑆𝐶𝑅 𝐶𝑀𝑅
𝐶𝑀𝑅 = 𝐹=
𝑘 𝐶𝑀𝐸
Error 𝑛 − (𝑘 + 1) SCE 𝑆𝐶𝐸
𝐶𝑀𝐸 =
𝑛 − (𝑘 + 1)
Total 𝑛−1 SCT
Se trata de una prueba de cola superior. El rechazo de 𝐻0 significa que la ecuación de regresión
difiere de una constante. Es decir, al menos una variable regresora (𝒙𝒊 ) es importante.
Ejemplo 1. El dueño de Showtime Movie Theater, Inc., desea estimar el ingreso bruto semanal en
función de los gastos en publicidad. A continuación se presentan los datos históricos de 10 semanas.
a) Obtenga una ecuación de regresión estimada en la que los montos gastados en publicidad en
televisión y en periódicos sean las variables independientes.
Resultados en Minitab
21
BIOESTADISTICA MEDICINA HUMANA
Ejemplo 2. Salsberry vende casas en la costa este de Estados Unidos. Una de las preguntas más
frecuentes de los compradores potenciales es: si compramos esta casa, ¿cuánto gastaremos en calefacción
durante el invierno?
Al departamento de investigación de Salsberry se le pidió desarrollar algunas directrices respecto de los
costos de calefacción de casas unifamiliares. Se considera que tres variables se relacionan con los costos
de calefacción: la temperatura externa diaria media, el número de pulgadas de aislamiento en el ático
y la antigüedad en anos del calentador. Para el estudio, el departamento de investigación de Salsberry
seleccionó una muestra aleatoria de 20 casas de venta reciente. Determinó el costo de calefacción de
cada casa en enero pasado, así como la temperatura externa en enero en la región, el número de pulgadas
de aislamiento en el ático y la edad del calentador. La información muestral se reporta en la tabla
a) Tabla ANOVA
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 3 171220 57073 21.90 0.000
Temperatura externa media (°F) 1 91751 91751 35.21 0.000
Aislamiento del ático (pulgadas 1 25357 25357 9.73 0.007
Antigüedad del calentador (años 1 6026 6026 2.31 0.148
Error 16 41695 2606
Total 19 212916
Como el valor de p para la regresión es menor que 0.05 entonces se rechaza la Ho, por lo que
alguna variable independiente influye el costo de calefacción.
22
BIOESTADISTICA MEDICINA HUMANA
Prueba de Hipótesis individual para cada coeficiente 𝒃𝒊
Coef.
Predictor Coef de EE T P
Constante 427.19 59.60 7.17 0.000
Temperatura externa media -4.5827 0.7723 -5.93 0.000
Aislamiento del ático -14.831 4.754 -3.12 0.007
Antigüedad del calentador 6.101 4.012 1.52 0.148
23