Tips para Resolver Ejercicios de Estadística Inferencial
Tips para Resolver Ejercicios de Estadística Inferencial
Tips para Resolver Ejercicios de Estadística Inferencial
…y la magia del
teorema central del
límite
Contenido
¿A quién va dirigido este apunte? ....................................................................................................................................................... 2
¿Cómo contactarme? ................................................................................................................................................................................ 2
Antes de arrancar: ....................................................................................................................................................................................... 3
Módulo 1: Ejercicios resueltos: .............................................................................................................................................................. 5
Seminario 1: Distribución normal de una variable; Distribución de muestreo. ............................................................. 5
Antes de continuar con los ejercicios que siguen .......................................................................................................................12
Aspectos del Teorema Central del Límite para tener en cuenta: ......................................................................................13
Ejercicios resueltos: ..................................................................................................................................................................................14
Seminario 2: Estimación de intervalos de confianza para la media y la proporción .................................................17
Módulo 2: Ejercicios resueltos: ............................................................................................................................................................21
Seminario 3: Prueba de Hipótesis de la Media ........................................................................................................................21
Seminario 4: Potencia de una prueba y Cálculo del valor p ...............................................................................................22
Módulo 3: Ejercicios resueltos: ............................................................................................................................................................25
Seminario 7: Pruebas para variables categóricas ....................................................................................................................25
Seminario 8: ANOVA ...........................................................................................................................................................................31
Módulo 4: Ejercicios resueltos: ............................................................................................................................................................36
Seminario 10: Regresión lineal y correlación ............................................................................................................................36
1
Campa, Junio 2019
¿Cómo contactarme?
Soy una simple estudiante de la carrera de Ingeniería en Software y si bien me tomé el trabajo de revisar que
los resultados finales obtenidos en cada ejercicio coincidan con los publicados en la bibliografía no puedo
garantizarte que este apunte esté completamente libre de errores. Si encontrás algún error en este material o tenés
algún comentario o pedido, podés escribirme a [email protected].
Cualquier sugerencia será bienvenida. Tanto las sugerencias como las notificaciones sobre posibles errores en
los contenidos serán tenidas en cuenta en la medida de lo posible en futuras versiones.
2
Campa, Junio 2019
Antes de arrancar:
• ¿Qué es la distribución normal estándar?
Es la distribución de probabilidades de una variable z que sigue una distribución normal con media
µ=0 y desviación estándar σ=1
• ¿Para qué sirve?
Para calcular probabilidades acumuladas habría que integrar la función de densidad de la variable en
cuestión.
Alguien se tomó el trabajo de integrar la función de densidad de la variable z para muchos valores de
z y tabuló los resultados.
Entonces, en lugar de calcular integrales engorrosas para cada función de densidad, lo que se hace es
“estandarizar” cualquier variable x y usar la tabla estándar para encontrar cualquier probabilidad.
• ¿Cómo estandarizo mi variable x?
Aplicando esta fórmula:
𝑥−𝜇
𝑧=
𝜎
• Hay un montón de versiones de la tabla de distribución normal estandarizada. Las más comunes son:
¿Qué tabla tengo? (éstas son las más comunes, hay otras)
La que acumula desde la media hasta un valor La que acumula desde -∞ hasta un valor dado de
dado de z: z:
• Ninguna tabla es mejor que otra. Con cualquier versión de la tabla podés resolver todos los ejercicios.
Según lo que te pida el enunciado puede que te resulte más cómodo usar una u otra. Los ejercicios
más comunes hacen referencia a uno de estos escenarios:
¿Qué área bajo la curva (=probabilidad) me pide el enunciado?
Entre dos z determinados (uno de los cuales es Desde un z negativo en adelante:
negativo)
3
Campa, Junio 2019
• Es importante que sepas usar bien la tabla y que adquieras suficiente práctica en la resolución de todos
los escenarios posibles con la versión que hayas elegido usar.
• Hay algunas propiedades acerca de la distribución normal que es conveniente recordar:
o Es simétrica. Por lo tanto, a modo de ejemplo, el área bajo la curva contenida entre -∞ y -z
será igual al área bajo la curva contenida entre z y +∞.
Por ejemplo:
La probabilidad de que z sea mayor o igual a 2 es igual a la probabilidad de que z sea menor o igual
a -2. Observando los gráficos podés ver que el tamaño del área sombreada es igual en ambos casos.
4
Campa, Junio 2019
𝑥−𝜇
𝑧=
𝜎
80 − 80
z=
12
𝑧 = 0 → como la media es de 80, podríamos obviar este paso
93 − 80
𝑧=
12
𝑧 = 1.083
5
Campa, Junio 2019
Paso 4: comparo lo que obtuve en la tabla con lo que me pide el enunciado y hago los ajustes necesarios:
Comparando los gráficos vemos claramente que la probabilidad obtenida por tabla incluye el área
correspondiente a todos los valores inferiores a la media, que no nos interesan. Es decir, hay exactamente un 50%
de más.
Por lo tanto:
P(80≤x≤93) = P(-∞≤z≤1.08) - 0.5
P(80≤x≤93) = 0.8599 – 0.5
P(80≤x≤93) = 0.3599
6
Campa, Junio 2019
𝑥−𝜇
𝑧=
𝜎
90 − 80
z=
12
105 − 80
𝑧=
12
𝑧 = 2.083 →Límite superior del área sombreada que necesito
Paso 3: busco en la tabla la probabilidad acumulada con z=0.83 y la probabilidad acumulada con z=2.08
z= 0.83
7
Campa, Junio 2019
z= 2.08
Paso 4: comparo lo que obtuve en la tabla con lo que me pide el enunciado y hago los ajustes necesarios:
y P(-∞≤z≤0.83) =0.7967
Comparando los gráficos (lo que tengo vs lo que quiero) vemos que la diferencia entre las probabilidades
obtenidas por tabla es igual al área buscada
Por lo tanto:
P(90≤x≤105) = P(-∞≤z≤2.08) - P(-∞≤z≤0.83)
P(90≤x≤105) = 0.9812 – 0.7967
P(90≤x≤105) = 0.1845
8
Campa, Junio 2019
𝑥−𝜇
𝑧=
𝜎
68 − 80
z=
12
𝑧 = −1
Acá se pone interesante la cosa. Si bien hay tablas que incluyen los valores de z negativos, la mayoría no los incluye.
Para esos casos apelamos a la propiedad de simetría que enunciamos anteriormente, entendiendo que:
P(z ≤ -1) = P(z ≥ 1)
9
Campa, Junio 2019
Paso 4: comparo lo que obtuve en la tabla con lo que me pide el enunciado y hago los ajustes necesarios:
Comparando los gráficos (lo que tengo vs lo que quiero) vemos que el dato que me arrojó la tabla corresponde
exactamente al área opuesta a la que necesito.
Sabemos además que el área total bajo la curva representa el 100% de los casos (Probabilidad igual a 1).
Por lo tanto:
P(x≤68) = 1 - P(-∞≤z≤1)
P(x≤68) = 1- 0.8413
10
Campa, Junio 2019
P(x≤68) = 0.1587
𝑥−𝜇
𝑧=
𝜎
70 − 80
z=
12
90 − 80
𝑧=
12
𝑧 = 0.83 →Límite superior del área sombreada que necesito
Paso 3: busco en la tabla la probabilidad acumulada con z=-0.83 y la probabilidad acumulada con z=0.83
Acá nuevamente nos encontramos con el caso de un z negativo. Si bien hay tablas que incluyen los valores de z
negativos, la mayoría no los incluye por lo que apelamos a la propiedad de simetría que enunciamos anteriormente,
entendiendo que P(z ≤ -0.83) = P(z ≥ 0.83)
Como justo el límite superior del área a calcular coincide con z =0.83, no necesito buscar más valores en la tabla:
11
Campa, Junio 2019
Paso 4: comparo lo que obtuve en la tabla con lo que me pide el enunciado y hago los ajustes necesarios:
Comparando los gráficos (lo que tengo vs lo que quiero) vemos que el área que necesito calcular es igual al
área que me da la tabla menos la cola que va desde -∞ hasta -0.83. Puedo calcular esa cola acudiendo a la propiedad
de simetría.
Por lo tanto:
P(70≤x≤90) = P(-∞≤z≤0.83) – [1 - P(-∞≤z≤0.83)]
P(70≤x≤90) = 0.7967 – (1-0.7967)
P(70≤x≤90) = 0.7967 – 0.2033
P(70≤x≤90) =0.5934
12
Campa, Junio 2019
ejercicios. No obstante, recomiendo fuertemente estudiar en detalle el teórico del TCL antes de encarar este “crossfit
estadístico” 😊.
• La dispersión de las medias muestrales es menor que la dispersión de la población. A mayor muestra,
menor dispersión (si querés entender por qué buscá algún ejemplo en el teórico). A los efectos del
práctico, esta es la relación que necesitás conocer:
𝜎
σx̅ =
√𝑛
se lo conoce como: la desviación estándar poblacional
• error estándar de la media muestral dividido entre la raíz del tamaño de
• desviación estándar de las medias la muestra
muestrales
• Si el tamaño de la muestra es relativamente grande con respecto al tamaño de la población debo usar
el factor de corrección para poblaciones finitas (se considera que una muestra es grande cuando
𝑛
> 0.05)
𝑁
Esta es la fórmula del factor de corrección:
𝑁−𝑛
𝑓𝑐𝑝𝑓 = √
𝑁−1
Y así quedaría mi error estándar de la media muestral corregido:
𝜎 𝑁−𝑛
σx̅ = × √
√𝑛 𝑁−1
13
Campa, Junio 2019
• La distribución de las medias muestrales tiende a seguir una distribución normal a medida que crece
el tamaño de la muestra independientemente de la distribución que tenga la población original. A los
fines prácticos se considera que si 𝒏 ≥ 30 la distribución de las medias muestrales sigue una
distribución normal.
• Si la distribución de la población es normal da distribución de las medias muestrales será normal para
cualquier tamaño de muestra
Ejercicios resueltos:
Continuamos con el Ejercicio 1, inciso “e”:
El departamento de marketing de una empresa de teléfonos celulares conoce que los montos de las facturas
mensuales de sus clientes no corporativos siguen una distribución normal con media de $80 y desviación estándar
de $12. Para planificar mejor sus estrategias comerciales para los próximos meses desean conocer:
e) Si se realiza una campaña de telemarketing llamando a 100 clientes de manera aleatoria, ¿Cuál es la
probabilidad de que, en promedio, esos clientes tengan un consumo entre $80 y $93? Notar la
diferencia con la pregunta a).
• A diferencia de los incisos anteriores que piden probabilidades en base a datos poblacionales, acá lo
que se pide es el área entre un punto y la media de la distribución de muestreo de las medias.
• La variable tiene una distribución normal por dos motivos
o La población sigue una distribución normal
o La muestra es mayor a 30 elementos
• µ = 80 (media poblacional)
• σ=12 (desviación estándar poblacional)
• n =100
• P(80 ≤ x ≤ 93) = ?
Paso 2: calculo z
𝜎
Sabemos que el error estándar de la media muestral σx̅ es igual a
√𝑛
Por lo tanto, reemplazamos en el cálculo de z:
𝑥−𝜇
𝑧=𝜎
⁄ 𝑛
√
93 − 80
𝑧=
12⁄
√100
13
𝑧=
1.2
𝑧 = 10.83
14
Campa, Junio 2019
Paso 3: grafico
Sabemos que a 3 desvíos de la media están casi todos los datos. De hecho, las tablas suelen llegar como mucho a
z = 3.99.
El valor de z que obtuvimos es tan alto que ya no aparece en la tabla. Por lo tanto, podemos suponer que casi el 50%
de los datos se encuentran en la zona sombreada. P (0≤ z ≤10,83) ≅ 0.5
Respuesta: La probabilidad de que, en promedio, esos clientes tengan un consumo entre $80 y $93 es de 0.5
Ejercicio 4: Un encuestador político está conduciendo un análisis de resultados de muestra con el fin de hacer
predicciones en la noche de elecciones. Suponiendo una elección en la que participan dos candidatos, si un
candidato específico recibe al menos 55% de los votos de la muestra, entonces ese candidato se pronosticará como
ganador de la elección. Si se selecciona una muestra aleatoria de 100 votantes ¿cuál es la probabilidad que un
candidato sea pronosticado ganador cuando…
a) El porcentaje real de sus votos es 50.1%?
𝑥 − 𝑛𝑝
𝑧=
√𝑛𝑝𝑞
Tenemos:
n =100
p = 0.501
q = 1 – p → q = 0.499
x = ¿?
Paso 3: calculo x
Sabemos que ps= x/n (número de éxitos dividido por el tamaño de muestra) y el enunciado nos da como dato
ps = 0.55. Con estos datos despejamos x:
0.55 = x/ 100
0.55*100 =x
55=x
15
Campa, Junio 2019
Paso 4: Calculo z:
𝑥 − 𝑛𝑝
𝑧=
√𝑛𝑝𝑞
55 − 100 × 0.501
𝑧=
√100 × 0.501 × 0.499
4.9
𝑧=
4.9999
𝑧 = 0.98
Paso 6: comparo lo que obtuve en la tabla con lo que me pide el enunciado y hago los ajustes necesarios:
Comparando los gráficos (lo que tengo vs lo que quiero) vemos que el dato que me arrojó la tabla corresponde
exactamente al área opuesta a la que necesito.
Sabemos además que el área total bajo la curva representa el 100% de los casos (Probabilidad igual a 1).
16
Campa, Junio 2019
Por lo tanto:
P (z ≥ 0.98) = 1 - P(-∞≤z≤0.98)
P (z ≥ 0.98) = 1- 0.8365
P (z ≥ 0.98) = 0.1635
Respuesta: La probabilidad de que un candidato sea pronosticado ganador cuando el porcentaje real de sus votos
es 50.1% es de 0.1635.
Para los puntos b y c se emplea el mismo procedimiento, modificando el valor de “p” por el indicado en el inciso.
En el punto d se reitera el procedimiento con otro tamaño de muestra.
Ejercicio 1: Para una muestra de 25 bebés varones de 12 semanas de vida, se obtuvo un peso medio de 5,9 Kg. y
una desviación estándar de 94 g. Se pide:
• n =25
• x̅ =5900→ importante: expresar x̅ y s en la misma unidad, en este caso elegí pasar los kg a g.
• s = 94
• α = 0.05
• LI = ¿?
• LS =¿?
Antes de continuar es importante ver gráficamente qué es lo que estamos buscando:
(2)
El 5% restante está dividido simétricamente entre estas 2 colas
17
Campa, Junio 2019
Paso 2: identifico el estimador, a partir del cual calcularé el intervalo de confianza y la distribución a utilizar
Como quiero hacer una estimación intervalar de la media poblacional desconocida (µ) mi estimador será la
media muestral conocida x̅ =5900
Dado que:
• El tamaño de la muestra n = 25 es pequeño (inferior a 30 elementos)
• La desviación estándar poblacional σ es desconocida (podemos estimarla utilizando la desviación
estándar muestral s)
… utilizaremos la distribución t de Student con n-1 grados de libertad
• α = 0.05
• n = 25
El valor de t a utilizar será: 𝒕∝/𝟐;𝒏−𝟏
18
Campa, Junio 2019
Paso 4: Calculo el límite inferior y superior del intervalo de confianza de la media con σ desconocida y muestra
pequeña
Los límites del intervalo de confianza pueden calcularse reemplazando los datos que ya obtuvimos en esta fórmula:
𝑠
𝐿𝐶 = x̅ ± 𝑡∝/2;𝑛−1 ×
√𝑛
A continuación, desarrollaré los cálculos paso a paso.
La distancia entre la media muestral y cada límite del intervalo se llama “error” y puede calcularse así:
𝒔
e= 𝒕∝/𝟐;𝒏−𝟏 ×
√𝒏
Luego
LI = x̅ − 𝑒
LS = x̅ + 𝑒
Reemplazando:
𝒔 LI = x̅ − 𝑒
e = 𝒕∝/𝟐;𝒏−𝟏 × LS = x̅ + 𝑒
√𝒏
LI = 5900 − 38.8 LI = 5900 + 38.8
94
e = 2.0639 ×
√25 LI = 5861.2 LI = 5938.8
94
e = 2.0639 ×
√25
e = 38.8
Respuesta: Con un 95% de confianza, la media poblacional del peso de bebés varones de 12 semanas de vida
estará contenida en el intervalo [5861.2; 5938.8] gramos
b) ¿Cuántos niños habría que tomar para estimar dicha media con una precisión de 15 grs?
• 𝑒 = 15
• n = ¿?
Acá podemos despejar el n de la fórmula de cálculo del error y nos quedaría algo así
e = 𝒛𝟏−∝/𝟐 ×
𝒔
𝒛𝟏−∝/𝟐 𝟐 × 𝒔𝟐
√𝒏 despejando n 𝒏=
𝒆𝟐
19
Campa, Junio 2019
𝒛𝟏−∝/𝟐 𝟐 × 𝒔𝟐
𝒏=
𝒆𝟐
1.962 × 942
𝑛=
152
n = 150.86
Respuesta: Habrá que tomar una muestra de 151 niños para estimar la media con una precisión de 15 g.
Ejercicio 3: Para 96 familias argentinas elegidas al azar se ha determinado que la TV permanece encendida en la
casa una media de 217 minutos diarios, la desviación típica de la muestra fue de 40 minutos.
a) Para una confiabilidad del 95% ¿Qué error se asume cuando se da por bueno ese dato para el total de las
familias argentinas?
𝒔
e = 𝒛𝟏−∝/𝟐 ×
√𝒏
40
e = 1.96 ×
√96
e= 8
b) ¿Qué tamaño muestral sería necesario para reducir el ese error muestral a la mitad?
Reemplazo en la fórmula:
𝒛𝟏−∝/𝟐 𝟐 × 𝒔𝟐
𝒏=
𝒆𝟐
1.962 × 402
𝑛= 𝑛 = 384.16 → Respuesta: Se necesita una muestra de 385 elementos para reducir ese error a la mitad
42
20
Campa, Junio 2019
• x̅ =2.6
• n=8
• s = 0.9
• α = 0.05
Paso 1: plantear la hipótesis nula
H0: µ = 2.4
Paso 2: plantear la hipótesis alternativa
H1: µ ≠ 2.4
Paso 3: seleccionar α
α = 0,05. Al ser una prueba de dos colas deberemos tomar α/ 2 = 0.025
Paso 4: definir n
n=8
Paso 5: definir el estadístico con distribución conocida que se utilizará
Dado que n es menor a 30 y la desviación poblacional es desconocida, utilizaremos el estadístico t con n-1 grados
de libertad
̅−𝝁
𝒙
Estadístico de prueba: 𝐭= 𝒔 ~ 𝑡 𝑑𝑒 𝑆𝑡𝑢𝑑𝑒𝑛𝑡
⁄ 𝒏
√
Paso 6: calcular el valor crítico e identificar zonas de rechazo y no rechazo
• n = 8 → n-1 = 7 grados de libertad
• α = 0.05 → α/2 = 0.025
Como el nivel de significación α/2 = 0,025, el valor de t con 7 grados de libertad es 2.364
21
Campa, Junio 2019
Rechazo Rechazo
No rechazo
t = 0.6287
zona de no rechazo: [-2.36462; 2.36462]
El estadístico cae dentro de la zona de no rechazo, por lo tanto, no hay evidencia suficiente para rechazar la hipótesis
nula.
• x̅ =120
• n = 100
• σ = 20
• H0: µ =115
• valor p = ¿?
22
Campa, Junio 2019
El valor-p es la probabilidad de obtener una estadística de prueba igual o más exacta que el resultado obtenido
a partir de los datos de la muestra, dado que la hipótesis nula H0 es realmente verdadera.
El valor-p también es conocido como “nivel de significación observado”, que es el mínimo nivel al cual H0
puede ser rechazada para un conjunto dado de datos.
• Si valor-p ≥ α la hipótesis nula no es rechazada
• Si valor-p < α la hipótesis nula es rechazada
Paso 2: calculo z:
̅−𝝁
𝒙
𝐳= 𝝈
⁄ 𝒏
√
120 − 115
z=
20⁄
√100
z = 2.5
P (z≤2.5) = 0.9798
23
Campa, Junio 2019
Paso 4: comparo lo que obtuve en la tabla con lo que me pide el enunciado y hago los ajustes necesarios:
más
Comparando los gráficos (lo que tengo vs lo que quiero) vemos que el dato que me arrojó la tabla corresponde
exactamente al área opuesta a la mitad del área que necesito.
Sabemos además que el área total bajo la curva representa el 100% de los casos (Probabilidad igual a 1) y que
la curva es simétrica
Por lo tanto:
P (z≤-2.5) +P (z≥2.5) = [1 - P (z≤2.5)] x 2
P (z≤-2.5) +P (z≥2.5) = (1- 0.9798) x 2
P (z≤-2.5) +P (z≥2.5) = 0.0062 x2
P (z≤-2.5) +P (z≥2.5) = 0.0124
24
Campa, Junio 2019
Por otra parte, los registros de la Secretaría de Turismo de la Nación para el año pasado fueron los siguientes:
• Ciudad de Buenos Aires 50%,
• Patagonia 20%,
• Sierras de Córdoba 10%,
• Cataratas del Iguazú 10%,
• Otros destinos 10%.
¿Podríamos informarle a la Secretaría de turismo en base a los datos relevados que las preferencias siguen el
patrón del año anterior? (Utilizar α=0,01)
Este ejercicio hace referencia a la prueba de bondad de ajuste que sirve para determinar si una población
tiene una distribución teórica específica. En este caso, queremos averiguar si los datos relevados en el año en curso
siguen la misma distribución que los datos relevados el año anterior.
El estadístico de prueba tiene distribución chi cuadrado con k-1 grados de libertad, donde k es la cantidad
total de valores que tiene la distribución analizada.
𝑘
2
(𝑓𝑒 − 𝑓𝑜 )2
𝜒𝑘−1 = ∑
𝑓𝑒
𝑖=1
Hipótesis nula H0: La variable “preferencia de turistas extranjeros por destinos turísticos en Argentina en el año
2019” tiene la misma distribución que la variable “preferencia de turistas extranjeros por destinos turísticos en
Argentina en el año 2018”
Hipótesis alternativa H1: La variable “preferencia de turistas extranjeros por destinos turísticos en Argentina en el
año 2019” no tiene la misma distribución que la variable “preferencia de turistas extranjeros por destinos turísticos
en Argentina en el año 2018”
Paso 4: seleccionar α
α = 0,01
25
Campa, Junio 2019
En las pruebas chi cuadrado de bondad de ajuste, siempre se coloca el riesgo de no aceptar la hipótesis nula siendo
esta cierta (el nivel de significación α) en el extremo superior de valores de la distribución chi cuadrado
Por lo tanto:
• k = 5 → k-1 = 4 grados de libertad Son 5 destinos turísticos posibles (valores que
• α = 0.01 puede adoptar la variable que estamos
analizando)
Como el nivel de significación α= 0,01, el valor de chi cuadrado con 4 grados de libertad es:
𝝌𝟐𝟒 = 13.2767
26
Campa, Junio 2019
En mi opinión, la forma más ordenada de resolver esta fórmula es resumir los datos en una tabla:
2
𝜒𝑝𝑟𝑢𝑒𝑏𝑎 = 10.9
2
𝜒𝑝𝑟𝑢𝑒𝑏𝑎 = 10.9
zona de no rechazo: (-∞; 13.2767)
2
𝜒𝑝𝑟𝑢𝑒𝑏𝑎 = 10.9
El estadístico cae dentro de la zona de no rechazo, por lo tanto, con la evidencia aportada por la muestra no
podemos descartar, con una significación de 0.01 que la variable “preferencia de turistas extranjeros por destinos
turísticos en Argentina en el año 2019” tenga la misma distribución que la variable “preferencia de turistas
extranjeros por destinos turísticos en Argentina en el año 2018”.
27
Campa, Junio 2019
Ejercicio 2: Se desea establecer si la preferencia de un destino turístico es independiente de los países de origen
de los turistas encuestados. ¿Puede afirmarse lo anterior con una confianza del 95%?
Frecuencias observadas
Buenos
Patagonia Córdoba Cataratas Otros Total
Aires
Europa 34 23 2 5 3 67
EEUU 56 16 5 5 5 87
Latinoamérica 15 5 6 4 1 31
Otros 10 2 0 1 2 15
115 46 13 15 11 200
Este ejercicio hace referencia a la prueba de independencia de variables categóricas que sirve para establecer
si existe o no relación entre dichas variables. En este caso, queremos averiguar si la preferencia de un destino
turístico es independiente de los países de origen de los turistas encuestados.
Hipótesis nula H0: La variable “preferencia de un destino turístico” es independiente de la variable “país de origen”
Hipótesis alternativa H1: Las variables “preferencia de un destino turístico” y “país de origen” no son
independientes.
El estadístico de prueba tiene distribución chi cuadrado con (c-1) x (f-1) grados de libertad, donde c es el
número de columnas y f el número de filas de nuestra tabla de contingencia.
𝑘
2
(𝑓𝑒 − 𝑓𝑜 )2
𝜒(𝑐−1)(𝑓−1) = ∑
𝑓𝑒
𝑖=1
Paso 4: selecciono α
α = 0,05
En las pruebas chi cuadrado de independencia de variables, siempre se coloca el riesgo de no aceptar la hipótesis
nula siendo esta cierta (el nivel de significación α) en el extremo superior de valores de la distribución chi cuadrado
Por lo tanto:
• gl = (c-1) x (f-1) → gl = 4 x 3 → 12 grados de libertad Son 5 destinos turísticos posibles
• α = 0.05 y 4 países de origen.
28
Campa, Junio 2019
Como el nivel de significación α= 0,05, el valor de chi cuadrado con 12 grados de libertad es:
𝝌𝟐𝟏𝟐 = 21.0261
Rechazo
No rechazo
29
Campa, Junio 2019
Para calcular las frecuencias esperadas de cada celda de la tabla de contingencia, se debe multiplicar la
frecuencia marginal de la fila de la celda por la frecuencia marginal de la columna de la celda y luego dividir ese
resultado por el tamaño total de la muestra. Las frecuencias marginales están marcadas en amarillo:
Frecuencias esperadas
Buenos Aires Patagonia Córdoba Cataratas Otros Total
67 × 115 67 × 46 67 × 13 67 × 15 67 × 11
Europa = 38.52 = 15.41 = 4.35 = 5.02 = 3.68 67
200 200 200 200 200
87 × 115 87 × 46 87 × 13 87 × 15 87 × 11
EEUU = 50.02 = 20.01 = 5.65 = 6.52 = 4.78 87
200 200 200 200 200
31 × 115 31 × 46 31 × 13 31 × 15 31 × 11
Latinoamérica = 17.82 = 7.13 = 2.01 = 2.32 = 1.70 31
200 200 200 200 200
15 × 115 15 × 46 15 × 13 15 × 15 15 × 11
Otros = 8.62 = 3.45 = 0.97 = 1.12 = 0.82 15
200 200 200 200 200
(𝒇𝒆 − 𝒇𝒐 )𝟐
𝒇𝒆
Buenos Aires Patagonia Córdoba Cataratas Otros
2 2 2 2
(−4.52) 7.59 (−2.35) −0.02 −0.682
Europa = 0.53 = 3.73 = 1.27 = 0.000079 = 0.12
38.52 15.41 4.35 5.02 3.68
Ahora solo nos queda sumar los valores obtenidos en la última tabla:
𝑓,𝑐
(𝑓𝑒 − 𝑓𝑜 )2
2
𝜒𝑝𝑟𝑢𝑒𝑏𝑎 = ∑ Algunos de los valores de esta tabla
𝑓𝑒 estaban mal. ¡Gracias Tucu por corregirlos!
𝑖=1
𝑗=1
30
Campa, Junio 2019
2
𝜒𝑝𝑟𝑢𝑒𝑏𝑎 = 0.53 + 3.73 + 1.27 + 0.000079 + 0.12 + 0.71 + 0.8 + 0.08 + 0.35 + 0.01 + 0.44 + 0.57 + 7.88
+ 1.21 + 0.288 + 0.22 + 0.6 + 0.97 + 0.01 + 1.69
2
𝜒𝑝𝑟𝑢𝑒𝑏𝑎 = 21.58
𝝌𝟐𝒑𝒓𝒖𝒆𝒃𝒂 = 𝟐𝟏. 𝟓𝟖
zona de no rechazo: (-∞; 21.02)
El estadístico cae dentro de la zona de rechazo, por lo tanto, con la evidencia aportada por la muestra
descartamos, con una significación de 0.05, que las variables sean independientes. Puede que haya alguna relación
entre ellas. Cabe destacar que el Chi-cuadrado calculado cae peligrosamente cerca del Chi-cuadrado crítico, por lo
que sería apropiado realizar pruebas adicionales para constatar la validez del resultado obtenido.
Seminario 8: ANOVA
El Análisis de Varianzas (ANOVA) consiste en analizar las varianzas de c grupos de datos e intentar detectar
diferencias significativas entre las medias muestrales de dichos datos. Esta prueba intenta determinar si las medias
muestrales son tan diferentes que debemos suponer que pertenecen a distintas poblaciones o si la diferencia entre
dichas medias es producto del azar, pero podemos considerarlas parecidas entre sí y/o pertenecientes a una misma
población de datos.
Para esta prueba se utiliza la distribución F de Fisher que compara dos tipos de varianzas o dispersiones:
• La varianza entre medias muestrales (designada indistintamente por alguna de las siguientes siglas:
SSA/SSE/SCE)
• La varianza dentro de los datos que originaron dichas medias muestrales (designada indistintamente
por alguna de las siguientes siglas: SSW/SSD/SCD) →atribuible al azar
Del cociente entre ambas varianzas surge el valor del estadístico F que se comparará con el valor F crítico
extraído de la tabla de Fisher.
• Si 𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 > 𝐹𝑐𝑟í𝑡𝑖𝑐𝑜 significa que probablemente las muestras (todas o alguna de ellas), sean
significativamente diferentes y tal vez pertenezcan a distintas poblaciones.
• Si 𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 < 𝐹𝑐𝑟í𝑡𝑖𝑐𝑜 significa que probablemente las diferencias entre las medias muestrales pueden
considerarse producto del azar y yal vez pertenezcan todas a la misma población.
31
Campa, Junio 2019
En este tipo de prueba siempre la hipótesis nula plantea que las muestras son parecidas entre sí y es por
casualidad que sus medias son distintas.
La hipótesis alternativa plantea que al menos una de ellas aparentemente es significativamente diferente.
Rechazo
No rechazo
Ejercicio 2: Se ha enviado a cada uno de los ingresantes a una empresa de servicios a asistir a un curso de
capacitación al momento de su ingreso. Algunos empleados realizaron un curso de una semana, otros asistieron a
un curso de dos semanas y otro grupo participó durante tres semanas. La gerencia de RR.HH. desea conocer si
existe diferencia en el rendimiento de los empleados durante su primer año de servicio en relación con la
capacitación de ingreso. Informe sus conclusiones con una confianza del 99%, a partir de los datos de las
calificaciones de los supervisores para cada empleado.
Hipótesis nula H0: Las medias de las calificaciones de los tres grupos son iguales
Hipótesis alternativa H1: Al menos una de las medias de los tres grupos es diferente a las demás
El estadístico de prueba tiene distribución F de Fisher y tiene asociados grados de libertad del numerador
iguales a los de los CME, que son c-1, y grados de libertad en el denominador iguales a los de los CMD, que son n-
c. Se calcula de la siguiente manera:
𝑪𝑴𝑬
𝑭=
𝑪𝑴𝑫
32
Campa, Junio 2019
donde
𝑆𝑆𝐸
𝐶𝑀𝐸 =
𝑐−1
Donde:
𝑐
• CME: cuadrados medios entre
𝑆𝑆𝐸 = ∑ 𝑛𝑗 × (𝑥̅𝑗 − 𝑥̿ )2 • SSE: dispersión entre grupos
• c: cantidad de grupos
𝑗=1
• 𝑛𝑗 : cantidad de casos del grupo j
• 𝑥̅𝑗 : media del grupo j.
𝑆𝑆𝐷 • 𝑥̿ : gran media
𝐶𝑀𝐷 = • CMD: cuadrados medios dentro
𝑛−𝑐
• SSD: dispersión dentro del grupo
𝑛𝑗
𝑐 • 𝑥̅𝑖𝑗 : i-ésima observación del grupo j
𝑆𝑆𝐷 = ∑ ∑(𝑥̅𝑖𝑗 − 𝑥̅𝑗 )2
𝑗=1 𝑖=1
Paso 3: selecciono α
α = 0,01
La zona de rechazo en las pruebas ANOVA se establece determinando un valor crítico en la distribución F con los
grados de libertad mencionados, de manera que resulte por encima de este valor una probabilidad igual al nivel de
significación elegido. En este caso la zona de rechazo también se ubica en los valores elevados de la distribución.
Por lo tanto:
• gl numerador = (c-1) → gln = 3-1 = 2
• gl denominador = (n-c) → gld = 12 - 3 = 9
• α = 0.01
Como el nivel de significación α= 0,01, el valor de F con 2 grados de libertad en el numerador y 9 grados de libertad
en el denominador es:
𝑭𝟐𝟗 = 8.02
33
Campa, Junio 2019
No rechazo
𝑪𝑴𝑬
𝑭=
𝑪𝑴𝑫
Primero resumo los datos y cálculos auxiliares:
• c = 3 (cantidad de grupos)
• ̅ 𝒋 : ver tabla
𝒏𝒋 𝑦 𝒙
𝑛2 =3 𝑥̅2 = 8
𝑛3 =4 𝑥̅3 = 8.75
A partir de este punto recomiendo recordar la tabla del enunciado y emplear una planilla de cálculo. Si bien
las operaciones son sencillas, es trabajoso hacerlas manualmente:
34
Campa, Junio 2019
• 𝑥̿ = 7.91 (surge de calcular la media entre todas las observaciones, independientemente del grupo al que
pertenezcan)
• Para el cálculo de SSE:
𝑐
𝑆𝑆𝐸 = ∑ 𝑛𝑗 × (𝑥̅𝑗 − 𝑥̿ )2
𝑗=1
𝑺𝑺𝑬 = 𝟓. 𝟑𝟔
• Para el cálculo de SSD:
𝑐 𝑛𝑗
𝑺𝑺𝑫 = 𝟕. 𝟓𝟓
𝑭 = 𝟑. 𝟏𝟗
zona de no rechazo: (-∞; 8.02)
El estadístico cae dentro de la zona de no rechazo, por lo tanto, con la evidencia aportada por la muestra no
podemos descartar, con una significación de 0.01, que las medias de las calificaciones de los tres grupos sean
iguales.
35
Campa, Junio 2019
Ejercicio 5: A continuación, se presentan los importes destinados a publicidad durante la década de los
noventa y las ventas totales que se registraron en cada año:
Año 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
Ventas en $ 50 100 150 200 200 300 400 500 650 700
Gasto en
publicidad en 10 15 18 20 25 35 50 55 60 65
$
a) Calcule e interprete el coeficiente de correlación entre las variables. Realice este cálculo sin utilizar
el cálculo del coeficiente de determinación.
∑ 𝒙𝒚 − 𝒏 𝒙
̅𝒚̅
𝒓=
√∑𝒏𝒊=𝟏 𝒙𝟐𝒊 − 𝒏𝒙
̅𝟐 × √∑𝒏𝒊=𝟏 𝒚𝟐𝒊 − 𝒏𝒚
̅𝟐
Gasto en
Ventas en
Observación publicidad en 𝒙×𝒚 𝒙𝟐 𝒚𝟐
$ (Y)
$ (X)
1 10 50 500 100 2.500
2 15 100 1.500 225 10.000
3 18 150 2.700 324 22.500
4 20 200 4.000 400 40.000
5 25 200 5.000 625 40.000
6 35 300 10.500 1.225 90.000
7 50 400 20.000 2.500 160.000
8 55 500 27.500 3.025 250.000
9 60 650 39.000 3.600 422.500
10 65 700 45.500 4.225 490.000
n n
36
Campa, Junio 2019
∑ 𝒙𝒚 − 𝒏 𝒙
̅𝒚̅
𝒓=
√∑𝒏𝒊=𝟏 𝒙𝟐𝒊 − 𝒏𝒙
̅𝟐 × √∑𝒏𝒊=𝟏 𝒚𝟐𝒊 − 𝒏𝒚
̅𝟐
156200 − 10 × 35 × 325
r=
√16249 − 10 × ̅35
̅̅̅2 × √1527500 − 10 × 3252
41475
r=
√3788.1 × √471250
41475
r=
√3788.1 × √471250
41475
r=
42250.94
𝐫 = 𝟎. 𝟗𝟖𝟏𝟔
El coeficiente de correlación es cercano a 1, podemos interpretar esto como que existe una fuerte
correlación lineal positiva entre las variables “gasto de publicidad” y “ventas”.
El método de mínimos cuadrados permite seleccionar la recta que mejor se ajuste para definir la
relación entre los datos, minimizando diferencias en cualquier sentido entre puntos observados y
∑ 𝐱𝐲 − 𝐧 𝐱̅𝐲̅ puntos de la recta. Los valores 𝐛𝟎 y 𝐛𝟏 que minimizan la función se obtienen al igualar a cero las
𝐛𝟏 = derivadas parciales de la función respecto de cada uno de los parámetros. Tales estimadores verifican
∑𝐧𝐢=𝟏 𝐱 𝐢𝟐 − 𝐧 𝐱̅ 𝟐 también la condición de segundo orden de un mínimo. En este apunte nos limitaremos a resolver el
práctico sin ahondar en el desarrollo teórico del que surgen las fórmulas
Reemplazando en la fórmula:
156200 − 10 × 35 × 325
b1 =
16249 − 10 × 352
41475
b1 =
3788.1
𝐛𝟏 = 𝟏𝟎. 𝟗𝟓
37
Campa, Junio 2019
̅ − 𝐛𝟏 𝐱̅
𝐛𝟎 = 𝒚
¡CUIDADO! El cálculo de 𝐛𝟎 puede tener
Reemplazando en la fórmula: errores. Si los encontrás, por favor
contactame. En la solución dice:
𝐛𝟎 = 𝟑𝟐𝟓 − 𝟏𝟎. 𝟗𝟓 × 𝟑𝟓 𝐛𝟎 = ‐61,49
b0 = −58.25
38