Tips para Resolver Ejercicios de Estadística Inferencial

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 39

Estadística Inferencial

…y la magia del
teorema central del
límite

"Excelente, imperdible, no dejes que te lo cuenten."


Pablo Sarasa, Ámbito Poético 25/06/2019

"Un atrapante compendio de consejos para abordar el


práctico de Estadística II donde contrastan y a la vez
pueden convivir sin problemas el rigor matemático con
expresiones que parecen traídas de un asado entre
amigos después de la 5ta ronda de fernet"
Carl Gauss, Untersuchungen über höhere Arithmetik
12/06/1828

"¿Y para qué hacés eso? ¿Por qué no te ponés a


estudiar? ¡Te estás sobrecargando al vicio!”
Mi Mamá, por teléfono. Siempre.

Córdoba, junio de 2019


Letra chica:
El Apuntito se distribuye de forma gratuita a todo ñoño que así lo solicite, no obstante, se aceptan
donaciones voluntarias de yerba CBSé en su variante “Hierbas Serranas” que se utilizarán como
combustible para la creación de futuros apuntitos. Campa no se responsabiliza por daños físicos ni
mentales que sufran sus compañeros tras posibles ataques de Síndrome de NLPC (no lo podés creer)
derivados de la lectura del apuntito. Campa tampoco garantiza que vayas a aprobar la materia, ni
siquiera garantiza que vayas a aprender algo leyendo El Apuntito.
Los críticos mencionados nunca opinaron sobre El Apuntito. Ni siquiera saben qué es El Apuntito. Mi
mamá tampoco opinó sobre El Apuntito, pero su reacción de mamá preocupada es real. El Apuntito
está dedicado al profe Pablo Godino, autor del término “NLPC” entre otros usados en el presente
material y principal motor de mis motivaciones matemáticas. Y a mi mamá que se la re-banca.
Hecho el depósito que marca la ley (ponele), etcétera.
Campa, Junio 2019

Contenido
¿A quién va dirigido este apunte? ....................................................................................................................................................... 2
¿Cómo contactarme? ................................................................................................................................................................................ 2
Antes de arrancar: ....................................................................................................................................................................................... 3
Módulo 1: Ejercicios resueltos: .............................................................................................................................................................. 5
Seminario 1: Distribución normal de una variable; Distribución de muestreo. ............................................................. 5
Antes de continuar con los ejercicios que siguen .......................................................................................................................12
Aspectos del Teorema Central del Límite para tener en cuenta: ......................................................................................13
Ejercicios resueltos: ..................................................................................................................................................................................14
Seminario 2: Estimación de intervalos de confianza para la media y la proporción .................................................17
Módulo 2: Ejercicios resueltos: ............................................................................................................................................................21
Seminario 3: Prueba de Hipótesis de la Media ........................................................................................................................21
Seminario 4: Potencia de una prueba y Cálculo del valor p ...............................................................................................22
Módulo 3: Ejercicios resueltos: ............................................................................................................................................................25
Seminario 7: Pruebas para variables categóricas ....................................................................................................................25
Seminario 8: ANOVA ...........................................................................................................................................................................31
Módulo 4: Ejercicios resueltos: ............................................................................................................................................................36
Seminario 10: Regresión lineal y correlación ............................................................................................................................36

1
Campa, Junio 2019

¿A quién va dirigido este apunte?


Este apunte es un texto práctico dirigido a todos aquellos que quieren aprender Estadística Inferencial y
necesiten una guía para encarar los ejercicios prácticos. Está pensada para personas que cursan a distancia o no
tienen quién les explique cómo resolver ejercicios prácticos de inicio a fin. Por tal motivo, puede resultar tedioso
para estadistas experimentados.
No pretende reemplazar los desarrollos teóricos contenidos en la bibliografía obligatoria de la materia sino
simplemente desarrollar paso a paso ejercicios típicos y aportar consejos prácticos para abordarlos. Hay muchas
formas de resolver un mismo ejercicio, en este material simplemente comparto las estrategias de resolución que a
mí me funcionan.

¿Cómo contactarme?
Soy una simple estudiante de la carrera de Ingeniería en Software y si bien me tomé el trabajo de revisar que
los resultados finales obtenidos en cada ejercicio coincidan con los publicados en la bibliografía no puedo
garantizarte que este apunte esté completamente libre de errores. Si encontrás algún error en este material o tenés
algún comentario o pedido, podés escribirme a [email protected].
Cualquier sugerencia será bienvenida. Tanto las sugerencias como las notificaciones sobre posibles errores en
los contenidos serán tenidas en cuenta en la medida de lo posible en futuras versiones.

2
Campa, Junio 2019

Antes de arrancar:
• ¿Qué es la distribución normal estándar?
Es la distribución de probabilidades de una variable z que sigue una distribución normal con media
µ=0 y desviación estándar σ=1
• ¿Para qué sirve?
Para calcular probabilidades acumuladas habría que integrar la función de densidad de la variable en
cuestión.
Alguien se tomó el trabajo de integrar la función de densidad de la variable z para muchos valores de
z y tabuló los resultados.
Entonces, en lugar de calcular integrales engorrosas para cada función de densidad, lo que se hace es
“estandarizar” cualquier variable x y usar la tabla estándar para encontrar cualquier probabilidad.
• ¿Cómo estandarizo mi variable x?
Aplicando esta fórmula:
𝑥−𝜇
𝑧=
𝜎
• Hay un montón de versiones de la tabla de distribución normal estandarizada. Las más comunes son:

¿Qué tabla tengo? (éstas son las más comunes, hay otras)
La que acumula desde la media hasta un valor La que acumula desde -∞ hasta un valor dado de
dado de z: z:

• Ninguna tabla es mejor que otra. Con cualquier versión de la tabla podés resolver todos los ejercicios.
Según lo que te pida el enunciado puede que te resulte más cómodo usar una u otra. Los ejercicios
más comunes hacen referencia a uno de estos escenarios:
¿Qué área bajo la curva (=probabilidad) me pide el enunciado?
Entre dos z determinados (uno de los cuales es Desde un z negativo en adelante:
negativo)

Entre dos z positivos determinados Desde -∞ hasta un valor positivo de z:

3
Campa, Junio 2019

Entre la media y z Desde -∞ hasta un valor negativo de z:

Desde un valor positivo de z en adelante

• Es importante que sepas usar bien la tabla y que adquieras suficiente práctica en la resolución de todos
los escenarios posibles con la versión que hayas elegido usar.
• Hay algunas propiedades acerca de la distribución normal que es conveniente recordar:
o Es simétrica. Por lo tanto, a modo de ejemplo, el área bajo la curva contenida entre -∞ y -z
será igual al área bajo la curva contenida entre z y +∞.
Por ejemplo:
La probabilidad de que z sea mayor o igual a 2 es igual a la probabilidad de que z sea menor o igual
a -2. Observando los gráficos podés ver que el tamaño del área sombreada es igual en ambos casos.

P(z ≥ 2) = P(z ≤ -2) = 0.228

P(z ≥ 2) = P(z ≤ -2)

o En el centro de la curva se encuentran la media, la mediana y la moda. Estos tres valores


coinciden y dividen a la curva en dos mitades. Por lo tanto, el área bajo la curva contenida
entre -∞ y la media será igual a 0.5 al igual que el área bajo la curva contenida entre la media
e ∞. Gráficamente:

o El área total bajo la curva representa el 100% de los casos.

4
Campa, Junio 2019

o Esto no es específico de la distribución normal, sino de todas las distribuciones de probabilidad


de variables continuas. La probabilidad en un punto es siempre igual a cero. Dicho de otro
modo, la probabilidad de que una variable x tome exactamente un valor “a” es cero
P(x=a) = 0.
Para que la probabilidad pueda tomar valores mayores que cero en una variable continua,
tenemos que trabajar con desigualdades o intervalos (≤; ≥)

Módulo 1: Ejercicios resueltos:

Seminario 1: Distribución normal de una variable; Distribución de muestreo.


Ejercicio 1: El departamento de marketing de una empresa de teléfonos celulares conoce que los montos de
las facturas mensuales de sus clientes no corporativos siguen una distribución normal con media de $80 y desviación
estándar de $12. Para planificar mejor sus estrategias comerciales para los próximos meses desean conocer:
a) ¿Qué porcentaje de los clientes tienen un consumo entre $80 y $93?

Paso 1: identifico los datos e incógnitas:

• La variable x tiene una distribución normal


• µ = 80
• σ=12
Es conveniente graficar la función para identificar correctamente el área de interés

¿Qué tengo? ¿Qué quiero?


Tengo esta tabla de z, (µ =0; σ=1) que acumula La probabilidad de que x esté entre 80 y 93, o sea:
probabilidades desde -∞ hasta un valor dado de z: P(80≤x≤93) dado que µ =80; σ=12

Paso 2: estandarizo mi variable


Aplicando esta fórmula:

𝑥−𝜇
𝑧=
𝜎
80 − 80
z=
12
𝑧 = 0 → como la media es de 80, podríamos obviar este paso

93 − 80
𝑧=
12
𝑧 = 1.083

5
Campa, Junio 2019

Paso 3: busco en la tabla la probabilidad acumulada con z=1.083

Paso 4: comparo lo que obtuve en la tabla con lo que me pide el enunciado y hago los ajustes necesarios:

¿Qué tengo? ¿Qué quiero?


P(-∞≤z≤1.08) =0.8599 La probabilidad de que x esté entre la media y 93, o sea:
P(80≤x≤93)

Comparando los gráficos vemos claramente que la probabilidad obtenida por tabla incluye el área
correspondiente a todos los valores inferiores a la media, que no nos interesan. Es decir, hay exactamente un 50%
de más.
Por lo tanto:
P(80≤x≤93) = P(-∞≤z≤1.08) - 0.5
P(80≤x≤93) = 0.8599 – 0.5
P(80≤x≤93) = 0.3599

Respuesta: un 35.99% de los clientes tienen un consumo de entre $80 y $93

b) ¿Qué porcentaje de los clientes tienen un consumo entre $90 y $105?

Paso 1: identifico los datos e incógnitas:

• La variable x tiene una distribución normal


• µ = 80
• σ=12

6
Campa, Junio 2019

Es conveniente graficar la función para identificar correctamente el área de interés:


¿Qué tengo? ¿Qué quiero?
Tengo esta tabla de z, (µ =0; σ=1) que acumula La probabilidad de que x esté entre 90 y 105, o sea:
probabilidades desde -∞ hasta un valor dado de z: P(90≤x≤105) dado que µ =80; σ=12

Paso 2: estandarizo mi variable

Aplicando esta fórmula:

𝑥−𝜇
𝑧=
𝜎

90 − 80
z=
12

𝑧 = 0.83 →Límite inferior del área sombreada que necesito

105 − 80
𝑧=
12
𝑧 = 2.083 →Límite superior del área sombreada que necesito

Paso 3: busco en la tabla la probabilidad acumulada con z=0.83 y la probabilidad acumulada con z=2.08
z= 0.83

7
Campa, Junio 2019

z= 2.08

Paso 4: comparo lo que obtuve en la tabla con lo que me pide el enunciado y hago los ajustes necesarios:

¿Qué tengo? ¿Qué quiero?


P(-∞≤z≤2.08) =0.9812 La probabilidad de que x esté entre 90 y 105, o sea:
P(90≤x≤105) dado que µ =80; σ=12

y P(-∞≤z≤0.83) =0.7967

Comparando los gráficos (lo que tengo vs lo que quiero) vemos que la diferencia entre las probabilidades
obtenidas por tabla es igual al área buscada
Por lo tanto:
P(90≤x≤105) = P(-∞≤z≤2.08) - P(-∞≤z≤0.83)
P(90≤x≤105) = 0.9812 – 0.7967
P(90≤x≤105) = 0.1845

8
Campa, Junio 2019

Respuesta: un 18.45% de los clientes tienen un consumo entre $90 y $105


c) ¿Qué porcentaje de los clientes tienen un consumo inferior a $68?

Paso 1: identifico los datos e incógnitas:

• La variable x tiene una distribución normal


• µ = 80
• σ=12
Es conveniente graficar la función para identificar correctamente el área de interés

¿Qué tengo? ¿Qué quiero?


Tengo esta tabla de z, (µ =0; σ=1) que acumula La probabilidad de que x esté entre -∞ y 68, o sea:
probabilidades desde -∞ hasta un valor dado de z: P(x≤68) dado que µ =80; σ=12

Paso 2: estandarizo mi variable

Aplicando esta fórmula:

𝑥−𝜇
𝑧=
𝜎

68 − 80
z=
12

𝑧 = −1

Paso 3: busco en la tabla la probabilidad acumulada con z=-1

Acá se pone interesante la cosa. Si bien hay tablas que incluyen los valores de z negativos, la mayoría no los incluye.
Para esos casos apelamos a la propiedad de simetría que enunciamos anteriormente, entendiendo que:
P(z ≤ -1) = P(z ≥ 1)

9
Campa, Junio 2019

Conociendo esta propiedad, busco en la tabla la probabilidad acumulada hasta z =1:

Paso 4: comparo lo que obtuve en la tabla con lo que me pide el enunciado y hago los ajustes necesarios:

¿Qué tengo? ¿Qué quiero?


P(-∞≤z≤1) =0.8413 La probabilidad de que x esté entre -∞ y 68, o sea:
P(x≤68) dado que µ =80; σ=12

que a su vez es igual a la siguiente área por simetría:

Comparando los gráficos (lo que tengo vs lo que quiero) vemos que el dato que me arrojó la tabla corresponde
exactamente al área opuesta a la que necesito.
Sabemos además que el área total bajo la curva representa el 100% de los casos (Probabilidad igual a 1).
Por lo tanto:
P(x≤68) = 1 - P(-∞≤z≤1)
P(x≤68) = 1- 0.8413

10
Campa, Junio 2019

P(x≤68) = 0.1587

Respuesta: Un 15.87% de los clientes tienen un consumo inferior a $68


d) ¿Qué porcentaje de los clientes tienen un consumo entre $70 y $90?

Paso 1: identifico los datos e incógnitas:

• La variable x tiene una distribución normal


• µ = 80
• σ=12
Es conveniente graficar la función para identificar correctamente el área de interés

¿Qué tengo? ¿Qué quiero?


Tengo esta tabla de z, (µ =0; σ=1) que acumula La probabilidad de que x esté entre 70 y 90, o sea:
probabilidades desde -∞ hasta un valor dado de z: P(70≤x≤90) dado que µ =80; σ=12

Paso 2: estandarizo mi variable

Aplicando esta fórmula:

𝑥−𝜇
𝑧=
𝜎

70 − 80
z=
12

𝑧 = −0.83 →Límite inferior del área sombreada que necesito

90 − 80
𝑧=
12
𝑧 = 0.83 →Límite superior del área sombreada que necesito

Paso 3: busco en la tabla la probabilidad acumulada con z=-0.83 y la probabilidad acumulada con z=0.83

Acá nuevamente nos encontramos con el caso de un z negativo. Si bien hay tablas que incluyen los valores de z
negativos, la mayoría no los incluye por lo que apelamos a la propiedad de simetría que enunciamos anteriormente,
entendiendo que P(z ≤ -0.83) = P(z ≥ 0.83)
Como justo el límite superior del área a calcular coincide con z =0.83, no necesito buscar más valores en la tabla:

11
Campa, Junio 2019

Paso 4: comparo lo que obtuve en la tabla con lo que me pide el enunciado y hago los ajustes necesarios:

¿Qué tengo? ¿Qué quiero?


P(-∞≤z≤0.83) =0.7967 La probabilidad de que x esté entre 70 y 90, o sea:
P(70≤x≤90) dado que µ =80; σ=12

Comparando los gráficos (lo que tengo vs lo que quiero) vemos que el área que necesito calcular es igual al
área que me da la tabla menos la cola que va desde -∞ hasta -0.83. Puedo calcular esa cola acudiendo a la propiedad
de simetría.
Por lo tanto:
P(70≤x≤90) = P(-∞≤z≤0.83) – [1 - P(-∞≤z≤0.83)]
P(70≤x≤90) = 0.7967 – (1-0.7967)
P(70≤x≤90) = 0.7967 – 0.2033
P(70≤x≤90) =0.5934

Respuesta: un 59.34% de los clientes tienen un consumo entre $70 y $90

Antes de continuar con los ejercicios que siguen


Es conveniente revisar en detalle el Teorema Central del Límite (TCL) antes de resolver los ejercicios que siguen.
Como el propósito de esta mini-guía es compartir estrategias para encarar los prácticos, no voy a ahondar
demasiado en el desarrollo teórico y únicamente mencionaré aspectos del teorema que son útiles para abordar los

12
Campa, Junio 2019

ejercicios. No obstante, recomiendo fuertemente estudiar en detalle el teórico del TCL antes de encarar este “crossfit
estadístico” 😊.

Aspectos del Teorema Central del Límite para tener en cuenta:


• El TCL parte de la idea de que tengo una población de tamaño N, con media µ y desviación estándar
σ.
• De esa población, saco todas las muestras posibles de tamaño n. Ojo, no saco “n muestras” sino
todas las combinaciones posibles de los N elementos de la población, agrupados en muestras de n
elementos. Por ejemplo, si tengo una población de 10 elementos y quiero tomar muestras de 4
elementos. ¿Cuántas muestras tomo? 𝐶410 = 210
• Si calculo la media de cada una de las muestras y luego calculo el promedio entre todas las medias de
las muestras, ésta media coincide exactamente con la media de la población:
μx̅ = μp

el promedio de todas las medias


muestrales x
̅ de todas las muestras la media poblacional
posibles de n elementos

• La dispersión de las medias muestrales es menor que la dispersión de la población. A mayor muestra,
menor dispersión (si querés entender por qué buscá algún ejemplo en el teórico). A los efectos del
práctico, esta es la relación que necesitás conocer:
𝜎
σx̅ =
√𝑛
se lo conoce como: la desviación estándar poblacional
• error estándar de la media muestral dividido entre la raíz del tamaño de
• desviación estándar de las medias la muestra
muestrales

• Si el tamaño de la muestra es relativamente grande con respecto al tamaño de la población debo usar
el factor de corrección para poblaciones finitas (se considera que una muestra es grande cuando
𝑛
> 0.05)
𝑁
Esta es la fórmula del factor de corrección:

𝑁−𝑛
𝑓𝑐𝑝𝑓 = √
𝑁−1
Y así quedaría mi error estándar de la media muestral corregido:

𝜎 𝑁−𝑛
σx̅ = × √
√𝑛 𝑁−1

13
Campa, Junio 2019

• La distribución de las medias muestrales tiende a seguir una distribución normal a medida que crece
el tamaño de la muestra independientemente de la distribución que tenga la población original. A los
fines prácticos se considera que si 𝒏 ≥ 30 la distribución de las medias muestrales sigue una
distribución normal.
• Si la distribución de la población es normal da distribución de las medias muestrales será normal para
cualquier tamaño de muestra

Todo esto nos va a servir para hacer:


o Estimaciones puntuales
o Estimaciones intervalares (intervalos de confianza)
o Prueba de hipótesis

Ejercicios resueltos:
Continuamos con el Ejercicio 1, inciso “e”:
El departamento de marketing de una empresa de teléfonos celulares conoce que los montos de las facturas
mensuales de sus clientes no corporativos siguen una distribución normal con media de $80 y desviación estándar
de $12. Para planificar mejor sus estrategias comerciales para los próximos meses desean conocer:

e) Si se realiza una campaña de telemarketing llamando a 100 clientes de manera aleatoria, ¿Cuál es la
probabilidad de que, en promedio, esos clientes tengan un consumo entre $80 y $93? Notar la
diferencia con la pregunta a).

Paso 1: identifico los datos e incógnitas:

• A diferencia de los incisos anteriores que piden probabilidades en base a datos poblacionales, acá lo
que se pide es el área entre un punto y la media de la distribución de muestreo de las medias.
• La variable tiene una distribución normal por dos motivos
o La población sigue una distribución normal
o La muestra es mayor a 30 elementos
• µ = 80 (media poblacional)
• σ=12 (desviación estándar poblacional)
• n =100
• P(80 ≤ x ≤ 93) = ?

Paso 2: calculo z
𝜎
Sabemos que el error estándar de la media muestral σx̅ es igual a
√𝑛
Por lo tanto, reemplazamos en el cálculo de z:
𝑥−𝜇
𝑧=𝜎
⁄ 𝑛

93 − 80
𝑧=
12⁄
√100
13
𝑧=
1.2
𝑧 = 10.83

14
Campa, Junio 2019

Paso 3: grafico

Sabemos que a 3 desvíos de la media están casi todos los datos. De hecho, las tablas suelen llegar como mucho a
z = 3.99.
El valor de z que obtuvimos es tan alto que ya no aparece en la tabla. Por lo tanto, podemos suponer que casi el 50%
de los datos se encuentran en la zona sombreada. P (0≤ z ≤10,83) ≅ 0.5

Respuesta: La probabilidad de que, en promedio, esos clientes tengan un consumo entre $80 y $93 es de 0.5

Ejercicio 4: Un encuestador político está conduciendo un análisis de resultados de muestra con el fin de hacer
predicciones en la noche de elecciones. Suponiendo una elección en la que participan dos candidatos, si un
candidato específico recibe al menos 55% de los votos de la muestra, entonces ese candidato se pronosticará como
ganador de la elección. Si se selecciona una muestra aleatoria de 100 votantes ¿cuál es la probabilidad que un
candidato sea pronosticado ganador cuando…
a) El porcentaje real de sus votos es 50.1%?

Paso 1: identifico los datos e incógnitas:

• Proporción muestral: ps=0.55


• Proporción hipotética de éxitos: p = 0.501
• n =100
• P (ps ≥ 0.55 | p = 0.501) = ¿? →Incógnita: Se lee “probabilidad de que la proporción muestral sea
mayor o igual a 0.55 dado que la proporción hipotética de éxitos fue de 0.501

Paso 2: identifico la prueba a aplicar

Aplicaré la prueba z para la proporción. Su fórmula es:

𝑥 − 𝑛𝑝
𝑧=
√𝑛𝑝𝑞
Tenemos:
n =100
p = 0.501
q = 1 – p → q = 0.499
x = ¿?
Paso 3: calculo x
Sabemos que ps= x/n (número de éxitos dividido por el tamaño de muestra) y el enunciado nos da como dato
ps = 0.55. Con estos datos despejamos x:
0.55 = x/ 100
0.55*100 =x
55=x

15
Campa, Junio 2019

Paso 4: Calculo z:

𝑥 − 𝑛𝑝
𝑧=
√𝑛𝑝𝑞

55 − 100 × 0.501
𝑧=
√100 × 0.501 × 0.499

4.9
𝑧=
4.9999

𝑧 = 0.98

Paso 5: busco en la tabla la probabilidad acumulada con z=0.98

Paso 6: comparo lo que obtuve en la tabla con lo que me pide el enunciado y hago los ajustes necesarios:

¿Qué tengo? ¿Qué quiero?


P(-∞≤z≤0.98) =0.8365 P (ps ≥ 0.55 | p = 0.501) → P (z ≥ 0.98)

Comparando los gráficos (lo que tengo vs lo que quiero) vemos que el dato que me arrojó la tabla corresponde
exactamente al área opuesta a la que necesito.
Sabemos además que el área total bajo la curva representa el 100% de los casos (Probabilidad igual a 1).

16
Campa, Junio 2019

Por lo tanto:
P (z ≥ 0.98) = 1 - P(-∞≤z≤0.98)
P (z ≥ 0.98) = 1- 0.8365
P (z ≥ 0.98) = 0.1635

Respuesta: La probabilidad de que un candidato sea pronosticado ganador cuando el porcentaje real de sus votos
es 50.1% es de 0.1635.
Para los puntos b y c se emplea el mismo procedimiento, modificando el valor de “p” por el indicado en el inciso.
En el punto d se reitera el procedimiento con otro tamaño de muestra.

Seminario 2: Estimación de intervalos de confianza para la media y la proporción

Ejercicio 1: Para una muestra de 25 bebés varones de 12 semanas de vida, se obtuvo un peso medio de 5,9 Kg. y
una desviación estándar de 94 g. Se pide:

a) Obtener un intervalo de confianza (al 95%) para el peso medio poblacional.

Paso 1: identifico los datos e incógnitas:

• n =25
• x̅ =5900→ importante: expresar x̅ y s en la misma unidad, en este caso elegí pasar los kg a g.
• s = 94
• α = 0.05
• LI = ¿?
• LS =¿?
Antes de continuar es importante ver gráficamente qué es lo que estamos buscando:
(2)
El 5% restante está dividido simétricamente entre estas 2 colas

(3) (1) (4)


Por lo tanto, en esta 95% Y en esta “cola” hay un
“cola” hay un 0.05/2 = Esta es la región de 0.05/2 = 0.025 de los
0.025 de los datos datos que quiero que mi datos
intervalo “atrape”

Límite inferior del La media x̅ está acá Límite superior del


intervalo de confianza intervalo de confianza

Ambos límites son equidistantes a la media

17
Campa, Junio 2019

Paso 2: identifico el estimador, a partir del cual calcularé el intervalo de confianza y la distribución a utilizar

Como quiero hacer una estimación intervalar de la media poblacional desconocida (µ) mi estimador será la
media muestral conocida x̅ =5900
Dado que:
• El tamaño de la muestra n = 25 es pequeño (inferior a 30 elementos)
• La desviación estándar poblacional σ es desconocida (podemos estimarla utilizando la desviación
estándar muestral s)
… utilizaremos la distribución t de Student con n-1 grados de libertad

Paso 3: busco en la tabla el valor de t

Para identificar el valor de t, haré uso de los siguientes datos:

• α = 0.05
• n = 25
El valor de t a utilizar será: 𝒕∝/𝟐;𝒏−𝟏

𝑡∝/2;𝑛−1 = 𝑡0.025/2;24 necesito encontrar en la tabla de t de Student el valor de t con 24 grados de


libertad correspondiente a la probabilidad acumulada de 0.0975

De la tabla surge que 𝑡0.025/2;24 = 2.0639

18
Campa, Junio 2019

Paso 4: Calculo el límite inferior y superior del intervalo de confianza de la media con σ desconocida y muestra
pequeña

Los límites del intervalo de confianza pueden calcularse reemplazando los datos que ya obtuvimos en esta fórmula:

𝑠
𝐿𝐶 = x̅ ± 𝑡∝/2;𝑛−1 ×
√𝑛
A continuación, desarrollaré los cálculos paso a paso.

La distancia entre la media muestral y cada límite del intervalo se llama “error” y puede calcularse así:

𝒔
e= 𝒕∝/𝟐;𝒏−𝟏 ×
√𝒏

Luego

LI = x̅ − 𝑒

LS = x̅ + 𝑒

Reemplazando:

𝒔 LI = x̅ − 𝑒
e = 𝒕∝/𝟐;𝒏−𝟏 × LS = x̅ + 𝑒
√𝒏
LI = 5900 − 38.8 LI = 5900 + 38.8
94
e = 2.0639 ×
√25 LI = 5861.2 LI = 5938.8
94
e = 2.0639 ×
√25

e = 38.8

Respuesta: Con un 95% de confianza, la media poblacional del peso de bebés varones de 12 semanas de vida
estará contenida en el intervalo [5861.2; 5938.8] gramos

b) ¿Cuántos niños habría que tomar para estimar dicha media con una precisión de 15 grs?

Paso 1: identifico los datos e incógnitas:

• 𝑒 = 15
• n = ¿?
Acá podemos despejar el n de la fórmula de cálculo del error y nos quedaría algo así

e = 𝒛𝟏−∝/𝟐 ×
𝒔
𝒛𝟏−∝/𝟐 𝟐 × 𝒔𝟐
√𝒏 despejando n 𝒏=
𝒆𝟐

19
Campa, Junio 2019

Paso 2: reemplazo en la fórmula:

𝒛𝟏−∝/𝟐 𝟐 × 𝒔𝟐
𝒏=
𝒆𝟐
1.962 × 942
𝑛=
152

n = 150.86

Respuesta: Habrá que tomar una muestra de 151 niños para estimar la media con una precisión de 15 g.

Ejercicio 3: Para 96 familias argentinas elegidas al azar se ha determinado que la TV permanece encendida en la
casa una media de 217 minutos diarios, la desviación típica de la muestra fue de 40 minutos.

a) Para una confiabilidad del 95% ¿Qué error se asume cuando se da por bueno ese dato para el total de las
familias argentinas?

Paso 1: identifico los datos e incógnitas:

• n = 96 → la muestra es suficientemente grande para aplicar distribución normal


• x̅ =217
• s = 40
• α = 0.05
• e = ¿?

Paso 2: busco z en la tabla y reemplazo en la fórmula del error

z1−∝= 1.96 →surge de la tabla de distribución normal estándar


2

𝒔
e = 𝒛𝟏−∝/𝟐 ×
√𝒏

40
e = 1.96 ×
√96

e= 8

Respuesta: Se asume un error de 8 minutos

b) ¿Qué tamaño muestral sería necesario para reducir el ese error muestral a la mitad?

Reemplazo en la fórmula:

𝒛𝟏−∝/𝟐 𝟐 × 𝒔𝟐
𝒏=
𝒆𝟐
1.962 × 402
𝑛= 𝑛 = 384.16 → Respuesta: Se necesita una muestra de 385 elementos para reducir ese error a la mitad
42

20
Campa, Junio 2019

Módulo 2: Ejercicios resueltos:

Seminario 3: Prueba de Hipótesis de la Media


Ejercicio 1: Una muestra aleatoria de 8 cigarrillos de una marca determinada tiene un contenido promedio de
nicotina de 2,6 miligramos y una desviación estándar de 0, 9 miligramos. ¿Existe suficiente evidencia estadística para
decir que el contenido promedio real de nicotina de esta marca de cigarros en particular es de 2,4 miligramos? Con
α = 0,05.

Paso 0: identifico los datos e incógnitas:

• x̅ =2.6
• n=8
• s = 0.9
• α = 0.05
Paso 1: plantear la hipótesis nula
H0: µ = 2.4
Paso 2: plantear la hipótesis alternativa
H1: µ ≠ 2.4
Paso 3: seleccionar α
α = 0,05. Al ser una prueba de dos colas deberemos tomar α/ 2 = 0.025
Paso 4: definir n
n=8
Paso 5: definir el estadístico con distribución conocida que se utilizará
Dado que n es menor a 30 y la desviación poblacional es desconocida, utilizaremos el estadístico t con n-1 grados
de libertad
̅−𝝁
𝒙
Estadístico de prueba: 𝐭= 𝒔 ~ 𝑡 𝑑𝑒 𝑆𝑡𝑢𝑑𝑒𝑛𝑡
⁄ 𝒏

Paso 6: calcular el valor crítico e identificar zonas de rechazo y no rechazo
• n = 8 → n-1 = 7 grados de libertad
• α = 0.05 → α/2 = 0.025

Como el nivel de significación α/2 = 0,025, el valor de t con 7 grados de libertad es 2.364

21
Campa, Junio 2019

Luego quedará determinada la siguiente regla de decisión


• Si el estadístico muestral resultante es inferior a -2.36462 o superior a 2.36462, se rechazará la hipótesis
nula.
• Si el estadístico muestral está entre -2.36462 y 2.36462 entonces no se rechazará la hipótesis nula.

Rechazo Rechazo

No rechazo

Paso 7: obtener el estadístico de prueba


̅−𝝁
𝒙
𝐭= 𝒔
⁄ 𝒏

𝟐.𝟔−𝟐.𝟒
𝐭= 𝟎.𝟗⁄
√𝟖
t = 0.6287

Paso 8: verificar en qué zona cayó el estadístico y decidir

t = 0.6287
zona de no rechazo: [-2.36462; 2.36462]
El estadístico cae dentro de la zona de no rechazo, por lo tanto, no hay evidencia suficiente para rechazar la hipótesis
nula.

Seminario 4: Potencia de una prueba y Cálculo del valor p


Ejercicio 4: En una muestra de 100 ingresantes a la carrera de Ingeniería se obtuvo un promedio de 120 pts.
en la prueba de inteligencia administrado en el proceso de admisión. Se conoce que históricamente esta prueba
tiene un desvío estándar de 20pts. Los directivos quieren verificar que el promedio en ese examen es de 115. Calcular
el valor p de esta prueba.

Paso 1: identifico los datos e incógnitas:

• x̅ =120
• n = 100
• σ = 20
• H0: µ =115
• valor p = ¿?

22
Campa, Junio 2019

El valor-p es la probabilidad de obtener una estadística de prueba igual o más exacta que el resultado obtenido
a partir de los datos de la muestra, dado que la hipótesis nula H0 es realmente verdadera.
El valor-p también es conocido como “nivel de significación observado”, que es el mínimo nivel al cual H0
puede ser rechazada para un conjunto dado de datos.
• Si valor-p ≥ α la hipótesis nula no es rechazada
• Si valor-p < α la hipótesis nula es rechazada

Paso 2: calculo z:

̅−𝝁
𝒙
𝐳= 𝝈
⁄ 𝒏

120 − 115
z=
20⁄
√100

z = 2.5

Paso 3: busco en la tabla de distribución normal estandarizada la probabilidad correspondiente al z calculado:

P (z≤2.5) = 0.9798

23
Campa, Junio 2019

Paso 4: comparo lo que obtuve en la tabla con lo que me pide el enunciado y hago los ajustes necesarios:

¿Qué tengo? ¿Qué quiero?


P (z≤2.5) = 0.9798 P (z≤-2.5) + P (z≥2.5). Gráficamente:

más

Comparando los gráficos (lo que tengo vs lo que quiero) vemos que el dato que me arrojó la tabla corresponde
exactamente al área opuesta a la mitad del área que necesito.
Sabemos además que el área total bajo la curva representa el 100% de los casos (Probabilidad igual a 1) y que
la curva es simétrica
Por lo tanto:
P (z≤-2.5) +P (z≥2.5) = [1 - P (z≤2.5)] x 2
P (z≤-2.5) +P (z≥2.5) = (1- 0.9798) x 2
P (z≤-2.5) +P (z≥2.5) = 0.0062 x2
P (z≤-2.5) +P (z≥2.5) = 0.0124

Respuesta: valor-p = 0.0124

24
Campa, Junio 2019

Módulo 3: Ejercicios resueltos:

Seminario 7: Pruebas para variables categóricas


Ejercicio 1: Se ha consultado por la preferencia de 200 turistas extranjeros respecto a los destinos que
prefieren visitar, obteniéndose los siguientes resultados:

Destino Buenos Aires Patagonia Córdoba Cataratas Otros Total


Preferencias 115 46 13 15 11 200

Por otra parte, los registros de la Secretaría de Turismo de la Nación para el año pasado fueron los siguientes:
• Ciudad de Buenos Aires 50%,
• Patagonia 20%,
• Sierras de Córdoba 10%,
• Cataratas del Iguazú 10%,
• Otros destinos 10%.
¿Podríamos informarle a la Secretaría de turismo en base a los datos relevados que las preferencias siguen el
patrón del año anterior? (Utilizar α=0,01)

Paso 1: identifico la prueba a la que hace referencia la situación problemática planteada:

Este ejercicio hace referencia a la prueba de bondad de ajuste que sirve para determinar si una población
tiene una distribución teórica específica. En este caso, queremos averiguar si los datos relevados en el año en curso
siguen la misma distribución que los datos relevados el año anterior.

Paso 2: identifico el estadístico con distribución conocida que se utilizará

El estadístico de prueba tiene distribución chi cuadrado con k-1 grados de libertad, donde k es la cantidad
total de valores que tiene la distribución analizada.

𝑘
2
(𝑓𝑒 − 𝑓𝑜 )2
𝜒𝑘−1 = ∑
𝑓𝑒
𝑖=1

Paso 3: planteo hipótesis nula e hipótesis alternativa:

Hipótesis nula H0: La variable “preferencia de turistas extranjeros por destinos turísticos en Argentina en el año
2019” tiene la misma distribución que la variable “preferencia de turistas extranjeros por destinos turísticos en
Argentina en el año 2018”
Hipótesis alternativa H1: La variable “preferencia de turistas extranjeros por destinos turísticos en Argentina en el
año 2019” no tiene la misma distribución que la variable “preferencia de turistas extranjeros por destinos turísticos
en Argentina en el año 2018”

Paso 4: seleccionar α

α = 0,01

25
Campa, Junio 2019

Paso 5: calcular el valor crítico e identificar zonas de rechazo y no rechazo

En las pruebas chi cuadrado de bondad de ajuste, siempre se coloca el riesgo de no aceptar la hipótesis nula siendo
esta cierta (el nivel de significación α) en el extremo superior de valores de la distribución chi cuadrado
Por lo tanto:
• k = 5 → k-1 = 4 grados de libertad Son 5 destinos turísticos posibles (valores que
• α = 0.01 puede adoptar la variable que estamos
analizando)

Como el nivel de significación α= 0,01, el valor de chi cuadrado con 4 grados de libertad es:

𝝌𝟐𝟒 = 13.2767

Luego quedará determinada la siguiente regla de decisión


• Si el estadístico muestral resultante es inferior a 13.2767, no se rechazará la hipótesis nula.
• Si el estadístico muestral resultante es superior o igual a 13.2767, se rechazará la hipótesis nula.

26
Campa, Junio 2019

Paso 6: obtener el estadístico de prueba


𝑘
2
(𝑓𝑒 − 𝑓𝑜 )2
𝜒𝑘−1 = ∑
𝑓𝑒
𝑖=1

En mi opinión, la forma más ordenada de resolver esta fórmula es resumir los datos en una tabla:

Destinos Frecuencia Frecuencia (𝑓𝑒 − 𝑓𝑜 )2


turísticos esperada observada
𝑓𝑒 − 𝑓𝑜 (𝑓𝑒 − 𝑓𝑜 )2
𝑓𝑒
Ciudad de
200 x 0.5 = 100 115 -15 225 225/100 = 2.25
Buenos Aires
Patagonia 200 x 0.2 = 40 46 6 36 36/40 = 0.9
Sierras de
200 x 0.1 = 20 13 7 49 49/20 = 2.45
Córdoba
Cataratas del
200 x 0.1 = 20 15 5 25 25/20 = 1.25
Iguazú
Otros destinos 200 x 0.1 = 20 11 9 81 81/20 = 4.05
Total 200 200 10.9

2
𝜒𝑝𝑟𝑢𝑒𝑏𝑎 = 10.9

Paso 7: verificar en qué zona cayó el estadístico y decidir

2
𝜒𝑝𝑟𝑢𝑒𝑏𝑎 = 10.9
zona de no rechazo: (-∞; 13.2767)

2
𝜒𝑝𝑟𝑢𝑒𝑏𝑎 = 10.9

El estadístico cae dentro de la zona de no rechazo, por lo tanto, con la evidencia aportada por la muestra no
podemos descartar, con una significación de 0.01 que la variable “preferencia de turistas extranjeros por destinos
turísticos en Argentina en el año 2019” tenga la misma distribución que la variable “preferencia de turistas
extranjeros por destinos turísticos en Argentina en el año 2018”.

27
Campa, Junio 2019

Ejercicio 2: Se desea establecer si la preferencia de un destino turístico es independiente de los países de origen
de los turistas encuestados. ¿Puede afirmarse lo anterior con una confianza del 95%?
Frecuencias observadas
Buenos
Patagonia Córdoba Cataratas Otros Total
Aires
Europa 34 23 2 5 3 67
EEUU 56 16 5 5 5 87
Latinoamérica 15 5 6 4 1 31
Otros 10 2 0 1 2 15
115 46 13 15 11 200

Paso 1: identifico la prueba a la que hace referencia la situación problemática planteada:

Este ejercicio hace referencia a la prueba de independencia de variables categóricas que sirve para establecer
si existe o no relación entre dichas variables. En este caso, queremos averiguar si la preferencia de un destino
turístico es independiente de los países de origen de los turistas encuestados.

Paso 2: planteo hipótesis nula e hipótesis alternativa:

Hipótesis nula H0: La variable “preferencia de un destino turístico” es independiente de la variable “país de origen”
Hipótesis alternativa H1: Las variables “preferencia de un destino turístico” y “país de origen” no son
independientes.

Paso 3: identifico el estadístico con distribución conocida que se utilizará

El estadístico de prueba tiene distribución chi cuadrado con (c-1) x (f-1) grados de libertad, donde c es el
número de columnas y f el número de filas de nuestra tabla de contingencia.

𝑘
2
(𝑓𝑒 − 𝑓𝑜 )2
𝜒(𝑐−1)(𝑓−1) = ∑
𝑓𝑒
𝑖=1

Paso 4: selecciono α

α = 0,05

Paso 5: calculo el valor crítico e identifico zonas de rechazo y no rechazo

En las pruebas chi cuadrado de independencia de variables, siempre se coloca el riesgo de no aceptar la hipótesis
nula siendo esta cierta (el nivel de significación α) en el extremo superior de valores de la distribución chi cuadrado
Por lo tanto:
• gl = (c-1) x (f-1) → gl = 4 x 3 → 12 grados de libertad Son 5 destinos turísticos posibles
• α = 0.05 y 4 países de origen.

28
Campa, Junio 2019

Como el nivel de significación α= 0,05, el valor de chi cuadrado con 12 grados de libertad es:

𝝌𝟐𝟏𝟐 = 21.0261

Luego quedará determinada la siguiente regla de decisión


• Si el estadístico muestral resultante es inferior a 21.0261, no se rechazará la hipótesis nula.
• Si el estadístico muestral resultante es superior o igual a 21.0261, se rechazará la hipótesis nula.

Rechazo

No rechazo

Paso 6: obtengo el estadístico de prueba


𝑓,𝑐
2
(𝑓𝑒 − 𝑓𝑜 )2
𝜒𝑝𝑟𝑢𝑒𝑏𝑎 = ∑
𝑓𝑒
𝑖=1
𝑗=1

29
Campa, Junio 2019

Para calcular las frecuencias esperadas de cada celda de la tabla de contingencia, se debe multiplicar la
frecuencia marginal de la fila de la celda por la frecuencia marginal de la columna de la celda y luego dividir ese
resultado por el tamaño total de la muestra. Las frecuencias marginales están marcadas en amarillo:

Frecuencias esperadas
Buenos Aires Patagonia Córdoba Cataratas Otros Total
67 × 115 67 × 46 67 × 13 67 × 15 67 × 11
Europa = 38.52 = 15.41 = 4.35 = 5.02 = 3.68 67
200 200 200 200 200

87 × 115 87 × 46 87 × 13 87 × 15 87 × 11
EEUU = 50.02 = 20.01 = 5.65 = 6.52 = 4.78 87
200 200 200 200 200

31 × 115 31 × 46 31 × 13 31 × 15 31 × 11
Latinoamérica = 17.82 = 7.13 = 2.01 = 2.32 = 1.70 31
200 200 200 200 200

15 × 115 15 × 46 15 × 13 15 × 15 15 × 11
Otros = 8.62 = 3.45 = 0.97 = 1.12 = 0.82 15
200 200 200 200 200

Total 115 46 13 15 11 200

Comparación entre frecuencias observadas y esperadas:


𝒇𝒆 − 𝒇 𝒐
Buenos Aires Patagonia Córdoba Cataratas Otros
Europa 34 − 38.52 = −4.52 23 − 15.41 = 7.59 2 − 4.35 = −2.35 5 − 5.02 = −0.02 3 − 3.68 = −0.68
EEUU 56 − 50.02 = 5.98 16 − 20.01 = 4.01 5 − 5.65 = −0.65 5 − 6.52 = −1.52 5 − 4.78 = 0.22
Latinoamérica 15 − 17.82 = −2.82 5 − 7.13 = −2.13 6 − 2.01 = 3.99 4 − 2.32 = 1.68 1 − 1.70 = −0.70
Otros 10 − 8.62 = 1.38 2 − 3.45 = −1.45 0 − 0.97 = −0.97 1 − 1.12 = −0.12 2 − 0.82 = 1.18

(𝒇𝒆 − 𝒇𝒐 )𝟐
𝒇𝒆
Buenos Aires Patagonia Córdoba Cataratas Otros
2 2 2 2
(−4.52) 7.59 (−2.35) −0.02 −0.682
Europa = 0.53 = 3.73 = 1.27 = 0.000079 = 0.12
38.52 15.41 4.35 5.02 3.68

5.982 4.012 −0.652 (−1.52)2 0.222


EEUU = 0.71 = 0.80 = 0.08 = 0.35 = 0.01
50.02 20.01 5.65 6.52 4.78

(−2.82)2 (−2.13)2 3.992 1.682 −0.702


Latinoamérica = 0.44 = 0.57 = 7.88 = 1.21 = 0.288
17.82 7.13 2.01 2.32 1.70

1.382 (−1.45)2 (−0.97)2 (−0.12)2 1.182


Otros = 0.22 = 0.60 = 0.97 = 0.01 = 1.69
8.62 3.45 0.97 1.12 0.82

Ahora solo nos queda sumar los valores obtenidos en la última tabla:

𝑓,𝑐
(𝑓𝑒 − 𝑓𝑜 )2
2
𝜒𝑝𝑟𝑢𝑒𝑏𝑎 = ∑ Algunos de los valores de esta tabla
𝑓𝑒 estaban mal. ¡Gracias Tucu por corregirlos!
𝑖=1
𝑗=1

30
Campa, Junio 2019

2
𝜒𝑝𝑟𝑢𝑒𝑏𝑎 = 0.53 + 3.73 + 1.27 + 0.000079 + 0.12 + 0.71 + 0.8 + 0.08 + 0.35 + 0.01 + 0.44 + 0.57 + 7.88
+ 1.21 + 0.288 + 0.22 + 0.6 + 0.97 + 0.01 + 1.69
2
𝜒𝑝𝑟𝑢𝑒𝑏𝑎 = 21.58

Paso 7: verifico en qué zona cayó el estadístico y decido

𝝌𝟐𝒑𝒓𝒖𝒆𝒃𝒂 = 𝟐𝟏. 𝟓𝟖
zona de no rechazo: (-∞; 21.02)

El estadístico cae dentro de la zona de rechazo, por lo tanto, con la evidencia aportada por la muestra
descartamos, con una significación de 0.05, que las variables sean independientes. Puede que haya alguna relación
entre ellas. Cabe destacar que el Chi-cuadrado calculado cae peligrosamente cerca del Chi-cuadrado crítico, por lo
que sería apropiado realizar pruebas adicionales para constatar la validez del resultado obtenido.

Seminario 8: ANOVA
El Análisis de Varianzas (ANOVA) consiste en analizar las varianzas de c grupos de datos e intentar detectar
diferencias significativas entre las medias muestrales de dichos datos. Esta prueba intenta determinar si las medias
muestrales son tan diferentes que debemos suponer que pertenecen a distintas poblaciones o si la diferencia entre
dichas medias es producto del azar, pero podemos considerarlas parecidas entre sí y/o pertenecientes a una misma
población de datos.

Para esta prueba se utiliza la distribución F de Fisher que compara dos tipos de varianzas o dispersiones:
• La varianza entre medias muestrales (designada indistintamente por alguna de las siguientes siglas:
SSA/SSE/SCE)
• La varianza dentro de los datos que originaron dichas medias muestrales (designada indistintamente
por alguna de las siguientes siglas: SSW/SSD/SCD) →atribuible al azar

En la bibliografía podés encontrar alguna de estas siglas, por ello es


importante que te familiarices con ellas y sepas cuáles son equivalentes
entre sí:
• SS = sum of squares → SC = suma de cuadrados
• A = among → E = entre
• W = within → D = dentro
Por lo tanto:
SSA = SSE = SCE
SSW = SSD = SCD

Del cociente entre ambas varianzas surge el valor del estadístico F que se comparará con el valor F crítico
extraído de la tabla de Fisher.
• Si 𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 > 𝐹𝑐𝑟í𝑡𝑖𝑐𝑜 significa que probablemente las muestras (todas o alguna de ellas), sean
significativamente diferentes y tal vez pertenezcan a distintas poblaciones.
• Si 𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 < 𝐹𝑐𝑟í𝑡𝑖𝑐𝑜 significa que probablemente las diferencias entre las medias muestrales pueden
considerarse producto del azar y yal vez pertenezcan todas a la misma población.

31
Campa, Junio 2019

En este tipo de prueba siempre la hipótesis nula plantea que las muestras son parecidas entre sí y es por
casualidad que sus medias son distintas.
La hipótesis alternativa plantea que al menos una de ellas aparentemente es significativamente diferente.

Rechazo

No rechazo

Ejercicio 2: Se ha enviado a cada uno de los ingresantes a una empresa de servicios a asistir a un curso de
capacitación al momento de su ingreso. Algunos empleados realizaron un curso de una semana, otros asistieron a
un curso de dos semanas y otro grupo participó durante tres semanas. La gerencia de RR.HH. desea conocer si
existe diferencia en el rendimiento de los empleados durante su primer año de servicio en relación con la
capacitación de ingreso. Informe sus conclusiones con una confianza del 99%, a partir de los datos de las
calificaciones de los supervisores para cada empleado.

Curso 1 semana Curso 2 semanas Curso 3 semanas


6 7 8
7 8 10
7 9 9
8 8
8

Paso 1: planteo hipótesis nula e hipótesis alternativa:

Hipótesis nula H0: Las medias de las calificaciones de los tres grupos son iguales
Hipótesis alternativa H1: Al menos una de las medias de los tres grupos es diferente a las demás

Paso 2: identifico el estadístico con distribución conocida que se utilizará

El estadístico de prueba tiene distribución F de Fisher y tiene asociados grados de libertad del numerador
iguales a los de los CME, que son c-1, y grados de libertad en el denominador iguales a los de los CMD, que son n-
c. Se calcula de la siguiente manera:
𝑪𝑴𝑬
𝑭=
𝑪𝑴𝑫
32
Campa, Junio 2019

donde
𝑆𝑆𝐸
𝐶𝑀𝐸 =
𝑐−1
Donde:
𝑐
• CME: cuadrados medios entre
𝑆𝑆𝐸 = ∑ 𝑛𝑗 × (𝑥̅𝑗 − 𝑥̿ )2 • SSE: dispersión entre grupos
• c: cantidad de grupos
𝑗=1
• 𝑛𝑗 : cantidad de casos del grupo j
• 𝑥̅𝑗 : media del grupo j.
𝑆𝑆𝐷 • 𝑥̿ : gran media
𝐶𝑀𝐷 = • CMD: cuadrados medios dentro
𝑛−𝑐
• SSD: dispersión dentro del grupo
𝑛𝑗
𝑐 • 𝑥̅𝑖𝑗 : i-ésima observación del grupo j
𝑆𝑆𝐷 = ∑ ∑(𝑥̅𝑖𝑗 − 𝑥̅𝑗 )2
𝑗=1 𝑖=1

Paso 3: selecciono α

α = 0,01

Paso 4: calculo el valor crítico e identifico zonas de rechazo y no rechazo

La zona de rechazo en las pruebas ANOVA se establece determinando un valor crítico en la distribución F con los
grados de libertad mencionados, de manera que resulte por encima de este valor una probabilidad igual al nivel de
significación elegido. En este caso la zona de rechazo también se ubica en los valores elevados de la distribución.
Por lo tanto:
• gl numerador = (c-1) → gln = 3-1 = 2
• gl denominador = (n-c) → gld = 12 - 3 = 9
• α = 0.01

Como el nivel de significación α= 0,01, el valor de F con 2 grados de libertad en el numerador y 9 grados de libertad
en el denominador es:

𝑭𝟐𝟗 = 8.02

33
Campa, Junio 2019

Luego quedará determinada la siguiente regla de decisión:


• Si el estadístico muestral resultante es inferior a 8.02, no se rechazará la hipótesis nula.
• Si el estadístico muestral resultante es superior o igual a 8.02, se rechazará la hipótesis nula.

Al igual que con otras distribuciones, hay


muchas versiones de tabla de
distribución F. Es importante que
adquieras práctica en el uso de esta y que
identifiques correctamente en qué sector
de la tabla encontrar α, grados de
libertad del numerador y grados de
libertad del denominador. Algunas tablas
incluyen valores de F para 1- α en lugar
de α. En este ejemplo, buscaríamos el
valor de F para 1- α= 0.99.

No rechazo

Paso 5: obtengo el estadístico de prueba

𝑪𝑴𝑬
𝑭=
𝑪𝑴𝑫
Primero resumo los datos y cálculos auxiliares:
• c = 3 (cantidad de grupos)

• ̅ 𝒋 : ver tabla
𝒏𝒋 𝑦 𝒙

𝒏𝒋 (𝐜𝐚𝐧𝐭𝐢𝐝𝐚𝐝 𝐝𝐞 𝐜𝐚𝐬𝐨𝐬 𝐝𝐞𝐥 𝐠𝐫𝐮𝐩𝐨 𝐣) ̅𝒋 (𝐦𝐞𝐝𝐢𝐚 𝐝𝐞𝐥 𝐠𝐫𝐮𝐩𝐨 𝐣)


𝒙
𝑛1 =5 𝑥̅1 = 7.2

𝑛2 =3 𝑥̅2 = 8

𝑛3 =4 𝑥̅3 = 8.75
A partir de este punto recomiendo recordar la tabla del enunciado y emplear una planilla de cálculo. Si bien
las operaciones son sencillas, es trabajoso hacerlas manualmente:

Tabla del enunciado:


Curso 1 semana Curso 2 semanas Curso 3 semanas
6 7 8
7 8 10
7 9 9
8 8
8

34
Campa, Junio 2019

• 𝑥̿ = 7.91 (surge de calcular la media entre todas las observaciones, independientemente del grupo al que
pertenezcan)
• Para el cálculo de SSE:
𝑐

𝑆𝑆𝐸 = ∑ 𝑛𝑗 × (𝑥̅𝑗 − 𝑥̿ )2
𝑗=1

Curso 1 Curso 2 Curso 3 Total


semana semanas semanas
𝒏𝒋 5 3 4
𝑛𝑗 × (𝑥̅𝑗 − 𝑥̿ )2 2.5205 0.0243 2.8224 5.3672

𝑺𝑺𝑬 = 𝟓. 𝟑𝟔
• Para el cálculo de SSD:
𝑐 𝑛𝑗

𝑆𝑆𝐷 = ∑ ∑(𝑥̅𝑖𝑗 − 𝑥̅𝑗 )2


𝑗=1 𝑖=1

Curso 1 Curso 2 Curso 3


Total
semana semanas semanas
𝑥̅𝑗 7.2 8 8.75
1.44 1 0.56
0.04 0 1.56
(𝑥̅𝑖𝑗 − 𝑥̅𝑗 )2 0.04 1 0.06
0.64 - 0.56
0.64 - -
Total 2.8 2 2.75 7.55

𝑺𝑺𝑫 = 𝟕. 𝟓𝟓

Con toda esta información estamos en condiciones de calcular el estadístico de prueba:

Fuente de Suma de Grados de Cuadrados


F
variación cuadrados (1) libertad (2) medios (1)/(2)
Entre grupos SSE = 5.36 c-1 = 2 2.68
3.19
Dentro de grupos SSD = 7.55 n-c = 9 0.838

Paso 6: verifico en qué zona cayó el estadístico y decido

𝑭 = 𝟑. 𝟏𝟗
zona de no rechazo: (-∞; 8.02)
El estadístico cae dentro de la zona de no rechazo, por lo tanto, con la evidencia aportada por la muestra no
podemos descartar, con una significación de 0.01, que las medias de las calificaciones de los tres grupos sean
iguales.

35
Campa, Junio 2019

Módulo 4: Ejercicios resueltos:

Seminario 10: Regresión lineal y correlación

Ejercicio 5: A continuación, se presentan los importes destinados a publicidad durante la década de los
noventa y las ventas totales que se registraron en cada año:

Año 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
Ventas en $ 50 100 150 200 200 300 400 500 650 700
Gasto en
publicidad en 10 15 18 20 25 35 50 55 60 65
$

a) Calcule e interprete el coeficiente de correlación entre las variables. Realice este cálculo sin utilizar
el cálculo del coeficiente de determinación.

El coeficiente de correlación “r” se calcula empleando la siguiente fórmula:

∑ 𝒙𝒚 − 𝒏 𝒙
̅𝒚̅
𝒓=
√∑𝒏𝒊=𝟏 𝒙𝟐𝒊 − 𝒏𝒙
̅𝟐 × √∑𝒏𝒊=𝟏 𝒚𝟐𝒊 − 𝒏𝒚
̅𝟐

Sabemos que n =10.

Para simplificar el cálculo empleamos una tabla:

Gasto en
Ventas en
Observación publicidad en 𝒙×𝒚 𝒙𝟐 𝒚𝟐
$ (Y)
$ (X)
1 10 50 500 100 2.500
2 15 100 1.500 225 10.000
3 18 150 2.700 324 22.500
4 20 200 4.000 400 40.000
5 25 200 5.000 625 40.000
6 35 300 10.500 1.225 90.000
7 50 400 20.000 2.500 160.000
8 55 500 27.500 3.025 250.000
9 60 650 39.000 3.600 422.500
10 65 700 45.500 4.225 490.000
n n

Totales 353 3.250 ∑ xy = 156.200 ∑ xi2 = 16.249 ∑ yi2 = 1.527.500


i=1 i=1
Promedio x̅ = 35 y̅ = 325

36
Campa, Junio 2019

Con estos datos estamos en condiciones de reemplazar en la fórmula y calcular el coeficiente de


correlación:

∑ 𝒙𝒚 − 𝒏 𝒙
̅𝒚̅
𝒓=
√∑𝒏𝒊=𝟏 𝒙𝟐𝒊 − 𝒏𝒙
̅𝟐 × √∑𝒏𝒊=𝟏 𝒚𝟐𝒊 − 𝒏𝒚
̅𝟐

156200 − 10 × 35 × 325
r=
√16249 − 10 × ̅35
̅̅̅2 × √1527500 − 10 × 3252

41475
r=
√3788.1 × √471250
41475
r=
√3788.1 × √471250
41475
r=
42250.94

𝐫 = 𝟎. 𝟗𝟖𝟏𝟔
El coeficiente de correlación es cercano a 1, podemos interpretar esto como que existe una fuerte
correlación lineal positiva entre las variables “gasto de publicidad” y “ventas”.

b) Determine la recta de regresión, considerando a los gastos en publicidad como variable


independiente.

Recordando la ecuación de la recta: 𝐲 = 𝐛𝟏 𝐱 + 𝐛𝟎 donde b1 es la pendiente y b0 es la ordenada al origen

Tenemos la siguiente fórmula para calcular la pendiente:

El método de mínimos cuadrados permite seleccionar la recta que mejor se ajuste para definir la
relación entre los datos, minimizando diferencias en cualquier sentido entre puntos observados y
∑ 𝐱𝐲 − 𝐧 𝐱̅𝐲̅ puntos de la recta. Los valores 𝐛𝟎 y 𝐛𝟏 que minimizan la función se obtienen al igualar a cero las
𝐛𝟏 = derivadas parciales de la función respecto de cada uno de los parámetros. Tales estimadores verifican
∑𝐧𝐢=𝟏 𝐱 𝐢𝟐 − 𝐧 𝐱̅ 𝟐 también la condición de segundo orden de un mínimo. En este apunte nos limitaremos a resolver el
práctico sin ahondar en el desarrollo teórico del que surgen las fórmulas

Reemplazando en la fórmula:

156200 − 10 × 35 × 325
b1 =
16249 − 10 × 352

41475
b1 =
3788.1

𝐛𝟏 = 𝟏𝟎. 𝟗𝟓

37
Campa, Junio 2019

Tenemos la siguiente fórmula para calcular la ordenada al origen:

̅ − 𝐛𝟏 𝐱̅
𝐛𝟎 = 𝒚
¡CUIDADO! El cálculo de 𝐛𝟎 puede tener
Reemplazando en la fórmula: errores. Si los encontrás, por favor
contactame. En la solución dice:
𝐛𝟎 = 𝟑𝟐𝟓 − 𝟏𝟎. 𝟗𝟓 × 𝟑𝟓 𝐛𝟎 = ‐61,49

b0 = −58.25

Por lo tanto, la recta de regresión estará dada por: 𝐲 = 𝟏𝟎. 𝟗𝟓 𝐱 − 𝟓𝟖. 𝟐𝟓

38

También podría gustarte