Resumen Probabilidad y Estadistica
Resumen Probabilidad y Estadistica
Resumen Probabilidad y Estadistica
Variable Aleatoria
Variable aleatoria X: es una función real medible que asocia un valor numérico a cada resultado del espacio
muestral (evento) asociado a un experimento aleatorio. A cada evento se le asigna un número real, permitiéndonos
trabajar con variables de tipo cualitativas.
Las variables aleatorias deben ser definidas para poder ser trabajadas con mayor facilidad; definir una variable
aleatoria significa pasar los eventos cualitativos a expresiones matemáticas, por lo general se expresan como
funciones. Si tomamos el ejemplo de una moneda que es lanzada 2 veces, entonces los resultados posibles son
{cc,ck,kc,kk}. Es decir que hay 4 posibles resultados cualitativos. Para poder analizar esto matemáticamente
definimos una variable aleatoria, que en este caso puede ser el número de caras. Pueden salir 2 caras, 1 sola cara o
ninguna. Esto representa los valores de variable aleatoria que son 0, 1 y 2. El experimento deja de trabajar con datos
cualitativos y pasa a trabajar con datos cuantitativos.
• FUNCIÓN: número de caras al lanzar dos monedas al aire
Funciones de probabilidad2: una función de probabilidad de una variable aleatoria discreta es una función
que asigna probabilidades a los valores de la variable aleatoria (con números enteros). A cada probabilidad de que
suceda un suceso le corresponde la cantidad de casos favorables. Su fórmula es la siguiente:
𝑓(𝑥) = 𝑃(𝑋 = 𝑥) → indica probabilidad de que la variable aleatoria tome un valor definido
2
3 Funciones de probabilidad y distribución (uv.es)
21
Además, la función debe cumplir con 2 propiedades:
1. La probabilidad de cada valor de variable aleatoria debe estar entre 0 y 1. → 0 ≤ 𝑓(𝑥) ≤ 1
2. La suma de las probabilidades asignadas a todos los
valores de la variable aleatoria debe ser 1. ∑𝑇𝑜𝑑𝑎 𝑥 𝑓(𝑥) =
1
En el caso de lanzar un dado: la variable aleatoria es el resultado
de lanzar un dado y los valores de variable aleatoria son
x = {1,2,3,4,5,6}
Para obtener la probabilidad de cada número tengo que
preguntarme: “¿Cuántos unos tengo en un dado?” (Casos
favorables) y además conozco el total de casos posibles que son 6.
𝑛° 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠 𝑑𝑒 𝐴
𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑞𝑢𝑒 𝑜𝑐𝑢𝑟𝑟𝑎 𝐴 =
𝑛° 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠
Gráfico de barras
Función de densidad de probabilidad3: Sea X una variable aleatoria continua. Entonces, una función de
densidad de probabilidad de X es una función f(x) tal que para 2 números cualquier a y b con 𝑎 ≤ 𝑏.
𝑏
𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = ∫𝑎 𝑓(𝑥)𝑑𝑥 → probabilidad de que la variable aleatoria esté entre a y b
3
Función de probabilidad de una variable aleatoria continua | Matemóvil (matemovil.com)
22
La probabilidad de que X asuma un valor en el intervalo [a, b] es el área sobre este intervalo y bajo la gráfica de la
función densidad. Se puede apreciar mejor en la siguiente gráfica:
Sea X una variable aleatoria continua con función de densidad de probabilidad f(x). La función de distribución
𝑥
acumulativa de X es la función: 𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥) = ∫ 𝑓(𝑡)𝑑𝑡
−∞
f(t) es la función de densidad y F(X) es la función de distribución, por lo tanto, la derivada de la función de
𝑑𝐹(𝑥)
distribución es la función de densidad. 𝑓(𝑥) =
𝑑𝑥
De forma gráfica, F(x) es el área bajo la curva de densidad a la izquierda de x. Recordemos que cuando trabajamos
con la función de densidad, el área representa la probabilidad.
𝑃(𝑋 > 𝑎) = 1 − 𝐹(𝑎) → Probabilidad de que X sea mayor a un número
𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = 𝐹(𝑏) − 𝐹(𝑎) ; 𝑎 < 𝑏 → Probabilidad de que X esté en un rango
definido (Regla de Barrow)
Ejemplo de ejercicio resuelto en math:
23
A tener en cuenta:
Cuando en una oración nos encontramos con las siguientes preposiciones estas quieren indicar:
• A lo sumo = como Máximo = esto o menos
• Al menos = como Mínimo = esto o más = cuando menos
Por ej.: Al menos 2 de los autos están manchados ⟶ 1 - Ac(1) (uno menos la acumulada en 1).
La esperanza matemática también es llamada promedio o valor más esperado. Se calcula como la sumatoria de los
valores de X por sus respectivas probabilidades.
1. Esperanza de una constante
2. Esperanza de una constante y una variable
24
Varianza de una v.a.: El momento centrado de orden 2 es la Esperanza de la potencia cuadrática de los
desvíos. Se obtiene como:
Donde α12 es la media.
Esto se realiza sólo hasta el momento 4, debido a que después de esto comienzan a repetirse. Por ej.
𝜇′5 = 𝜇′1 𝑦 𝜇′6 = 𝜇′2
25
Distribuciones Discretas Teóricas de Probabilidad
Distribución Binomial: Esta distribución, que puede considerarse como la generalización del modelo de
Bernoulli (experimento aleatorio), se aplica cuando los sucesos sean:
• Dicotómicos
• Independientes, con reposición.
• El experimento se realiza n veces en las mismas condiciones.
• De probabilidad de ocurrencia constante “éxito” (p) o constante “fracaso” (1-p = q)
• La variable aleatoria es la cantidad de éxitos (o fracasos) que se obtienen en n ensayos.
• Para construir una distribución binomial es necesario conocer el número de pruebas que se repiten o
variable aleatoria y la probabilidad de que suceda un éxito en cada una de ellas.
Distribución de Poisson:
• La variable aleatoria es el número de ocurrencias que sucede un evento en un espacio o tiempo
determinado.
• La probabilidad de ocurrencia es constante en dicho espacio o tiempo determinado (con poca frecuencia),
probabilidad de ocurrencia de los denominados sucesos raros.
• Su contexto es el mismo que el de la distribución binomial, de tal modo que también se genera la
Distribución de Poisson cuando el número de ensayos es grande y la probabilidad del suceso tiende a cero.
• No se sabe el total de posibles resultados.
• La Distribución de Poisson es una distribución de probabilidad discreta que expresa, a partir de una
frecuencia de ocurrencia media λ (lambda), la probabilidad que ocurra un determinado número de eventos
durante un intervalo de tiempo dado o una región específica.
26
• Si n es grande y p pequeña podemos utilizar la Distribución de Poisson.
• Siempre es una distribución asimétrica positiva.
• Siempre será leptocúrtica.
Distribución Binomial Negativa: Este tipo de distribución tiene el contexto de aplicación de la distribución
binomial. Se aplica cuando los sucesos sean:
• Dicotómicos
• Independientes
• Probabilidad de éxito o fracaso constante
La diferencia reside en que la variable aleatoria es el número de ensayos necesarios para obtener cierta cantidad de
éxitos; es el número de fracasos que ocurren hasta conseguir un número determinado de éxitos.
27
El número combinatorio nos determina de cuántas formas se puede organizar o dar la situación. Si sumamos la
cantidad de éxitos y la cantidad de fracasos nos tiene que dar la cantidad de ensayos o tamaño de la muestra.
Distribución Geométrica: Esta distribución es un caso particular de distribución binomial negativa cuando el
número de éxitos es 1.
Supongamos que tenemos:
• Una serie de ensayos Bernoulli independientes.
• Con probabilidad de éxito constante.
• Si X: es el número de ensayos necesarios hasta obtener el primer
éxito, entonces X tiene una distribución geométrica con parámetro p.
Sucesos ✔️ ✔️ ✔️ ✔️ ✔️
Dicotómicos
Sucesos ✔️ ❌ ✔️ ✔️ ✔️
Independientes
Cte. Éxito y ✔️ ❌ ✔️ ✔️ ✔️
Cte. Fracaso n° de éxitos = 1
28
Distribución Multinomial:
Es una distribución de probabilidad conjunta para múltiples variables aleatorias (𝑋1 , 𝑋2 , (. . . ), 𝑋𝑘 ) discretas donde
cada 𝑋𝑖 ~𝑏(𝑛, 𝑝𝑖 ), dándose cuando en cada prueba o ensayo independiente (con reposición) del E.A. interesa contar
el número de exitos en cada una de la k maneras como se puede dar un atributo.
Se utiliza en variables aleatorias policotómicas. Hay más de dos resultados posibles. Los parámetros de esta
distribución son el tamaño de la muestra y las probabilidades constantes de cada uno de los eventos.
Ejemplo:
El atributo calidad de un producto se puede dar como: Excelente, bueno, regular y malo.
PROPIEDADES:
1. Son n pruebas o ensayos repetidos e idénticos (con reposición).
2. En cada prueba o ensayo se pueden producir k resultados.
3. Las probabilidades de cada uno de los k resultados (𝑝1 , 𝑝2 , (… ), 𝑝𝑘 ) permanecen constantes en todas
las pruebas o ensayos.
4. Son pruebas o ensayos independientes.
5. El interés se centra en contar los 𝑋1 , 𝑋2 , (. . . ), 𝑋𝑘 éxitos que se producen en los n ensayos de cada una
de las k categorías posibles de observar cada vez.
6. La suma de la cantidad de veces que ocurran los eventos da el tamaño de la muestra.
7. La suma de las probabilidades de todas las clases tiene que dar igual a 1.
Si una prueba ó intento puede dar cualquiera de los k resultados posibles 𝐸1 , 𝐸2 , (… ), 𝐸𝑘 con
probabilidades 𝑝1 , 𝑝2 , (… ), 𝑝𝑘 , entonces la distribución multinomial dara la probabilidad de que:
29
Unidad N° 5
Distribución Uniforme: Es la más simple de todas las distribuciones modelo y en ella la variable aleatoria
asume cada uno de los valores con una probabilidad idéntica.
• Siempre es simétrica
• Siempre es platicúrtica
• Su función es la de densidad de probabilidad
• Es muy útil con la generación de n° aleatorios
𝑎+𝑏
• La media = mediana.
2
Se utiliza mucho como base de soporte del cálculo de números aleatorios, porque cuando se quiere generar
aleatoriamente los números en un rango determinado, es útil que todos los valores tengan la misma probabilidad.
Esta distribución es la única que tiene este atributo.
La distribución uniforme tiene la característica de que es constante en un intervalo dado, ya sea este abierto o
cerrado; se puede definir de la siguiente manera:
Sea la variable aleatoria X que puede asumir valores 𝑥1 , 𝑥2 , (. . . ), 𝑥𝑘 con idéntica probabilidad. Entonces la distribución
uniforme discreta viene dada por:
O sea que el parámetro clave en esta distribución es k = número de valores que asume la variable aleatoria X y que
sería un parámetro de conteo.
Así por ejemplo cuando se lanza un dado correcto, cada una de las seis caras posibles conforman el espacio
muestral: La v.a X: número de puntos en la cara superior del dado tiene una
distribución de probabilidad Uniforme discreta, puesto que:
= para x = 1, 2, 3, 4, 5,6
en otro caso.
Un ejercicio importante:
¿A cuántas desviaciones estándar se puede alejar la variable aleatoria uniforme respecto de la media?
𝒂+𝒃
𝑴𝒆𝒅𝒊𝒂𝒏𝒂 + 𝒌 ∗ 𝒔 𝑫𝒆𝒔𝒗𝒊𝒂𝒄𝒊𝒐𝒏𝒆𝒔 𝑬𝒔𝒕á𝒏𝒅𝒂𝒓 = 𝒂 𝑜 𝒃 𝑬𝒙𝒕𝒓𝒆𝒎𝒐𝒔 𝑺𝒖𝒑. 𝒐 𝑰𝒏𝒇.
𝟐
Para hallar a cuántas desviaciones estándar se puede alejar la variable respecto de la media tan solo debemos
despejar k de la fórmula. Nos quedará que:
𝑎+𝑏 𝑎+𝑏 2𝑏 − 𝑎 − 𝑏
(𝑏 − ) (𝑏 − )
𝑘= 2 →𝑘= 2 ∗ √12 → 𝑘 = 2 ∗ 2√3 →
𝑏−𝑎 𝑏 − 𝑎 𝑏 − 𝑎
( )
√12
30
2𝑏 − 𝑎 − 𝑏 (𝑏 − 𝑎) 1
𝑘= ∗ 2√3 → 𝑘 = ∗ 2√3 → 𝑘 = ∗ 2√3 = √3
2(𝑏 − 𝑎) 2(𝑏 − 𝑎) 2
En conclusión, se puede alejar 3 desviaciones estándar de la media.
FUNCIÓN DE DISTRIBUCIÓN:
Tipificación o Estandarización:
Para no trabajar con distintas distribuciones normales, para cada media y cada desviación estándar lo que se
procede a hacer es estandarizar la variable natural X. Para poder tipificar se realiza un centrado de la variable,
31
haciendo la diferencia de la media y los desvíos. Luego se hace un escalamiento respecto de la desviación estándar,
es decir, que Z va a estar midiendo o referenciando las distancias de la variable aleatoria en términos de la
desviación estándar.
Hay que tener en cuenta que el tamaño de la muestra sea adecuado y para eso usamos la siguiente regla: El
producto del tamaño de la muestra (n) por la probabilidad de éxito (p) sea mayor o igual que 5 sobre el tamaño de la
muestra (La del fracaso es lo mismo ya que dan iguales, podemos considerar cualquiera de las dos). Si se cumple esa
condición, podemos decir que la media es np y la desviación estándar es √𝒏𝒑𝒒; esto se puede transformar en una
distribución normal. Esto lo hacemos considerando una variable “Z” centrada respecto de media binomial (x-np) y
estandarizada con respecto a la desviación estándar binomial (√𝒏𝒑𝒒). Si es así, entonces vamos a trabajar a la
variable como una normal estándar:
32
La diferencia esencial entre una variable binomial y una variable normal es que la variable binomial es discreta y la
variable normal es continua.
Acá sí es importante tener en cuenta si la variable aleatoria es menor, menor-igual o igual a un número, ya que la
variable aleatoria natural es binomial y no continua(debemos tratarla como una variable discreta). Será discreta pero
la trabajaremos como continua.
Si quiero hallar la probabilidad: 𝑃(𝑥 < 𝑎)(es decir el acumulado hasta el número anterior a “a”), debo tomar la
𝑃(𝑥 ≤ 𝑎 − 0.5). Al restarle 0.5, estoy teniendo en cuenta el valor anterior a “a”.
Si quiero sacar la probabilidad: 𝑃(𝑥 ≤ 𝑎) estoy tomando el punto “a” directamente, entonces cómo debemos hacer
la corrección de continuidad o corrección de Yates le debemos sumar 0.5 → 𝑃(𝑥 ≤ 𝑎 + 0.5).
Si quiero hallar la probabilidad en un intervalo: 𝑃(𝑎 ≤ 𝑥 ≤ 𝑏)voy a tener que tomar la variable desde “a” hacia la
izquierda 0,5 y desde “b” hacia la derecha 0,5 → 𝑃(𝑎 − 0,5 ≤ 𝑥 ≤ 𝑏 + 0,5).
La 𝑃(𝑎 < 𝑥 < 𝑏) será 𝑃(𝑎 + 0,5 ≤ 𝑥 ≤ 𝑏 − 0,5).
Si la variable aleatoria es binomial con tamaño n y probabilidad de éxito p, lo que hago es tomar una distribución
normal con media n*t y desviación estándar √𝑛𝑝𝑞 . Para transformarlo en normal hago la estandarización de la
variable, el centrado o la diferencia respecto a la media y el escalamiento respecto a la desviación estándar. De esta
manera, lo puedo trabajar como una distribución normal común.
Distribución Gamma: Esta distribución es de suma importancia debido a que es base de otras distribuciones.
La distribución gamma modela en general tiempos. Tiene 2 parámetros un alpha (α) y un theta (θ), el primero es un
factor de forma y el segundo es un factor de escala.
33
• Tiene Asimetría Positiva
• Es Leptocúrtica
• En caso de no conocer su parámetro lo podemos averiguar con estadística
Típico ejemplo para este tipo de distribuciones:
Supóngase que una pieza está sometida a una cierta fuerza de manera que se romperá después de aplicar un
número específico de ciclos de fuerza. si los ciclos ocurren de manera independiente y a una frecuencia promedio
dada, entonces el tiempo que debe transcurrir antes de que el material se rompa es una variable aleatoria que sigue
una distribución gamma, su función densidad viene expresada por:
Distribución Exponencial Negativa: modela los tiempos para que haya una falla en el sistema. Resulta
que la exponencial es un caso especial de la Distribución Gamma, ambas tienen un gran número de aplicaciones. Las
distribuciones exponenciales y gamma juegan un papel importante tanto en la teoría de colas como en problemas de
confiabilidad.
El tiempo entre las llegadas en las instalaciones de servicio, y el tiempo de falla de los componentes y sistemas
eléctricos, frecuentemente involucran la distribución exponencial. La relación entre la gamma y la exponencial
permite que la distribución gamma se utilice en tipos similares de problemas (más generales).
La variable aleatoria x tiene una distribución exponencial, con parámetro 𝛽, y su función de densidad es:
34
Ejemplo de combinación de 2 distribuciones:
35
3. Hacer inferencias sobre la varianza de la población.
4. Realizar pruebas de bondad de ajuste para evaluar la credibilidad de
que los datos muestrales, vienen de una población cuyos elementos
se ajustan a un tipo específico de distribución de probabilidad.
Distribución Beta: modela proporciones de cantidades, su variable serán todos los valores entre 0 y 1. La
proporción va a tener un mínimo 0 y un máximo 1, que representan el 100%.
Tiene 2 parámetros, un parámetro Alpha y un parámetro beta, ninguno de los 2 es un parámetro de escala, son
parámetros de forma. Quiere decir que los parámetros definen la forma de la distribución.
36
ANÁLISIS DE FORMA SEGÚN VARÍEN LOS PARÁMETROS:
La distribución beta es posible para una variable aleatoria
continua que toma valores en el intervalo [0,1], lo que la
hace muy apropiada para modelar proporciones. En la
inferencia bayesiana, por ejemplo, es muy utilizada como
distribución a priori cuando las observaciones tienen una
distribución binomial.
Uno de los principales recursos de esta distribución es el
ajuste a una gran variedad de distribuciones empíricas,
pues adopta formas muy diversas dependiendo de cuáles
sean los valores de los parámetros de forma 𝛼 y 𝛽,
mediante los que viene definida la distribución.
37
Unidad N° 6
Población y muestra
Para que cualquier estudio de investigación sea efectivo, es necesario seleccionar la población de estudio que sea
verdaderamente representativa en toda la población. Antes de comenzar su estudio, la población objetivo debe ser
identificada y acordada. Seleccionando y conociendo su muestra con suficiente antelación, se eliminará en gran
medida cualquier retroalimentación que se considere útil para el estudio.
Si el objetivo de tu encuesta es comprender la efectividad de un producto o servicio, entonces la población de
estudio debe ser los clientes que lo han usado o que mejor se adapten a sus necesidades y que usarán el
producto/servicio.
Sería muy costoso y lento recolectar datos de toda la población de tu mercado objetivo. Mediante un
muestreo preciso de su población de estudio, es posible construir una imagen real del mercado objetivo utilizando las
tendencias de los resultados.
La representatividad de la muestra depende del tamaño de la misma y el tipo de muestreo que se produce. La
importancia de que la muestra sea representativa en un conjunto de datos es que permite inferir sobre muchas
características de la población objetivo, de manera tal de que mis conclusiones tengan mayor grado de validez de lo
que pueden tener cuando la muestra es no representativa.
Hay 2 tipos de muestreo:
38
• DISCRECIONAL: También conocido como muestreo por juicio o intencional, mediante esta técnica
los sujetos se eligen para conformar un grupo específico, de personas que resultan más adecuadas
para el análisis que otras (se elige a criterio propio la muestra).
Ejemplo: Se desea realizar una investigación sobre el comportamiento de los padres con sus hijos.
Por lo tanto, el investigador selecciona como muestra a personas que tengan hijos, ya que las
considera aptas de conocimiento para formar parte de la investigación.
DESVENTAJAS:
• No asegura la representación total de la población.
• No generaliza y es subjetiva (no se puede generalizar).
• No es recomendable en el caso de que la investigación sea causal o descriptiva.
• Sus conclusiones están sujetas a un pequeño entorno.
Siempre que estemos estudiando los fenómenos causales o descriptivos NO podremos utilizar el método
no probabilístico
2. Probabilístico: Todos los individuos de una población
tienen la misma posibilidad de ser seleccionados (azar). Se debe
tener disponible un listado completo de todos los elementos de
la población, a esto se le llama MARCO DE MUESTREO.
39
Ejemplo: supongamos que necesitamos extraer una muestra de 10 personas a partir de una
población total de 100 y el primer individuo seleccionado para la muestra es el número 3. A partir de
este, mediante un intervalo de 4 decidido por el investigador, se seleccionarán los próximos
individuos hasta completar la muestra, de manera que serán los números 7,11,15, etc.
VENTAJAS:
• Permite obtener buenas propiedades de representatividad.
• Es un sistema muy rápido y simple, ya que evita la necesidad
de generar números aleatorios de individuos en la muestra.
• Garantiza una selección perfectamente equitativa de la
población, lo que resulta muy útil en la distinción de grupos.
• Evita la necesidad de usar diferentes estratos, aunque existe
variedad de individuos en cada fragmento.
DESVENTAJAS:
• el orden en el que se coloca a la población seleccionada
puede llegar a tener un tipo de periodicidad oculta, la cual
puede coincidir con el intervalo seleccionado, ocasionando
una muestra sesgada.
40
B. DESPROPORCIONADO: permite al investigador realizar una muestra de forma equitativa, sin
importar la cantidad de individuos que conformen la población del estrato.
41
La característica de los conglomerados es que tienen la
misma información que otro conglomerado, pero
poseen unidades mucho más amplias de los
encuestados.
Limitantes: financieras, tiempo, geografía y otros
obstáculos, como por ejemplo la accesibilidad.
Se utiliza para censos.
Se reducen costos, tiempo y energía al considerar que
muchas veces las unidades de análisis se encuentran
encapsuladas o encerradas en determinados lugares físicos o geográficos: Conglomerados.
Unidad de análisis: Sujetos o personas
Unidad muestral en este caso: conglomerado a través del cual se logra el acceso a la unidad de
análisis.
Selección en 2 etapas:
• Los racimos o conglomerados
• En los racimos se seleccionan a los sujetos a ser medidos
42
Unidad N° 7
La variable Z cuando considero un intervalo determinado, voy a tener que el área bajo la curva va a ser 𝟏 − 𝜶 (parte
central), a esto se le denomina nivel de confianza (en porcentaje). Alpha es el área fuera de la zona, como es simétrica
cada zona es igual 𝛼/2 (parte periferial).
43
Determinación del tamaño muestral requerido para estimar 𝞵
El tamaño de la muestra y el tamaño del intervalo de confianza va a depender del tamaño de la población y el nivel de
confianza deseado. Para trabajos científicos se utiliza el 95% de manera aceptable, y para trabajos más finos con un
99%.
Cuando planeamos reunir una muestra aleatoria simple de datos que se usarían para estimar una media poblacional
𝞵, ¿cuántos valores muestrales deben obtenerse? Por ejemplo, suponga que queremos estimar el peso medio de
pasajeros de líneas aéreas (un valor importante por razones de seguridad). ¿Cuántos pasajeros deben seleccionarse al
azar y pesarse? La determinación del tamaño de una muestra aleatoria simple es un aspecto muy importante,
Muchas veces no conocemos el valor de sigma por lo cual debemos saber cómo manejar 𝞼 desconocida al calcular el
tamaño muestral:
Cuando se aplica la fórmula de arriba, existe un dilema práctico: la fórmula requiere que sustituyamos algún valor de
la desviación estándar poblacional 𝞼, pero en realidad ésta suele desconocerse. Cuando se determina un tamaño
muestral requerido (sin construir un intervalo de confianza), existen algunos procedimientos que pueden funcionar
para este problema:
1. Use la regla práctica del intervalo para estimar la desviación estándar como sigue:
𝑟𝑎𝑛𝑔𝑜
𝜎≅ → el rango/4 nos da un valor que es mayor o igual a 𝞼 al menos el 95% de las veces.
4
2. Realice un estudio piloto empezando por el proceso de muestreo. Comience el proceso de muestreo y,
utilizando los primeros valores, calcule la desviación estándar muestral s y úsela en lugar de 𝞼. Entonces, el
valor estimado de 𝞼 puede mejorar conforme se obtienen más datos muestrales, y de este modo es posible
refinar el tamaño muestral.
3. Estime el valor de 𝞼 utilizando los resultados de algún otro estudio hecho con antelación.
FACTOR DE CORRECCIÓN POR POBLACIÓN FINITA:
Cuando la población es finita, es decir que conozco el tamaño, entonces debo hacer una corrección, multiplicando la
fórmula anterior por un factor de corrección.
44
Resulta que hay otra opción cuando la muestra no es muy grande ni infinita (hablamos de muestras pequeñas, es
decir menores de 30).
En estos casos hay que tener sumo cuidado, cuando se habla de una distribución normal de una muestra pequeña
hay que aplicar la teoría de las muestras pequeñas, donde lo que vamos a hacer es usar la distribución t de Student
(proviene de la distribución normal), siempre y cuando no contemos con la varianza poblacional o la desviación
estándar poblacional.
En los casos en que no se conoce tampoco 𝞵 suele conocerse 𝝈𝟐 ; en el caso más realista de 𝝈𝟐 desconocida, los
intervalos de confianza se construyen con la t de Student (otra fdp continua para la que hay tablas) en lugar de la z.
Se obtiene el intervalo de confianza de la siguiente manera:
NABLA: variable que se denomina grados de libertad y es igual al tamaño de la muestra menos 1.
→ 1 − 𝑛 = 𝜈 (igual que en la distribución Ji-Cuadrada).
45
La fórmula que se utilizará para el cálculo de probabilidad en una distribución muestral de proporciones está basada
en la aproximación de la distribución normal a la binomial. Esta fórmula nos servirá para calcular la probabilidad del
comportamiento de la proporción en la muestra.
Para que tenga un comportamiento normal [0,1] esa distribución muestral de proporciones debe ser centrada
respecto de la proporción total, sobre la desviación estándar de la distribución muestral de proporción (primera
fórmula). Es decir que como resultado obtenemos una distribución normal estándar.
Al despejar P de la segunda fórmula podemos observar que no es posible despejar a P por completo, por lo cual
procedemos a realizar una aproximación, donde en lugar de tomar la proporción poblacional, voy a tomar la
proporción muestral o estimada. Entonces reemplazo por la p obteniendo así el intervalo de confianza buscado.
El error máximo que puedo cometer para estimar la proporción poblacional a través de la proporción muestral es el
error dado por la tercer fórmula. Esta fórmula a su vez me permite hallar el tamaño de la muestra, haciendo el despeje
pertinente.
46
DEBEMOS TENER EN CUENTA DOS COSAS:
• Si nosotros conocemos el valor el valor estimado de la proporción muestral utilizamos ese valor
• Si desconocemos el valor estimado de la proporción muestral debemos suponerlo. En tal caso suponemos
que vale 0,25, esto se debe a que para 0,5 tenemos la mayor desviación estándar, teniendo así el máximo
tamaño de muestra que puedo pretender.
Regla del redondeo: para asegurar que el tamaño muestral requerido sea al menos tan grande como debe
ser, si el tamaño muestral calculado no es número entero, redondee al siguiente número entero mayor. Es decir que
si el resultado fuera 6,1 redondeamos directamente a 7.
Uso del factor de corrección para una población finita: cuando tenemos una población
relativamente pequeña con tamaño N, y el muestreo se hace sin reemplazo, modificamos E para incluir el factor de
corrección por población finita que se presenta aquí y despejamos n para obtener así el resultado que se da a
continuación:
49
Unidad N° 8
50
Estimador de varianza
La Varianza es un estimador sesgado, no nos da la varianza poblacional dado que tiende a subestimar su valor. Por
ej.: la Media de las Varianzas obtenidas con la Varianza.
En un muestreo de 1000 muestras (n=25) en que la Varianza de la población es igual a 9.56, la
Varianza ha resultado igual a 9.12, esto no es coincidente. Por eso debemos utilizar lo que
denominaremos como Cuasivarianza, que es un estimador insesgado. Esta, nos daría que la
Media de las Varianzas muestrales es igual a 9.5, resultado que es coincidente con la Varianza
Poblacional.
A la hora de elegir un estimador de 𝜎 2 = 𝑉𝑎𝑟[𝑥] podemos comenzar con el estimador más natural:
1 2 ∑(𝑋𝑖 −𝑋̅)2
𝑠 2 = ∑𝑛𝑖=1(𝑋𝑖 − 𝑋)2 𝑠̃ =
𝑛 𝑛−1
Podemos comprobar que cuando el carácter que se estudia sobre la población es gaussiano, en realidad este es el
estimador máximo verosímil para la varianza. Sin embargo, se comprueba también su falta de sesgo, lo que hace más
adecuado que se utilice como estimador de la varianza el concepto antes mencionado: la cuasivarianza muestral.
51
Si partimos de una población que sigue una distribución Z N(0,1), bastará con encontrar el punto crítico 𝑧𝛼/2 para
tener un intervalo que contenga la media poblacional con probabilidad c
𝑝(−𝑧𝛼/2 < 𝑍 < 𝑧𝛼/2 ) = 𝑐
Si en el caso general tomamos:
𝑋̅ − 𝜇
𝑍= 𝜎
√𝑛
En el caso de poblaciones que no son normales, o que simplemente no sabes si lo son o no, necesitamos que el tamaño
de la muestra sea suficientemente grande (n > 30) para poder aplicar el Teorema Central del Límite para obtener que
el intervalo de confianza para la media 𝜇 de una población con desviación típica conocida 𝜎 es:
𝜎 𝜎
(𝑥̅ − 𝑍𝛼/2 , 𝑥̅ + 𝑍𝛼/2 )
√𝑛 √𝑛
𝑠 𝑠
𝑋̅ − 𝑡𝑛−1 ≤ 𝜇 ≤ 𝑋̅ + 𝑡𝑛−1
√𝑛 √𝑛
52
Estimación por intervalos de confianza para la Varianza 𝝈2
Siempre proviene de una población distribución normal.
(𝑛−1)∗𝑠2 2 (𝑛−1)∗𝑠2
2 ,𝑛−1 <𝜎 < 2 → Población con Distribución Normal
𝑋𝛼/2 𝑋1− 𝛼/2 ,𝑛−1
Ejemplo: a un grupo de individuos se les sometió a una dieta especial y al final se les midió el nivel de colesterol en el
plasma, los resultados fueron los sgtes.:
6.0, 6.4, 7, 5.8, 6, 5.8, 5.9, 6.7, 6.1, 6.5, 6.3, 5.8 [mmol/litro]
Suponiendo que la población del colesterol tiene una distribución normal, construya un IC del 95% para la varianza
poblacional del nivel de colesterol.
Varianza m o varianza solamente en Math da el valor de la varianza muestral. Si quiero la desviación estándar saco la
raíz cuadrada.
53
Unidad N° 9
Correlación y Regresión
Se refiere al afán de predecir cuál es el comportamiento de un conjunto de datos. Es utilizado en el trading, donde
trabajan con estadística para poder tener en claro la tendencia de un conjunto de datos, y así poder predecir que
puede llegar a pasar, sin embargo es tan azaroso que no siempre ocurre. Esto se debe a la gran cantidad de variables.
Si nosotros estuviéramos seguros de que va a ocurrir un suceso, eso no sería probabilidad, sería certeza.
CORRELACIÓN: es un grupo de técnicas para medir la asociación entre dos variables. (Ejemplo: podemos medir la
correlación que hay entre la existencia de fuentes de trabajo y nivel de vida) Podemos correlacionar cosas ridículas,
que no tiene sentido (Por ejemplo la temperatura del día con el hambre, tal vez no tiene correlación pero se puede
medir si tienen algún grado de asociación o no). Hay que utilizar la coherencia y el criterio para correlacionar cosas,
que de alguna forma veamos que están vinculadas. Según la correlación tenemos variables, de las cuales requiere:
• VARIABLE DEPENDIENTE: Variable que se predice o estima. Se muestra en el eje Y.
• VARIABLE INDEPENDIENTE: Variable que proporciona la base para la estimación. Es la variable de
pronóstico. Se muestra en el eje X.
Análisis de correlación
Ejemplo:
Número de llamadas de ventas y
copiadoras vendidas para 10 vendedores:
-Variable independiente: El
número de llamadas de ventas
-Variable Dependiente: El número
de copiadoras vendidas
Covarianza: esto nos permite sectorizar en cuadrantes el gráfico, y de acuerdo a ese resultado podemos estimar
de qué tipo es la relación entre las dos variables, si es positiva o negativa; nos indica que la nube de puntos va a
tener una tendencia ascendente o descendente. Pero no podemos analizar la correlación lineal. El comando de esto
en Excel es ‘=COVAR()’. Es para ver si están asociadas, puede dar 0 pero sin embargo estar relacionadas, en este caso
solo indica que no hay una relación lineal.
Coeficiente de Correlación de Pearson: nos mide el grado de asociación entre las variables.
1. El coeficiente de correlación de la muestra se identifica por letra minúscula r.
2. Muestra la dirección y fuerza de la relación lineal (recta) entre dos variables en escala de intervalo o en escala
de razón. (si la relación no es lineal hay otro tipo de teorías)
3. Varía de -1 hasta +1, inclusive.
4. Un valor cercano a 0 indica que hay poca asociación entre las variables.
5. Un valor cercano a 1 indica una asociación directa o positiva entre las variables.
6. Un valor cercano a -1 indica una asociación inversa o negativa entre las variables.
54
Resulta una relación directa entre el número de llamadas de ventas y el número de copiadoras
vendidas. Como 0.759 está muy cercano a 1.00, se concluye que hay una asociación positiva fuerte.
Esto implica que mientras más llamadas se reciban, más fotocopiadoras venderán.
Un ejemplo de asociación negativa perfecta puede ser a la hora de comprar motores con una cierta
cantidad de dinero, entonces por cada motor (con un costo fijo) nos va a ir disminuyendo en forma
proporcional la cantidad de dinero, teniendo así una correlación lineal inversa perfecta.
Nosotros utilizaremos el Excel para determinar la correlación y no
utilizaremos la fórmula.
Análisis de Regresión
Es una ecuación que expresa la relación lineal (recta) entre dos variables; determina ecuaciones de las rectas.
Estima el valor de la variable dependiente Y con base en un valor seleccionado de la variable independiente X.
55
Si bien por los puntos podemos trazar muchísimas rectas, para determinar cuál es la recta más adecuada debemos
aplicar el concepto del método de los mínimos cuadrados; con el cual obtendremos una recta que minimice los errores
de las distancias o desvíos de cada valor de variable y respecto del valor medio. (recta de regresión). Las incógnitas
son la ordenada al origen y la pendiente de la recta, se hace aplicando los ptos. críticos y hallando los valores de las
incógnitas.
Donde:
̅ → es la media de la Y (la variable dependiente)
𝒚
̅ → es la media de la X (la variable independiente)
𝒙
56
Si 𝑹𝟐 = 𝟎. 𝟓𝟕𝟔 significa que el 57% de la variación en los números de copiadoras vendidas es explicada por la cantidad
de llamadas realizadas y el 43% se debe a otros factores.
En el DD: Hay una correlación positiva. Mientras más estudia, la probabilidad de obtener un puntaje más alto
aumenta.
57
Unidad N° 10
Test de Hipótesis
Hipótesis: es una afirmación o conjetura (suposición) acerca de un parámetro de una o más poblaciones y que está
sujeta a verificación. Explicación provisoria acerca de algo. Toma como base la información que nos da la muestra.
Ejemplo de los parámetros: desviación estándar, media, vida útil, etc.
• HIPÓTESIS NULA: es cualquier hipótesis que se desea probar. Si se comprueba decimos que es acertada, sino
decimos que no es concluyente o se rechaza. La hipótesis nula se rechaza sólo si los datos ofrecen
suficiente evidencia para no considerarla verdadera. Se denota 𝐻0
• HIPÓTESIS ALTERNATIVA: es la hipótesis que se acepta cuando la hipótesis nula es rechazada; es la contraria
a la nula. Se denota 𝐻1
¿Por qué la hipótesis nula se rechaza sólo si los datos ofrecen suficiente evidencia para
no considerarla verdadera?
Dado que las muestras se obtienen al azar, la media en cada muestra será distinta, por lo que esas diferencias no se
atribuyen a problemas en el producto, sino que son causadas por el azar. La media en cada muestra será distinta, por
lo que esas diferencias no se atribuyen a problemas en el producto, sino que son causadas por el azar. Esta vida media
está influenciada por otros factores.
58
Pasos para probar una hipótesis
1. Se establece la hipótesis nula y la hipótesis alternativa.
2. Se selecciona un nivel de significancia para la prueba.
3. Se identifica el estadístico de prueba. (Si es una media, varianza, etc.)
4. Se formula una regla para tomar decisiones. (Dependiendo de si es un análisis de dos o una cola)
5. Se toma una muestra y se llega a una decisión: se acepta o se rechaza la hipótesis nula.
59
Pruebas de hipótesis para la proporción
En el caso de una sola proporción P las hipótesis son:
Hipótesis nula: 𝐻0 : 𝑃 = 𝑝0 → donde 𝑝0 es la constante determinada.
Hipótesis alternativa: se tienen las siguientes tres posibilidades: 𝐻1 : 𝑃 > 𝑝0
𝐻1 : 𝑃 < 𝑝0
𝐻1 : 𝑃 ≠ 𝑝0
El estadístico de prueba es:
𝑥−𝑛𝑃
𝑧𝑐 = → El criterio de aceptación o rechazo de la 𝐻0 es igual al de la prueba de las medias.
√𝑛𝑃𝑄
Donde x es el número de eventos en la muestra, P la proporción supuesta, 𝒑𝟎 = 𝑥/𝑛 la proporción muestral y n el
tamaño de la muestra.
Calculamos 𝒁𝜶 con Excel con nivel de suficiencia 𝛼, INV.NORM.ESTAND(𝛼). Una vez hecho esto, lo comparamos con
el Zc, viendo donde cae este último en función de 𝒁𝜶 para determinar si se acepta o rechaza la hipótesis.
Intervalos de confianza
Media poblacional cuando se conoce 𝜎:
Media poblacional cuando no se conoce 𝜎 y la muestra es mayor que 30:
Cuando la muestra es menor que 30 y no se conoce la desviación estándar poblacional, usamos la variable t o la
distribución t:
60
Error tipo I (𝜶) y error tipo II (β)
Los distintos tipos de errores no son complementarios, si
bien cuando uno aumenta el otro disminuye, no lo hacen
de forma complementaria.
Hipótesis estadísticas
1. Selección de una prueba estadística apropiada
2. Selección de un nivel de significancia (95%)
3. Formulación de la hipótesis: 𝐻0 y 𝐻1
4. Cálculo de estadísticos y comparación con valor
crítico o análisis de la probabilidad asociada (p)
5. Decisión
61
Comparación de dos varianzas
Se calcula el estadístico F (cociente de 2 varianzas, el de mayor valor va en el
numerador y el de menor en el denominador). Utilizamos el comando de
Excel INV.F( , , )
62
¿Qué significan los errores para esta empresa?
Error tipo I : Por causa del azar los bombillos de la muestra tenían una vida muy baja
y se rechaza que la vida media es de 1000 horas siendo verdadera esta hipótesis.
Consecuencia: La empresa va a tratar de mejorar su proceso de producción
innecesariamente, lo cual le hará incurrir en costos mayores.
Error tipo Il: Por causa del azar los bombillos de la muestra tenían una vida muy alta
y se acepta que la vida media es de 1000 horas siendo falsa esta hipótesis.
Consecuencia: La empresa no va a tratar de mejorar su proceso de producción, pero
debería hacerlo, lo cual le generará clientes insatisfechos.
PLANTEAMIENTO DEL PROBLEMA
Roy es un empresario exitoso a nivel local pues es el único distribuidor de electrodomésticos y productos tecnológicos
de la zona. En su tienda los consumidores pueden adquirir aparatos
como lavadoras y refrigeradoras, y también televisores,
computadoras, tablets y otros productos. Roy leyó que hay un fuerte
crecimiento de las compras por Internet a nivel nacional y desea
implementar un sistema de ventas online en su negocio.
Un proveedor le asegura a Roy que en su zona el porcentaje de internautas que realizan compras por Internet es tan
alto como el porcentaje a nivel nacional. Si así fuera, vender sus productos en Internet podría ser una gran oportunidad
para su negocio.
Roy aplicó un cuestionario a una muestra de 50 personas que fueran residentes de la zona y que usaran Internet
regularmente, y les preguntó si habían realizado compras en línea en el último trimestre. La encuesta reveló que 30
internautas de la zona han realizado compras por Internet en ese periodo. Estos datos desanimaron a Roy, pues solo
el 60% de los entrevistados respondió afirmativamente. ¿Son estos datos evidencia suficiente para afirmar que el 74%
de los internautas de la zona realizan compras por Internet? ¿O ese porcentaje es menor?
¿Cómo puede saberse si la afirmación del proveedor es verdadera? ¿O es falso que el 74% de los internautas de la
zona realizan compras por Internet?
Para dar respuesta a esta pregunta hay que realizar una Prueba de Hipótesis. Hay que probar la hipótesis de que el
74% de los internautas de la zona realizan compras por Internet
Se plantea la prueba de hipótesis como:
Hipótesis nula: La proporción (%) de los internautas de la zona que realizan compras por Internet es igual a 74%
Hipótesis alternativa: La proporción (%) de los internautas de la zona que realizan compras por Internet es menor que
74% Simbólicamente se representa: 𝐻0 : 𝑃 = 74%
𝐻1 : 𝑃 < 74% (lo que creemos que nos va a perjudicar)
¿Qué sigue ahora?
Debemos seleccionar un estadístico de prueba, que nos permite establecer una regla para tomar la decisión de aceptar
o rechazar la hipótesis nula.
PROCEDIMIENTO PARA PRUEBAS DE HIPÓTESIS SOBRE LA MEDIA: EJEMPLO
Una empresa fabrica focos que tienen una vida útil de 800 horas, con desviación estándar de 40 horas. Al tomar una
muestra de 40 focos estos tienen una duración promedio de 788 horas. Determine a un nivel de significación del 5%
si la media poblacional de estos focos es efectivamente de 800 horas.
Paso 1: En el ejemplo se desea probar que la media verdadera es de 800 horas: 𝐻0 : 𝜇 = 800
Como en la muestra la media es 788, menor que 800, la hipótesis alternativa lógica es: 𝐻1 : 𝜇 < 800
Paso 2: En el ejemplo se especifica un valor de 𝛼 de 0,05.
Paso 3: En el ejemplo se tiene 𝑛 > 30 y 𝜎 conocida, n= 40 y = 40 horas por lo que se calcula z:
𝑥̅ −𝜇 788-800
𝑧𝑐 = 𝜎 = 40 = -1.897 → valor de z con la muestra, indica si vamos a aceptar o rechazar el
√𝑛 √40
acontecimiento.
Paso 4: En el ejemplo, 𝐻1 : 𝜇 < 800 la prueba es de una cola por lo tanto se tiene
cola izquierda.
De la tabla normal con 𝛼 = 0,05, se obtiene 𝑍𝑡 = −1,645.
Como 𝑍𝑐 = −1,897 y 𝑍𝑡 = −1,645,
|𝑍𝑐 | > |𝑍𝑡 | → 𝑍𝑐 𝑐𝑎𝑒 𝑒𝑛 𝑧𝑜𝑛𝑎 𝑑𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑜 𝑑𝑒 𝐻0 . En este caso podemos decir
que los focos no son eficientes.
Paso 5: En el ejemplo se rechaza la 𝐻0 .
Se rechaza que 𝜇 = 800 y se acepta la 𝐻1 : 𝜇 < 800. La conclusión es que a un
nivel de significación del 5% se rechaza la hipótesis nula 𝐻0 de que la vida media de los focos es de 800 horas y se
63
considera que existe evidencia estadística para aceptar la hipótesis alternativa de que la vida útil de los focos es menor
de 800 horas.
EJEMPLO
Una muestra aleatoria de los archivos de una compañía indica que las órdenes de compra para cierta pieza de
maquinaria fueron entregadas en 10, 12, 16, 14, 15, 10, 11 y 13 días. Anteriormente se había hecho una estimación
del tiempo promedio de entrega el cual resultó ser de 10,5 días. Verifique, a un nivel de significación del 5% si ese
valor se mantiene sin cambio.
Solución
Se tiene que 𝜇0 = 10,5 días, además 𝑛 = 8. De los datos de la muestra se obtiene:
Media muestral = 12,63 (media de los días) y s = 2,264.
Como media muestral es mayor que 𝐻0 , se planteará una hipótesis alternativa de 𝜇 > 0.
Paso 1. Hipótesis: 𝐻0 : 𝜇 = 𝜇0 ↔ 𝐻0 : 𝜇 = 10,5
𝐻1 : 𝜇 > 𝜇0 ↔ 𝐻1 : 𝜇 > 10,5
Paso 2. Especificar el nivel de significación (la probabilidad de error tipo I) con que se desea trabajar.
Los calores usualmente usados son 5% y 1%.
• Si se escoge una probabilidad de error tipo I muy pequeña esto hace que la probabilidad de error tipo II sea
muy grande.
• En el ejemplo se especifica un valor de 𝛼 de 0,05.
De la tabla, con 𝑎 = 0,05 y 𝑔𝑙 = 8 − 1 = 7, se obtiene para una cola 𝑡0 = 1,895.
Paso 3. Se usa el estadístico de prueba apropiado.
𝑥̅ −𝜇 12.63-10.5
Como 𝑛 < 30 y 𝜎 desconocida, se calcula t: t = s = 2.26 = 2.66
√𝑛 √8
Paso 4. Se especifica un criterio de aceptación o rechazo de la hipótesis nula según el
estadístico de prueba usado en el paso anterior.
En términos de t sería: t calculado>t tabulado o teórico
• Si |𝑡𝑐 | > |𝑡𝑡 |: Se rechaza la hipótesis nula 𝐻0 , y se acepta la hipótesis
alternativa 𝐻1 .
• Si |𝑡𝑐 | ≤ |𝑡𝑡 |: se mantiene la hipótesis nula 𝐻0 .
Como |𝑡𝑐 |> |𝑡𝑡 |, se rechaza 𝐻0 , con 𝛼 = 0,05.
Paso 5.
Se concluye que existe evidencia estadística para afirmar que el tiempo promedio de entrega cambió, ahora es mayor
de 10,5 días.
64
Se tienen la siguiente información:
Proporción supuesta: 𝑃 = 0,02 y 𝑄 = 1 − 𝑃 = 1 − 0,02 = 0,98
Tamaño de muestra: 𝑛 = 160
Número de eventos en la muestra: 𝑥 = 2
Proporción muestral: 𝑝 = 𝑥/𝑛 = 2/160 = 0,0125
Se plantean las hipótesis como: 𝐻0 : 𝑃 = 𝑃0 ↔ 𝐻0 : 𝑃 = 0.02
𝐻1 : 𝑃 = 𝑃0 ↔ 𝐻1 : 𝑃 < 0.02
De la tabla de la distribución normal, con 𝛼= 0,05; 𝑍𝛼 =-1,645.
𝑥−𝑛𝑃 2-160*0.02
Se calcula z: 𝑧𝑐 = = = -0.678
√𝑛𝑃𝑄 √160*0.02*0.98
Como el valor absoluto de 𝒁c es menor que el valor absoluto de 𝑍𝛼 o Zt, se cae en la zona de aceptación de la 𝐻0 .
Se acepta 𝐻0 , con 𝛼= 0,05. A un nivel de significancia de 5%, se puede considerar que el encargado de compras de la
empresa cliente tiene razón, el porcentaje es de por lo menos un 2%.
EJERCICIO
Pruebe la aseveración de que la proporción de adultos
que fumaron un cigarrillo la semana pasada es menor
de 0.25, si se tomó una muestra de 1.018 sujetos, de
los cuales 224 dicen que fumaron un cigarrillo la
semana pasada. Use 𝛼 = 0.01.
65
COMPARACIÓN DE DOS MUESTRAS (n < 30): EJEMPLO
En un ejercicio Interlaboratorio dos laboratorios analíticos ejecutan un método estándar para determinar la [𝑷𝑶𝟑𝟒 ]
de una muestra de agua do río. Cada laboratorio efectúa 8 replicados.
66
COMPARACIÓN DE DOS VARIANZAS: EJEMPLO
En un ejercicio Interlaboratorio dos laboratorios analíticos ejecutan un método estándar para determinar la [𝑷𝑶𝟑𝟒 ]
de una muestra de agua do río. Cada laboratorio efectúa 8 replicados.
67
Ejemplo
Las capas de óxido en las obleas semiconductoras son depositadas en una mezcla de gases para alcanzar el espesor
apropiado. La variabilidad del espesor es una característica crítica de la oblea, y lo deseable para los siguientes pasos
de la fabricación 35 tener una variabilidad baja. Para ello se estudian dos mezclas diferentes de gases con la finalidad
de determinar con cuál se obtienen mejores resultados en cuanto 2 la reducción en la variabilidad del espesor del
óxido. Veintiún obleas son depositadas en cada gas. Las desviaciones estándar de cada muestra del espesor del óxido
son 𝑠1 = 1.96 angstroms y 𝑠2 = 2.13 angstroms. ¿Existe evidencia que indique una diferencia en las desviaciones?
Utilice 𝛼 = 0,05.
Decisión y Justificación: tomo 1,18 está entre los dos valores de 𝐻0 no se rechaza se rechaza y se concluye con un
𝛼=0.05 que existe suficiente evidencia para decir que las varianza de las poblaciones son iguales.
ÚLTIMO EJEMPLO
En su incansable búsqueda de un sistema de llenado adecuado, cierta empresa prueba dos máquinas. Robo-fill se
usa para llenar 16 tarros y da una desviación estándar de 1.9 onzas en el llenado. Con Automat-fill se llenan 21
frascos que dan una desviación estándar de 2.1 onzas. Si la empresa tiene que elegir uno de estos sistemas en
función de la uniformidad de llenado. ¿Cuál deberá seleccionar? Use un 𝛼 = 0.10
Decisión y Justificación:
Como 1.22 es menor que 2.20 no se rechaza H0, y se concluye con un = 0.10 que la variación de llenado de la
máquina Robo-Fill no es menor a la de Automat-Fill.
68