Estadística y Control de Calidad - Investigación Tema 2
Estadística y Control de Calidad - Investigación Tema 2
Estadística y Control de Calidad - Investigación Tema 2
1 Inferencia estadística
2.1.1 Concepto
La inferencia estadística es el conjunto de métodos que permiten inducir, a través de una muestra
estadística, el comportamiento de una determinada población. La inferencia estadística, estudia entonces
como, a través de la aplicación de dichos métodos sobre los datos de una muestra, se pueden extraer
conclusiones sobre los parámetros de la población de datos. De la misma manera estudia también el
grado de fiabilidad de los resultados extraídos del estudio.
2.1.2 Muestreo
Se le conoce como muestreo a la técnica para la selección de una muestra a partir de una población
estadística. Al elegir una muestra aleatoria se espera conseguir que sus propiedades sean extrapolables a
la población. Este proceso permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se
alcanzarían si se realizase un estudio a toda la población. En las investigaciones llevadas por
empresarios y de la medicina se usa muestreo extensivamente en recoger información sobre poblaciones.
Cabe mencionar que para que el muestreo sea válido y se pueda realizar un estudio adecuado (que
consienta no solo hacer estimaciones de la población sino estimar también los márgenes de error
correspondientes a dichas estimaciones), debe cumplir ciertos requisitos. Nunca podremos estar
enteramente seguros de que el resultado sea una muestra representativa, pero sí podemos actuar de
manera que esta condición se alcance con una probabilidad alta.
Técnicas de muestreo
Predominan dos métodos para seleccionar muestras de poblaciones: el muestreo no aleatorio o de juicio
y el muestreo aleatorio (que incorpora el azar como recurso en el proceso de selección). Cuando este
último cumple con la condición de que todos los elementos de la población tienen alguna oportunidad de
ser escogidos en la muestra, si la probabilidad correspondiente a cada sujeto de la población es conocida
de antemano, recibe el nombre de muestreo probabilístico.
Tipos
Sin reposición de los elementos: Cada elemento extraído se descarta para la subsiguiente extracción. Por
ejemplo, si se extrae una muestra de una "población" de bombillas para estimar la vida media de las
bombillas que la integran, no será posible medir más que una vez la bombilla seleccionada.
Con reposición de los elementos: Las observaciones se realizan con reemplazo de los individuos, de
forma que la población es idéntica en todas las extracciones. En poblaciones muy grandes, la
probabilidad de repetir una extracción es tan pequeña que el muestreo puede considerarse con reposición
aunque, realmente, no lo sea.
Con reposición múltiple: En poblaciones muy grandes, la probabilidad de repetir una extracción es tan
pequeña que el muestreo puede considerarse con reposición.
Procedimiento
El muestreo es una técnica de selección de miembros individuales o de un subconjunto de la población
para hacer inferencias estadísticas a partir de ellos y estimar las características de toda la población.
También es un método conveniente en cuanto al tiempo y eficaz en función de los costos y, por lo tanto,
constituye la base de cualquier diseño de investigación. Las técnicas de muestreo pueden utilizarse en un
programa informático de encuestas de investigación para una derivación óptima.
2.1.3 Estimación
Estimación en estadística:
Una estimación estadística es un proceso mediante el que establecemos qué valor debe tener un
parámetro según deducciones que realizamos a partir de estadísticos. En otras palabras, estimar es
establecer conclusiones sobre características poblacionales a partir de resultados muestrales.
Ejemplo:
Por ejemplo, supongamos que desea conocer la estatura promedio de los niños en cierta escuela con una
población de 1000 estudiantes. Tomas una muestra de 30 niños, los mides y encuentras que la altura
media es de 56 pulgadas. Esta es su media muestral, el estimador. Usas la media de la muestra para
estimar que la media de la población (tu estimación) es de aproximadamente 56 pulgadas.
Ejemplo:
el gerente de una fábrica de tuberías desea determinar si el diámetro promedio de los tubos es diferente
de 5 cm. El gerente sigue los pasos básicos para realizar una prueba de hipótesis.
NOTA:
Debe determinar los criterios para la prueba y el tamaño de muestra necesario antes de recolectar los datos.
Como tiene que asegurarse de que los tubos no sean más grandes ni más pequeños de 5 cm, el gerente
elige la hipótesis alternativa bilateral, que indica que la media de la población de todos los tubos no es
igual a 5 cm. Formalmente, esto se escribe como H1: μ ≠ 5
2.Elegir un nivel de significancia (también denominado alfa o α).
El gerente selecciona un nivel de significancia de 0.05, que es el nivel de significancia más utilizado.
3.Determinar la potencia y el tamaño de la muestra para la prueba.
El gerente utiliza un cálculo de potencia y tamaño de la muestra para determinar cuántos tubos tiene que
medir para tener una buena probabilidad de detectar una diferencia de 0.1 cm o más con respecto al
diámetro objetivo.
4.Recolectar los datos.
Recoge una muestra de tubos y mide los diámetros.
5.Comparar el valor p de la prueba con el nivel de significancia.
Después de realizar la prueba de hipótesis, el gerente obtiene un valor p de 0.004. El valor p es menor
que el nivel de significancia de 0.05.
6.Decidir si rechazar o no rechazar la hipótesis nula.
El gerente rechaza la hipótesis nula y concluye que el diámetro medio de todos los tubos no es igual a 5
cm.
2.1.5 Método clásico de estimación puntual
Consiste en obtener un único número calculado a partir de las observaciones muestrales, y que es
utilizado como estimación del valor del parámetro (teta). Conjunto de técnicas que permiten dar un valor
aproximado de un parámetro de una población a partir de los datos proporcionados por una muestra.
El objetivo de la estimación puntual es aproximar el valor del parámetro desconocido (tiempo medio de
ejecución de un algoritmo, altura media de las mujeres de una población, diferencia del resultado medio
entre dos tratamientos médicos, proporción de gente que mejora con un tratamiento médico…)
Conclusión
es un proceso o conjunto de métodos para obtener una muestra finita de una población finita o infinita,
con el fin de estimar valores de parámetros o corroborar hipó tesis sobre la forma de una distribución de
probabilidades o sobre el valor de un parámetro de una o más poblaciones.
De la fórmula anterior queda clara la primera parte y la última. Es decir, la esperanza del estimador es
igual al verdadero valor del parámetro. Si se cumple esta igualdad, entonces el estimador es insesgado.
La parte de en medio, matemáticamente más abstracta, se explica en el siguiente párrafo.
La media de todas las estimaciones que puede realizar el estimador para cada muestra diferente, es igual
al parámetro. Por ejemplo, si tenemos 30 muestras diferentes, lo normal es que en cada muestra el
estimador (aunque sea por poco) ofrezca valores diferentes. Si realizamos la media de los 30 valores del
estimador en las 30 muestras diferentes, entonces el estimador debe arrojar un valor igual al verdadero
valor del parámetro.
El sesgo de un estimador
No siempre se puede encontrar un estimador insesgado para calcular cierto parámetro. Así pues, puede
que nuestro estimador tenga sesgo. Que un estimador tenga sesgo no quiere decir que no sea válido.
Simplemente, quiere decirnos que no se ajusta todo lo bien que estadísticamente nos gustaría.
Dicho esto, aunque no se ajuste todo lo bien que nos gustaría, en ocasiones, no nos queda otra opción
que utilizar un estimador con sesgo. Por tanto, resulta fundamental que conozcamos el tamaño de ese
sesgo. Si lo conocemos, podemos utilizar esa información en las conclusiones de nuestra investigación.
Matemáticamente el sesgo se define del siguiente modo:
En la fórmula anterior el sesgo es un valor distinto de cero. Si fuese cero, entonces el estimador sería
insesgado.
La fórmula de la media muestral es la suma de los n valores que tenemos dividido entre el número de
valores. Si tenemos 20 datos, n será igual a 20. Tendremos que sumar los valores de los 20 datos y
dividirlo entre 20.
La esperanza del estimador coincide con ‘mu’ que es el verdadero valor del parámetro. Es decir, la
media real. Todo sea dicho, son necesarios unos conceptos básicos sobre matemáticas, para entender el
anterior desarrollo.
Del mismo modo, podríamos intentar hacer lo mismo con el estimador de la varianza muestral. En lo
que sigue S al cuadrado es la varianza muestral y la letra griega sigma (que parece la letra o con un
palito a la derecha) es la varianza real.
Concluimos que la varianza muestral como estimador de la varianza poblacional es sesgado. Su sesgo
vale igual al valor indicado anteriormente. Así, depende de la varianza poblacional y del tamaño de la
muestra (n). Nótese que si n (tamaño de la muestra) se hace muy grande, el sesgo tiende a cero.
Si cuando la muestra tiende a un tamaño muy grande el estimador se acerca al verdadero valor del
parámetro, entonces estaremos hablando de un estimador asintóticamente insesgado.
El intervalo de confianza, sería la parte de la distribución que queda sombreada en azul. Los 2 valores
acotados por este serían los correspondientes a las 2 líneas de color rojo. La línea central que parte la
distribución en 2 sería el verdadero valor poblacional.
Es importante resaltar que en este caso, dado que la función de densidad de la distribución N(0,1) nos da
la probabilidad acumulada (desde la izquierda hasta el valor crítico), tenemos que encontrar el valor que
nos deja a la izquierda 0,975% (este es 1,96).