Estadística y Control de Calidad - Investigación Tema 2

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 8

2.

1 Inferencia estadística

2.1.1 Concepto
La inferencia estadística es el conjunto de métodos que permiten inducir, a través de una muestra
estadística, el comportamiento de una determinada población. La inferencia estadística, estudia entonces
como, a través de la aplicación de dichos métodos sobre los datos de una muestra, se pueden extraer
conclusiones sobre los parámetros de la población de datos. De la misma manera estudia también el
grado de fiabilidad de los resultados extraídos del estudio.

2.1.2 Muestreo
Se le conoce como muestreo a la técnica para la selección de una muestra a partir de una población
estadística. Al elegir una muestra aleatoria se espera conseguir que sus propiedades sean extrapolables a
la población. Este proceso permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se
alcanzarían si se realizase un estudio a toda la población. En las investigaciones llevadas por
empresarios y de la medicina se usa muestreo extensivamente en recoger información sobre poblaciones.
Cabe mencionar que para que el muestreo sea válido y se pueda realizar un estudio adecuado (que
consienta no solo hacer estimaciones de la población sino estimar también los márgenes de error
correspondientes a dichas estimaciones), debe cumplir ciertos requisitos. Nunca podremos estar
enteramente seguros de que el resultado sea una muestra representativa, pero sí podemos actuar de
manera que esta condición se alcance con una probabilidad alta.

Técnicas de muestreo
Predominan dos métodos para seleccionar muestras de poblaciones: el muestreo no aleatorio o de juicio
y el muestreo aleatorio (que incorpora el azar como recurso en el proceso de selección). Cuando este
último cumple con la condición de que todos los elementos de la población tienen alguna oportunidad de
ser escogidos en la muestra, si la probabilidad correspondiente a cada sujeto de la población es conocida
de antemano, recibe el nombre de muestreo probabilístico.

Tipos
Sin reposición de los elementos: Cada elemento extraído se descarta para la subsiguiente extracción. Por
ejemplo, si se extrae una muestra de una "población" de bombillas para estimar la vida media de las
bombillas que la integran, no será posible medir más que una vez la bombilla seleccionada.
Con reposición de los elementos: Las observaciones se realizan con reemplazo de los individuos, de
forma que la población es idéntica en todas las extracciones. En poblaciones muy grandes, la
probabilidad de repetir una extracción es tan pequeña que el muestreo puede considerarse con reposición
aunque, realmente, no lo sea.
Con reposición múltiple: En poblaciones muy grandes, la probabilidad de repetir una extracción es tan
pequeña que el muestreo puede considerarse con reposición.
Procedimiento
El muestreo es una técnica de selección de miembros individuales o de un subconjunto de la población
para hacer inferencias estadísticas a partir de ellos y estimar las características de toda la población.
También es un método conveniente en cuanto al tiempo y eficaz en función de los costos y, por lo tanto,
constituye la base de cualquier diseño de investigación. Las técnicas de muestreo pueden utilizarse en un
programa informático de encuestas de investigación para una derivación óptima.

2.1.3 Estimación

Estimación en estadística:
Una estimación estadística es un proceso mediante el que establecemos qué valor debe tener un
parámetro según deducciones que realizamos a partir de estadísticos. En otras palabras, estimar es
establecer conclusiones sobre características poblacionales a partir de resultados muestrales.

Ejemplo:
Por ejemplo, supongamos que desea conocer la estatura promedio de los niños en cierta escuela con una
población de 1000 estudiantes. Tomas una muestra de 30 niños, los mides y encuentras que la altura
media es de 56 pulgadas. Esta es su media muestral, el estimador. Usas la media de la muestra para
estimar que la media de la población (tu estimación) es de aproximadamente 56 pulgadas.

2.1.4 Prueba de hipótesis


Una prueba de hipótesis es una regla que especifica si se puede aceptar o rechazar una afirmación acerca
de una población dependiendo de la evidencia proporcionada por una muestra de datos.
Una prueba de hipótesis examina dos hipótesis opuestas sobre una población: la hipótesis nula y la
hipótesis alternativa. La hipótesis nula es el enunciado que se probará. Por lo general, la hipótesis nula
es un enunciado de que "no hay efecto" o "no hay diferencia". La hipótesis alternativa es el enunciado
que se desea poder concluir que es verdadero de acuerdo con la evidencia proporcionada por los datos
de la muestra.

Ejemplo:
el gerente de una fábrica de tuberías desea determinar si el diámetro promedio de los tubos es diferente
de 5 cm. El gerente sigue los pasos básicos para realizar una prueba de hipótesis.
NOTA:
Debe determinar los criterios para la prueba y el tamaño de muestra necesario antes de recolectar los datos.

1.Especificar las hipótesis.


En primer lugar, el gerente formula las hipótesis. La hipótesis nula es: la media de la población de todos
los tubos es igual a 5 cm. Formalmente, esto se escribe como: H0: μ = 5
Luego, el gerente elige entre las siguientes hipótesis alternativas:
Condición que se probará Hipótesis alternativa
La media de la población es menor que el unilateral: μ < 5
objetivo.
La media de la población es mayor que el unilateral: μ > 5
objetivo.
La media de la población es diferente del bilateral: μ ≠ 5
objetivo.

Como tiene que asegurarse de que los tubos no sean más grandes ni más pequeños de 5 cm, el gerente
elige la hipótesis alternativa bilateral, que indica que la media de la población de todos los tubos no es
igual a 5 cm. Formalmente, esto se escribe como H1: μ ≠ 5
2.Elegir un nivel de significancia (también denominado alfa o α).
El gerente selecciona un nivel de significancia de 0.05, que es el nivel de significancia más utilizado.
3.Determinar la potencia y el tamaño de la muestra para la prueba.
El gerente utiliza un cálculo de potencia y tamaño de la muestra para determinar cuántos tubos tiene que
medir para tener una buena probabilidad de detectar una diferencia de 0.1 cm o más con respecto al
diámetro objetivo.
4.Recolectar los datos.
Recoge una muestra de tubos y mide los diámetros.
5.Comparar el valor p de la prueba con el nivel de significancia.
Después de realizar la prueba de hipótesis, el gerente obtiene un valor p de 0.004. El valor p es menor
que el nivel de significancia de 0.05.
6.Decidir si rechazar o no rechazar la hipótesis nula.
El gerente rechaza la hipótesis nula y concluye que el diámetro medio de todos los tubos no es igual a 5
cm.
2.1.5 Método clásico de estimación puntual
Consiste en obtener un único número calculado a partir de las observaciones muestrales, y que es
utilizado como estimación del valor del parámetro (teta). Conjunto de técnicas que permiten dar un valor
aproximado de un parámetro de una población a partir de los datos proporcionados por una muestra.
El objetivo de la estimación puntual es aproximar el valor del parámetro desconocido (tiempo medio de
ejecución de un algoritmo, altura media de las mujeres de una población, diferencia del resultado medio
entre dos tratamientos médicos, proporción de gente que mejora con un tratamiento médico…)
Conclusión
es un proceso o conjunto de métodos para obtener una muestra finita de una población finita o infinita,
con el fin de estimar valores de parámetros o corroborar hipó tesis sobre la forma de una distribución de
probabilidades o sobre el valor de un parámetro de una o más poblaciones.

2.1.6 Estimador Insesgado


Un estimador insesgado es aquel cuya esperanza matemática coincide con el valor del parámetro que se
desea estimar. En caso de no coincidir se dice que el estimador tiene sesgo.
La razón de buscar un estimador insesgado es que el parámetro que deseamos estimar esté bien
estimado. Es decir, si queremos estimar la media de goles por partido de determinado jugador de fútbol,
hemos de utilizar una fórmula que nos proporcione un valor lo más aproximado posible al valor real.
En caso de que la esperanza del estimador no coincida con el verdadero valor del parámetro se dice que
el estimador tiene un sesgo. El sesgo se mide como la diferencia entre el valor de la esperanza del
estimador y el valor verdadero. Matemáticamente se puede notar como sigue:

De la fórmula anterior queda clara la primera parte y la última. Es decir, la esperanza del estimador es
igual al verdadero valor del parámetro. Si se cumple esta igualdad, entonces el estimador es insesgado.
La parte de en medio, matemáticamente más abstracta, se explica en el siguiente párrafo.
La media de todas las estimaciones que puede realizar el estimador para cada muestra diferente, es igual
al parámetro. Por ejemplo, si tenemos 30 muestras diferentes, lo normal es que en cada muestra el
estimador (aunque sea por poco) ofrezca valores diferentes. Si realizamos la media de los 30 valores del
estimador en las 30 muestras diferentes, entonces el estimador debe arrojar un valor igual al verdadero
valor del parámetro.

El sesgo de un estimador
No siempre se puede encontrar un estimador insesgado para calcular cierto parámetro. Así pues, puede
que nuestro estimador tenga sesgo. Que un estimador tenga sesgo no quiere decir que no sea válido.
Simplemente, quiere decirnos que no se ajusta todo lo bien que estadísticamente nos gustaría.
Dicho esto, aunque no se ajuste todo lo bien que nos gustaría, en ocasiones, no nos queda otra opción
que utilizar un estimador con sesgo. Por tanto, resulta fundamental que conozcamos el tamaño de ese
sesgo. Si lo conocemos, podemos utilizar esa información en las conclusiones de nuestra investigación.
Matemáticamente el sesgo se define del siguiente modo:

En la fórmula anterior el sesgo es un valor distinto de cero. Si fuese cero, entonces el estimador sería
insesgado.

Ejemplo de estimador insesgado


Un ejemplo de estimador insesgado lo encontramos en el estimador media. Este estimador es conocido
en estadística como media muestral. Si utilizamos la fórmula matemática descrita al principio llegamos a
la conclusión de que la media muestral es un estimador insesgado. Antes de operar, hemos de tener en
cuenta la siguiente información:

Denotamos X con una barrita arriba a la media muestral.

La fórmula de la media muestral es la suma de los n valores que tenemos dividido entre el número de
valores. Si tenemos 20 datos, n será igual a 20. Tendremos que sumar los valores de los 20 datos y
dividirlo entre 20.

La notación anterior significa esperanza o valor esperado de la media muestral. Coloquialmente,


podríamos decir que se calcula como el valor medio de la media muestral. Con esto en mente, utilizando
las técnicas matemáticas adecuadas podemos deducir lo siguiente:

La esperanza del estimador coincide con ‘mu’ que es el verdadero valor del parámetro. Es decir, la
media real. Todo sea dicho, son necesarios unos conceptos básicos sobre matemáticas, para entender el
anterior desarrollo.
Del mismo modo, podríamos intentar hacer lo mismo con el estimador de la varianza muestral. En lo
que sigue S al cuadrado es la varianza muestral y la letra griega sigma (que parece la letra o con un
palito a la derecha) es la varianza real.

La diferencia de la fórmula anterior es la segunda parte de la primera fórmula. Es decir:

Concluimos que la varianza muestral como estimador de la varianza poblacional es sesgado. Su sesgo
vale igual al valor indicado anteriormente. Así, depende de la varianza poblacional y del tamaño de la
muestra (n). Nótese que si n (tamaño de la muestra) se hace muy grande, el sesgo tiende a cero.
Si cuando la muestra tiende a un tamaño muy grande el estimador se acerca al verdadero valor del
parámetro, entonces estaremos hablando de un estimador asintóticamente insesgado.

2.2 Intervalo De Confianza


Un intervalo de confianza es una técnica de estimación utilizada en inferencia estadística que permite
acotar un par o varios pares de valores, dentro de los cuales se encontrará la estimación puntual buscada
(con una determinada probabilidad).
Un intervalo de confianza nos va a permitir calcular dos valores alrededor de una media muestral (uno
superior y otro inferior). Estos valores van a acotar un rango dentro del cual, con una determinada
probabilidad, se va a localizar el parámetro poblacional.
Intervalo de confianza = media +- margen de error
Conocer el verdadero poblacional, por lo general, suele ser algo muy complicado. Pensemos en una
población de 4 millones de personas. ¿Podríamos saber el gasto medio en consumo por hogar de esa
población? En principio sí. Simplemente tendríamos que hacer una encuesta entre todos los hogares y
calcular la media. Sin embargo, seguir ese proceso sería tremendamente laborioso y complicaría
bastante el estudio.
Ante situaciones así, se hace más factible seleccionar una muestra estadística. Por ejemplo, 500
personas. Y sobre dicha muestra, calcular la media. Aunque seguiríamos sin saber el verdadero valor
poblacional, podríamos suponer que este se va a situar cerca del valor muestral. A esa media le
sumamos el margen de error y tenemos un valor del intervalo de confianza. Por otro lado, le restamos a
la media ese margen de error y tendremos otro valor. Entre esos dos valores estará la media poblacional.
En conclusión, el intervalo de confianza no sirve para dar una estimación puntual del parámetro
poblacional, si nos va a servir para hacernos una idea aproximada de cuál podría ser el verdadero de
este. Nos permite acotar entre dos valores en dónde se encontrará la media de la población.
Factores de los que depende un intervalo de confianza
El cálculo de un intervalo de confianza depende principalmente de los siguientes factores:
 Tamaño de la muestra seleccionada: Dependiendo de la cantidad de datos que se hayan utilizado
para calcular el valor muestral, este se acercará más o menos al verdadero parámetro poblacional.
 Nivel de confianza: Nos va a informar en qué porcentaje de casos nuestra estimación acierta. Los
niveles habituales son el 95% y el 99%.
 Margen de error de nuestra estimación: Este se denomina como alfa y nos informa de la
probabilidad que existe de que el valor poblacional esté fuera de nuestro intervalo.
 Lo estimado en la muestra (media, varianza, diferencia de medias…): De esto va a depender el
estadístico pivote para el cálculo del intervalo.

Ejemplo de intervalo de confianza para la media, asumiendo normalidad y conocida la desviación


típica
El estadístico pivote utilizado para el cálculo sería el siguiente:

El intervalo resultante sería el siguiente:

Vemos como en el intervalo a la izquierda y derecha de la desigualdad tenemos la cota inferior y


superior respectivamente. Por tanto, la expresión nos dice, que la probabilidad de que la media
poblacional se sitúe entre esos valores es de 1-alfa (nivel de confianza).
Veamos mejor lo anterior con un ejercicio resuelto a modo de ejemplo.
Se desea estimar la media del tiempo que un corredor emplea para completar una maratón. Para ello se
han cronometrado 10 maratones y se ha obtenido una media de 4 horas con una desviación típica de 33
minutos (0,55 horas). Se desea obtener un intervalo al 95% de confianza.
Para obtener el intervalo, no tendríamos más que sustituir los datos en la fórmula del intervalo.

El intervalo de confianza, sería la parte de la distribución que queda sombreada en azul. Los 2 valores
acotados por este serían los correspondientes a las 2 líneas de color rojo. La línea central que parte la
distribución en 2 sería el verdadero valor poblacional.
Es importante resaltar que en este caso, dado que la función de densidad de la distribución N(0,1) nos da
la probabilidad acumulada (desde la izquierda hasta el valor crítico), tenemos que encontrar el valor que
nos deja a la izquierda 0,975% (este es 1,96).

También podría gustarte