Estadística Inferencial

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 14

INTRODUCCIÓN.

El material sobre teoría de la probabilidad constituye la base de la inferencia estadística,


que tiene que ver con el uso de los conceptos de la probabilidad para tratar con la toma de
decisiones en condiciones de incertidumbre. La inferencia estadística está basada en la
estimación y en la prueba de hipótesis.

Matemáticamente, podemos describir muestras y poblaciones al emplear mediciones como


la media, la mediana, la varianza y la desviación estándar. Cuando estos términos describen
las características de una población, se llaman parámetros. Cuando describen las
características de la muestra, se llaman estadísticos. Una estadística es una característica de
una muestra y un parámetro es una característica de la población.

La teoría de muestreo puede emplearse para obtener información acerca de muestras


obtenidas aleatoriamente de una población conocida. Sin embargo, desde un punto de vista
práctico, suele ser más importante y capaz de inferir información acerca de una población a
partir de muestras de ellas.

Un problema importante de la inferencia estadística es la estimación de parámetros


poblacionales o simplemente parámetros a partir de los estadísticos muéstrales
correspondientes o estadísticos, en este breve resumen trataremos de dar un panorama
general de lo que es una estimación de parámetros abarcando desde conceptos hasta los
principales modelos matemáticos.

1
UNIDAD 3. ESTIMACIÓN DE PARÁMETROS.

1.- LOS DOS PROBLEMAS QUE ATIENDE LA ESTADÍSTICA INFERENCIAL

Los dos tipos de problemas que resuelven las técnicas estadísticas son: estimación y
contraste de hipótesis. En ambos casos se trata de generalizar la información obtenida en
una muestra a una población. Estas técnicas exigen que la muestra sea aleatoria. En la
práctica rara vez se dispone de muestras aleatorias, por la tanto la situación habitual es la
que se esquematiza en la figura

Entre la muestra con la que se trabaja y la población de interés, o población diana, aparece
la denominada población de muestreo: población (la mayor parte de las veces no definida
con precisión) de la cual nuestra muestra es una muestra aleatoria. En consecuencia la
generalización está amenazada por dos posibles tipos de errores: error aleatorio que es el
que las técnicas estadísticas permiten cuantificar y críticamente dependiente del tamaño
muestral, pero también de la variabilidad de la variable a estudiar y el error sistemático que
tiene que ver con la diferencia entre la población de muestreo y la población diana y que
sólo puede ser controlado por el diseño del estudio.

Para decidir el tamaño muestral se consideran dos puntos:

En un problema de estimación hay que tener una idea de la magnitud a estimar y del
error aceptable.

En un contraste de hipótesis hay que saber el tamaño del efecto que se quiere ver.

2. ESTIMACIÓN.

Un estimador es una estadística de muestra utilizada para estimar un parámetro de


población. La media de la muestra puede ser un estimador de la media de la población, y la
porción de la muestra se puede utilizar como estimador de la porción de la población.

2
También podemos utilizar el alcance de la muestra como un estimador del alcance de la
población.
Cuando hemos observado un valor numérico específico de nuestro estimador, nos referimos
a ese valor como una estimación. Una estimación es un valor específico observado de una
estadística. Hacemos una estimación si tomamos una muestra y calculamos el valor que
toma nuestro estimador en esa muestra.

En inferencia estadística se llama estimación al conjunto de técnicas que permiten dar un


valor aproximado de un parámetro de una población a partir de los datos proporcionados
por una muestra. Por ejemplo, una estimación de la media de una determinada característica
de una población de tamaño N podría ser la media de esa misma característica para una
muestra de tamaño n.

Conceptos.

Estimación: valor específico de un estimador, calculado en base a una muestra


dada.

Estimación de intervalo: intervalo de valores utilizado para estimar un parámetro


de población desconocido.

Estimación de parámetros: Aproximación del valor de parámetros poblacionales


desconocidos mediante el empleo de estadísticos muestrales.

Estimación puntual: un solo número que se utiliza para estimar un parámetro de


población desconocido.

Estimador: estadística de muestra utilizada para estimar un parámetro de


población. Conceptualmente es una variable aleatoria.

Estimador coherente: estimador que produce valores que se acercan más al


parámetro de la población conforme aumenta el tamaño de la muestra.

Estimador eficiente: estimador con un menor error estándar que algún otro
estimador del parámetro de la población, esto es, cuanto más pequeño sea el error
estándar de un estimador, más eficiente será ese estimador.

Estimador imparcial: estimador de un parámetro de población que, en promedio,


asume valores por encima del parámetro de la población con la misma frecuencia, y
al mismo grado, con que tiende a tomarlos por debajo del parámetro de la
población.

Estimador suficiente: estimador que utiliza toda la información disponible en los


datos correspondientes a un parámetro.

3
Intervalo de confianza: intervalo de valores que tiene designada una probabilidad
de que incluya el valor real del parámetro de la población.

Límites de confianza: límites inferior y superior de un intervalo de confianza.


Nivel de confianza: probabilidad que los estadísticos asocian con una estimación
de intervalo de un parámetro de población, ésta indica qué tan seguros están de que
la estimación de intervalo incluirá el parámetro de la población. Probabilidad,
designada de antemano, de que un intervalo de confianza incluya al valor del
parámetro desconocido.

Propiedades de un buen estimador: características deseables de un estimador,


para lograr la mejor aproximación posible de un parámetro poblacional.
[]

3. TIPOS DE ESTIMADORES.

Podemos hacer dos tipos de estimaciones concernientes a una población:

Una estimación puntual, es sólo u número que se utiliza para estimar un parámetro
de población desconocido. Una estimación puntual a menudo resulta insuficiente,
debido a que sólo tiene dos opciones: es correcta o está equivocada.

Es decir, consiste en un solo estadístico muestral que se usa para estimar el valor verdadero
de un parámetro de una población que es desconocido. Por ejemplo, la media muestral x es
un estimador puntual de la media poblacional µ y la proporción muestral pˆ es un estimador
puntual de la verdadera proporción poblacional p.

Cuando usamos una estimación puntual, sabemos que aunque usemos un método bueno de
estimación es prácticamente improbable que el valor de la estimación coincida con el
verdadero valor del parámetro, así que sería conveniente acompañar nuestra estimación con
alguna medida que nos permitiera expresar la cercanía del estimador al parámetro. Una
solución a ello no los brindan los estimadores por Intervalos de Confianza.

Una estimación de intervalo, es un intervalo de valores que se utiliza para estimar


un parámetro de población.

Esta estimación indica el error de dos maneras: por la extensión del intervalo y por la
probabilidad de obtener el verdadero parámetro de la población que se encuentra dentro del
intervalo.

Es la estimación de un parámetro de la población dado por dos números que forman un


intervalo que contiene al parámetro con una cierta probabilidad.

4. CARACTERÍSTICAS DE UN BUEN ESTIMADOR.

4
Imparcialidad. Se refiere al hecho de que una media de muestra es un estimador no
sesgado de una media de población, porque la media de distribución de muestreo de
las medias de muestras tomadas de la misma población es igual a la media de la
población misma. Podemos decir que una estadística es un estimador imparcial (o
no sesgado) si, en promedio, tiende a tomar valores que están por encima del
parámetro de la población y la misma extensión con la que tiende a asumir valores
por debajo del parámetro de población que se está estimando.

Eficiencia. Se refiere al tamaño del error estándar de la estadística. Si comparamos


dos estadísticas de una muestra del mismo tamaño y tratamos de decidir cuál de
ellas es un estimador más eficiente, escogeríamos la estadística que tuviera el menor
error estándar o la menor desviación estándar de la distribución de muestreo. Tiene
sentido pensar que un estimador con un error estándar menor (con menos
desviación) tendrá una mayor oportunidad de producir una estimación más cercana
al parámetro de población que se está considerando.

Coherencia. Una estadística es un estimador coherente de un parámetro de


población si al aumentar el tamaño de la muestra, se tiene casi la certeza de que el
valor de la estadística se aproxima bastante al valor del parámetro de la población.
Si un estimador es coherente, se vuelve más confiable si tenemos tamaños de
muestras más grandes.

Suficiencia. Un estimador es suficiente si utiliza una cantidad de la información


contenida en la muestra que ningún otro estimador podría extraer información
adicional de la muestra sobre el parámetro de la población.

Una estadística de muestra dada no siempre es el mejor estimador de su parámetro de


población correspondiente. Considere una población distribuida simétricamente, en la que
los valores de la mediana y de la media coinciden. En este caso, la media de la muestra
sería un estimador imparcial de la mediana de la población debido a que asumiría valores
que en promedio serían iguales a la mediana de la población.

También, la media de la muestra sería un estimador consistente de la mediana de la


población, puesto que, conforme aumenta el tamaño de la muestra, el valor de la media de
la muestra tenderá a acercarse bastante a la mediana de la población. Y la media de la
muestra sería un estimador más eficiente de la mediana de la población que la mediana
misma, ya que en muestras grandes, la media de la muestra tiene una desviación estándar
menor que la mediana de la muestra.

Al mismo tiempo, la mediana de la muestra de una distribución distribuida simétricamente


sería un estimador imparcial y consistente de la media de la población, pero no el más
eficiente estimador, porque en muestras grandes su error estándar es mayor que el de la
media de la muestra.

5. ESTRUCTURA GENERAL DE UN INTERVALO DE CONFIANZA

5
Se llama intervalo de confianza en estadística a un par de números entre los cuales se
estima que estará cierto valor desconocido con una determinada probabilidad de acierto.
Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de
una muestra, y el valor desconocido es un parámetro poblacional.

La probabilidad de éxito en la estimación se representa por 1 - α y se denomina nivel de


confianza. En estas circunstancias, α es el llamado error aleatorio o nivel de significación,
esto es, una medida de las posibilidades de fallar en la estimación mediante tal intervalo.[1]

El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un


intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de confianza),
mientras que para un intervalo más pequeño, que ofrece una estimación más precisa,
aumentan sus posibilidades de error.

Para la construcción de un determinado intervalo de confianza es necesario conocer la


distribución teórica que sigue el parámetro a estimar, θ. Es habitual que el parámetro se
distribuya normalmente. También pueden construirse intervalos de confianza con la
desigualdad de Chebyshov.

En definitiva, un intervalo de confianza al 1 - α % para la estimación de un parámetro


poblacional θ que sigue una determinada distribución de probabilidad, es una expresión del
tipo [θ1, θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α, donde P es la función de distribución de
probabilidad de θ.

6. INTERPRETACIÓN DE (1- α)

El nivel de confianza es la probabilidad a priori de que el intervalo de confianza a calcular


contenga al verdadero valor del parámetro. Se indica por 1-α y habitualmente se da en
porcentaje 100 (1-α)%. Hablamos de nivel de confianza y no de probabilidad ya que una
vez extraída la muestra, el intervalo de confianza contendrá al verdadero valor del
parámetro o no, lo que sabemos es que si repitiésemos el proceso con muchas muestras
podríamos afirmar que el 100 (1-α)% de los intervalos así construidos contendría al
verdadero valor del parámetro.

Los valores que se suelen utilizar para el nivel de confianza son el 95%, 99% y 99,9%, que
se corresponden con valores α de 0,05 y 0,01 respectivamente.

Valor α

También llamado nivel de significación. Es la probabilidad (en tanto por uno) de fallar en
nuestra estimación, esto es, la diferencia entre la certeza (1) y el nivel de confianza (1-α).
Por ejemplo, en una estimación con un nivel de confianza del 95%, el valor α es (100-
95)/100 = 0,05

6
7. INTERVALO DE CONFIANZA PARA LA MEDIA DE UNA POBLACIÓN, 2
CONOCIDA

Supongamos que disponemos de una población en la que tenemos una v.a. con distribución
con σ conocida (de estudios previos, por ejemplo). Obtenemos una muestra de tamaño n y
deseamos estimar la media µ de la población.
El estimador puntual de la misma es la media muestral cuya distribución muestral es
conocida

La cantidad

Tendrá distribución normal estándar.


Sobre la distribución N(0 , 1) podremos seleccionar dos puntos simétricos -z α/2 y zα/2 , tales
que

Selección de los puntos críticos para el cálculo del intervalo de confianza.


 
Sustituyendo Z por su valor en este caso particular

7
Despejando la media muestral y la varianza
 

 
Que verifica las condiciones de la definición. 
Así, el intervalo de confianza para la media puede escribirse como

En la práctica, de todos los posibles valores de tenemos uno sólo y por tanto un único
intervalo de todos los posibles para distintas muestras

 
La importancia del intervalo de confianza para la estimación está en el hecho de que el
intervalo contiene información sobre el estimador puntual (valor central del intervalo) y
sobre el posible error en la estimación a través de la dispersión y de la distribución muestral
del estimador. Obsérvese que el error en la estimación está directamente relacionado con la
distribución muestral del estimador y con la varianza poblacional, e inversamente
relacionado con el tamaño muestral.
El gráfico siguiente ilustra la interpretación del nivel de confianza para el intervalo de
confianza para la media de una distribución normal con varianza conocida. Para los
distintos posibles valores de la media, representados mediante su distribución muestral,
obtenemos distintos intervalos de confianza. La mayor parte incluye al verdadero valor del
parámetro, pero el resto no. Concretamente el 95% lo incluye y el 5% no, si el nivel de
confianza es del 95%.
En la práctica disponemos de una única repetición del experimento, y por tanto de un único
intervalo de confianza, el señalado en negro en el gráfico, por ejemplo. Confiamos en que
nuestro intervalo sea de la mayoría que con tiene al verdadero valor objetivo aunque no
tenemos la seguridad de que sea así, tenemos concretamente un riesgo del 5% de
equivocarnos.

8
 

Interpretación del nivel de confianza en el intervalo para la media de una distribución


normal.

8. ERROR DE ESTIMACIÓN.

Es una medida de su precisión que se corresponde con la amplitud del intervalo de


confianza. Cuanta más precisión se desee en la estimación de un parámetro, más estrecho
deberá ser el intervalo de confianza y, si se quiere mantener o disminuir el error, más
ocurrencias deberán incluirse en la muestra estudiada. En caso de no incluir nuevas
observaciones para la muestra, más error se comete al aumentar la precisión. Se suele
llamar E, según la fórmula E = θ2 - θ1.

Tres factores que lo determinan:

Cuando se mide una cantidad, ya sea directa o indirectamente, la medida que se obtiene no
es necesariamente el valor exacto de tal medida, ya que el resultado obtenido estará
afectado por errores debidos a la multiplicidad de factores. Algo en apariencia tan sencillo
como cronometrar el período de oscilación de un péndulo simple, sufrirá errores debidos a
la precisión del cronómetro, los reflejos del cronometrador, las corrientes de aire, el número
de medidas efectuadas ... errores que se propagarán a cualquier cantidad derivada de ésta
que queramos determinar, como por ejemplo velocidad o aceleración.

En estos casos es necesario estimar el error cometido al efectuar una medida o serie de
medidas. El conjunto de reglas matemáticas dedicado a su estudio se conoce como teoría de

9
errores, y resulta imprescindible en el análisis de un conjunto de datos experimentales en
cuanto a la fiabilidad de estas mediciones.

9. DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA PARA MEDIAS

Siempre que tomamos una muestra, perdemos algo de información útil con respecto a la
población. El error de muestre se puede controlar si seleccionamos una muestra cuyo
tamaño sea el adecuado. En general, cuanta más precisión se quiera, más grande será el
tamaño de la muestra necesaria.

Si no conocemos la desviación estándar de la población, podemos utilizar el alcance de la


población para obtener una estimación burda pero manejable de la desviación estándar.
Sabemos que más menos tres desviaciones estándar incluyen 99,7% del área total bajo la
curva normal, esto es, más tres desviaciones estándar y menos tres desviaciones estándar de
la media incluyen casi toda el área de la distribución.

Los datos que tenemos que incluir en la fórmula para calcular el número de sujetos
necesarios en la muestra (N) son:

Zα/2: valor de Z correspondiente al riesgo α fijado. El riesgo α fijado suele ser 0,05 y
Zα/2 de 1,96.
s2: Varianza de la distribución de la variable cuantitativa que se supone que existe
en la población.
i: Precisión con que se desea estimar el parámetro (2i es la amplitud del intervalo de
confianza).

Existen tres factores para determinar el tamaño de la muestra.

El nivel de confianza deseado, expresado normalmente mediante Z


El máximo error permitido, E
La variación de la población expresada por S

Su fórmula es:      n = ( ZS / E ) 2

10. INTERVALO DE CONFIANZA PARA LA PROPORCIÓN  DE UNA


POBLACIÓN

Sea X una variable binomial de parámetros n y p (una variable binomial es el número de


éxitos en n ensayos; en cada ensayo la probabilidad de éxito (p) es la misma, por ejemplo:
número de diabéticos en 2000 personas).

10
Si n es grande y p no está próximo a 0 ó 1 (np ³ 5) X es aproximadamente normal con

media np y varianza npq (siendo q = 1 - p) y se puede usar el estadístico (proporción

muestral), que es también aproximadamente normal, con error típico dado por
en consecuencia, un IC para p al 100(1 - a)% será

Es decir, la misma estructura que antes:

Obsérvese que para construirlo, ¡se necesita conocer p!. Si n es grande (>30) se pueden
substituir p y q por sus estimadores sin mucho error, en cualquier caso como pq £ 0,25 si se
substituye pq por 0,25 se obtiene un intervalo más conservador (más grande).

Ejemplo: En una muestra de 100 pacientes sometidos a un cierto tratamiento se obtienen 80


curaciones. Calcular el intervalo de confianza al 95% de la eficacia del tratamiento.

¿Qué significa este intervalo? La verdadera proporción de curaciones está comprendida


entre, aproximadamente, 72% y 88% con un 95% de probabilidad.

11. DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA PARA


PROPORCIONES

Para calcular el tamaño de muestra para la estimación de proporciones poblacionales hemos


de tener en cuenta los mismos factores que en el caso de la media. La fórmula que nos
permitirá determinar el tamaño muestral es la siguiente:

Donde

11
: z correspondiente al nivel de confianza elegido

P: proporción de una categoría de la variable

e: error máximo

N: tamaño de la población

12. INTERVALO DE CONFIANZA PARA LA MEDIA DE UNA POBLACIÓN, 2


DESCONOCIDA

Si y s son la media y la desviación estándar de una muestra aleatoria de una población


normal con varianza σ2, desconocida, un intervalo de confianza de
(1-α) 100% para µes:

Donde tα/2 es el valor t con v = n - 1 grados de libertad, que deja un área de σ/2 a la derecha.

Se hace una distinción entre los casos de σ conocida y σ desconocida al calcular las
estimaciones del intervalo de confianza. Se debe enfatizar que para el primer caso se utiliza
el teorema del límite central, mientras que para σ desconocida se hace uso de la distribución
muestral de la variable aleatoria t. Sin embargo, el uso de la distribución t se basa en la
premisa de que el muestreo se realiza de una distribución normal.

En tanto que la distribución tenga forma aproximada de campana, los intervalos de


confianza se pueden calcular cuando la varianza se desconoce mediante el uso de la
distribución t y se puede esperar buenos resultados.

Con mucha frecuencia los estadísticos recomiendan que aun cuando la normalidad no se
pueda suponer, con σ desconocida y n 30, s puede reemplazar a σ y se puede utilizar el
intervalo de confianza:

Por lo general éste se denomina como un intervalo de confianza de muestra grande. La


justificación yace sólo en la presunción de que con una muestra grande como 30, s estará
muy cerca de la σ real y de esta manera el teorema del límite central sigue valiendo. Se
debe hacer énfasis en que esto es solo una aproximación y que la calidad de este enfoque
mejora a medida que el tamaño de la muestra crece más.

12
CONCLUSIÓN

La Inferencia Estadística es la parte de la estadística matemática que se encarga del


estudio de los métodos para la obtención del modelo de probabilidad (forma funcional y
parámetros que determinan la función de distribución) que sigue una variable aleatoria de
una determinada población, a través de una muestra (parte de la población) obtenida de la
misma.

Los dos problemas fundamentales que estudia la inferencia estadística son el


"Problema de la estimación" y el "Problema del contraste de hipótesis"

Cuando se conoce la forma funcional de la función de distribución que sigue la


variable aleatoria objeto de estudio y sólo tenemos que estimar los parámetros que la
determinan, estamos en un problema de inferencia estadística paramétrica; por el contrario
cuando no se conoce la forma funcional de la distribución que sigue la variable aleatoria
objeto de estudio, estamos ante un problema de inferencia estadística no paramétrica.

Un  estimador es un valor que puede calcularse a partir de los datos muestrales y que
proporciona información sobre el valor del parámetro. Por ejemplo la media muestral es un
estimador de la media poblacional, la proporción observada en la muestra es un estimador
de la proporción en la población.

Una estimación es puntual cuando se obtiene un sólo valor para el parámetro. Los
estimadores más probables en este caso son los estadísticos obtenidos en la muestra, aunque
es necesario cuantificar el riesgo que se asume al considerarlos. Recordemos que la
distribución muestral indica la distribución de los valores que tomará el estimador al
seleccionar distintas muestras de la población. Las dos medidas fundamentales de esta
distribución son la media que indica el valor promedio del estimador y la desviación típica,
también denominada error típico de estimación, que indica la desviación promedio que
podemos esperar entre el estimador y el valor del parámetro.

Más útil es la estimación por intervalos en la que calculamos dos valores entre los que se
encontrará el parámetro, con un nivel de confianza fijado de antemano.

Llamamos Intervalo de confianza al intervalo que con un cierto nivel de confianza, contiene
al parámetro que se está estimando.

Nivel de confianza es la "probabilidad" de que el intervalo calculado contenga al verdadero


valor del parámetro. Se indica por 1-a y habitualmente se da en porcentaje (1-a)100%.
Hablamos de nivel de confianza y no de probabilidad ya que una vez extraída la muestra, el
intervalo de confianza contendrá al verdadero valor del parámetro o no, lo que sabemos es
que si repitiésemos el proceso con muchas muestras podríamos afirmar que el (1-a)% de los
intervalos así construidos contendría al verdadero valor del parámetro.

13
BIBLIOGRAFÍA

Douglas Montgomery & George Runger, Probabilidad y estadística aplicadas a la


ingeniería, McGraw-Hill

http://www.itch.edu.mx/academic/industrial/estadistica1/cap03.html

http://www.stadcenterecuador.com/contenidos/estadistica-inferencial.html?q=contenidos
%2Festadistica-inferencial.html&showall=1

http://es.wikipedia.org/wiki/Intervalo_de_confianza

http://es.wikipedia.org/wiki/Estimaci%C3%B3n_estad%C3%ADstica

http://escuela.med.puc.cl/recursos/recepidem/EPIANAL9.HTM

http://www.hrc.es/bioest/esti_medias.html

14

También podría gustarte