5 Teoria de La Estimacion

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 26

Teoría de la Estimación Estadística

Fundamentos Estadísticos

Francisco Marzal Baró


Curso 2016/17

Versión 1
Tª de la Estimación 2

Índice
Conceptos básicos.
Distribución muestral.
Teorema central del límite.

Teoría de la Estimación:
Estimación puntual
Error cuadrático medio
Criterios de Evaluación de estimadores

Estimación por intervalos


Intervalo de probabilidad.
Intervalo de confianza.
¿Desviación estándar, error estándar, intervalo de normalidad o de
confianza?
Cálculo del tamaño de muestra.

NOTA: Algunos gráficos y tablas están sacados del libro: Métodos Estadísticos. J.M. Doménech Massons.
Tª de la Estimación 3

Conceptos básicos.

Población: Todos los individuos.

Parámetro: Cualquier índice medido en una población. Su valor es


único. Ej: , , .

Estimador: Es la regla o procedimiento expresado por medio de una


fórmula que se utiliza en una muestra para deducir la estimación.
Ejemplo → ̂ ∑

Estimación puntual: Valor específico que toma el estimador para


una muestra determinada.

Ejemplo → ̅ 25 ; 4.8
Tª de la Estimación 4

Distribución muestral.
Distribución muestral: Es la distribución de frecuencias
de los valores que puede tomar el estadístico a lo largo de
todas las posibles muestras de un mismo tamaño n,
extraídas aleatoriamente de la población.
n=10
El azar hace fluctuar las medias alrededor de la media poblacional.

La media de la distribución muestral coincide con la media de la


población.

Al aumentar el tamaño n de las muestras se obtienen medias más n=20


parecidas a μ y disminuye la variabilidad de la distribución muestral. (La
precisión aumenta con el tamaño de la muestra).

Si las muestras son grandes, las gráficas son simétricas respecto al eje n=40
vertical.

Error estándar (EE ó SE): Se denomina así a la desviación


estándar de la distribución muestral. El responsable es el error
aleatorio, debido al azar, es imposible de controlar.
Mide la desviación absoluta del valor verdadero desconocido.
Tª de la Estimación 5

Teorema central del límite.


“Aunque las muestras procedan de una
distribución NO normal, la distribución de la
variable media, cuando es el promedio de un
número suficiente grande de observaciones
independientes xi, se aproxima de forma
satisfactoria a una ley normal”.

Condiciones:
Var. Cuantitativas: A efectos prácticos, muchos
autores consideran el promedio muestral
como normalmente distribuido a partir de
n=30, (solo es válido para asimetrías moderadas).

Var. Categóricas: nπ ≥ 5 y n(1-π) ≥ 5. siendo: n: nº de sujetos.


π: proporción de una variable.
Tª de la Estimación 6

Caso de muestras pequeñas

La distribución muestral va a depender de la distribución de probabilidad


de la población.

Variables categóricas:
Binarias : la distribución muestral sigue la ley Binomial.

Variables cuantitativas:
Puede seguir innumerables distribuciones.
Si la población sigue una ley Normal, la distribución muestral también sigue la
ley Normal.
Tª de la Estimación 7

Teoría de la Estimación Estadística


Consiste en hallar con determinada precisión el valor de un parámetro a partir
de la información contenida en una muestra representativa de la población.

Los valores que puede tomar el parámetro desconocido son infinitos.

El error es inherente al proceso de medida.


Por el azar.
Defectos del instrumento de medida.
Imposible tener datos exactos con una muestra.

¿Cómo hacer la estimación?


Estimación puntual: Estimación del parámetro mediante un único valor. Ej: Media
muestral. Es improbable que el valor calculado coincida con el verdadero valor del
parámetro.

Estimación por intervalos: Es la estimación del parámetro por dos números entre los
cuales se puede considerar que se encuentra el valor verdadero. Se conoce como
precisión (e), y refleja el error de muestreo.
Tª de la Estimación 8

Estimación puntual

Una estimación puntual de un parámetro poblacional desconocido (µ ,σ ,…), es un


número que se utiliza para aproximar el verdadero valor de dicho parámetro
poblacional.

Si la muestra es representativa de la población, podemos esperar que los


estadísticos calculados en las muestras tengan valores semejantes a los parámetros
poblacionales. La estimación consiste en asignar los valores de los estadísticos
muestrales a los parámetros poblacionales.

Los estadísticos con que obtenemos las estimaciones se denominan estimadores.

Ejemplo:
Se dispone de 100 notas seleccionadas aleatoriamente. Se desea estimar la Media de las
notas del curso. La Media de la muestra (el estimador), es igual a 5.6 y atribuimos este valor
(la estimación) a la Media del colegio.
Tª de la Estimación 9

Error cuadrático medio (ECM – MSE)


Sirve para evaluar la variación existente entre un estimador y el
parámetro que se quiere calcular.

Uso: Se utiliza para comparar estimadores y para modelado estadístico.

Interpretación: 0, tiene precisión perfecta → !"#$% & '"#$


Sí ( ) ( → ( *% + % ,- " ( .
Fórmula:

7
./0 ( (12 3 4 5 . 4 16 8 ( 5 '$ 9(:

El tamaño del error vendrá determinado: 2: Parámetro desconocido.


• Por la variancia del estimador, es decir, por su precisión. (: Estimador de 2.
• Por la diferencia entre el valor medio que tome el estimador y el parámetro E : Esperanza de T.
desconocido. V : Variancia de T.
Si la media del estimador coincide con θ habremos obtenido un buen estimador.
Tª de la Estimación 10

Criterios de evaluación de los estimadores: (Fischer, 1970)


NO todos los estimadores son apropiados. Los estimadores deben satisfacer ciertos
requisitos, y por esta razón, interesa conocer algunos criterios a fin de utilizar los que
sean adecuados según las circunstancias de la estimación.

Criterios de evaluación de los estimadores:


Sin sesgo: Cuando el valor de la media de la distribución muestral coincide con el verdadero
valor del parámetro.
Ej: La Media es un estimador insesgado ; La Variancia es un estimador sesgado.
Eficiente: Entre varios estimadores sin sesgo de un mismo parámetro, el más eficiente es el
que tiene el error estándar más pequeño (mínima variancia).

Consistente: A medida que aumenta el tamaño de la muestra, el valor del estimador tiende
hacia el verdadero valor del parámetro.
Ej: La ̅ ? -" son estimadores consistentes.
Suficiente: Ningún otro estimador puede suministrar más información sobre el parámetro.

@
Ej: Estimador (proporción observada): * → es un estimador sin sesgo, consistente, eficiente
@AB
y suficiente del parámetro π:
Tª de la Estimación 11

Intervalo de probabilidad (IP 1-α)


(intervalo de predicción)
(IP 1-α), permite predecir, con un riego α de equivocación, el
intervalo en el cual estará contenida la media (o proporción)
observada en una muestra de tamaño n extraída al azar de una
población normal.

Riesgo de error α (valor arbitrario). Consenso: 5% (α=0.05)

CD/ : Constante correspondiente a la ley Normal estandarizada.

Desvío: Representado por épsilon (ε). Indica la magnitud del error de


muestreo.
F CD/ ∙

Intervalo: Es simétrico. Cuanto más estrecho más informativo, pero


mayor probabilidad de error.
HI 1 1 K: LF

Unidades: las mismas que la variable X.


α/2 0.25 0.10 0.05 0.025 0.005 0.0005
Condiciones de aplicación: 1-α 50% 80% 90% 95% 99% 99.9%
Población distribuida según la ley normal, o
Zα/2 0.674 1.282 1.645 1.96 2.576 3.291
Condición de Muestra grande.
Tª de la Estimación 12

Ejercicio: Intervalo de probabilidad


La distribución de la riqueza de la población activa en Angola sigue una ley Normal con
una media de 50 €/mes, y una desviación estándar (σ) de 4.5 €/mes. Si extraemos al azar
una muestra de 100 personas trabajadoras, ¿cuál es el intervalo que contendría la media
con una probabilidad del 95%?

Datos: ̅ 50€/! ⋯σ 4.5€/! ⋯n 100 %","Q"#$%

1-α = 0.95 α= 0.05 α/2= 0.025 CD/ 1.96


4.5
0.45
& 100

Desvío: F CD/ ∙ 1.96 ∙ 0.45 0.882


IP 95% de ̅ : 50 L 0.882 → 49.12 " 50.88 T/!

Interpretación: El IP 49.12 " 50.88 T/!


tiene una probabilidad del 95% de contener las
medias observadas en muestras de tamaño n=100 extraídas al azar de una población
normal con media 50T/! y variancia 20.25 9T/! : .
Tª de la Estimación 13

Intervalo de confianza (IC 1-α)


Tª de la Estimación 14

Intervalo de confianza H 1 1 K.
Para poblaciones infinitas Para poblaciones finitas
9U ≫ W: (muestreo sin reposición)

De una media $
̅$ L & 1 1; K /2
9 : √& 2 [1&
Condición: ̅$ L & 1 1; K /2
$

- Distrib. Normal en la población. & [11
- Muestra grande & Y 30 .
De una
*$91 1 *$:
proporción *$ L \K /2 *$91 1 *$: [ 1 &
9 : &
*$ L \K /2 ∙
Condición: & [11
*$ ) 0.5 &* Y 5 ? & 1 1 * Y 5
*$ ] 0.5 &*^ Y 5 ? &91 1 *^ : Y 5
De una mediana 1º Ordenar los valores.
2º Calcular el nº de orden de los límites superior e inferior. Se realiza aproximando
9 $ #: el resultado conseguido con las siguientes fórmulas:
& & & &
(para distribuciones %_` 1 \K /2 ∙ a 15 5 \K /2 ∙
asimétricas) 2 2 2 2
Tª de la Estimación 15

Ejemplo. Intervalo de Confianza


Tª de la Estimación 16

Ejercicio Intervalo de Confianza.


La Dirección de la empresa anterior quiere que calculéis la estimación del
IC al 95% y al 99%. Datos: n 344 ; *b 0.759
α/2 0.25 0.10 0.05 0.025 0.005 0.0005
1-α 50% 80% 90% 95% 99% 99.9%

IC 95%: Zα/2 0.674 1.282 1.645 1.96 2.576 3.291

IC 99%:

Comparar los tres intervalos calculados:


IC 90% 0.759 ± 0.038 0.721 a 0.797
IC 95%
IC 99%
Tª de la Estimación 17

Puntualizaciones
α es un valor arbitrario.

Una vez establecido el riesgo α que asumimos, no conviene cambiarlo


durante el estudio. Si se cambia las conclusiones no serán homogéneas.

Si el riesgo α es excesivamente pequeño, incluyendo casos extremos poco


probables, provoca un aumento de la amplitud del intervalo, perdiendo
potencia del estudio.

Aumentando el número de la muestra, aumenta


la precisión del IC.

La amplitud del IC también depende del nivel de confianza asumido. Si


disminuimos el nivel de confianza, disminuye el intervalo (es una falsa imagen
de mayor precisión).
Tª de la Estimación 18

¿Desviación estándar, error estándar, intervalo de


normalidad o de confianza?
Que representa Explicación
Media ̅ y Desviación Cuando se quiere realizar una Debe evitarse: ̅ L e (Representación
estándar ( ̅ ) descripción de una variable, indica confusa)
dispersión de los datos.
10.2 "ñ$ 9e 0.5 "ñ$ :
Intervalo de normalidad Cuando se desea representar la Es la zona donde se encuentran los
variabilidad de las observaciones. valores de edad del 95% central de los
̅ L CD/ ∙ e sujetos.
Si no siguiese la ley normal, el intervalo
vendría dado por los percentiles 2.5 y 97.5
8.5 "ñ$ → 7.8 " 9.2 "ñ$
Media y Error Estándar El EE es la desviación estándar de Es difícil de entender, carece de
la distribución muestral. interpretación práctica. Evitar dar el dato
34 años 9 1.4 : en una publicación.

Intervalo de confianza Si se desea representar la precisión Interpretación: El procedimiento de


i con que la media kl estima la media construcción asegura que el 95% de los
̅$ L ∙
& 1 1; K /2
& µ de la población origen de la IC así construidos contienen el valor del
muestra. parámetro ̅ .
6.5 "ñ$ 9H 95%: 5.1 " 7.9 "ñ$ : No puede ser interpretado como la
probabilidad de que un intervalo concreto
contenga ̅ .
Tª de la Estimación 19

Técnicas de muestreo

Son procedimientos para elegir una parte de la población.


Para poder realizar la inferencia estadística, la muestra elegida debe ser
representativa de la población.

Requisitos:
Basadas en el azar.
Calcular la magnitud del error estándar producido por el muestreo.
Obtención de muestras representativas de la población.

La precisión aumenta, incrementando el números de sujetos en la


muestra.
Tª de la Estimación 20

Cálculo del tamaño de muestra


(para un diseño de encuesta basado en una muestra aleatoria simple)
Cuando se diseña un estudio, se trata de calcular el tamaño n que tiene que
tener la muestra para estimar el estadístico buscado con la precisión ε deseada.

Estimación para poblaciones infinitas


Media
& \ D/ ∙
F
Proporción 91 1 :
& \ D/

F

La variancia y la proporción de la población suelen ser desconocidas, se


sustituyen por información obtenida de estudios previos o del estudio piloto.

Error absoluto o precisión 9F:. Se debe considerar:


El rango de variación de la variable. ε debe ser pequeño respecto al intervalo que contiene la
mayor parte de los datos ( desviación estándar,…).
El propósito del estudio.
Tª de la Estimación 21

Ejemplo tamaño de muestra


Calcular el tamaño de muestra necesario para estimar la altura media de la
población activa española con una confianza del 95%. Estudios anteriores la
sitúan en 176 cm con una desviación estándar de 20 cm.

Error absoluto de ± 2 cm:


20
& \D/ ∙ 1.96 ∙ 384
F 2

Error absoluto de ± 3 cm:


20
& 1.96 ∙ 171
3
Tª de la Estimación 22

Ejercicio

Calcular con un error absoluto del 3% y una confianza del 99% el


tamaño de muestra necesario para estimar la prevalencia de utilización
de internet en los hogares españoles. Estudios previos indican el valor
de prevalencia de internet en España en un 75%.

¿y si la confianza fuese del 95%?


Tª de la Estimación 23

Tamaño de muestra para poblaciones finitas

El muestreo debe ser exhaustivo (sin reemplazamiento).

Corrección a partir del valor de n calculado para poblaciones infinitas:


&
& &
15
[

Leyenda:
&: &º # tQ $ # -" !t %" *"%" *$,-"u $& &+ & " .
&∗ : &º # tQ $ # -" !t %" *"%" *$,-"u $& +& " .
N: Sujetos de la población finita.
Tª de la Estimación 24

Ejercicio

Calcular el tamaño de muestra del ejercicio anterior, si realizamos el


estudio en un municipio de 2000 habitantes.

Con una confianza del 99%: 9& 1382:

Con una confianza del 95%: 9& 800:


Tª de la Estimación 25

Estimación de porcentajes pequeños.


El muestreo aleatorio simple no es adecuado si queremos estudiar objetos con
características poco frecuentes. En estos casos debemos acudir a otros
procedimientos:

Muestreo estratificado:
Segmentar a la población en grandes grupos homogéneos, y extraer una submuestra de cada
estrato con un muestreo aleatorio simple.
Ej: segmentar por edad, por sexo, religión, nivel de estudios.

Muestreo por conglomerados:


Conglomerados: Existe una organización de pequeños grupos naturales. Ej: clases, fábricas,
centros de salud, ciudades,…
Consiste en elegir al azar conglomerados y se encuesta a todos los sujetos del conglomerado.
Es necesario que en cada conglomerado exista heterogeneidad en la variable a estudiar.

Elección:
Variabilidad Variabilidad
Intra grupos Inter grupos
M. Estratificado pequeña Grande

M. conglomerados grande pequeña


Tª de la Estimación 26

MUCHAS GRACIAS
POR VUESTRA
ATENCIÓN.

También podría gustarte