Ebook Modulo 2
Ebook Modulo 2
Ebook Modulo 2
A LA INVESTIGACIÓN
EMPRESARIAL
Módulo 2: Muestreo e
Inferencia Estadística
ÍNDICE
Módulo I
II. INFERENCIA ESTADÍSTICA: ESTIMACIÓN DE PARÁMETROS… 10
1.1. Muestreo.
El muestreo es una herramienta de la investigación científica, cuya función básica es
determinar que parte de una población debe examinarse, con la finalidad de hacer
inferencias sobre dicha población.
La muestra debe lograr una representación adecuada de la población, en la que se
reproduzca de la mejor manera los rasgos esenciales de dicha población que son
importantes para la investigación. Para que una muestra sea representativa, y por lo
tanto útil, debe de reflejar las similitudes y diferencias encontradas en la población, es
decir ejemplificar las características de ésta.
Para que estos datos estadísticos sean de utilidad tienen que presentar dos
características básicas:
3
Deben ser pertinentes; es decir, deben guardar una relación con el tema a
investigar.
Deben ser insesgado; es decir no deben tener deformaciones o errores
provenientes de los instrumentos empleados en la recolección de los datos.
Para que una muestra sea aceptable desde el punto de vista del análisis estadístico
deberá reunir las siguientes características:
Deberá seleccionarse de manera que sea representativa1 de la población de la cual
se obtuvo.
La muestra además de permitir obtener estimaciones de características de la
población (totales, promedios, porcentajes, entre otros) deberá proporcionar
medidas de la precisión de dichas estimaciones.
La muestra debe ser bastante reducida para evitar gastos innecesarios y lo bastante
amplia para que el error de muestreo sea admisible y además debe reunir las
exigencias de eficiencia, representatividad, seguridad y flexibilidad.
Por otra parte, la aplicación del muestreo presenta algunas limitaciones comunes entre
las cuales tenemos:
4
No permite hacer cálculos, proyecciones o tabulaciones con respecto a sectores
pequeños de una población o cuando se requiere información de cada elemento
de la población, ya que las dudas serían tan importantes que no es posible tener
una acertada predicción en base de la muestra.
El cálculo de los resultados está sujeto a los errores del muestreo en sí y de
errores ajenos al muestreo.
Las investigaciones completas ofrecen un margen más sólido y eficiente de
exactitud que los obtenidos en base a la muestra.
En base a una muestra se dificulta la tabulación cruzada de algunas
características investigadas.
Las probabilidades de error se multiplican en las diferentes operaciones y en las
complicaciones que surjan de su propio mecanismo.
La preparación estadístico-matemática del muestrista para el diseño eficiente de
la muestra en todas sus etapas.
1. Muestreos Probabilísticos
Los métodos de muestreo probabilísticos son aquellos que se basan en el
principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos
tienen la misma probabilidad de ser elegidos para formar parte de una muestra
y, consiguientemente, todas las posibles muestras de tamaño n tienen la misma
probabilidad de ser seleccionadas. Sólo estos métodos de muestreo
probabilísticos nos aseguran la representatividad de la muestra extraída y son,
por tanto, los más recomendables. Dentro de los métodos de muestreo
probabilísticos encontramos los siguientes tipos:
5
A. Muestras Aleatorias Simples: en este tipo de muestreo cada uno de los
individuos de la población tiene la misma posibilidad de ser elegido. El cual
puede ser con reemplazo y sin reemplazo. En este caso, para dar la seguridad
de que la muestra aleatoria no sea viciada, debe emplearse para su constitución
una tabla aleatoria o procesos electrónicos aleatorios.
6
Por ejemplo, el Jefe de la Zona Educativa – Barinas, quiere analizar, el
rendimiento en el área de Física del 9no grado en el Municipio Barinas; para ello
necesita seleccionar 50 Unidades Educativas de un total de 200.
7
2. Muestreos No Probabilísticos
A veces, para estudios exploratorios, el muestreo probabilístico resulta
excesivamente costoso y se acude a métodos no probabilísticos, aun siendo
conscientes de que no sirven para realizar generalizaciones (estimaciones inferenciales
sobre la población), pues no se tiene certeza de que la muestra extraída sea
representativa, ya que no todos los sujetos de la población tienen la misma probabilidad
de ser elegidos. En general se seleccionan a los sujetos siguiendo determinados
criterios procurando, en la medida de lo posible, que la muestra sea representativa.
8
el bajo rendimiento académico, para ello toma como muestras aquellos alumnos que
presentan dificultades de aprendizaje.
1.3. Aplicaciones:
Imaginemos que hemos de recoger una muestra de 20 estudiantes entre los 600 de la
facultad de contabilidad de la USMP.
Muestreo aleatorio simple
Elegiríamos un alumno al azar (probabilidad de elegirlo 1 600. Lo devolvemos
a la población y se elige otro (probabilidad de elegirlo 1 600), y así hasta 20.
Notemos que si no devolviésemos al alumno, entonces, la probabilidad de
escoger al 2º alumno sería 1 599, y ya no todos tendrían la misma probabilidad
de ser elegidos. El problema es que entonces permitimos que se puedan repetir
individuos.
Muestreo sistemático:
Como hemos de elegir 20 alumnos de 600, es decir, 1 de cada 30, se procede
así: Se ordenan los alumnos y se numeran, se elige uno al azar, por ejemplo el
alumno 27, y luego los demás se eligen a partir de este a intervalos de 30
alumnos. Escogeríamos por tanto a los alumnos:
27,57,87,117,147,177,207,237,267,297,327,357,387,417,447,477,507,537,56
7,597 y el alumno 627 ya es otra vez el 27.
Muestreo estratificado: Si queremos que la muestra sea representativa, lo mejor
sería conocer cuántos alumnos de cada curso hay, es decir, si hay 200 alumnos
de 3º ciclo, 150 de 4º ciclo, 150 de 1º ciclo y 100 de 2º ciclo, procederíamos:
9
Como de 600 en total hemos de elegir a 20, de 200 de 3º ciclo hemos de elegir
x:
20 / 600 = x / 200 → x = 4000 / 600 = 6,6 ≈ 7 alumnos de 3º ciclo.
De igual manera podemos calcular los alumnos correspondientes a los demás
ciclos: 20/ 600 = y / 150 → y = 3000 /600 = 5 alumnos de 4º ciclo
20/ 600 = z /150 → z = 3000 /600 = 5 alumnos de 1º ciclo
20/ 600 = t / 100 → t = 2000 /600 = 3,3 alumnos de 2º ciclo
De modo que en nuestra muestra de 20; 7 alumnos son de 3º, 5 de 4º, 5 de 1º
y 3 de 2º.
Para la elección de cada alumno dentro de cada ciclo, utilizamos el muestreo
aleatorio simple.
Muestreo por conglomerados: Supongamos que queremos extraer una muestra
aleatoria de los estudiantes universitarios del país. Necesitaríamos una lista con
todos ellos para poder realizar algún muestreo del tipo de los 3 anteriores, lo
cual es muy difícil de conseguir. Sin embargo, los estudiantes están clasificados
por Universidades, Facultades y Clases. Podemos seleccionar en una primera
etapa algunas Universidades, después algunas facultades al azar, dentro de
las facultades algunas clases y dentro de las clases, algunos estudiantes por
muestreo aleatorio simple. Los conglomerados en cada etapa serían las
diferentes Universidades, las diferentes facultades y las diferentes clases.
Como vemos los conglomerados son unidades amplias y heterogéneas.
10
La Inferencia Estadística es aquella rama de la Estadística mediante la cual se trata
de sacar conclusiones de una población en estudio, a partir de la información que
proporciona una muestra representativa de la misma. También es denominada
Estadística Inductiva o Inferencia Inductiva ya que es un procedimiento para generar
nuevo conocimiento científico.
Uno de los propósitos de la inferencia Estadística es el de conseguir técnicas para
hacer inferencias inductivas y medir el grado de incertidumbre de tales inferencias.
La medida de la incertidumbre se realiza en términos de probabilidad.
La inferencia Estadística puede dividirse en dos apartados de acuerdo con el
conocimiento sobre la distribución en la población.
Inferencia Paramétrica:
Se conoce la forma de la distribución (Normal, Binomial, Poisson, etc .... ) pero se
desconocen sus parámetros. Se realizan inferencias sobre los parámetros
desconocidos de la distribución conocida.
Inferencia No Paramétrica:
Forma y parámetros desconocidos. Se realizan inferencias sobre características que
no tienen porque ser parámetros de una distribución conocida (Mediana,
Estadísticos de Orden).
11
De acuerdo con la forma en que se estudian los parámetros o características desconocidas,
la inferencia puede dividirse en dos apartados:
Estimación:
Se intenta dar estimaciones de los parámetros desconocidos sin hacer hipótesis
previas sobre posibles valores de los mismos.
o Estimación puntual: Un único valor para cada parámetro.
o Estimación por intervalos: Intervalo de valores probables para el
parámetro.
Contraste de Hipótesis:
Se realizan hipótesis sobre los parámetros desconocidos y se desarrolla un
procedimiento para comprobar la verosimilitud de la hipótesis planteada.
La inferencia estadística asume que se cuenta con datos de una muestra y que se desea
conocer cuáles son las características (ya sea la media, la mediana, la curtosis, etc.),
no de esa muestra, sino de la población a la que esa muestra pertenece. A los valores
de esas características a nivel poblacional se les conoce como parámetros y se
representan simbólicamente con letras griegas: µ, σ, π, ρ, β.
Para conocer los valores de los parámetros podemos plantearnos, bien recoger datos
para todos los elementos de la población, algo que puede resultar poco viable en
muchas situaciones prácticas, bien realizar una estimación de los mismos a partir de los
datos de una muestra. Esta segunda vía es mucho más habitual en la práctica, si bien,
supone asumir cierto riesgo de error pues, en cuanto que estimación, el valor que
obtengamos no tiene porque coincidir con el verdadero valor de ese parámetro.
Se pueden diferenciar dos grandes aproximaciones a la estimación de parámetros:
La estimación puntual y la estimación por intervalos. La diferencia básica entre ambas
a la hora de estimar un parámetro es que la primera proporciona una estimación
consistente en un valor concreto (puntual), mientras que la segunda ofrece como
estimación un rango de valores (intervalo). En realidad, la segunda aproximación
consiste en una extensión de la primera, por lo que será la estimación puntal.
Para un determinado parámetro pueden considerarse diferentes funciones matemáticas
que nos ofrezcan estimaciones del mismo. Por ejemplo, parámetros de la media (µX):
12
Se considera como mejor estimador de un parámetro determinado, aquella
función matemática que cumpla las siguientes cuatro propiedades que a
continuación se describen:
1) Ausencia de sesgo: Un estimador es insesgado cuando el promedio de las
estimaciones obtenidas en diferentes muestras es, precisamente, el valor del
parámetro que se pretende estimar.
2) Eficiencia: Esta es una propiedad que se establece en términos comparativos,
esto es, es más eficiente aquel estimador cuyas estimaciones del verdadero
valor del parámetro tienen una variabilidad menor. Precisamente, una forma de
valorar la eficiencia de un estimador es obteniendo la desviación típica de las
estimaciones proporcionadas por el mismo, el conocido como error típico de
estimación del estimador. Así, entre dos estimadores, será mejor aquél que
proporcione un menor error típico de estimación.
3) Consistencia: Un estimador es consistente si la probabilidad de que el valor
estimado coincida con el del parámetro aumenta a medida que el tamaño de la
muestra crece.
4) Suficiencia: Un estimador es suficiente respecto a un parámetro si agota la
información disponible en la muestra aprovechable para la estimación.
13
3.1 Intervalo de confianza para la media :
Los valores de los límites, inferior (L1) y superior (L2), se encuentran aplicando la fórmula
general:
Por consiguiente, los límites del intervalo se obtienen sumando o restando el error estándar
al valor de la media muestral. Específicamente, para hallar el límite inferior (L1) se resta el
error estándar y para hallar el límite superior (L2) se suma el error estándar.
Ejemplo :
= 170 cm ; s = 20 cm
Solución
Si no se especifica el grado de confianza, se utiliza por lo general 95%, lo cual
corresponde a z = 1.96. Conociendo los datos. Se puede aplicar la fórmula:
= Z x s_
Li = 170 - 1.96 x 20/6_ 163.47 cm
Ls = 170 + 1.96 x 20/6 176.53 cm
Por lo tanto, la estatura promedio de los estudiantes de la facultad de contablidad de
la USMP está comprendida entre 163.5 y 176.5 cm, con un grado de confianza del
95%.
14
I.C. 95% (163.5 ; 176.5 cm)
3.2 Intervalo de confianza para la proporción P
Los valores de los límites, inferior (L1) y superior (L2), se encuentran aplicando la
fórmula general:
Por consiguiente, los límites del intervalo se obtienen sumando o restando el error
estándar al valor de la proporción muestral (p). Específicamente, para hallar el límite
inferior (L1) se resta el error estándar y para hallar el límite superior (L2) se suma el
error estándar.
Ejemplo
Supóngase que en una muestra de 2000 personas se encontró que 250 son alcohólicos.
Es decir, el porcentaje de alcohólicos en la muestra es:
p=250/2000x100=12.5%.Calcular el intervalo de confianza al 95%.
15
Por lo tanto, con un nivel de confianza de 95%, se puede afirmar que el porcentaje de
alcoholismo en la población se encuentra entre 11.05% y 13.95%.
Para establecer una fórmula del tamaño de muestra se requiere saber el tipo de
parámetro que se desea estimar, es decir, si el interés es estimar una media aritmética
se requiere una fórmula específica y si se quiere estimar una proporción se considera
otra fórmula.
n = Z² ² N
E²(N-1)+Z²²
Donde:
N: Tamaño de la población que es objeto de estudio.
16
Z: es una desviación normal cuyo valor corresponde al grado de confianza que se
establece.
Es decir:
N.C.: 90% 95% 99%
Z : 1.64 1.96 2.57
²: Varianza poblacional de la población que es objeto de estudio
Para establecer el valor a la varianza, hay que tener en cuenta las siguientes
recomendaciones:
Recurrir a estudios similares que se han realizado y obtener el valor de la varianza
respectiva.
Realizar un estudio piloto para estimar ².
Ejemplo
Interés: Conocer el colesterol promedio de los estudiantes de la Facultad de Medicina
USMP. (Suponemos que son 1800 alumnos)
Solución
Por definición de error relativo. E r = E/X * 100. Por consiguiente, E= Er* X /100.
Como grado de confianza 95%, nos indica que Z=1.96
E= 0.06*210 = 12.6; = 30.
17
Por tanto, n=22 (Para realizar el estudio se requiere como mínimo 22 estudiantes)
n = Z² P (1 – P) N
E²(N-1) + Z²P(1-P)
N: Tamaño de la población
Z: Desviación normal
P: Proporción de unidades que poseen el atributo de interés en la población
E: Error absoluto o precisión de la estimación de la proporción. Por lo general el valor
que asume es de 0.05
Ejemplo
Interés: Conocer la proporción de estudiantes que fuman cigarrillos en la Facultad de
Medicina de La USMP número de estudiantes N= 1700.
Solución
Z= 2.57. De un estudio preliminar se ha determinado que la proporción de alumnos que
fuman cigarrillos es de p=0.40. El error absoluto que se toma en cuenta es de E=0.05
Reemplazando la información en fórmula, se tiene:
n= (2.57)²(0.4)(0.6)(1700) = 462
(0.05)²(1699) + (2.57)²(0.4)(0.6)
18
Por lo menos se requiere para ejecutar el estudio por lo menos 462 estudiantes, con un
grado de confianza del 99% y precisión del 5%.
19
20