Trabajo Colaborativo Estadistica Ii Subgrupo 2

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 23

INTRODUCCION

A continuación, se tiene la información de la Gran Encuesta Integrada de Hogares (GEIH), realizada

por el DANE. Esta encuesta se hace en las 13 ciudades principales del Colombia (Bogotá, Medellín, Cali, Barranquilla,

Bucaramanga, Manizales, Pasto, Pereira, Ibagué, Cúcuta, Villavicencio, Montería, Cartagena) y 11 ciudades

intermedias (Tunja, Florencia, Popayán, Valledupar, Quibdó, Neiva, Riohacha, Santa Marta, Armenia, Sincelejo, San

Andrés). Esta encuesta, se solicita información sobre las condiciones de empleo de las personas (si trabajan, en qué

trabajan, cuánto ganan, si tienen seguridad social en salud o si están buscando empleo), además de las características

generales de la población como sexo, edad, estado civil y nivel educativo, se pregunta sobre sus fuentes de ingresos. La

GEIH proporciona al país información a nivel nacional, cabecera -resto, regional, departamental, y para cada una de las

capitales de los departamentos.

En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los elementos de una población), se

selecciona una muestra, entendiendo por tal una parte representativa de la población. En ese sentido, escoja un tipo de

muestreo y argumente la viabilidad de esta técnica para la base de datos dada. Para seleccionar una muestra debe tenerse

en cuenta el cómo seleccionar los elementos que formarán parte de la muestra (tipo de muestreo) y cuántos

elementos debemos seleccionar (Tamaño de muestra). Base de datos: en el archivo de Excel (https://goo.gl/zB3Ntf) se

tiene información sobre las características generales de las personas que respondieron en un mes en particular.
OBJETIVOS

Objetivo General:

Desarrollar de manera práctica los conocimientos obtenidos durante las semanas de estudio del
módulo de Estadísticas II, los cuales serán de mucha importancia en nuestro futuro desarrollo
profesional, de esta manera lograremos tener un mejor análisis e interpretación de todos los temas y
practicas vistas al realizar cada uno de los puntos de este trabajo utilizando las herramientas y
conocimientos de los módulos estudiados.

Objetivos Específicos:

- Perfeccionar nuestras capacidades interpretativas y de análisis a través del desarrollo de


ejercicios prácticos de estadística inferencial aplicando todos los conocimientos obtenidos
durante el desarrollo del curso.

- Desarrollar nuestra capacidad de trabajo en grupo a través del desarrollo de este trabajo
llevando a cabo semana a semana los puntos buscando entre todos obtener el resultado más
coherente teniendo en cuenta las opiniones de cada uno de los integrantes y el
acompañamiento del tutor.

- Revisar desarrollar e identificar todas las principales características del muestreo y las
distribuciones muéstrales, también la estimación de parámetros e intervalos de confianza
según nos los solicitaba cada punto del trabajo.
.
DESARROLLO DE LA ACTIVIDAD

PARTE 1 (SEMANA 3-5)


SEMANA 3 SELECCIÓN DE MUESTRA

Utilizando la variable género P (6020) determine el tamaño de la muestra seleccionando adecuadamente y justificando:

A. Fórmula a desarrollar
B. Estimación de la proporción de mujeres
C. Nivel de confiabilidad. Error de estimación

El tipo de muestreo escogido es el muestreo SISTEMATICO porqué la viabilidad de esta técnica es


sencilla y puede ser utilizada con bastante grado de confiabilidad en la práctica y también porque la
población de la base de datos dada es numerosa y este tipo de muestreo es recomendado en estos
casos.

El muestreo sistemático, es aquel que se realiza en un lugar donde pasan las unidades muéstrales y
se selecciona una unidad cada elemento que pasan, hasta cumplir los n necesarios.

POBLACION

Se realizó una encuesta en las 13 ciudades principales de Colombia (Bogotá, Medellín, Cali,
Barranquilla, Bucaramanga, Manizales, Pasto, Pereira, Ibagué, Cúcuta, Villavicencio, Montería,
Cartagena) y 11 Ciudades Intermedias (Tunja, Florencia, Popayán, Valledupar, Quibdó, Neiva,
Riohacha, santa Marta, Armenia, Sincelejo, San Andrés).

Esta encuesta, se solicita información sobre las condiciones de empleo de las personas (si
trabajan, en qué trabajan, cuánto ganan, si tienen seguridad social en salud o si están buscando
empleo), además de las características generales de la población como sexo, edad, estado civil y
nivel educativo, se pregunta sobre sus fuentes de ingresos. La GEIH proporciona al país información
a nivel nacional, cabecera - resto, regional, departamental, y para cada una de las capitales de los
departamentos.
MUESTRA

Se tomaron los datos de una encuesta realizada

N
F
n
N= 60356 y n= 100 entonces la fracción de muestreo es:

60356
F= =
100 603, 5660 604
3. CLASIFICACION DE VARIABLES
Utilizando la variable género P (6020) determine el tamaño de la muestra seleccionando
adecuadamente y justificando:

a. Fórmula a desarrollar
b. Estimación de la proporción de mujeres
c. Nivel de confiabilidad
d. Error de estimación

a. Fórmula a desarrollar
La fórmula para calcular el tamaño de muestra cuando se conoce el tamaño de la
población es la siguiente.

Utilizando la variable género P (6020) determine el tamaño de la muestra seleccionando


adecuadamente y justificando:

a. Fórmula a desarrollar
b. Estimación de la proporción de mujeres
c. Nivel de confiabilidad
d. Error de estimación

a. Fórmula a desarrollar
La fórmula para calcular el tamaño de muestra cuando se conoce el tamaño de la
población es la siguiente.
En donde, N = tamaño de la población Z = nivel de confianza, P = probabilidad de éxito, o
proporción esperada Q = probabilidad de fracaso D = precisión (Error máximo admisible
en términos de proporción).

b. Estimación de la proporción de mujeres

número de mujeres 31969


c. P= x
= = 0,529673934 0,53
total, de la muestra 60356

d. Nivel de confiabilidad

2
60356 x 1.96 x 0.53 10.53 57.757,225
n = = 1,044.906 1,045
603561 x 0.03 1.962 x0.5310.53
2
5 4,3190,956

a Error de estimación
EZ a pq 1.96 0.530.47
.0154 0 , 0
2 n 1.960.0154
1045
SEMANA 4
INTERVALO DE CONFIANZA PARA DOS VARIABLES NUMÉRICAS
Un investigador, cree determinar que existen diferencias entre los niveles de estudio de los
hombres y las mujeres en Colombia. Para determinar lo anterior, se sugiere utilizar la base de
la hoja “muestra” encontrada en la semana 3:

1. Utilizando la variable escolaridad (ESC) y sexo (P6020), realice un histograma


para los hombres y mujeres. Según los resultados, ¿Existen diferencias?

30
0
25 1
2
20
3
4
15
5
10 6
7
5
8
0 9
Hombre Mujer

(Gráfico de Frecuencia)

Del gráfico anterior se tiene existen mucha diferencia en cuanto a la comparación entre las
variables escolaridad (ESC) y sexo (P6020) hombres y mujeres, es decir el nivel de
escolaridad en mujeres se encuentra entre 0 a 19 mientras que en los hombres de 0 a 20,
también se puede ver que 30 mujeres se encuentran en un nivel de escolaridad 10, y 17
mujeres tienen nivel de escolaridad 0 del total que son 157. Por otro lado, se puede ver que
hay 27 hombres con un nivel de escolaridad 5 y 24 hombres con nivel de escolaridad 1, del
total que son 207 mujeres.

En cuanto a la escolaridad (ESC) para el sexo masculino estas variables constan de


157 hombres la constan un nivel de escolaridad de (0 a 20) puede observarse que en esa
columna hay unas casillas en NA
En cuanto a la escolaridad (ESC) para el sexo femenino estas variables constan de 207
mujeres con niveles de escolaridad de (0 a 19) puede observarse que en esa columna hay
unas casillas en NA
1. Asumiendo que los datos son normales, calcule un intervalo de confianza del
95% para estimar, la escolaridad promedio de los hombres y de las mujeres de forma
individual, en los niveles de estudio de Bachiller, Tecnólogo y Universitario.

Hombres
Intervalo de confianza para la media. Varianza Desconocida

Un intervalo de confianza del (1 - α) 100% para µ está dado por


𝑥̅- 𝑡 (𝛼/2, 𝑛−1) 𝑆/√𝑛 ≤µ ≤ 𝑥̅+ 𝑡 ( /2 ,𝑛−1) 𝑆/√

Donde 𝑡 (,𝛼−1) es el punto de la distribución t, con (n -1) grados de libertad, que


2
deja a su derecha un área de α/2.

Del resumen de los datos se tienen:

n =148

𝑋̅= 7.42568
S= 4.80234
Para α=0.05 entonces 𝑡 (, −1)𝛼 = 𝑡 (0. 05,148−1) = 1.976233
2 2

Reemplazando en la ecuación anterior se tiene:

4. 80234 4. 80234
7.42568- (1.976233) ≤ µ ≤ 7.42568 + (1.976233)
√148 √148

6.64556≤ µ ≤ 8.2058

Por lo que el intervalo pedido para la escolaridad de los hombres es [6.64556,


8.2058], es decir la media verdadera se encuentra en algún lugar entre 6.64556 y
8.2058

Mujeres
Intervalo de confianza para la media. Varianza Desconocida
𝑆 𝑆
𝑥 -𝛼𝑡 (, −1)

≤µ ≤ 𝑥+𝑡𝛼( ,−1) √
2 2

Donde 𝑡 (,𝛼−1) es el punto de la distribución t, con (n -1) grados de libertad, que


2
deja a su derecha un área de α/2.

Del resumen de los datos se tienen:

n =158
𝑋̅= 7.72785
S= 5.07855
Para α=0.05 entonces 𝑡 (, −1)𝛼 = 𝑡 (0. 05,158−1) = 1.975189
2 2

Reemplazando en la ecuación anterior se tiene:

5. 078553 5. 078553
7.72785- (1.975189) ≤ µ ≤ 7.72785 + (1.975189)
√158 √158
6.92981≤ µ ≤ 8.52588

Por lo que el intervalo pedido para la escolaridad de las mujeres es [6.92981,


8.52588], es decir la media verdadera se encuentra en algún lugar entre 6.92981 y 8.52588.
2. Asumiendo que los datos son normales, calcule un Intervalo de confianza al
95% para estimar la diferencia de los niveles de escolaridad para los hombres y mujeres, en
los niveles de estudio de Bachiller, Tecnólogo y Universitario.

En este caso calculemos un intervalo de confianza para µ1 − µ2 Dos distribuciones


normales varianzas desconocida.
Un intervalo de confianza del (1 - α) 100% para µ1 − µ2 está dado por:

𝜎12 𝜎22 𝜎12 𝜎22


(𝑥1 − 𝑥2) -𝑍𝛼/2 √ 1
+ ≤ µ1 − µ2 ≤ (𝑥1 − 𝑥2) +𝑍𝛼/2 √ 1
+
2

Donde 𝑍α/2. es el punto crítico de la distribución z que deja a su derecha un área


de α/2.

Luego del resumen de los datos anteriores se tiene

𝑥1 =7.42568

𝑥2 =7.72785

𝜎12 =20.0913

𝜎22 =25.7916

𝑛1 =148

𝑛2 =158

Con un nivel de confianza del 95% se tiene α=0.05 entonces 𝑍α/2. = 𝑍0.05/2. =1.96

Luego reemplazando los datos en la ecuación anterior se tiene:

20. 0913) (25. 7916)


(7.42568-7.72785) – (1.96) √ ( 148
+ 158
≤ µ1 − µ2 ≤ (7.42568-7.72785)
20. 0913) (25. 7916)
+ (1.96) √ ( 148
+ 158

-1.37389≤ µ1 − µ2 ≤ 0.769557
Por lo que el intervalo al 95% para la diferencia de los niveles de escolaridad para los hombres y mujeres es.

(-1.37389, 0.769557)
HISTOGRAMA HOMBRES
50

40 Intervalo de Marca
Frecuencia
FRECUENCIA

clase de clase
30
Desde Hasta
20 0 2 28 1,00
3 5 35 4,00
10 6 8 20 7,00
0 9 11 44 10,00
1 2 3 4 5 6 7 12 14 20 13,00
ESCOLARIDAD 15 17 6 16,00
18 20 4 19,00
70
60 HISTOGRAMA MUJERES
50
FRECUENCIAS

Intervalo de Marca de
40 Frecuencia
clase clase
30 Desde Hasta
0 2 38 1,00
20
3 5 40 4,00
10 6 8 22 7,00
0
9 11 58 10,00
1 2 3 4 5 6 7 8 9
12 14 26 13,00
15 17 18 16,00
ESCOLARIDAD 18 20 3 19,00
21 23 0 22,00
24 26 1 25,00

Comparando los histogramas tenemos que si existe diferencia entre las variables escolaridad para hombres y
para mujeres, en la primera clase tenemos que hay más mujeres que alcanzan un nivel de escolaridad de 0-2,
en la segunda clase hay más mujeres que alcanzan un nivel de escolaridad de 3-5, en la tercera clase la
diferencias es menor pero siguen habiendo más mujeres que hombres con un nivel de escolaridad de 6-8, en la
cuarta clase tenemos que hay más mujeres que hombres con un nivel escolaridad de 9-11, en la quinta clase
tenemos que hay más hombres que mujeres que tienen un nivel de escolaridad de 12-14, en las siguientes
clases siempre predominan la cantidad de mujeres que la cantidad de hombres. Por lo tanto, se podría inferir
que las mujeres tienen mayor nivel de escolaridad que los hombres.
El histograma muestra una distribución con una cola larga a la derecha, es decir, muestra un sesgo positivo.
Analizando el histograma, vemos que existe un pico en la clase [9-11], donde hay más hombres con nivel de
escolaridad entre 9 y 11, en los primeros niveles de escolaridad hay más hombres mientras que en los últimos
niveles de escolaridad hay pocos hombres. La distribución del histograma también se puede examinar por medio
del coeficiente de asimetría que en este caso es de 0,087053218, es decir, la distribución tiene una asimetría
positiva y se alarga a valores mayores que la media. Por otra parte, la curtosis me indica que tan achatada está la
curva, en este caso tenemos una curtosis pequeña -0,841265202

 HOMBRES

MEDIAS CENTRALES HOMBRES


Media 7,719745223
Error típico 0,390754911
Mediana 8
Moda 11
Desviación estándar 4,896144997
Varianza de la
muestra 23,97223583
Curtosis -0,841265202
Coeficiente de
asimetría 0,087053218
Rango 20
Mínimo 0
Máximo 20
Suma 1212
Cuenta 157

El histograma muestra una distribución con una cola larga a la derecha, es decir, muestra un sesgo positivo.
Analizando el histograma, vemos que existe un pico en la clase [9-11], donde hay más hombres con nivel de
escolaridad entre 9 y 11, en los primeros niveles de escolaridad hay más hombres mientras que en los últimos
niveles de escolaridad hay pocos hombres. La distribución del histograma también se puede examinar por medio
del coeficiente de asimetría que en este caso es de 0,087053218, es decir, la distribución tiene una asimetría
positiva y se alarga a valores mayores que la media. Por otra parte, la curtosis me indica que tan achatada está la
curva, en este caso tenemos una curtosis pequeña -0,841265202.

 La media: La media es de 7,719745223, cuyo valor corresponde al promedio de los niveles de escolaridad de
los hombres.

 La mediana: La mediana es 8, y es el valor que se ubica en el centro de la distribución. El nivel de


escolaridad de 8 es el valor central de ordenar los niveles de escolaridad de los hombres ascendentemente.

 La moda: En este caso, la moda corresponde a 11, es decir el nivel de escolaridad más repetido, es decir con
mayor número de hombres es 11.
 Desviación estándar: En este caso la desviación estándar es de 4,896144997, esto quiere decir que en
promedio se alejan 4,896144997 de la media de los niveles de escolaridad de los hombres.

 Rango: En este caso el rango de 20, por lo que encontramos que el nivel mínimo de escolaridad es 0 y el
nivel máximo de escolaridad es 20, el rango se construye como la resta del nivel de escolaridad máximo
menos el nivel de escolaridad mínimo.

 MUJERES

MEDIDAS CENTRALES MUJERES


Media 8,067961165
Error típico 0,358485268
Mediana 9
Moda 11
Desviación estándar 5,145231533
Varianza de la muestra 26,47340753
Curtosis -0,796918169
Coeficiente de asimetría 0,043810057
Rango 24
Mínimo 0
Máximo 24
Suma 1662
Cuenta 206

El histograma muestra una distribución con una cola larga a la derecha, es decir, muestra un sesgo positivo.
Analizando el histograma, vemos que existe un pico en la clase [9-11], donde hay más mujeres con nivel de
escolaridad entre 9 y 11.

En los primeros niveles de escolaridad hay más mujeres mientras que en los últimos niveles de escolaridad
hay pocas mujeres. La distribución del histograma también se puede examinar por medio del coeficiente de
asimetría que en este caso es de 0,043810057, es decir, la distribución tiene una asimetría positiva y se alarga
a valores mayores que la media. Por otra parte, la curtosis me indica que tan achatada está la curva, en este
caso tenemos una curtosis pequeña -0,796918169.

Si comparamos los dos histogramas tenemos que el coeficiente de asimetría en el histograma de los niveles de
escolaridad de los hombres es mayor al coeficiente de asimetría de los niveles de escolaridad de las mujeres,
esto quiere decir que el histograma de los hombres tiene una cola más pesada.
Por otro lado, la curtosis del histograma de la variable en estudio de las mujeres es mayor que la curtosis del
histograma de la variable en estudio de los hombres.

Esto indica que el histograma de los hombres es más achatado que el histograma de las mujeres, además en el
histograma de las mujeres hay una mayor concentración de los datos alrededor de la media.

 La media: La media es de 8,067961165, cuyo valor corresponde al promedio de los niveles de escolaridad de
las mujeres.

 La mediana: La mediana es 9, y es el valor que se ubica en el centro de la distribución. El nivel de


escolaridad de 9 es el valor central de ordenar los niveles de escolaridad de las mujeres ascendentemente.

 La moda: En este caso, la moda corresponde a 11, es decir el nivel de escolaridad más repetido, es decir con
mayor número de mujeres es 11.

 Desviación estándar: En este caso la desviación estándar es de 5,145231533, esto quiere decir que en
promedio se alejan 5,145231533 de la media de los niveles de escolaridad de las mujeres.

 Rango: En este caso el rango de 24, por lo que encontramos que el nivel mínimo de escolaridad es 0 y el
nivel máximo de escolaridad es 24, el rango se construye como la resta del nivel de escolaridad máximo
menos el nivel de escolaridad mínimo.
SEMANA 5
PRUEBA DE HIPOTESIS PARA DOS VARIABLES NOMINALES

Un investigador, cree determinar que los hombres asisten más a un colegio oficial que las mujeres en Colombia. Para determinar
lo anterior, use la “muestra” encontrada en la semana 3:

1. Utilizando la variable si actualmente asiste a un establecimiento oficial (P6175) y sexo


(P6020), realice un diagrama de barras comparativo para los hombres y mujeres en un solo gráfico. Según los resultados, ¿Existen
diferencias?

 Con un nivel de confianza del 95%, realice una estimación de los hombres que asisten a un establecimiento oficial.

𝑍 = 1,96
𝑛 = 45
𝑝 = 0,73

𝑝 (1 − 𝑝) 0,73(1 − 0,73)
𝑃 = 𝑝 ± 𝑍√ = 0,73 ± 1,96√
𝑛 45
𝑃1 = 0,8597
𝑃2 = 0,6002
El intervalo de confianza será
0,6002 < 𝑃 < 0,8497
(0.6002 , 0.8497)

 Con un nivel de confianza del 95%, realice una estimación de las mujeres que asisten a un establecimiento oficial.

𝑍 = 1,96
𝑛 = 54
𝑝 = 0,76

𝑝 (1 − ) 0,76(1 − 0,76)
𝑃 = 𝑝 ± 𝑍√ = 0,76 ± 1,96√
𝑛 54
𝑃1 = 0,8739
𝑃2 = 0,6460
El intervalo de confianza será:
0,6460 < 𝑃 < 0,8739
(0.6460, 0.8739)

 Realice una prueba de hipótesis para determinar la afirmación del investigador. Utilice un nivel de significancia del
5%. ¿Qué se puede decir de lo anterior?

Prueba de hipó tesis de dos proporciones


𝐻𝑜: 𝑝1 > 𝑝2
𝐻𝑎: 𝑝1 ≤ 𝑝2

𝑛1 𝑝1 + 𝑛 2 45(0 , 73) + 54(0 ,


𝑃= 76 ) = 0,74
𝑝2 =
𝑛1 + 𝑛2 45 + 54
𝑝1 − 𝑝2
𝑍𝑜 =
1 1
√(1 − 𝑃) ( 𝑛 + 𝑛 )
1 2

0,76 − 0,73
𝑍0 = = 0,3388
√0,74(1 − 0,74) ( 1
54
𝑍𝑜 < 𝑍
0.33<1,96

La proporción de hombres que asisten al colegio oficial es


mayor > que la proporción de mujeres en Colombia
CONCLUSIONES

De acuerdo a la temática de la semana 3 y 5 y a los ejercicios planteados en los tres


escenarios, se identificaron conceptos, fundamentos y métodos del muestreo y las
distribuciones muestrales, al analizar las muestras como parte representativa de la población
evidenciamos la aplicación que tiene en distintos campos, así como los tipos de muestreo y
las diferentes técnicas empleadas para cada caso, así como los tipos de errores en el mismo y
de acuerdo a esto lograr dar una solución con los diferentes tipos de población y sus
características.
REFERENCIAS

Hopkins, K.D., Hopkins, B.R. y Glas, G.V. (1997, 3ª Ed). Estadística Básica para las
Ciencias Sociales y del Comportamiento. Capítulo 9, pp. 143-170. México: Prentice-Hall
Hispanoamericana.

Azorín, F. y Sánchez-Crespo, J. L. (1994). Métodos y Aplicaciones del Muestreo. Madrid:


Alianza Universidad Textos.

http://www.scielo.org.bo/scielo.php?script=sci_arttext&pid=S1815-02762004000100012

Sharon L. Bohr. Muestreo. Diseño y análisis. Ed Thompson. 2000

Pérez L. César. Muestreo Estadístico. Ed. Pearson Prentice Hall.2005

Cochran, W. Técnicas de Muestreo. Ed. CECSA

Kiss, L. Encuestas por Muestreo. Ed. Trillas.

Scheffer R., Mundial W. y Liman R. Elementos de Muestreo. Ed. Thomson. 2007

https://docs.google.com/spreadsheets/d/1TbCkhUFip0XRekCx4k75z7Gz-Zf_8ZbDcBrfY-
H7MTU/edit#gid=1933242889

https://www.dane.gov.co/files/investigaciones/fichas/Gran_encuesta_integrada_hogares.pdf

http://microdatos.dane.gov.co/index.php/catalog/547/sampling

http://microdatos.dane.gov.co/index.php/catalog/550/study-description

https://glosarios.servidor-alicante.com/terminos-estadistica/variable-cualitativa-nominal

https://www.cuidatudinero.com/13181612/que-es-una-variable-nominal

http://www.geociencias.unam.mx/~ramon/EstInf/Clase15.pdf

Morales, Adriana (2010(Modulo Probabilidad. Bogotá D.C. Universidad Nacional Abierta y


a distancia – UNAD

Walpole, R (1999). Probabilidad y estadística. México, Hispanoamérica

También podría gustarte