Trabajo Colaborativo Estadistica Ii Subgrupo 2
Trabajo Colaborativo Estadistica Ii Subgrupo 2
Trabajo Colaborativo Estadistica Ii Subgrupo 2
por el DANE. Esta encuesta se hace en las 13 ciudades principales del Colombia (Bogotá, Medellín, Cali, Barranquilla,
Bucaramanga, Manizales, Pasto, Pereira, Ibagué, Cúcuta, Villavicencio, Montería, Cartagena) y 11 ciudades
intermedias (Tunja, Florencia, Popayán, Valledupar, Quibdó, Neiva, Riohacha, Santa Marta, Armenia, Sincelejo, San
Andrés). Esta encuesta, se solicita información sobre las condiciones de empleo de las personas (si trabajan, en qué
trabajan, cuánto ganan, si tienen seguridad social en salud o si están buscando empleo), además de las características
generales de la población como sexo, edad, estado civil y nivel educativo, se pregunta sobre sus fuentes de ingresos. La
GEIH proporciona al país información a nivel nacional, cabecera -resto, regional, departamental, y para cada una de las
En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los elementos de una población), se
selecciona una muestra, entendiendo por tal una parte representativa de la población. En ese sentido, escoja un tipo de
muestreo y argumente la viabilidad de esta técnica para la base de datos dada. Para seleccionar una muestra debe tenerse
en cuenta el cómo seleccionar los elementos que formarán parte de la muestra (tipo de muestreo) y cuántos
elementos debemos seleccionar (Tamaño de muestra). Base de datos: en el archivo de Excel (https://goo.gl/zB3Ntf) se
tiene información sobre las características generales de las personas que respondieron en un mes en particular.
OBJETIVOS
Objetivo General:
Desarrollar de manera práctica los conocimientos obtenidos durante las semanas de estudio del
módulo de Estadísticas II, los cuales serán de mucha importancia en nuestro futuro desarrollo
profesional, de esta manera lograremos tener un mejor análisis e interpretación de todos los temas y
practicas vistas al realizar cada uno de los puntos de este trabajo utilizando las herramientas y
conocimientos de los módulos estudiados.
Objetivos Específicos:
- Desarrollar nuestra capacidad de trabajo en grupo a través del desarrollo de este trabajo
llevando a cabo semana a semana los puntos buscando entre todos obtener el resultado más
coherente teniendo en cuenta las opiniones de cada uno de los integrantes y el
acompañamiento del tutor.
- Revisar desarrollar e identificar todas las principales características del muestreo y las
distribuciones muéstrales, también la estimación de parámetros e intervalos de confianza
según nos los solicitaba cada punto del trabajo.
.
DESARROLLO DE LA ACTIVIDAD
Utilizando la variable género P (6020) determine el tamaño de la muestra seleccionando adecuadamente y justificando:
A. Fórmula a desarrollar
B. Estimación de la proporción de mujeres
C. Nivel de confiabilidad. Error de estimación
El muestreo sistemático, es aquel que se realiza en un lugar donde pasan las unidades muéstrales y
se selecciona una unidad cada elemento que pasan, hasta cumplir los n necesarios.
POBLACION
Se realizó una encuesta en las 13 ciudades principales de Colombia (Bogotá, Medellín, Cali,
Barranquilla, Bucaramanga, Manizales, Pasto, Pereira, Ibagué, Cúcuta, Villavicencio, Montería,
Cartagena) y 11 Ciudades Intermedias (Tunja, Florencia, Popayán, Valledupar, Quibdó, Neiva,
Riohacha, santa Marta, Armenia, Sincelejo, San Andrés).
Esta encuesta, se solicita información sobre las condiciones de empleo de las personas (si
trabajan, en qué trabajan, cuánto ganan, si tienen seguridad social en salud o si están buscando
empleo), además de las características generales de la población como sexo, edad, estado civil y
nivel educativo, se pregunta sobre sus fuentes de ingresos. La GEIH proporciona al país información
a nivel nacional, cabecera - resto, regional, departamental, y para cada una de las capitales de los
departamentos.
MUESTRA
N
F
n
N= 60356 y n= 100 entonces la fracción de muestreo es:
60356
F= =
100 603, 5660 604
3. CLASIFICACION DE VARIABLES
Utilizando la variable género P (6020) determine el tamaño de la muestra seleccionando
adecuadamente y justificando:
a. Fórmula a desarrollar
b. Estimación de la proporción de mujeres
c. Nivel de confiabilidad
d. Error de estimación
a. Fórmula a desarrollar
La fórmula para calcular el tamaño de muestra cuando se conoce el tamaño de la
población es la siguiente.
a. Fórmula a desarrollar
b. Estimación de la proporción de mujeres
c. Nivel de confiabilidad
d. Error de estimación
a. Fórmula a desarrollar
La fórmula para calcular el tamaño de muestra cuando se conoce el tamaño de la
población es la siguiente.
En donde, N = tamaño de la población Z = nivel de confianza, P = probabilidad de éxito, o
proporción esperada Q = probabilidad de fracaso D = precisión (Error máximo admisible
en términos de proporción).
d. Nivel de confiabilidad
2
60356 x 1.96 x 0.53 10.53 57.757,225
n = = 1,044.906 1,045
603561 x 0.03 1.962 x0.5310.53
2
5 4,3190,956
a Error de estimación
EZ a pq 1.96 0.530.47
.0154 0 , 0
2 n 1.960.0154
1045
SEMANA 4
INTERVALO DE CONFIANZA PARA DOS VARIABLES NUMÉRICAS
Un investigador, cree determinar que existen diferencias entre los niveles de estudio de los
hombres y las mujeres en Colombia. Para determinar lo anterior, se sugiere utilizar la base de
la hoja “muestra” encontrada en la semana 3:
30
0
25 1
2
20
3
4
15
5
10 6
7
5
8
0 9
Hombre Mujer
(Gráfico de Frecuencia)
Del gráfico anterior se tiene existen mucha diferencia en cuanto a la comparación entre las
variables escolaridad (ESC) y sexo (P6020) hombres y mujeres, es decir el nivel de
escolaridad en mujeres se encuentra entre 0 a 19 mientras que en los hombres de 0 a 20,
también se puede ver que 30 mujeres se encuentran en un nivel de escolaridad 10, y 17
mujeres tienen nivel de escolaridad 0 del total que son 157. Por otro lado, se puede ver que
hay 27 hombres con un nivel de escolaridad 5 y 24 hombres con nivel de escolaridad 1, del
total que son 207 mujeres.
Hombres
Intervalo de confianza para la media. Varianza Desconocida
n =148
𝑋̅= 7.42568
S= 4.80234
Para α=0.05 entonces 𝑡 (, −1)𝛼 = 𝑡 (0. 05,148−1) = 1.976233
2 2
4. 80234 4. 80234
7.42568- (1.976233) ≤ µ ≤ 7.42568 + (1.976233)
√148 √148
6.64556≤ µ ≤ 8.2058
Mujeres
Intervalo de confianza para la media. Varianza Desconocida
𝑆 𝑆
𝑥 -𝛼𝑡 (, −1)
√
≤µ ≤ 𝑥+𝑡𝛼( ,−1) √
2 2
n =158
𝑋̅= 7.72785
S= 5.07855
Para α=0.05 entonces 𝑡 (, −1)𝛼 = 𝑡 (0. 05,158−1) = 1.975189
2 2
5. 078553 5. 078553
7.72785- (1.975189) ≤ µ ≤ 7.72785 + (1.975189)
√158 √158
6.92981≤ µ ≤ 8.52588
𝑥1 =7.42568
𝑥2 =7.72785
𝜎12 =20.0913
𝜎22 =25.7916
𝑛1 =148
𝑛2 =158
Con un nivel de confianza del 95% se tiene α=0.05 entonces 𝑍α/2. = 𝑍0.05/2. =1.96
-1.37389≤ µ1 − µ2 ≤ 0.769557
Por lo que el intervalo al 95% para la diferencia de los niveles de escolaridad para los hombres y mujeres es.
(-1.37389, 0.769557)
HISTOGRAMA HOMBRES
50
40 Intervalo de Marca
Frecuencia
FRECUENCIA
clase de clase
30
Desde Hasta
20 0 2 28 1,00
3 5 35 4,00
10 6 8 20 7,00
0 9 11 44 10,00
1 2 3 4 5 6 7 12 14 20 13,00
ESCOLARIDAD 15 17 6 16,00
18 20 4 19,00
70
60 HISTOGRAMA MUJERES
50
FRECUENCIAS
Intervalo de Marca de
40 Frecuencia
clase clase
30 Desde Hasta
0 2 38 1,00
20
3 5 40 4,00
10 6 8 22 7,00
0
9 11 58 10,00
1 2 3 4 5 6 7 8 9
12 14 26 13,00
15 17 18 16,00
ESCOLARIDAD 18 20 3 19,00
21 23 0 22,00
24 26 1 25,00
Comparando los histogramas tenemos que si existe diferencia entre las variables escolaridad para hombres y
para mujeres, en la primera clase tenemos que hay más mujeres que alcanzan un nivel de escolaridad de 0-2,
en la segunda clase hay más mujeres que alcanzan un nivel de escolaridad de 3-5, en la tercera clase la
diferencias es menor pero siguen habiendo más mujeres que hombres con un nivel de escolaridad de 6-8, en la
cuarta clase tenemos que hay más mujeres que hombres con un nivel escolaridad de 9-11, en la quinta clase
tenemos que hay más hombres que mujeres que tienen un nivel de escolaridad de 12-14, en las siguientes
clases siempre predominan la cantidad de mujeres que la cantidad de hombres. Por lo tanto, se podría inferir
que las mujeres tienen mayor nivel de escolaridad que los hombres.
El histograma muestra una distribución con una cola larga a la derecha, es decir, muestra un sesgo positivo.
Analizando el histograma, vemos que existe un pico en la clase [9-11], donde hay más hombres con nivel de
escolaridad entre 9 y 11, en los primeros niveles de escolaridad hay más hombres mientras que en los últimos
niveles de escolaridad hay pocos hombres. La distribución del histograma también se puede examinar por medio
del coeficiente de asimetría que en este caso es de 0,087053218, es decir, la distribución tiene una asimetría
positiva y se alarga a valores mayores que la media. Por otra parte, la curtosis me indica que tan achatada está la
curva, en este caso tenemos una curtosis pequeña -0,841265202
HOMBRES
El histograma muestra una distribución con una cola larga a la derecha, es decir, muestra un sesgo positivo.
Analizando el histograma, vemos que existe un pico en la clase [9-11], donde hay más hombres con nivel de
escolaridad entre 9 y 11, en los primeros niveles de escolaridad hay más hombres mientras que en los últimos
niveles de escolaridad hay pocos hombres. La distribución del histograma también se puede examinar por medio
del coeficiente de asimetría que en este caso es de 0,087053218, es decir, la distribución tiene una asimetría
positiva y se alarga a valores mayores que la media. Por otra parte, la curtosis me indica que tan achatada está la
curva, en este caso tenemos una curtosis pequeña -0,841265202.
La media: La media es de 7,719745223, cuyo valor corresponde al promedio de los niveles de escolaridad de
los hombres.
La moda: En este caso, la moda corresponde a 11, es decir el nivel de escolaridad más repetido, es decir con
mayor número de hombres es 11.
Desviación estándar: En este caso la desviación estándar es de 4,896144997, esto quiere decir que en
promedio se alejan 4,896144997 de la media de los niveles de escolaridad de los hombres.
Rango: En este caso el rango de 20, por lo que encontramos que el nivel mínimo de escolaridad es 0 y el
nivel máximo de escolaridad es 20, el rango se construye como la resta del nivel de escolaridad máximo
menos el nivel de escolaridad mínimo.
MUJERES
El histograma muestra una distribución con una cola larga a la derecha, es decir, muestra un sesgo positivo.
Analizando el histograma, vemos que existe un pico en la clase [9-11], donde hay más mujeres con nivel de
escolaridad entre 9 y 11.
En los primeros niveles de escolaridad hay más mujeres mientras que en los últimos niveles de escolaridad
hay pocas mujeres. La distribución del histograma también se puede examinar por medio del coeficiente de
asimetría que en este caso es de 0,043810057, es decir, la distribución tiene una asimetría positiva y se alarga
a valores mayores que la media. Por otra parte, la curtosis me indica que tan achatada está la curva, en este
caso tenemos una curtosis pequeña -0,796918169.
Si comparamos los dos histogramas tenemos que el coeficiente de asimetría en el histograma de los niveles de
escolaridad de los hombres es mayor al coeficiente de asimetría de los niveles de escolaridad de las mujeres,
esto quiere decir que el histograma de los hombres tiene una cola más pesada.
Por otro lado, la curtosis del histograma de la variable en estudio de las mujeres es mayor que la curtosis del
histograma de la variable en estudio de los hombres.
Esto indica que el histograma de los hombres es más achatado que el histograma de las mujeres, además en el
histograma de las mujeres hay una mayor concentración de los datos alrededor de la media.
La media: La media es de 8,067961165, cuyo valor corresponde al promedio de los niveles de escolaridad de
las mujeres.
La moda: En este caso, la moda corresponde a 11, es decir el nivel de escolaridad más repetido, es decir con
mayor número de mujeres es 11.
Desviación estándar: En este caso la desviación estándar es de 5,145231533, esto quiere decir que en
promedio se alejan 5,145231533 de la media de los niveles de escolaridad de las mujeres.
Rango: En este caso el rango de 24, por lo que encontramos que el nivel mínimo de escolaridad es 0 y el
nivel máximo de escolaridad es 24, el rango se construye como la resta del nivel de escolaridad máximo
menos el nivel de escolaridad mínimo.
SEMANA 5
PRUEBA DE HIPOTESIS PARA DOS VARIABLES NOMINALES
Un investigador, cree determinar que los hombres asisten más a un colegio oficial que las mujeres en Colombia. Para determinar
lo anterior, use la “muestra” encontrada en la semana 3:
Con un nivel de confianza del 95%, realice una estimación de los hombres que asisten a un establecimiento oficial.
𝑍 = 1,96
𝑛 = 45
𝑝 = 0,73
𝑝 (1 − 𝑝) 0,73(1 − 0,73)
𝑃 = 𝑝 ± 𝑍√ = 0,73 ± 1,96√
𝑛 45
𝑃1 = 0,8597
𝑃2 = 0,6002
El intervalo de confianza será
0,6002 < 𝑃 < 0,8497
(0.6002 , 0.8497)
Con un nivel de confianza del 95%, realice una estimación de las mujeres que asisten a un establecimiento oficial.
𝑍 = 1,96
𝑛 = 54
𝑝 = 0,76
𝑝 (1 − ) 0,76(1 − 0,76)
𝑃 = 𝑝 ± 𝑍√ = 0,76 ± 1,96√
𝑛 54
𝑃1 = 0,8739
𝑃2 = 0,6460
El intervalo de confianza será:
0,6460 < 𝑃 < 0,8739
(0.6460, 0.8739)
Realice una prueba de hipótesis para determinar la afirmación del investigador. Utilice un nivel de significancia del
5%. ¿Qué se puede decir de lo anterior?
0,76 − 0,73
𝑍0 = = 0,3388
√0,74(1 − 0,74) ( 1
54
𝑍𝑜 < 𝑍
0.33<1,96
Hopkins, K.D., Hopkins, B.R. y Glas, G.V. (1997, 3ª Ed). Estadística Básica para las
Ciencias Sociales y del Comportamiento. Capítulo 9, pp. 143-170. México: Prentice-Hall
Hispanoamericana.
http://www.scielo.org.bo/scielo.php?script=sci_arttext&pid=S1815-02762004000100012
https://docs.google.com/spreadsheets/d/1TbCkhUFip0XRekCx4k75z7Gz-Zf_8ZbDcBrfY-
H7MTU/edit#gid=1933242889
https://www.dane.gov.co/files/investigaciones/fichas/Gran_encuesta_integrada_hogares.pdf
http://microdatos.dane.gov.co/index.php/catalog/547/sampling
http://microdatos.dane.gov.co/index.php/catalog/550/study-description
https://glosarios.servidor-alicante.com/terminos-estadistica/variable-cualitativa-nominal
https://www.cuidatudinero.com/13181612/que-es-una-variable-nominal
http://www.geociencias.unam.mx/~ramon/EstInf/Clase15.pdf