GUIA No 6 ESTADISTICA INTRODUCTORIA
GUIA No 6 ESTADISTICA INTRODUCTORIA
GUIA No 6 ESTADISTICA INTRODUCTORIA
hemos medido en un conjunto de elementos que formaban una población estadística o una muestra
representativa de la misma. Pero podemos estudiar para cada elemento de la población dos o más
características de tipo cualitativo o cuantitativo. Lo habitual es que se estudien al mismo tiempo
varias características de los elementos de una población estadística Consideremos, por ejemplo, que
nuestro objetivo es estudiar las causas que originan los distintos niveles de los gastos de los
individuos varones mayores de 18 años de la UNAN - León. Además de esta variable, que
normalmente se medirá en una muestra representativa de la población estadística, nos interesará
medir otras características que están relacionadas con ella: ingresos del individuo, estado civil,
aficiones que tiene, la edad.
Todas estas características influirán en los niveles de gastos y nos podrán explicar su
comportamiento. En general, a mayores ingresos existirá un mayor gasto. Podrá estudiarse
separadamente cada característica construyendo su distribución unidimensional pero lo normal es
presentar conjuntamente más de una característica con el objetivo de estudiar sus posibles
relaciones y responder a cuestiones como las siguientes: ¿en qué medida el nivel de ingresos
determina el nivel de gastos?, ¿existe relación entre el nivel de gastos y la edad?, ¿y el estado civil?,
etc. Estudiarán las distintas tabulaciones de las variables estadísticas bidimensionales y los nuevos
conceptos que generan (distribuciones de frecuencias marginales y condicionadas), el concepto de
independencia estadística y correlación entre variables.
Tabla de Correlación
n
r s
N n
i 1 j 1
ij
n j
i 1
i j .x t ni1 ni2 ... nij ... nic ni.
s ... … … … … …
ni ni j xr nr1 nr2 ... nrj ... nrc nr.
j 1
n.j n.1 n.2 ... n.j ... n.c N
Puede construirse una Tabla de distribución de Frecuencias Relativas, al dividir cada frecuencia
absoluta por el total de observaciones N: fij = nij/N. Es inmediato comprobar que la suma de todas
las frecuencias relativas es la unidad. Las frecuencias marginales relativas serán: fi. = ni. /N ; f.j = n.j
/N ⇒ Σ fij = 1.
Se observa que de las 100 familias sólo hay 15 en las que el dinero lo aporta una sola persona y sus
ingresos están comprendidos entre 10000 y 15000 córdobas; 30 familias en las que los ingresos los
aportan dos personas, comprendidos estos, entre 20000 y 30000 córdobas, y así se interpretan en
lo sucesivo las frecuencias absolutas conjuntas nij. Las frecuencias marginales ni. y n.j nos señalan el
número de veces que se repiten los valores de X y Y por separado sin que se establezca entre ellas
ninguna relación conjunta. Así de las 100 familias 38 tienen un sólo miembro que ingresa dinero al
núcleo familiar; 54 con dos miembros y 8 familias con tres miembros que aportan. Al observar los
niveles de ingresos representados por Xi vemos que 18 familias están en el nivel de ingresos más
bajo, 32 en el segundo nivel, 46 en el tercer nivel y sólo 4 familias pertenecen al nivel de mayores
ingresos. ¿Qué porcentaje de familias tiene ingreso entre 15 y 30 mil córdobas mensualmente?
Tabla de correlación simple: Cuando existen pocas observaciones y las frecuencias son unitarias no
tiene sentido construir una tabla de correlación ya que muchas de xi x1 x2 … xi … xr
las celdas de las frecuencias absolutas serían cero. En este caso, la
distribución bidimensional es simplemente dos columnas o dos filas yi y1 y2 … yi … yr
a como se muestra en la tablita derecha.
Así, por ejemplo el valor de la producción anual (xi) xi 1,500 2,500 5,000 10,000 15,000
expresado en millones de córdobas y el número de
trabajadores (yj) de cinco empresas del sector de yi 350 500 800 1,500 1,700
la construcción, se tabula de la forma siguiente en
la tabla derecha:
Aunque las frecuencias conjuntas no sean unitarias, si el número xi x1 x2 … xi … xr
de pares de valores de la variable bidimensional es reducido,
yi y1 y2 … yi … yr
tampoco es necesario construir una tabla de correlación; es
suficiente una tabulación a tres filas de esta forma. ni n1 n2 … ni … nr
Definición: Dada una distribución bidimensional de las variables (X, Y), llamamos distribuciones
marginales de dichas variables a los conjuntos: (xi , ni.) i = 1, 2,… r distribución marginal de X ; (yi ,
n.j ) j = 1, 2,… s distribución marginal de Y.
Expresadas ambas en formato de filas, la distribución marginal de frecuencias para cada variable
sería:
xi x1 x2 … xi … xr Total yi y1 y2 … yj … yc Total
ni. n1. n2. … ni. … nr. N n.j n.1 n.2 … n.j … n.c N
Solución: Debemos extraer las distribuciones marginales de frecuencia asociada a cada variable:
Puede observarse que pueden definirse tantas distribuciones de frecuencias condicionadas como
valores tienen las variables X e Y ya que cada una queda determinada por la fila o la columna del
correspondiente valor que condiciona. Las distribuciones condicionadas también son
unidimensionales y por tanto puede obtenerse todas las medidas de posición y dispersión de las
mismas.
b. La distribución obtenida anteriormente se manipula como una unidimensional para obtener las
distintas medidas de posición y dispersión: Mo(Y/X = 175) = 2 (por tener la mayor frecuencia). Lo que
nos indica que lo más frecuente son dos miembros por familia los que aportan ingresos dentro del
segundo intervalo 150-200 mil córdobas. Ahora la media aritmética de Y condicionada a X=175, es
/x=175 = 1/32*[1*10 + 2*20 + 3*2] = 56/32 = 1.75. Son aproximadamente 2 miembros por familia los
que aportan ingresos dentro del intervalo comprendido entre 15000 y 20000 Córdobas.
Recordemos que cuando la variable es de tipo discreto, como en este caso (Y son individuos) no
tienen sentido los decimales dando el resultado por exceso o defecto en números enteros. Ahora la
varianza condicionada es:
1
S Y2 / X 175 [(1 1.75) 2 *10 (2 1.75) 2 * 20 (3 1.75) 2 * 2] 0.3125 ⇒
32
SY / X 175 0.5590
SY / X 175 0.559
El coeficiente de variación de Pearson será: CVY / X 175 0.31943
Y Y / X 175 1.75
Este coeficiente nos indica, expresado en tantos por 100, que la desviación típica supone un 32% de
la media aritmética con lo que podemos admitir como promedio que nos representa al conjunto de
la distribución. Hasta un 50% de participación de la dispersión en el promedio se considera como
aceptable la representatividad.
Definición: Dadas las variables estadísticas X e Y, la condición necesaria y suficiente para que
sean independientes es:
nij ni n
* j ( i 1,2,...,r y j 1,2,...,s )
N N N
Una propiedad de interés es que si X e Y son independientes, entonces la covarianza entre ellas es
nula. Sin embargo, que Cov(X,Y) = 0, no implica que X y Y sean independientes.
n2 3 n 2 n3 30 46 54 1380
* o bien *
N N N 100 100 100 10000
La independencia estadística entre X y Y. exige que para todo i=1,2,3,4 y todo j=1,2,3; se verifique
nij/N = (ni./N)*(n.j/N). Como esto no se da para algún par (i, j), concretamente para i = 2 y j = 1,
concluimos que X y Y son dependientes.
a. Actividades Finales:
Resumir lo expuesto durante la clase y presentación de los ejercicios
resueltos por cada grupo.
b. Orientación del Trabajo independiente:
Realizar ejercicio el cual los estudiantes puedan construir e interpretar tablas
correlación.
en estas
Asistencia y participación
VII. CONCLUSIONES:
correlación
VIII. RECOMENDACIONES:
reforzar lo aprendido.
IX. BIBLIOGRAFIA:
1 r
X xi nij 1 S( X / Y y j )
x n
r
n i 1 X (X /Yy j ) i ij CV( X / Y y j ) *100
xi ni X
1 r 2 n j
X (X /Yy j )
i 1
SX
2 2
N1 i 1
1 s
Y y j nij 1 s S ( Y / X xi )
n j 1 Y ( Y / X xi ) y j nij CV ( Y / X xi ) * 100
SY y 2j n j Y
2 1 s 2 ni j 1 Y ( Y / X xi )
N j 1
Varianzas Condicionadas
x n x n X
2
1 r
1 r
X S(2X / Y y j )
2 2 2
S(X /Yy j ) i
(X /Yy j )
ij i ij
( X /Yy j )
ni i 1 n j i 1
y Y (Y / X xi ) nij Y ( Y / X xi )
2
1 1
y n
s s
S(2Y / X xi ) S (2Y / X xi ) 2 2
j j ij
n j j 1 ni j 1
Ejercicio 1: Se tomó Y→ (00 - 100] (100 - 200] (200 - 300] (300 - 400]
una muestra de los
alumnos becados del X ↓ y = y= y= y=
Año Estudios Generales
y estudiamos 18 30 12 8 1
conjuntamente las 19 15 10 5 4
variables: edad en años
(X) y córdobas invertido 20 20 15 10 6
en material bibliográfico
(Y). Esta encuesta se 21 26 18 13 7
realizó cinco días
después de habérseles entregado las becas a inicios del segundo semestre. Los
resultados se presentan en la siguiente tabla mostrada a la derecha.
Xi 77 81 94 50 72 63 88 95 X i
Yi 82 47 85 66 65 72 89 95 Yi
X i2 X 2
i
Yi 2
X i Yi
Tras encuestar a 25 familias sobre el número de hijos que tenían, se obtuvieron los siguientes
datos:
La Varianza es 1.4176
Rta
Desviación típica
Ig=0.18
RTA:IG=0.28
RTA:IG= 0.18