GUIA No 6 ESTADISTICA INTRODUCTORIA

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 11

CLASE NO 6

hemos medido en un conjunto de elementos que formaban una población estadística o una muestra
representativa de la misma. Pero podemos estudiar para cada elemento de la población dos o más
características de tipo cualitativo o cuantitativo. Lo habitual es que se estudien al mismo tiempo
varias características de los elementos de una población estadística Consideremos, por ejemplo, que
nuestro objetivo es estudiar las causas que originan los distintos niveles de los gastos de los
individuos varones mayores de 18 años de la UNAN - León. Además de esta variable, que
normalmente se medirá en una muestra representativa de la población estadística, nos interesará
medir otras características que están relacionadas con ella: ingresos del individuo, estado civil,
aficiones que tiene, la edad.

Todas estas características influirán en los niveles de gastos y nos podrán explicar su
comportamiento. En general, a mayores ingresos existirá un mayor gasto. Podrá estudiarse
separadamente cada característica construyendo su distribución unidimensional pero lo normal es
presentar conjuntamente más de una característica con el objetivo de estudiar sus posibles
relaciones y responder a cuestiones como las siguientes: ¿en qué medida el nivel de ingresos
determina el nivel de gastos?, ¿existe relación entre el nivel de gastos y la edad?, ¿y el estado civil?,
etc. Estudiarán las distintas tabulaciones de las variables estadísticas bidimensionales y los nuevos
conceptos que generan (distribuciones de frecuencias marginales y condicionadas), el concepto de
independencia estadística y correlación entre variables.

Tabulación de variables estadísticas bidimensionales: distribuciones bidimensionales de


frecuencias.

Vamos a considerar dos tipos de tabulaciones para:

 Variables cuantitativas (numéricas) el resultado de la tabulación recibe el nombre de tabla


de correlación.
 Variables cualitativas (categóricas) el resultado de la tabulación recibe el nombre de tabla de
contingencia.

Tablas de correlación: Partimos de una población estadística en la que se estudian simultáneamente


dos variables o características cuantitativas que nos definen una variable estadística bidimensional.
Llamando X e Y a las variables consideradas, podemos construir la llamada tabla de correlación. Los
datos en que se presenta la variable Xi, los denotamos Xi (i = 1, 2, ... r). Los datos en que se presenta
la variable Y, los denotamos yj ( j = 1,2. .... c), sea nij la frecuencia absoluta con que se presenta el
par simultáneo (Xi ,Yj ), la distribución conjunta o bidimensional se dá en esta tabla:

Tabla de Correlación

Así el número de unidades en la población es n.. X Y y1 y2 ... yj . . . yc ni.


= N, y las frecuencias marginales son ni. por fila
y n.j por columna, con estas se construyen la última fila y la última columna de la tabla de
correlación; una variable al margen de la otra. El x1 n11 n12 ... n1j . . . n1c n1.
número de filas es r y el número de columnas es
x2 n21 n22 ... n2j ... n2c n2.
c. Las frecuencias totales y marginales son:
r
... … … … … …

n
r s
N   n
i 1 j 1
ij
n j 
i 1
i j .x t ni1 ni2 ... nij ... nic ni.

s ... … … … … …
ni   ni j xr nr1 nr2 ... nrj ... nrc nr.
j 1
n.j n.1 n.2 ... n.j ... n.c N

Puede construirse una Tabla de distribución de Frecuencias Relativas, al dividir cada frecuencia
absoluta por el total de observaciones N: fij = nij/N. Es inmediato comprobar que la suma de todas
las frecuencias relativas es la unidad. Las frecuencias marginales relativas serán: fi. = ni. /N ; f.j = n.j
/N ⇒ Σ fij = 1.

Las tablas de correlación se construyen cuando el número de observaciones es elevado y existe


también un elevado número de pares de valores (Xi , Yj ) en los que i = j ó i ≠ j. También por
conveniencia, para hacer la distribución más manejable, se puede agrupar los valores de las
variables en intervalos de clases con lo que los respectivos (Xi , Yj ) que serían las correspondientes
marcas de clase.

Tabla de correlación de la economía familiar.


Ejemplo 1: Se ha efectuado una Ingreso (miles C$ ) Nº de miembros que aportan ( yj )
encuesta a 100 familias
preguntándoles sus ingresos Li-1 – Li Xi 1 2 3 ni.
mensuales (X), y el número de
10 – 15 12.5 15 2 1 18
miembros que los aportan a la
familia (Y). Los ingresos se han 15 – 20 17.5 10 20 2 32
expresado en miles de córdobas y
se han agrupado en cuatro 20 – 30 25.0 12 30 4 46
intervalos de clases con lo que Xi 30 – 50 40.0 1 2 1 4
son las respectivas marcas de n.j 38 54 8 100
clases (r=4 filas, c=3 columnas). La
moda conjunta es (X=25, Y=2) con frecuencia n3,2 = 30.

Se observa que de las 100 familias sólo hay 15 en las que el dinero lo aporta una sola persona y sus
ingresos están comprendidos entre 10000 y 15000 córdobas; 30 familias en las que los ingresos los
aportan dos personas, comprendidos estos, entre 20000 y 30000 córdobas, y así se interpretan en
lo sucesivo las frecuencias absolutas conjuntas nij. Las frecuencias marginales ni. y n.j nos señalan el
número de veces que se repiten los valores de X y Y por separado sin que se establezca entre ellas
ninguna relación conjunta. Así de las 100 familias 38 tienen un sólo miembro que ingresa dinero al
núcleo familiar; 54 con dos miembros y 8 familias con tres miembros que aportan. Al observar los
niveles de ingresos representados por Xi vemos que 18 familias están en el nivel de ingresos más
bajo, 32 en el segundo nivel, 46 en el tercer nivel y sólo 4 familias pertenecen al nivel de mayores
ingresos. ¿Qué porcentaje de familias tiene ingreso entre 15 y 30 mil córdobas mensualmente?

Tabla de correlación de frecuencias relativas


A partir de la Tabla anterior obtener la tabla
Ingreso Miembros que aportan ( yj )
de correlación de frecuencias relativas.
Resulta simple la división de cada frecuencia Xi 1 2 3 fi.
conjunta absoluta por el total de familias
N=100, y los valores de frecuencias solo 12500 0.15 0.02 0.01 0.18
cambian de dimensión. Comprobar que la 17500 0.10 0.20 0.02 0.32
suma de todas las frecuencias relativas es la
unidad. Se sondea que solo el 8% de las 25000 0.12 0.30 0.04 0.46
familias tienen hasta tres miembros 40000 0.01 0.02 0.01 0.04
aportando, mientras que el 92% de las
familias no más de dos miembros aportando. f .j 0.38 0.54 0.08 1

Tabla de correlación simple: Cuando existen pocas observaciones y las frecuencias son unitarias no
tiene sentido construir una tabla de correlación ya que muchas de xi x1 x2 … xi … xr
las celdas de las frecuencias absolutas serían cero. En este caso, la
distribución bidimensional es simplemente dos columnas o dos filas yi y1 y2 … yi … yr
a como se muestra en la tablita derecha.

Así, por ejemplo el valor de la producción anual (xi) xi 1,500 2,500 5,000 10,000 15,000
expresado en millones de córdobas y el número de
trabajadores (yj) de cinco empresas del sector de yi 350 500 800 1,500 1,700
la construcción, se tabula de la forma siguiente en
la tabla derecha:
Aunque las frecuencias conjuntas no sean unitarias, si el número xi x1 x2 … xi … xr
de pares de valores de la variable bidimensional es reducido,
yi y1 y2 … yi … yr
tampoco es necesario construir una tabla de correlación; es
suficiente una tabulación a tres filas de esta forma. ni n1 n2 … ni … nr

Distribuciones marginales de frecuencias

Definición: Dada una distribución bidimensional de las variables (X, Y), llamamos distribuciones
marginales de dichas variables a los conjuntos: (xi , ni.) i = 1, 2,… r distribución marginal de X ; (yi ,
n.j ) j = 1, 2,… s distribución marginal de Y.

Luego las marginales de una distribución bidimensional es el estudio unidimensional de cada


componente, independiente del otro.

Expresadas ambas en formato de filas, la distribución marginal de frecuencias para cada variable
sería:

xi x1 x2 … xi … xr Total yi y1 y2 … yj … yc Total

ni. n1. n2. … ni. … nr. N n.j n.1 n.2 … n.j … n.c N

De estas distribuciones marginales, como en esencia son distribuciones unidimensionales ya que


expresan el estudio de cada variable con independencia de la otra, pueden obtenerse todas las
medidas de posición, dispersión, etc. que se han estudiado en la unidad previa de las variables
unidimensionales (medias marginales, varianzas marginales, etc.).

Ejemplo 2: De la tabla de correlación de la economía familiar, obtener la distribución de frecuencias


marginal de cada variable, la moda del número de aportantes (Y) y, la moda y la media aritmética
del ingreso mensual en miles (X).

Solución: Debemos extraer las distribuciones marginales de frecuencia asociada a cada variable:

xi 12.5 17.5 25.0 40.0 Total yi 1 2 3 Total

ni. 18 32 46 4 100 n.j 38 54 08 100

Moda de Y: M0 = 2 miembros aportantes. Moda de X: MoX = 25000 córdobas.

Media aritmética de X: = 1/N*Σxi*ni. = 1/100*[12.5*18+17.5*32+25.0*46+40.0*4] = 2095/100


= C$ 20,950.

Distribuciones condicionadas de frecuencias


Definición: Dada una variable estadística bidimensional (X.Y), llamamos variable X condicionada
a que Y = yJ, y denotaremos (X\Y = yJ) a la variable estadística que toma los valores xi con
frecuencia absoluta nij: (X/Y=yj) = {(xi ,nij) ; i = 1. 2. ..., r} para cualquier j = 1, 2, .... s. La frecuencia
total de (X \ Y=yj ) es nj. Análogamente se define la variable estadística Condicionada a que X = xI,
denotándola (Y/ X = xi) = {(yj,nij) : j = 1, 2, ..., c; para cualquier i = 1,2,... r. La frecuencia total de
(Y/X = xi) es ni. Las frecuencias relativas condicionadas de las variables (X/ Y= yj) y (Y/X = xi) serán
respectivamente: fi/j y fj/i, todas explicitadas a continuación, tanto absolutas como relativas.
r c ni nij
n j   nij ni   nij fi / j 
j
f j/i 
i 1 j 1 n j ni 

Puede observarse que pueden definirse tantas distribuciones de frecuencias condicionadas como
valores tienen las variables X e Y ya que cada una queda determinada por la fila o la columna del
correspondiente valor que condiciona. Las distribuciones condicionadas también son
unidimensionales y por tanto puede obtenerse todas las medidas de posición y dispersión de las
mismas.

Ejemplo 3: De la tabla de correlación de economía familiar, obtener: a) Y=yj/X=175 n2j


La distribución de Y condicionada a que X = 175. b) Obtener la moda,
media aritmética, la desviación típica, y el coeficiente de variación de 1 10
dicha distribución.
2 20
a. El valor que condiciona X = 175 nos define la segunda fila de
3 2
frecuencias absolutas conjuntas nij que son las que formarán la
distribución junto con los valores de la variable Y. Luego la distribución n2.=32
pedida es una unidimensional formada por estas columnas a la derecha.

b. La distribución obtenida anteriormente se manipula como una unidimensional para obtener las
distintas medidas de posición y dispersión: Mo(Y/X = 175) = 2 (por tener la mayor frecuencia). Lo que
nos indica que lo más frecuente son dos miembros por familia los que aportan ingresos dentro del
segundo intervalo 150-200 mil córdobas. Ahora la media aritmética de Y condicionada a X=175, es
/x=175 = 1/32*[1*10 + 2*20 + 3*2] = 56/32 = 1.75. Son aproximadamente 2 miembros por familia los
que aportan ingresos dentro del intervalo comprendido entre 15000 y 20000 Córdobas.
Recordemos que cuando la variable es de tipo discreto, como en este caso (Y son individuos) no
tienen sentido los decimales dando el resultado por exceso o defecto en números enteros. Ahora la
varianza condicionada es:

1
S Y2 / X 175  [(1  1.75) 2 *10  (2  1.75) 2 * 20  (3  1.75) 2 * 2]  0.3125 ⇒
32
SY / X 175  0.5590

SY / X 175 0.559
El coeficiente de variación de Pearson será: CVY / X 175    0.31943
Y Y / X 175 1.75
Este coeficiente nos indica, expresado en tantos por 100, que la desviación típica supone un 32% de
la media aritmética con lo que podemos admitir como promedio que nos representa al conjunto de
la distribución. Hasta un 50% de participación de la dispersión en el promedio se considera como
aceptable la representatividad.

Independencia estadística: Dos variables estadísticas X e Y son independientes entre sí cuando la


variación de una de ellas no influye en la distribución de la otra condicionada por el valor que tome
la primera. Por el contrario existirá dependencia cuando los valores de una condicionan la
distribución de los valores de la otra.

Definición: Dadas las variables estadísticas X e Y, la condición necesaria y suficiente para que
sean independientes es:
nij ni n
 * j ( i  1,2,...,r y  j  1,2,...,s )
N N N

Una propiedad de interés es que si X e Y son independientes, entonces la covarianza entre ellas es
nula. Sin embargo, que Cov(X,Y) = 0, no implica que X y Y sean independientes.

Ejemplo 4: La tabla de correlación presentada en el Ejemplo 1, probar si las variables X e Y son


dependientes, veamos:

n2 3 n 2 n3 30 46 54 1380
 * o bien  * 
N N N 100 100 100 10000

La independencia estadística entre X y Y. exige que para todo i=1,2,3,4 y todo j=1,2,3; se verifique
nij/N = (ni./N)*(n.j/N). Como esto no se da para algún par (i, j), concretamente para i = 2 y j = 1,
concluimos que X y Y son dependientes.

a. Actividades Finales:
 Resumir lo expuesto durante la clase y presentación de los ejercicios
resueltos por cada grupo.
b. Orientación del Trabajo independiente:
 Realizar ejercicio el cual los estudiantes puedan construir e interpretar tablas
correlación.

V. MEDIOS O RECURSOS DIDÁCTICOS NECESARIOS: Pizarra. Marcador. Data

show. Una portátil.


VI. EVALUACIÓN DE LOS APRENDIZAJES (Criterios y Evidencias):

 Identificar las diferentes fórmulas a usar en distribuciones marginales y

condicionadas y calcular en la tabla de correlación las estadísticas descriptivas

en estas

 Práctica ejercicios en la pizarra.

 Realización de ejercicios individuales orientados en clases.

 Asistencia y participación

VII. CONCLUSIONES:

 Indagar la importancia de las construcción e interpretación de tablas de

correlación

VIII. RECOMENDACIONES:

Recordar a los estudiantes realizar ejercicios propuestos en la bibliografía para

reforzar lo aprendido.

IX. BIBLIOGRAFIA:

 Estadística. Richard C. Weimer.

 Casas Sánchez José M, Santos Peñas Julián (2002). Introducción a la

Estadística para Economía. Segunda Edición. Editorial Centro de Estudios

Ramón Areces, S.A. Madrid, España.

TRABAJO EN GRUPO PARA ENTREGAR


 Fórmulas para la Tabla de Correlación.

Medias y Varianzas Medias Coeficiente de Variación


Marginales Condicionadas Condicionado

1 r
X   xi nij 1 S( X / Y y j )
x n
r
n i 1 X (X /Yy j )  i ij CV( X / Y  y j )  *100
xi ni   X 
1 r 2 n j
 X (X /Yy j )
i 1
SX 
2 2

N1 i 1
1 s
Y  y j nij 1 s S ( Y / X  xi )
n j 1 Y ( Y / X  xi )   y j nij CV ( Y / X  xi )  * 100
SY   y 2j n j  Y 
2 1 s 2 ni j 1 Y ( Y / X  xi )
N j 1

 Varianzas Condicionadas

 x n  x n  X 
2
1 r
1 r

 X S(2X / Y  y j ) 
2 2 2
S(X /Yy j ) i
(X /Yy j )
ij i ij
( X /Yy j )
ni  i 1 n j i 1

 y  Y (Y / X  xi )  nij  Y ( Y / X  xi ) 
2
1 1
y n
s s

S(2Y / X  xi )  S (2Y / X  xi )  2 2

j j ij
n j j 1 ni j 1



 Ejercicio 1: Se tomó Y→ (00 - 100] (100 - 200] (200 - 300] (300 - 400]
una muestra de los
alumnos becados del X ↓ y = y= y= y=
Año Estudios Generales
y estudiamos 18 30 12 8 1
conjuntamente las 19 15 10 5 4
variables: edad en años
(X) y córdobas invertido 20 20 15 10 6
en material bibliográfico
(Y). Esta encuesta se 21 26 18 13 7
realizó cinco días
después de habérseles entregado las becas a inicios del segundo semestre. Los
resultados se presentan en la siguiente tabla mostrada a la derecha.

 a) Obtenga las distribuciones de frecuencias marginales: ¿Qué nos indica n21,


n33, n •1, n4•?

 b) Calcule para cada variable la media, desviación típica y coeficiente de


variación: ¿Qué variable es más homogénea en torno a la media?

 c) ¿Cuál es la edad promedio de los estudiantes con mayor inversión en material


bibliográfico?

 d) ¿Cuál es la inversión media para los estudiantes con menor edad?


 Ejercicio 2: Las calificaciones de ocho estudiantes de un grupo universitario en
matemática (X) e inglés (Y) son como X 77 81 94 50 72 63 88 95
sigue: En este caso ya no es necesario
usar el doble índice (i , j), solo se usa el Y 82 47 85 66 65 72 89 95
índice i ya que la tabla de correlación tiene
frecuencias unitarias. Dibuje el diagrama de dispersión. Obtenga las estadísticas
descriptivas marginales: Medias, varianzas, desviaciones típicas y coeficientes
de variación.

Xi 77 81 94 50 72 63 88 95 X i

Yi 82 47 85 66 65 72 89 95 Yi

X i2 X 2
i

Yi 2

X i Yi

Ejercicios de medidas de concentración


I. Calcula la media, la varianza, la desviación típica y el coeficiente de variación de Pearson .

Tras encuestar a 25 familias sobre el número de hijos que tenían, se obtuvieron los siguientes
datos:

Rta: La Media Aritmética= 1.68

La Varianza es 1.4176

Y la Desviación Típica s=1.85

Coeficiente de Variación de Pearson, Vp= 70.869

II.Del siguiente ejercicio calcular la varianza y la desviación típica.


Calcular varianza y desviación típica

Rta

Desviación típica

Ig=0.18
RTA:IG=0.28

RTA:IG= 0.18

También podría gustarte