Estadistica Descriptiva - Sergio Moscoso
Estadistica Descriptiva - Sergio Moscoso
Estadistica Descriptiva - Sergio Moscoso
ESTADISTICA DESCRIPTIVA
Prof: Sergio Moscoso Cerda
1.0 Definiciones Bsicas
Estadstica
Es la disciplina que se preocupa de recopilar, organizar y analizar datos cuantitativos o cualitativos
para luego emitir una opinin y posteriormente tomar una decisin
La estadstica se divide en dos partes
i)
Estadstica Descriptiva
ii)
Estadstica Inferencial
Estadstica Descriptiva
La Estadstica Descriptiva es la que trabaja con todos los elementos de una muestra y
clculos realizados slo son validos para dicha muestra
los
Estadstica Inferencial
Es la que hace que todas las mediciones hechas a una muestra sean
validas para la Poblacin de la que se sac la muestra
Rol de la Estadstica en la investigacin Cientfica
Una de las caractersticas del hombre es que busca constantemente una
explicacin racional de los fenmenos que lo rodean.
Es tarea propia de la ciencia, observar adecuadamente los hechos, discernir
que elementos son constantes en ellos y determinar las leyes que lo rigen, es
decir, sus relaciones constantes y universales. El Mtodo Cientfico, es el
mtodo propio a la ciencia, el que se aplica al ciclo completo de una
investigacin, desde el enunciado del problema hasta la evaluacin de los
resultados obtenidos.
El Mtodo Cientfico
En el mtodo cientfico podramos distinguir en forma esquemtica, y con las limitaciones que
esto supone, las diversas etapas
- Eleccin y enunciado del problema
La eleccin de un problema con el fin de averiguar sus causas o de encontrarle soluciones,
depender de los juicios de valor del investigador y de las condiciones sociales, polticas y
econmicas en las cuales se desarrolla la ciencia. El enunciado puede hacerse a travs de
la descripcin de la situacin problema o mediante el planteamiento de una pregunta.
Verificacin de la hiptesis
La verificacin puede hacerse, sobre todo en las ciencias exactas, mediante demostraciones
tericas basadas en relaciones aceptadas en el estado actual del conocimiento.
En el campo de las ciencias sociales la verificacin se hace, a travs de la recoleccin de
informacin o de observacin de los fenmenos. Esto implica la aplicacin de una serie de
procedimientos estadsticos
-
Definicin de objetivos
Corresponde formalmente a la descripcin del problema que da origen a la investigacin. Se
debe sealar detalladamente lo que se pretende investigar, es decir, el qu, cmo, donde,
cuando y por qu
Diseo de la muestra
La teora de Muestreo o de Diseo y Anlisis de Experimentos pueden garantizarnos que la
informacin que generaremos nos permitir proyecciones vlidas al universo de inters
II Etapa de Ejecucin
En esta etapa podemos reconocer las siguientes fases:
-
Recoleccin de la informacin
Elaboracin de la informacin
Anlisis de los resultados
Es obvio que todo estudio ha de estar referido a un conjunto o coleccin de personas o cosas.
Este conjunto de personas o cosas es lo que denominaremos Poblacin.
Las personas o cosas que forman parte de la poblacin se denominan elementos. En sentido
estadstico un elemento puede ser algo con existencia real, como un computador o una casa, o
algo ms abstracto como un voto o un intervalo de tiempo.
A su vez, cada elemento de la poblacin tiene una serie de caracterstica que pueden ser objeto
del estudio estadstico. As por ejemplo si consideramos como elemento a una persona,
podramos distinguir en ella
las siguientes caractersticas:
Sexo, edad, nivel educacional, profesin, peso, color de pelo, religin. Etc.
Segn su tamao la poblacin se puede dividir en:
a) Poblacin finita: Cuando el nmero de elementos que forman la poblacin es finito, por
ejemplo el nmero de estudiantes por clase
b) Poblacin infinita: Cuando el nmero de elementos que forman la poblacin es infinito, por
ejemplo el nmero de productos que hay en el mercado
Ahora bien, por lo general en un estudio estadstico no se puede trabajar con todos los
elementos de la poblacin por un asunto de costo o de imposibilidad de tener toda la
informacin, sino que se realiza sobre un subconjunto de la poblacin. Este subconjunto se
llama muestra o subpoblacin, por ejemplo al hacer un estudio sobre los estudiantes de la
Universidad se podr tomar a los estudiantes que cursan tercer ao y de este subconjunto slo a
los estudiantes varones. Existen dos grandes formas para seleccionar una muestra:
i) Muestreo Aleatorio o Probabilstico
En este tipo de muestreo, todos los elementos de la poblacin tienen la
misma chance de figurar en la muestra
ii) Muestreo no Aleatorio o de Juicio
En este tipo de muestreo, se usa el conocimiento y la opinin personal
para identificar los elementos de la poblacin que van a incluirse en la
muestra.
En ocasiones, el muestreo no aleatorio sirve de muestra piloto para decidir como seleccionar
despus una muestra aleatoria.
Como nuestro trabajo lo debemos realizar con muestras obtenidas de alguna poblacin, de
modo que al realizar un muestreo lo podemos hacer aplicando uno o ms de los siguientes
mtodos de muestreo:
a) Muestreo Aleatorio
Los elementos incluidos en esta muestra han sido seleccionados mediante algn
procedimiento de sorteo o azar que signa alguna chance no nula a cada elemento de la
poblacin, hablamos de Muestreo Aleatorio Simple.
b) Muestreo por Estratos
En muchas situaciones, existe un factor que divide naturalmente a la poblacin de inters en
sub-poblaciones o Estratos ms o menos homogneos. Este procedimiento de muestreo
puede darnos mayor precisin que el muestreo aleatorio simple, pero a un costo mayor.
Ejemplo: Hacer un estudio por estratos socioeconmicos
c) Muestreo Sistemtico
Los elementos se seleccionan de la poblacin con un intervalo uniforme que se mide en el
tiempo, en el orden o en el espacio, por ejemplo si se quiere entrevistar a todo dcimo
estudiante de una escuela. Deberamos asignar a cada estudiante un nmero entre 00 y 99
y luego se comienza a escoger una muestra; cada dcimo nmero, es decir, 1, 11, 21, 31 y
as sucesivamente. Los estudiantes asignados con los nmeros 2, 3, 4 y 5 no tendrn
oportunidad alguna de ser seleccionado.
d) Muestreo por Conglomerados
En este caso se divide la poblacin en grupos o conglomerados y luego se selecciona una
muestra aleatoria de ellos. Este muestreo se usa cuando se advierte considerable variacin
dentro de cada grupo pero esencialmente semejantes entre s, por ejemplo s un equipo de
investigacin de mercados esta tratando de determinar por muestreo el nmero promedio
de TV. por familia en una ciudad, podra utilizar un mapa de la ciudad para dividir el territorio
en manzanas y luego seleccionar cierto nmero de manzanas
(Conglomerados) para realizar la entrevista.
Como hemos visto, los caracteres o datos de un elemento pueden ser de
muy diversos tipos, por lo que los podemos clasificar en dos tipos de
variables
i)
Variables Cuantitativas: son las que se describen por medio de nmeros tales como el
peso, la estatura, nmero de hermanos, etc., las observaciones de este tipo se definen, por
lo general, sobre un intervalo o sobre una escala de proporciones. Las mediciones que se
definen en una escala de intervalo se pueden distinguir y ordenar en forma numrica y sus
diferencias son significativas por ejemplo la medicin de la temperatura. pude escogerse
entre registrar la temperatura en grados Celsius o en grados Fahrenheit. De esta forma el
origen de las escalas es diferente, pero el significado de la diferencia entre 10C y 15C es el
mismo que tiene la diferencia entre 20Fy 25F.
Si una medicin rene los requisitos de una escala de intervalo y adems tiene punto de
origen, entonces la medicin se define sobre una escala de proporciones. Por ejemplo,
las estaturas, los pesos y otros se encuentran definidos sobre una escala de proporciones ya
que tienen verdaderos puntos ceros
Adems, este tipo de variables se puede dividir en:
a) Variables Discretas: Son aquellas que se describen solo por un nmero entero, es decir,
aquellas que por su naturaleza no admiten un fraccionamiento de la unidad, por ejemplo el
nmero de hijos por pareja
b) Variables Contnuas: Son aquellas que por su naturaleza admiten que entre dos valores
cualesquiera la variable pueda tomar cualquier valor intermedio, por ejemplo el peso, la
estatura, etc.
En muchos casos el tratamiento estadstico hace que la variable discreta se trabaje como
continua y viceversa
1
2
2
1
3
N de familias
16
20
9
5
50
74
94
78
82
86 107
105
88
79
98
86 89
77
66
86
87
92
107
97
93
77
95
112
104
87 100
69 80
97 79
77 87
77
83
96
114
91
87
92
87
90
89
86
96
73
94
Evidentemente, el recorrido de la variable es grande, por lo tanto necesitamos tabular con intervalos
de clases. Para decidir sobre la cantidad de intervalos se debe tener en cuenta las siguientes
consideraciones:
- Al tomar pocos intervalos aumenta la perdida de informacin
- Los intervalos pueden ser Cerrados o Semi-cerrados
- Normalmente se suele trabajar con no ms 10 o 12 intervalos
Tabulemos la muestra anterior en cinco intervalos de clases semi-cerrados, como tenemos que el
recorrido real va de 66 a 114 y al modificar el recorrido de 65 a 115.
Por lo tanto, la amplitud del recorrido modificado es 50 y, como la tabulacin es de 5 intervalos luego
la amplitud de cada intervalo de clase es de 10, por lo tanto tenemos la siguiente tabla
Tabla 2
Intervalos de Clase
Yi-1 - Yi
Conteo
65 - 75
75 - 85
85 - 95
95 - 105
105 - 115
Total
4
11
20
9
6
50
Tipos de frecuencias
Uno de los primeros pasos que se realizan en cualquier estudio estadstico es la tabulacin de
resultados, es decir, recoger la informacin de la muestra resumida en una tabla en la que a cada
valor de la variable se le asocian determinados nmeros que representan el nmero de veces que
ha aparecido. Estos nmeros se denominan frecuencias. As se tienen las siguientes frecuencias:
Frecuencia Absoluta
Esta frecuencia la denotaremos por ni y la definiremos como el nmero de veces que aparece en la
muestra dicho valor de la variable. La suma de todas las frecuencias absolutas es igual al tamao
de la muestra, es decir
n
i 1
Esta frecuencia en una medida que est influida por el tamao de la muestra, al aumentar el
tamao de la muestra aumentar tambin el tamao de la frecuencia absoluta. Esto hace que no
sea una medida til para comparar por esto es necesario introducir el concepto de frecuencia
relativa
Frecuencia relativa
Esta frecuencia la denotaremos por hi y la definiremos como el cuociente entre la frecuencia
absoluta y el tamao de la muestra
hi
ni
; el recorrido de esta frecuencia es 0 h i 1
n
h 1
i 1
N1 n1
H1 h1
Personas
que
trabajan
Xi
N de
familias
ni
hi
hi%
Ni
Hi
Hi %
1
2
3
4
Total
16
20
9
5
50
16/50
20/50
9/50
5/50
1.0
32
40
18
10
100
16
36
45
50
16/50
36/50
45/50
50/50
32
72
90
100
Frecuencias
ni
hi
Ni
Hi
Yi
4
11
20
9
6
4/50
11/50
20/50
9/50
6/50
4
15
35
44
50
4/50
15/50
35/50
44/50
1
70
80
90
100
110
Total
50
Tipos de grficos
En estadstica existen los siguientes tipos de grficos
LABORATORIO N 1
10
Problema 1
Los siguientes datos corresponden a la duracin, en aos, de los componentes de una vacuna
2.0
0.7
1.5
4.5
1.3
3.0
6.0
4.0
0-9
6.2
0.3
5.8
5.8
1.5
5.7
3.3
6.6
1.9
0.7
6.3
1.3
0.2
4.8
2.8
1.5
0.5
2.3
0.7
5.3
0.4
20
17
18
8
12
10
8
17
18
15
8
9
14
7
19
25
12
16
10
6
14
14
31
5
8
13
7
8
28
13
19
9
7
17
14
18
15
15
14
18
24
22
12
15
21
a) Construye una tabla completa de distribucin de frecuencias para este conjunto de datos,
usando 6 intervalos de clase
b) Dibuja un grfico de torta para las frecuencias relativas
Usando la tabla de distribucin de frecuencias, responde:
c) Qu porcentaje de los mosquitos lograron una vida bajo la presencia del insecticida por arriba
de 29,5 segundos?
d) Interpreta el valor de:
1) La tercera frecuencia absoluta
2) La segunda frecuencia relativa
3) La cuarta frecuencia absoluta acumulada
4) La tercera frecuencia relativa acumulada
Problema 3
Los contenidos de nicotina, en miligramos, de 40 cigarrillos marca CANCER se registraron de la
siguiente manera
1.02
1.93
2.31
1.78
2.28
1.76
1.47
1.94
0.97
1.28
2.14
2.36
1.87
0.67
1.29
2.54
3.11
2.15
1.36
2.14
1.54
1.78
0.78
1.54
1.35
1.47
2.15
1.57
2.16
2.78
1.35
2.17
1.27
1.36
1.47
2.14
0.98
1.37
2.15
1.06
Encuentra para este conjunto de datos:
a) Una tabulacin de frecuencias en intervalos cerrados de amplitud 0,41
b) Interpreta los valores de n2, h3 y N4
11
92
81
86
82
87
81
83 78 41 67 68 76 46 81 92 77 84 76 70 66
87 78 70 60 94 79 52 82 77 81 77 70 74 61
12
y n
i 1
Propiedades de la Media
a) Media de una variable ms o menos una constante
Si hacemos que M [ x ] sea igual a la media y k = constante, entonces se tiene
M x k M X k
Es decir, si a una variable se le suma o resta una constante la nueva media es igual a la media de la variable
ms o menos la constante
b) Media de una variable por una constante
M[a x] = a M[x];
a = constante y x = variable
Es decir, la media de una variable por una constante es igual a la media de la variable por la constante
c) Media de una Constante
M[k] = k, donde k es una constante.
Es decir, la media de la constante es la constante
Observacin: Todas estas las propiedades de la media se pueden demostrar usando las propiedades de las
sumatorias
La Media en funcin de las Medias de las Submuestras
Por ejemplo si una distribucin es separada en dos submuestras la media de toda la distribucin se podra
calcular usando la siguiente expresin:
y1 n1 y 2 n2
n1 n2
Zi Yi Y
13
y n
i
i 1
Y 0
Y 0t z '
Es conveniente usar como Ot, un valor central de la variable o el de mayor frecuencia
Ejemplo: De la tabla 4 se tiene lo siguiente
yi
70
80
90 = Ot
100
9
110
ni
4
11
20
6
50
Zi
-20
-10
0
10
20
Zini
-80
-110
0
90
120
20
14
y 90
20
90 0, 40 90, 4
50
yi ot z 'i
ui
c
c
De aqu se deduce que zi = cui y como:
y z ot
Entonces la media calculada por el segundo mtodo abreviado es:
y ot c
u n
i
Ni
4
11
20
9
6
50
ui
-1
0
1
2
3
uini
-4
0
20
18
18
52
y 80
52
*10 90, 40
50
2) La Mediana ( Med)
La mediana es el valor central de la variable, es decir, si la muestra esta ordenada en forma creciente o
decreciente, el valor que divide en dos partes iguales a la muestra
Para el calculo de la mediana si los datos corresponden a variables discretas tendremos en cuenta el
tamao de la muestra.
15
n 1
2
y el trmino que ocupe ese lugar ser la mediana, por ejemplo si tenemos la
siguiente muestra
1, 4, 58, 10, 12, 14, 20 entonces n es 7 por lo que
n 1 7 1
4
2
2
Al ordenar la informacin se tiene 1, 4, 10, 12, 14, 20, 58
Es decir, la Mediana ser el trmino que ocupe el 4 lugar, o sea 12
b) Si n es par, hay dos trminos centrales los que podrn determinarse de la siguiente manera:
n n
y 1
2 2
La mediana ser, entonces, la media de estos dos valores, por ejemplo
2, 3, 7, 21, 34, 45, 50, 86 luego n = 8, de donde
8 8
y 1
2 2
Es decir, los trminos 4 y 5 corresponden a los valores 21 y 34 respectivamente, luego la mediana es
Med
21 34
27,5
2
Calculo de la Mediana si la variable es continua, la tabla deber ser de intervalos por lo que se calcula de
la siguiente manera:
16
N
j 1
Med Li c 2
n
i
Donde:
Li: Limite inferior del intervalo de la clase de la mediana
c:
Amplitud del intervalo de la clase de la mediana
Nj-1 : Frecuencia absoluta acumulada anterior a la de frecuencia absoluta acumulada de
la clase de la mediana
ni: Frecuencia absoluta del intervalo de la clase de la mediana
Ejemplo: De la tabla 4 se tiene que
n
25; C=10; N j-1 15; n i 20; Li 85
2
Luego la mediana es:
25 15
Med 85 10
90
20
3) La Moda ( Mod)
La moda es el valor de la variable que tiene mayor frecuencia absoluta, es la nica medida de resumen que
tiene sentido estudiar en una variable cuantitativa
Por su definicin, la moda no es nica, pues puede haber distribuciones que tengan ms de una moda. En
cuyo caso tendremos una distribucin que sea uni modal o polimodal segn sea el caso.
Por lo que el calculo de la moda en distribuciones discretas o cualitativas no requiere de una explicacin
mayor, sin embargo, el calculo de la moda para distribuciones cuantitativas contnuas es necesario hacer
algunos clculos. La moda se la define como:
i ) Mod Li 1
ni ni 1
c
n
n
i i 1 i i 1
ii ) Mod Li 1
ni 1
c
ni 1 ni 1
17
Intervalos de clase
Yi-1 - Yi
ni
65 - 75
75 - 85
85 - 95
95 - 105
105 - 115
Total
4
11
20
9
6
50
Como el intervalo que tiene mayor frecuencia absoluta es el tercero, entonces, al reemplazar en las formulas
anteriores se tiene lo siguiente:
20 11
87,37
20 11 20 9
i ) Mod 85 10
9
ii ) Mod 85 10
89,50
9 11
Observndose una buena aproximacin entre estos valores
4) Medidas de Localizacin: Cuartles, Decles y Percentiles
Las medidas de localizacin dividen la distribucin en partes iguales, sirven para clasificar a un elemento
dentro de una determinada poblacin o muestra.
Cuartiles
Medida de localizacin que divide a la muestra en cuatro partes iguales, los cuartiles son cuatro a saber:
Q1: Valor de la variable que supera al 25% de los datos de la muestra
Q2: Valor de la variable que supera al 50% de los datos de la muestra, este valor
corresponde al valor de la Mediana.
Q3: Valor de la variable que supera al 75% de los datos de la muestra
Por lo tanto, los cuartiles primero y tercero se los define como:
N i 1
Q1 Li 1 C 4
ni
3n
N i 1
Q3 Li 1 C 4
ni
18
Intervalos de clase
Yi-1 - Yi
ni
Ni
65 - 75
75 - 85
85 - 95
95 - 105
105 - 115
Total
4
11
20
9
6
50
4
15
35
44
50
a) Dado que
n
12,5
4
12,5 4
Q1 75 10
82,73
11
Esto significa que el 25% de la muestra tiene ingresos inferiores a 82,73 y que el 75% de la muestra tiene
ingresos mayores que 82,73
b) Dado que
3n
37,5
4
37,5 35
Q3 95 10
97,78
9
Esto significa que el 75% de la muestra tiene ingresos inferiores a 97,78 y que el 25% de la muestra tiene
ingresos superiores a 97,78
Deciles
Los decles son nueve y dividen a la poblacin en diez partes iguales.
dk = Decil k-simo es aquel valor de la variable que deja a su izquierda k10% de la distribucin
Los deciles los denotaremos por D y se los define por:
k n
10 Ni 1
d k Li 1 C
: donde k =1,2,...,9
n
i
Percentiles
Los Percentiles son 99 y dividen a la muestra en cien partes iguales
Pk = Percentil k-simo es aquel valor de la variable que deja a su izquierda el k*% de la distribucin
19
k *n
N i 1
p k Li 1 C 100
n
Observacin: Para calcular cualquier medida de localizacin se procede de manera semejante a como se
procedi en el calculo de la mediana.
LABORATORIO N 2
Problema 1
Del laboratorio n 1 y del problema n 1 Calcula e interpreta
1) La media utilizando las frecuencias absolutas y las relativas
2) La nueva media si los tiempos aumentan en 0,25 aos
3) La nueva media si los tiempos disminuyen en 0,50 aos
4) La nueva media si los tiempos aumentan en 15%
5) La nueva media si los tiempos disminuyen en 20%
6) la media si la muestra se dividi en 3 submuestras
7) Comprueba que la media de las desviaciones respecto de la media es cero
8) El valor de la mediana
9) El valor de la moda
10) El valor del primer y tercer cuartil
11) El valor de D6, P85 y Q4
12) El valor del rango Percentil
13) El valor del rango Semi- intercuartil
14) La varianza, Utiliza la definicin y el calculo abreviado
15) La desviacin tpica o estndar
16) Si la distribucin es dividida en tres submuestras, cul de ellas es ms homognea?
17) Si la submuestra es dividida en dos submuestras, cul es el sesgo de ellas?
18) Cul es el valor de k del pregunta 16?
20
II Medidas de Dispersin
Las medidas de dispersin miden el grado de variabilidad que tienen los datos de una muestra respecto a
una medida de resumen, la que por lo general es la media. Para entender mejor esta medida lo haremos con
un ejemplo.
Supongamos que las edades promedios de dos equipos de bsquetbol son aproximadamente de 20 aos,
pero al conocer las edades de cada integrante de los equipos nos damos cuenta que la composicin de los
equipos, respecto a las edades, es distinta
Equipo A: 20-19-21-18-22
Equipo B: 24-15-31-12-18
Por lo tanto, las edades de los integrantes del equipo A estn mas cerca de la media, es decir, tienen menos
dispersin que las edades del equipo B.
La idea de dispersin se relaciona con la mayor o menor concentracin de los datos entorno a un valor
central, generalmente la media.
Las medidas de dispersin o variabilidad que estudiaremos son:
Los rangos: son los valores que se obtienen mediante una diferencia
Desviacin Total y desviacin Media: son valores que se obtienen mediante una diferencia entre algn
valor de una variable y su media
Varianza: Talvez sea el estadstico de variabilidad ms importante, e indica el grado de variacin que tienen
los datos respecto de la media
1) El rango
Es la diferencia entre el valor mayor y el valor menor de la distribucin. Al comenzar a tabular se midi el
rango de la muestra.
2) Desviacin Total y Media
La desviacin total la denotaremos por t y la desviacin media la denotaremos por m y se definen de la
siguiente manera:
n
| x
i 1
n
n
x|
. Para datos no agrupados
21
n *| y
i
y|
. Para datos agrupados
n
n
Ejemplo para datos agrupados: Las muestras siguientes corresponde a las notas de Estadstica de dos
cursos A y B respectivamente
Curso A
Notas
Yi
ni
ni | yi y |
Yi*ni
0,5
1,5
2,5
3,5
4,5
5,5
6,5
1
2
3
4
5
6
7
4
8
7
8
7
8
4
12
16
7
0
7
16
12
4
16
21
32
35
48
28
1,5
2,5
3,5
4,5
5,5
6,5
7,5
n
n 1
46
70
184
y 4,0
t 70
70
1,52
46
Curso B
Notas
Yi
ni
ni | yi y |
Yi*ni
0,5
1,5
2,5
3,5
4,5
5,5
6,5
1
2
3
4
5
6
7
3
4
7
24
18
3
1
9
8
7
0
18
6
3
3
8
21
96
90
18
7
1,5
2,5
3,5
4,5
5,5
6,5
7,5
60
51
243
22
y 4,0
t 51
51
0,85
60
Por lo tanto, el curso B tiene menos dispersin que el curso A, es decir, las notas del curso B estn ms
cerca de la media
Para el calculo de las desviacin total y media de datos no agrupados se procede de manera similar
3) Rango Inter. Cuartil
El rango Inter. Cuartil es la diferencia entre el tercer cuartil y el primer cuartil
Ejemplo: De la tabla 4 se tiene que
Q3 Q1
Q
2
Ejemplo : De la tabla 4 se tiene lo siguiente
Q3 Q1 15,05
7,525 = Q
2
2
5) Rango Percentil
El rango percentil es la diferencia entre el percentil noventa y el percentil diez
P90 P10
6) La Varianza
La varianza es una estadstica de variabilidad que aprovecha la informacin contenida en todas las
observaciones de la muestra. Se la define como:
23
2
1 n
S Var x
x
x
; Cuasi-varianza o varianza poblacional
i
n 1 i 1
2
S2
2
1 n
x
x
; Varianza muestral
n i 1
x x
i
Edad
20
19
21
18
22
Luego la cuasi-varianza es S
La varianza es S
0
1
1
4
4
x =10
10
2,5 . Esto es el promedio de las desviaciones al cuadrado
5 1
10
2 . Esto es el promedio de las desviaciones al cuadrado
5
1 k
2
S
ni * yi y
n 1 i 1
1 n
S ni yi y
n i 1
2
24
ni
y y n
yi 2 ni
1664.64
1189,76
3,20
829,44
2304,96
19600
70400
162000
90000
72600
70
80
90
100
110
4
11
20
9
6
5992
50
S2
414600
5992
119,84 .
50
S
2
y
i 1
ni
S2
414600
90,40 2 119,84 . Varianza muestral
50
Propiedades de la varianza
1) Varianza de una variable ms una constante, si V[x] es la varianza de x
V[k+ yi] = V[yi] ; donde k = constante
2) Varianza de una variable por una constante
V[kxi] = k2V[xi]; donde k = constante
Verificar estas propiedades
La Desviacin Tpica o Estndar
Dado que al calcular la varianza la unidad de medida original queda elevada al cuadrado. Para muchas
aplicaciones eso resulta inconveniente y por eso se suele preferir la estadstica llamada Desviacin Tpica.
La que se la define como
25
S S2
Coeficiente de Variacin
Es un estadstico de dispersin que tiene la ventaja de que no lleva asociada ninguna unidad de medida, por
lo que nos permitir decir entre dos muestras, cual es la que tiene mayor dispersin. La denotaremos por
C.V y se le define por:
C.V
S
y
C.V
122,29
0,1223 . Es decir la distribucin tiene una variabilidad de 12,23% respecto de la
90,40
media
III Medidas de la Forma
Estas medidas nos indican la forma que tiene la distribucin
1) Simetra
Las medidas de simetra, al igual que la Curtosis, son medidas de la forma de la distribucin, es frecuente
que los valores de una distribucin tiendan a ser similares a ambos lados de las medidas de centralizacin.
La simetra es importante para saber si los valores de la variable se concentran en una determinada zona del
recorrido de la variable.
La simetra se puede medir en funcin de los valores de la media, la moda y la mediana.
Por lo tanto puede ocurrir lo siguiente:
a) Media > Med > Mod, entonces el sesgo el positivo
b) Mod > Med > Media, entonces el sesgo el sesgo es negativo
Esta situacin queda reflejada en los siguientes grficos
26
Los Sesgos
Esta medida nos otorga el grado de asimetra de una distribucin. Si los resultados son positivos, entonces
los sesgos son positivos. Los sesgos se pueden calcular de la siguiente manera
a) Primer coeficiente de sesgo de Pearson
Sesgo
y Mod
S
Sesgo
3 * y Med
S
27
y
k
i 1
y * ni
3
n
S3
Sesgo
y
n
i 1
y * ni
4
n
S4
28
Q3 Q1
2
K
P90 P10
Ejercicio: calcula la Curtosis de la tabla n 4 utilizando cuarteles y percentiles
Observacin: La distribucin Normal tiene una Curtosis de K = 0,263
LABORATORIO N 3
Problema 1
En una zona de la comuna de Santiago, La superficie de las viviendas tiene la siguiente distribucin
Superficie
(m2)
50 - 60
60 - 70
70 - 80
80 -100
100-120
Frecuencia relativa
( porcentaje )
20
25
15
25
15
29
Distancia
Km
400
600
1000
Velocidad Media
Km/h
50
60
100
Produccin
Rendimiento
( Qm )
(Qm/Ha)
A
2500
10
B
3000
20
C
4000
25
D
6000
15
E
7000
14
Calcula el rendimiento medio por Ha. Para el conjunto de los predios
(Sol. 4440,47619)
Problema 4
Un grupo de alumnos ha obtenido las siguientes notas en Matemtica y Estadstica
Notas
1
2
3
4
5
6
7
a)
b)
Matemtica
N Estudiantes
0
10
15
23
32
10
10
Estadstica
N Estudiantes
5
4
6
16
50
16
3
Problema 5
Despus de haber sido evaluados los trabajadores de una empresa se dividieron en cuatro grupos, de los
cuales tenemos los siguientes datos
Grupo
N trabajadores
Nota media
Varianza
30
A
B
C
D
30
40
50
60
6,0
6,5
5,0
4,0
1,00
1,69
0,81
0,64
Problema 7
En una empresa metalrgica los empleados se clasifican en tres categoras: tcnicos, especialista y
administrativos. El nmero de empleados, el salario medio mensual y la varianza de los salarios de cada
categora en el mes de agosto de 2000 son los que aparecen en el siguiente cuadro
Categora
Nmero
De
Empleados
Tcnicos
20
Especialistas
100
Administrativos
40
a) Calcula el salario medio para el conjunto de la empresa y la dispersin de los salarios Sol. 125
y 875
b) En la discusin para fijar los salarios de 2001 han sido propuesta tres alternativas.
1) El aumento de todos los salarios en un 5%
2) El aumento de todos los salarios en $ 5500 mensuales
3) El aumento de los salarios segn la siguiente escala: 4% a los tcnicos, 5% a los
especialistas, y 5,5% a los administrativos
a) Calcula los salarios medios que resultan las tres alternativas y la dispersin en cada caso
Sol. Promedio: Tec. = 208; Esp = 126 y Ad = 105,5
Sol. Dispersin: Tec = 20,80; Esp =7,35 y Ad = 5,275
b) Cul de las tres alternativas tiene mayor efecto para reducir la dispersin inicial de los
salarios para la empresa?
31