Estadistica Descriptiva - Sergio Moscoso

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 31

1

ESTADISTICA DESCRIPTIVA
Prof: Sergio Moscoso Cerda
1.0 Definiciones Bsicas
Estadstica
Es la disciplina que se preocupa de recopilar, organizar y analizar datos cuantitativos o cualitativos
para luego emitir una opinin y posteriormente tomar una decisin
La estadstica se divide en dos partes
i)
Estadstica Descriptiva
ii)
Estadstica Inferencial
Estadstica Descriptiva
La Estadstica Descriptiva es la que trabaja con todos los elementos de una muestra y
clculos realizados slo son validos para dicha muestra

los

Estadstica Inferencial
Es la que hace que todas las mediciones hechas a una muestra sean
validas para la Poblacin de la que se sac la muestra
Rol de la Estadstica en la investigacin Cientfica
Una de las caractersticas del hombre es que busca constantemente una
explicacin racional de los fenmenos que lo rodean.
Es tarea propia de la ciencia, observar adecuadamente los hechos, discernir
que elementos son constantes en ellos y determinar las leyes que lo rigen, es
decir, sus relaciones constantes y universales. El Mtodo Cientfico, es el
mtodo propio a la ciencia, el que se aplica al ciclo completo de una
investigacin, desde el enunciado del problema hasta la evaluacin de los
resultados obtenidos.
El Mtodo Cientfico
En el mtodo cientfico podramos distinguir en forma esquemtica, y con las limitaciones que
esto supone, las diversas etapas
- Eleccin y enunciado del problema
La eleccin de un problema con el fin de averiguar sus causas o de encontrarle soluciones,
depender de los juicios de valor del investigador y de las condiciones sociales, polticas y
econmicas en las cuales se desarrolla la ciencia. El enunciado puede hacerse a travs de
la descripcin de la situacin problema o mediante el planteamiento de una pregunta.

Formulacin de una Hiptesis


La hiptesis es una explicacin de la situacin problema o una respuesta posible a la
pregunta planteada. Se formula en trminos afirmativos respecto a relaciones entre variables
pertinentes.
- Deduccin de consecuencias verificables de la hiptesis
Siendo la hiptesis una explicacin o una respuesta general, muchas veces no es posible
investigar directamente su veracidad. Se procede en estos casos a deducir en forma lgica
consecuencias particulares de la hiptesis

Verificacin de la hiptesis

La verificacin puede hacerse, sobre todo en las ciencias exactas, mediante demostraciones
tericas basadas en relaciones aceptadas en el estado actual del conocimiento.
En el campo de las ciencias sociales la verificacin se hace, a travs de la recoleccin de
informacin o de observacin de los fenmenos. Esto implica la aplicacin de una serie de
procedimientos estadsticos
-

Interpretacin de los resultados


Con los datos obtenidos en la etapa anterior se decide si se ha de rechazar o no la hiptesis
en estudio.
La verdad absoluta, seguir siendo la meta final y desconocida del mtodo cientfico. Los
logros se reducirn a construir un cuerpo de conocimientos con estructura lgica y soportes
racionales que resista la verificacin emprica.
El Mtodo Estadstico
Es un conjunto de procedimientos aplicados en secuencia lgica a la obtencin y anlisis de
datos. Es el Mtodo Estadstico el que nos proporciona las tcnicas necesarias para recolectar
y analizar la informacin requerida. Podramos distinguir en l una etapa de Planificacin y
otra de Ejecucin
I Etapa de Planificacin
En esta etapa debemos considerar las siguientes fases

Definicin de objetivos
Corresponde formalmente a la descripcin del problema que da origen a la investigacin. Se
debe sealar detalladamente lo que se pretende investigar, es decir, el qu, cmo, donde,
cuando y por qu

Definicin del Universo o Poblacin


Se debe definir el grupo del cual se extraer la informacin y a la cul se referirn los
resultados

Diseo de la muestra
La teora de Muestreo o de Diseo y Anlisis de Experimentos pueden garantizarnos que la
informacin que generaremos nos permitir proyecciones vlidas al universo de inters

Definicin de las unidades de observacin, escalas de clasificacin y unidades de


medidas
En una misma investigacin puede haber varios objetivos parciales que requieran estudiar
unidades de observacin diferentes

Preparacin del plan de tabulacin y anlisis


El cuidado en este aspecto nunca podra considerarse excesivo, debera llegarse, tal vez,
hasta considerar alternativas de anlisis adecuadas para compensar algunas alteraciones
accidentales del plan de trabajo.

II Etapa de Ejecucin
En esta etapa podemos reconocer las siguientes fases:
-

Recoleccin de la informacin
Elaboracin de la informacin
Anlisis de los resultados

Es obvio que todo estudio ha de estar referido a un conjunto o coleccin de personas o cosas.
Este conjunto de personas o cosas es lo que denominaremos Poblacin.
Las personas o cosas que forman parte de la poblacin se denominan elementos. En sentido
estadstico un elemento puede ser algo con existencia real, como un computador o una casa, o
algo ms abstracto como un voto o un intervalo de tiempo.
A su vez, cada elemento de la poblacin tiene una serie de caracterstica que pueden ser objeto
del estudio estadstico. As por ejemplo si consideramos como elemento a una persona,
podramos distinguir en ella
las siguientes caractersticas:
Sexo, edad, nivel educacional, profesin, peso, color de pelo, religin. Etc.
Segn su tamao la poblacin se puede dividir en:
a) Poblacin finita: Cuando el nmero de elementos que forman la poblacin es finito, por
ejemplo el nmero de estudiantes por clase
b) Poblacin infinita: Cuando el nmero de elementos que forman la poblacin es infinito, por
ejemplo el nmero de productos que hay en el mercado
Ahora bien, por lo general en un estudio estadstico no se puede trabajar con todos los
elementos de la poblacin por un asunto de costo o de imposibilidad de tener toda la
informacin, sino que se realiza sobre un subconjunto de la poblacin. Este subconjunto se
llama muestra o subpoblacin, por ejemplo al hacer un estudio sobre los estudiantes de la
Universidad se podr tomar a los estudiantes que cursan tercer ao y de este subconjunto slo a
los estudiantes varones. Existen dos grandes formas para seleccionar una muestra:
i) Muestreo Aleatorio o Probabilstico
En este tipo de muestreo, todos los elementos de la poblacin tienen la
misma chance de figurar en la muestra
ii) Muestreo no Aleatorio o de Juicio
En este tipo de muestreo, se usa el conocimiento y la opinin personal
para identificar los elementos de la poblacin que van a incluirse en la
muestra.
En ocasiones, el muestreo no aleatorio sirve de muestra piloto para decidir como seleccionar
despus una muestra aleatoria.
Como nuestro trabajo lo debemos realizar con muestras obtenidas de alguna poblacin, de
modo que al realizar un muestreo lo podemos hacer aplicando uno o ms de los siguientes
mtodos de muestreo:
a) Muestreo Aleatorio
Los elementos incluidos en esta muestra han sido seleccionados mediante algn
procedimiento de sorteo o azar que signa alguna chance no nula a cada elemento de la
poblacin, hablamos de Muestreo Aleatorio Simple.
b) Muestreo por Estratos
En muchas situaciones, existe un factor que divide naturalmente a la poblacin de inters en
sub-poblaciones o Estratos ms o menos homogneos. Este procedimiento de muestreo
puede darnos mayor precisin que el muestreo aleatorio simple, pero a un costo mayor.
Ejemplo: Hacer un estudio por estratos socioeconmicos
c) Muestreo Sistemtico
Los elementos se seleccionan de la poblacin con un intervalo uniforme que se mide en el
tiempo, en el orden o en el espacio, por ejemplo si se quiere entrevistar a todo dcimo
estudiante de una escuela. Deberamos asignar a cada estudiante un nmero entre 00 y 99

y luego se comienza a escoger una muestra; cada dcimo nmero, es decir, 1, 11, 21, 31 y
as sucesivamente. Los estudiantes asignados con los nmeros 2, 3, 4 y 5 no tendrn
oportunidad alguna de ser seleccionado.
d) Muestreo por Conglomerados
En este caso se divide la poblacin en grupos o conglomerados y luego se selecciona una
muestra aleatoria de ellos. Este muestreo se usa cuando se advierte considerable variacin
dentro de cada grupo pero esencialmente semejantes entre s, por ejemplo s un equipo de
investigacin de mercados esta tratando de determinar por muestreo el nmero promedio
de TV. por familia en una ciudad, podra utilizar un mapa de la ciudad para dividir el territorio
en manzanas y luego seleccionar cierto nmero de manzanas
(Conglomerados) para realizar la entrevista.
Como hemos visto, los caracteres o datos de un elemento pueden ser de
muy diversos tipos, por lo que los podemos clasificar en dos tipos de
variables
i)

Variables Cuantitativas: son las que se describen por medio de nmeros tales como el
peso, la estatura, nmero de hermanos, etc., las observaciones de este tipo se definen, por
lo general, sobre un intervalo o sobre una escala de proporciones. Las mediciones que se
definen en una escala de intervalo se pueden distinguir y ordenar en forma numrica y sus
diferencias son significativas por ejemplo la medicin de la temperatura. pude escogerse
entre registrar la temperatura en grados Celsius o en grados Fahrenheit. De esta forma el
origen de las escalas es diferente, pero el significado de la diferencia entre 10C y 15C es el
mismo que tiene la diferencia entre 20Fy 25F.
Si una medicin rene los requisitos de una escala de intervalo y adems tiene punto de
origen, entonces la medicin se define sobre una escala de proporciones. Por ejemplo,
las estaturas, los pesos y otros se encuentran definidos sobre una escala de proporciones ya
que tienen verdaderos puntos ceros
Adems, este tipo de variables se puede dividir en:
a) Variables Discretas: Son aquellas que se describen solo por un nmero entero, es decir,
aquellas que por su naturaleza no admiten un fraccionamiento de la unidad, por ejemplo el
nmero de hijos por pareja
b) Variables Contnuas: Son aquellas que por su naturaleza admiten que entre dos valores
cualesquiera la variable pueda tomar cualquier valor intermedio, por ejemplo el peso, la
estatura, etc.
En muchos casos el tratamiento estadstico hace que la variable discreta se trabaje como
continua y viceversa

ii) Variables Cualitativas o atributos: son aquellas que no se le puede


asignar nmero, por ejemplo sexo, religin, profesin, etc.
Estas variables se pueden clasificar en:
a) Ordinales: Son aquellas que sugieren una ordenacin, por ejemplo
nivel de agresividad de un estudiante, agrado de una bebida, etc.
b) Nominales: Es la que emplea un nombre o un nmero
para clasificar una caracterstica de inters. Por ejemplo, las personas
pueden clasificarse de acuerdo con su sexo. En este caso pueden
emplearse los smbolos M y H 0 y 1
2.0 0rdenamiento de la informacin
En este punto nos vamos a ocupar de Estadstica Unidimensionales, es decir,

donde el inters es una sola caracterstica de cada punto muestral.


El ordenamiento se hace en tablas de frecuencias tambin llamadas tablas
estadsticas las que podemos clasificar segn el nmero de observaciones y
segn el recorrido de la variable.
Tablas tipo I
Cuando el tamao de la muestra y el recorrido de la variable es pequeo, por ejemplo si tomamos la
edad de los 5 miembros de una familia: 2, 5, 17, 38, 40
Tablas tipo II
Cuando el recorrido de la variable es pequeo y el tamao de la muestra es grande por lo tanto hay
valores de la variable que se repiten.
Ej. 1 La siguiente muestra corresponde a la cantidad de personas que trabajan por familia
Personas trabajadoras
2 1 2 2 1 2 4 2 1
2 3 2 1 1 1 3 4 2
2 2 1 2 1 1 1 3 2
3 2 3 1 2 4 2 1 4
1 3 4 3 2 2 2 1 3

1
2
2
1
3

Se puede observar que el recorrido de la variable va de 1 a 4, por lo tanto al hacer un conteo de la


variable se tiene la siguiente tabla
Tabla 1
Personas que trabajan
1
2
3
4
Total

N de familias
16
20
9
5
50

Tablas tipo III


Cuando el tamao de la muestra y el recorrido de la variable son grandes, por lo tanto ser necesario
agrupar en intervalos de clases.
Ej. 2. La siguiente muestra corresponde a los ingresos semanales, en miles de pesos, de 50
trabajadores de la empresa SAM y Ca. Ltda.
93
80
105
103

74
94
78
82

86 107
105
88
79
98
86 89

77
66
86
87

92
107
97
93

77
95
112
104

87 100
69 80
97 79
77 87

77
83
96
114

91
87
92
87

90
89
86
96

73
94

Evidentemente, el recorrido de la variable es grande, por lo tanto necesitamos tabular con intervalos
de clases. Para decidir sobre la cantidad de intervalos se debe tener en cuenta las siguientes
consideraciones:
- Al tomar pocos intervalos aumenta la perdida de informacin
- Los intervalos pueden ser Cerrados o Semi-cerrados
- Normalmente se suele trabajar con no ms 10 o 12 intervalos

Tabulemos la muestra anterior en cinco intervalos de clases semi-cerrados, como tenemos que el
recorrido real va de 66 a 114 y al modificar el recorrido de 65 a 115.
Por lo tanto, la amplitud del recorrido modificado es 50 y, como la tabulacin es de 5 intervalos luego
la amplitud de cada intervalo de clase es de 10, por lo tanto tenemos la siguiente tabla

Tabla 2
Intervalos de Clase
Yi-1 - Yi

Conteo

65 - 75
75 - 85
85 - 95
95 - 105
105 - 115
Total

4
11
20
9
6
50

Tipos de frecuencias
Uno de los primeros pasos que se realizan en cualquier estudio estadstico es la tabulacin de
resultados, es decir, recoger la informacin de la muestra resumida en una tabla en la que a cada
valor de la variable se le asocian determinados nmeros que representan el nmero de veces que
ha aparecido. Estos nmeros se denominan frecuencias. As se tienen las siguientes frecuencias:

Frecuencia Absoluta
Esta frecuencia la denotaremos por ni y la definiremos como el nmero de veces que aparece en la
muestra dicho valor de la variable. La suma de todas las frecuencias absolutas es igual al tamao
de la muestra, es decir

n
i 1

Esta frecuencia en una medida que est influida por el tamao de la muestra, al aumentar el
tamao de la muestra aumentar tambin el tamao de la frecuencia absoluta. Esto hace que no
sea una medida til para comparar por esto es necesario introducir el concepto de frecuencia
relativa
Frecuencia relativa
Esta frecuencia la denotaremos por hi y la definiremos como el cuociente entre la frecuencia
absoluta y el tamao de la muestra

hi

ni
; el recorrido de esta frecuencia es 0 h i 1
n

La frecuencia relativa es un tanto por uno, sin embargo se puede escribir en


tanto por ciento. La suma de todas las frecuencias relativas deber igual a uno

h 1
i 1

Frecuencia Absoluta Acumulada ( Ni)


Para poder calcular este tipo de frecuencia hay que tener en cuenta que la variable estadstica ha
de ser cuantitativa o cualitativa ordenable. La frecuencia Absoluta Acumulada es el nmero de
observaciones que hay desde el valor menor de la variable hasta un valor determinado de ella.
Esta frecuencia tiene dos propiedades.
a) La primera frecuencia absoluta acumulada es igual a la primera frecuencia
absoluta:

N1 n1

b) La ltima frecuencia absoluta acumulada es igual al tamao de la muestra, es decir N n = n


Frecuencia Relativa Acumulada
Es el porcentaje de observaciones que hay desde el valor menor de la variable hasta un valor
determinado de ella. Esta frecuencia tiene dos propiedades
a) La primera frecuencia relativa acumulada es igual a la primera frecuencia
relativa

H1 h1

b) La ltima frecuencia relativa acumulada es igual a uno (1), Hn = 1


Ejemplo: Del Ej. 1 se tiene se obtiene la tabla 3
Frecuencias

Personas
que
trabajan
Xi

N de
familias
ni

hi

hi%

Ni

Hi

Hi %

1
2
3
4
Total

16
20
9
5
50

16/50
20/50
9/50
5/50
1.0

32
40
18
10
100

16
36
45
50

16/50
36/50
45/50
50/50

32
72
90
100

Ejemplo: Del Ej.2 se obtiene la tabla 4


Intervalos de clase
Yi-1 - Yi
65 - 75
75 - 85
85 - 95
95 - 105
105 - 115

Frecuencias

ni

hi

Ni

Hi

Yi

4
11
20
9
6

4/50
11/50
20/50
9/50
6/50

4
15
35
44
50

4/50
15/50
35/50
44/50
1

70
80
90
100
110

Total

50

3.0 Grficos Estadsticos


Un grfico estadstico es la representacin de datos en el plano con el propsito de obtener una
impresin visual del conjunto de datos, que facilite su rpida comprensin. Todo grfico debe ser
sencillo y auto explicativo.
El tipo de grfico para los propsitos anteriores depender del tamao del recorrido de las
variables as como del nivel de medicin de estas.

Tipos de grficos
En estadstica existen los siguientes tipos de grficos

- Grficos de barras: Simples o separadas


Cada valor de la variables se representa por una barra cuyo largo
corresponde a la frecuencia con que se observa ese valor
- Histogramas y polgonos de frecuencias
Estn constituidos por un conjunto de rectngulos contiguos, levantados en
el eje horizontal sobre cada uno de los intervalos de clase.
Los polgonos de frecuencias son adecuados para representar la distribucin
de frecuencias de una variable contnua cuando todos los intervalos de clase
tienen la misma amplitud
- Grficos lineales
Son grficos adecuados para analizar la existencia de asociacin entre dos
variables contnuas, con nivel de medicin en escala de intervalos o razn
- Grfico de correlacin o diagramas de dispersin
Son grficos adecuados para analizar la existencia de asociacin entre dos
variables contnuas (x, y), con nivel de medicin en escala de intervalos
razn
- Grficos Circulares
Se utilizan para representar distribuciones de frecuencias para el caso de
variables discretas y cualquier nivel de medicin, con pocos valores
Pictogramas
Se utilizan para presentaciones en pblico o para fines publicitarios
Todos estos tipos de grficos se pueden resumir en el siguiente cuadro

LABORATORIO N 1

10

Problema 1
Los siguientes datos corresponden a la duracin, en aos, de los componentes de una vacuna
2.0
0.7
1.5
4.5
1.3

3.0
6.0
4.0
0-9
6.2

0.3
5.8
5.8
1.5
5.7

3.3
6.6
1.9
0.7
6.3

1.3
0.2
4.8
2.8
1.5

0.5
2.3
0.7
5.3
0.4

a) Construye una tabla de distribucin de frecuencias usando 5 intervalos de clase


b) Dibuja su histograma y su polgono de frecuencias
c) Qu porcentaje de los componentes tienen una vida entre 1.45 y 2.75?. Usa la tabla de
distribucin de frecuencias
d) Qu porcentaje de los componentes tienen una vida menor a 5.3 aos?. Usa la tabla de
distribucin de frecuencias
Problema 2
Los siguientes datos representan el periodo de vida, en segundos, de 50 mosquitos que estn
sujetos a un nuevo insecticida en un experimento controlado de laboratorio
18
12
14
13
10

20
17
18
8
12

10
8
17
18
15

8
9
14
7
19

25
12
16
10
6

14
14
31
5
8

13
7
8
28
13

19
9
7
17
14

18
15
15
14
18

24
22
12
15
21

a) Construye una tabla completa de distribucin de frecuencias para este conjunto de datos,
usando 6 intervalos de clase
b) Dibuja un grfico de torta para las frecuencias relativas
Usando la tabla de distribucin de frecuencias, responde:
c) Qu porcentaje de los mosquitos lograron una vida bajo la presencia del insecticida por arriba
de 29,5 segundos?
d) Interpreta el valor de:
1) La tercera frecuencia absoluta
2) La segunda frecuencia relativa
3) La cuarta frecuencia absoluta acumulada
4) La tercera frecuencia relativa acumulada
Problema 3
Los contenidos de nicotina, en miligramos, de 40 cigarrillos marca CANCER se registraron de la
siguiente manera
1.02
1.93
2.31
1.78
2.28
1.76
1.47
1.94
0.97
1.28
2.14
2.36
1.87
0.67
1.29
2.54
3.11
2.15
1.36
2.14
1.54
1.78
0.78
1.54
1.35
1.47
2.15
1.57
2.16
2.78
1.35
2.17
1.27
1.36
1.47
2.14
0.98
1.37
2.15
1.06
Encuentra para este conjunto de datos:
a) Una tabulacin de frecuencias en intervalos cerrados de amplitud 0,41
b) Interpreta los valores de n2, h3 y N4

11

c) Grafica la frecuencia absoluta y la absoluta acumulada


d) Que porcentaje de los cigarrillos tiene a los ms 1,54 miligramos de nicotina?
Problema 4
La siguiente distribucin muestra corresponde a los puntajes de un examen de estadstica:
63 88 79
77 75 98

92
81

86
82

87
81

83 78 41 67 68 76 46 81 92 77 84 76 70 66
87 78 70 60 94 79 52 82 77 81 77 70 74 61

a) Utilizando una amplitud de intervalo de 5, construye una tabla de frecuencias


b) Con una amplitud de 3, 10, 20 analiza la conveniencia o inconveniencia del empleo de
estos tamaos de intervalos
c) Para el punto (a) construye los grficos correspondientes
d) Tabula esta muestra sin agrupar los datos
e) Construye los grficos para (d)

4.0 MEDIDAS ESTADSTICA


Las medidas estadstica pretenden resumir o describir la informacin de la muestra para de esta forma tener
un mejor conocimiento de la poblacin, cuestin que es uno de objetivos de la estadstica para de esta
forma poder tomar una decisin. Por ahora nos referiremos solo a variables que sean cuantitativas dado que
con las variables cualitativas no se pueden hacer operaciones aritmticas
Estas medidas las podemos clasificar en:
- Medidas de resumen: Nos sirven para calcular los valores centrales de la variable
- Medidas de Dispersin: Nos dan una idea sobre la representatividad de las medidas
de resumen.
- Medidas de la Simetra : Nos permite ver si la distribucin tiene el mismo
comportamiento por encima y por debajo de los valores centrales
- Medidas de la Forma: Comparan la forma de la distribucin con la forma de la
Distribucin Normal.
I Medidas de Resumen
Las medidas de resumen son las siguientes:
a) La media
b) La Mediana
c) La Moda
1) La Media : La media o promedio es un valor representativo de la variable y los definiremos por:

12

y n
i 1

Propiedades de la Media
a) Media de una variable ms o menos una constante
Si hacemos que M [ x ] sea igual a la media y k = constante, entonces se tiene

M x k M X k
Es decir, si a una variable se le suma o resta una constante la nueva media es igual a la media de la variable
ms o menos la constante
b) Media de una variable por una constante
M[a x] = a M[x];

a = constante y x = variable

Es decir, la media de una variable por una constante es igual a la media de la variable por la constante
c) Media de una Constante
M[k] = k, donde k es una constante.
Es decir, la media de la constante es la constante
Observacin: Todas estas las propiedades de la media se pueden demostrar usando las propiedades de las
sumatorias
La Media en funcin de las Medias de las Submuestras
Por ejemplo si una distribucin es separada en dos submuestras la media de toda la distribucin se podra
calcular usando la siguiente expresin:

y1 n1 y 2 n2
n1 n2

Esta relacin es aplicable a n submuestras de una distribucin


Desviaciones de la variable respecto de la media
Si designamos a Zi como las diferencias entre un valor de la variable y su correspondiente media, entonces

Zi Yi Y

13

Relacin entre las desviaciones


De acuerdo a la definicin de desviacin, se tiene

y n
i

i 1

Y 0

Esto es la media de las desviaciones respecto de la media es cero


Mtodos abreviados de calculo de la media
Dado que en algunos casos resulta tedioso el calculo de la media resulta apropiado hacer los clculos en
forma abreviada.
a) Primer mtodo abreviado
Consiste en restar de todos los valores una cantidad constante, trabajar con el residuo y, al final agregar la
constante. Par ello, los clculos se basan en las desviaciones Zi respecto a un origen de trabajo Ot, y
haciendo Yi = Ot + zi s a esta igualdad le aplicamos la media tendramos:
M[y] = M[Ot + zi], luego aplicando las propiedades de la media se tiene
M[y] = M[Ot] + M[zi], y como Ot es una constante, entonces, se tiene

Y 0t z '
Es conveniente usar como Ot, un valor central de la variable o el de mayor frecuencia
Ejemplo: De la tabla 4 se tiene lo siguiente
yi
70
80
90 = Ot
100
9
110

ni
4
11
20
6
50

Zi
-20
-10
0
10
20

Por lo tanto la media por el primer mtodo abreviado es:

Zini
-80
-110
0
90
120
20

14

y 90

20
90 0, 40 90, 4
50

b) Segundo mtodo abreviado


Este mtodo es aconsejable utilizarlo cuando la amplitud de todos los intervalos es igual. Como en el
mtodo anterior, se elige un origen de trabajo que coincida con el valor central de la variable, por lo que se
define la siguiente variable auxiliar

yi ot z 'i
ui

c
c
De aqu se deduce que zi = cui y como:

y z ot
Entonces la media calculada por el segundo mtodo abreviado es:

y ot c

u n
i

Ejemplo: De la tabla 4 se tiene lo siguiente


yi
70
80 = Ot
90
100
110

Ni
4
11
20
9
6
50

ui
-1
0
1
2
3

uini
-4
0
20
18
18
52

Entonces la media calculada por el segundo mtodo abreviado es:

y 80

52
*10 90, 40
50

2) La Mediana ( Med)
La mediana es el valor central de la variable, es decir, si la muestra esta ordenada en forma creciente o
decreciente, el valor que divide en dos partes iguales a la muestra
Para el calculo de la mediana si los datos corresponden a variables discretas tendremos en cuenta el
tamao de la muestra.

15

a) Si n es impar, hay un termino central el que podr determinarse de la siguiente


manera:

n 1
2
y el trmino que ocupe ese lugar ser la mediana, por ejemplo si tenemos la
siguiente muestra
1, 4, 58, 10, 12, 14, 20 entonces n es 7 por lo que

n 1 7 1

4
2
2
Al ordenar la informacin se tiene 1, 4, 10, 12, 14, 20, 58
Es decir, la Mediana ser el trmino que ocupe el 4 lugar, o sea 12
b) Si n es par, hay dos trminos centrales los que podrn determinarse de la siguiente manera:

n n
y 1
2 2
La mediana ser, entonces, la media de estos dos valores, por ejemplo
2, 3, 7, 21, 34, 45, 50, 86 luego n = 8, de donde

8 8
y 1
2 2
Es decir, los trminos 4 y 5 corresponden a los valores 21 y 34 respectivamente, luego la mediana es

Med

21 34
27,5
2

Calculo de la Mediana si la variable es continua, la tabla deber ser de intervalos por lo que se calcula de
la siguiente manera:

16

N
j 1

Med Li c 2

n
i

Donde:
Li: Limite inferior del intervalo de la clase de la mediana
c:
Amplitud del intervalo de la clase de la mediana
Nj-1 : Frecuencia absoluta acumulada anterior a la de frecuencia absoluta acumulada de
la clase de la mediana
ni: Frecuencia absoluta del intervalo de la clase de la mediana
Ejemplo: De la tabla 4 se tiene que

n
25; C=10; N j-1 15; n i 20; Li 85
2
Luego la mediana es:

25 15
Med 85 10
90
20

3) La Moda ( Mod)
La moda es el valor de la variable que tiene mayor frecuencia absoluta, es la nica medida de resumen que
tiene sentido estudiar en una variable cuantitativa
Por su definicin, la moda no es nica, pues puede haber distribuciones que tengan ms de una moda. En
cuyo caso tendremos una distribucin que sea uni modal o polimodal segn sea el caso.
Por lo que el calculo de la moda en distribuciones discretas o cualitativas no requiere de una explicacin
mayor, sin embargo, el calculo de la moda para distribuciones cuantitativas contnuas es necesario hacer
algunos clculos. La moda se la define como:

i ) Mod Li 1

ni ni 1
c
n

n
i i 1 i i 1

ii ) Mod Li 1

ni 1
c
ni 1 ni 1

Veamos sus clculos con un ejemplo para lo cual utilizaremos la informacin de la


tabla 4

17

Intervalos de clase
Yi-1 - Yi

ni

65 - 75
75 - 85
85 - 95
95 - 105
105 - 115
Total

4
11
20
9
6
50

Como el intervalo que tiene mayor frecuencia absoluta es el tercero, entonces, al reemplazar en las formulas
anteriores se tiene lo siguiente:

20 11
87,37
20 11 20 9

i ) Mod 85 10

9
ii ) Mod 85 10
89,50
9 11
Observndose una buena aproximacin entre estos valores
4) Medidas de Localizacin: Cuartles, Decles y Percentiles
Las medidas de localizacin dividen la distribucin en partes iguales, sirven para clasificar a un elemento
dentro de una determinada poblacin o muestra.
Cuartiles
Medida de localizacin que divide a la muestra en cuatro partes iguales, los cuartiles son cuatro a saber:
Q1: Valor de la variable que supera al 25% de los datos de la muestra
Q2: Valor de la variable que supera al 50% de los datos de la muestra, este valor
corresponde al valor de la Mediana.
Q3: Valor de la variable que supera al 75% de los datos de la muestra
Por lo tanto, los cuartiles primero y tercero se los define como:

N i 1

Q1 Li 1 C 4
ni

3n

N i 1

Q3 Li 1 C 4
ni

Ejemplo: De la tabla 4 se tiene que

18

Intervalos de clase
Yi-1 - Yi

ni

Ni

65 - 75
75 - 85
85 - 95
95 - 105
105 - 115
Total

4
11
20
9
6
50

4
15
35
44
50

De modo que al reemplazar en los Cuartiles correspondientes tenemos:

a) Dado que

n
12,5
4

lo que nos indica que el primer cuartil se encuentra en el segundo intervalo y

reemplazando en Q1 tenemos lo siguiente

12,5 4
Q1 75 10
82,73
11

Esto significa que el 25% de la muestra tiene ingresos inferiores a 82,73 y que el 75% de la muestra tiene
ingresos mayores que 82,73

b) Dado que

3n
37,5
4

lo que nos indica que el tercer cuartil est en el cuarto intervalo y

reemplazando en Q3 tenemos lo siguiente

37,5 35
Q3 95 10
97,78
9

Esto significa que el 75% de la muestra tiene ingresos inferiores a 97,78 y que el 25% de la muestra tiene
ingresos superiores a 97,78
Deciles
Los decles son nueve y dividen a la poblacin en diez partes iguales.
dk = Decil k-simo es aquel valor de la variable que deja a su izquierda k10% de la distribucin
Los deciles los denotaremos por D y se los define por:

k n

10 Ni 1
d k Li 1 C
: donde k =1,2,...,9
n
i

Percentiles
Los Percentiles son 99 y dividen a la muestra en cien partes iguales
Pk = Percentil k-simo es aquel valor de la variable que deja a su izquierda el k*% de la distribucin

19

Los Percentiles los denotaremos por P y se los define por:

k *n

N i 1

p k Li 1 C 100
n

Observacin: Para calcular cualquier medida de localizacin se procede de manera semejante a como se
procedi en el calculo de la mediana.

LABORATORIO N 2
Problema 1
Del laboratorio n 1 y del problema n 1 Calcula e interpreta
1) La media utilizando las frecuencias absolutas y las relativas
2) La nueva media si los tiempos aumentan en 0,25 aos
3) La nueva media si los tiempos disminuyen en 0,50 aos
4) La nueva media si los tiempos aumentan en 15%
5) La nueva media si los tiempos disminuyen en 20%
6) la media si la muestra se dividi en 3 submuestras
7) Comprueba que la media de las desviaciones respecto de la media es cero
8) El valor de la mediana
9) El valor de la moda
10) El valor del primer y tercer cuartil
11) El valor de D6, P85 y Q4
12) El valor del rango Percentil
13) El valor del rango Semi- intercuartil
14) La varianza, Utiliza la definicin y el calculo abreviado
15) La desviacin tpica o estndar
16) Si la distribucin es dividida en tres submuestras, cul de ellas es ms homognea?
17) Si la submuestra es dividida en dos submuestras, cul es el sesgo de ellas?
18) Cul es el valor de k del pregunta 16?

20

II Medidas de Dispersin
Las medidas de dispersin miden el grado de variabilidad que tienen los datos de una muestra respecto a
una medida de resumen, la que por lo general es la media. Para entender mejor esta medida lo haremos con
un ejemplo.
Supongamos que las edades promedios de dos equipos de bsquetbol son aproximadamente de 20 aos,
pero al conocer las edades de cada integrante de los equipos nos damos cuenta que la composicin de los
equipos, respecto a las edades, es distinta
Equipo A: 20-19-21-18-22
Equipo B: 24-15-31-12-18
Por lo tanto, las edades de los integrantes del equipo A estn mas cerca de la media, es decir, tienen menos
dispersin que las edades del equipo B.
La idea de dispersin se relaciona con la mayor o menor concentracin de los datos entorno a un valor
central, generalmente la media.
Las medidas de dispersin o variabilidad que estudiaremos son:
Los rangos: son los valores que se obtienen mediante una diferencia
Desviacin Total y desviacin Media: son valores que se obtienen mediante una diferencia entre algn
valor de una variable y su media
Varianza: Talvez sea el estadstico de variabilidad ms importante, e indica el grado de variacin que tienen
los datos respecto de la media

1) El rango
Es la diferencia entre el valor mayor y el valor menor de la distribucin. Al comenzar a tabular se midi el
rango de la muestra.
2) Desviacin Total y Media
La desviacin total la denotaremos por t y la desviacin media la denotaremos por m y se definen de la
siguiente manera:
n

| x
i 1

n
n

x|
. Para datos no agrupados

t | xi x | . Para datos no agrupados


i 1

21

n *| y
i

y|
. Para datos agrupados

n
n

t ni * | yi y | . Para datos agrupados


i 1

Ejemplo para datos agrupados: Las muestras siguientes corresponde a las notas de Estadstica de dos
cursos A y B respectivamente

Curso A
Notas

Yi

ni

ni | yi y |

Yi*ni

0,5
1,5
2,5
3,5
4,5
5,5
6,5

1
2
3
4
5
6
7

4
8
7
8
7
8
4

12
16
7
0
7
16
12

4
16
21
32
35
48
28

1,5
2,5
3,5
4,5
5,5
6,5
7,5

n
n 1

46

70

184

De la tabla anterior para este curso se tiene lo siguiente:

y 4,0
t 70

70
1,52
46

Curso B
Notas

Yi

ni

ni | yi y |

Yi*ni

0,5
1,5
2,5
3,5
4,5
5,5
6,5

1
2
3
4
5
6
7

3
4
7
24
18
3
1

9
8
7
0
18
6
3

3
8
21
96
90
18
7

1,5
2,5
3,5
4,5
5,5
6,5
7,5

60

De la tabla anterior se tiene lo siguiente:

51

243

22

y 4,0
t 51

51
0,85
60

Por lo tanto, el curso B tiene menos dispersin que el curso A, es decir, las notas del curso B estn ms
cerca de la media
Para el calculo de las desviacin total y media de datos no agrupados se procede de manera similar
3) Rango Inter. Cuartil
El rango Inter. Cuartil es la diferencia entre el tercer cuartil y el primer cuartil
Ejemplo: De la tabla 4 se tiene que

Q3 Q1 97,78 82,73 15,05


Por lo tanto, aqu se encuentra el 50% de la muestra
4) Rango Semi inter cuartil
El rango semi-inter cuartil es la semi diferencia entre el trecer cuartil y el primero

Q3 Q1
Q
2
Ejemplo : De la tabla 4 se tiene lo siguiente

Q3 Q1 15,05

7,525 = Q
2
2
5) Rango Percentil
El rango percentil es la diferencia entre el percentil noventa y el percentil diez

P90 P10
6) La Varianza
La varianza es una estadstica de variabilidad que aprovecha la informacin contenida en todas las
observaciones de la muestra. Se la define como:

23

2
1 n
S Var x
x

x
; Cuasi-varianza o varianza poblacional
i
n 1 i 1
2

S2

2
1 n
x

x
; Varianza muestral

n i 1

Notemos que si los n valores xi, para i = 1,...,n fueran iguales


2

x x
i

no habra dispersin, entonces

para cada i = 1,...,n y por lo tanto S2 = 0

Ejemplo: Tomemos las edades del equipo A de bsquetbol


Como la edad promedio del equipo es de 20 aos, entonces, se tiene

Edad
20
19
21
18
22

Luego la cuasi-varianza es S

La varianza es S

0
1
1
4
4

x =10
10
2,5 . Esto es el promedio de las desviaciones al cuadrado
5 1

10
2 . Esto es el promedio de las desviaciones al cuadrado
5

Si los datos estn agrupados en intervalos de clases se tiene:

1 k
2
S
ni * yi y

n 1 i 1

1 n
S ni yi y
n i 1
2

24

Ejemplo: De la tabla 4 se tiene


Yi

ni

y y n

yi 2 ni

1664.64
1189,76
3,20
829,44
2304,96

19600
70400
162000
90000
72600

70
80
90
100
110

4
11
20
9
6

5992

50
S2

Por lo tanto la varianza muestral es

414600

5992
119,84 .
50

La varianza, tambin se pude calcular por el mtodo abreviado, se define como:


k

S
2

y
i 1

ni

S calculamos la varianza de esta manera y tomando la informacin de la tabla 4 se tiene:

S2

414600
90,40 2 119,84 . Varianza muestral
50

Propiedades de la varianza
1) Varianza de una variable ms una constante, si V[x] es la varianza de x
V[k+ yi] = V[yi] ; donde k = constante
2) Varianza de una variable por una constante
V[kxi] = k2V[xi]; donde k = constante
Verificar estas propiedades
La Desviacin Tpica o Estndar
Dado que al calcular la varianza la unidad de medida original queda elevada al cuadrado. Para muchas
aplicaciones eso resulta inconveniente y por eso se suele preferir la estadstica llamada Desviacin Tpica.
La que se la define como

25

S S2
Coeficiente de Variacin
Es un estadstico de dispersin que tiene la ventaja de que no lleva asociada ninguna unidad de medida, por
lo que nos permitir decir entre dos muestras, cual es la que tiene mayor dispersin. La denotaremos por
C.V y se le define por:

C.V

S
y

Ejemplo: De la tabla 4 se tiene lo siguiente:

C.V

122,29
0,1223 . Es decir la distribucin tiene una variabilidad de 12,23% respecto de la
90,40

media
III Medidas de la Forma
Estas medidas nos indican la forma que tiene la distribucin
1) Simetra
Las medidas de simetra, al igual que la Curtosis, son medidas de la forma de la distribucin, es frecuente
que los valores de una distribucin tiendan a ser similares a ambos lados de las medidas de centralizacin.
La simetra es importante para saber si los valores de la variable se concentran en una determinada zona del
recorrido de la variable.
La simetra se puede medir en funcin de los valores de la media, la moda y la mediana.
Por lo tanto puede ocurrir lo siguiente:
a) Media > Med > Mod, entonces el sesgo el positivo
b) Mod > Med > Media, entonces el sesgo el sesgo es negativo
Esta situacin queda reflejada en los siguientes grficos

26

Los Sesgos
Esta medida nos otorga el grado de asimetra de una distribucin. Si los resultados son positivos, entonces
los sesgos son positivos. Los sesgos se pueden calcular de la siguiente manera
a) Primer coeficiente de sesgo de Pearson

Sesgo

y Mod
S

Ejercicio: calcula el primer coeficiente de sesgo de Pearson, utiliza la tabla n 4

b) Segundo coeficiente de sesgo de Pearson

Sesgo

3 * y Med
S

Ejercicio: calcula el segundo coeficiente de Pearson, utiliza la tabla n 4

C) Coeficiente de simetra del tercer momento de Pearson


Este coeficiente se basa en la comparacin con la media de todos los valores de la variable

27

y
k

i 1

y * ni
3

n
S3

Sesgo

Ejercicio: calcula el tercer coeficiente de Pearson, utiliza la tabla n 4


2) Medida de Apuntamiento: Curtosis
La Curtosis es una medida del apuntamiento, la que nos indicar si la distribucin es poco apuntada o muy
apuntada.
Hay tres tipos de curvas acampanadas, las que se muestran en los grficos siguientes

Este coeficiente lo vamos a denotar por K y se calcula de la siguiente manera

a) La Curtosis por el cuarto momento

y
n

i 1

y * ni
4

n
S4

Ejercicio: calcula la Curtosis por el cuarto momento, utiliza la tabla n 4


b) La Curtosis calculada por Cuartiles y Percentiles se define como

28

Q3 Q1
2
K
P90 P10
Ejercicio: calcula la Curtosis de la tabla n 4 utilizando cuarteles y percentiles
Observacin: La distribucin Normal tiene una Curtosis de K = 0,263

LABORATORIO N 3
Problema 1
En una zona de la comuna de Santiago, La superficie de las viviendas tiene la siguiente distribucin
Superficie
(m2)
50 - 60
60 - 70
70 - 80
80 -100
100-120

Frecuencia relativa
( porcentaje )
20
25
15
25
15

29

Calcula: a) La superficie media por vivienda (Sol. 77,5m 2)


b) La varianza de la varianza de la distribucin (Sol. 338,75)
Problema 2
Un automovilista participa en una competicin en la que obtiene, para los distintos recorridos, las siguientes
velocidades medias
Recorrido
A-B
B-C
C-A

Distancia
Km
400
600
1000

Velocidad Media
Km/h
50
60
100

Calcula la velocidad media conseguida en la competencia ( Sol. 78 km/hr)


Problema 3
Una empresa agrcola tiene 5 predios dedicados a la produccin de trigo. Las producciones y rendimientos
obtenidos son los siguientes
Predio

Produccin
Rendimiento
( Qm )
(Qm/Ha)
A
2500
10
B
3000
20
C
4000
25
D
6000
15
E
7000
14
Calcula el rendimiento medio por Ha. Para el conjunto de los predios
(Sol. 4440,47619)
Problema 4
Un grupo de alumnos ha obtenido las siguientes notas en Matemtica y Estadstica

Notas
1
2
3
4
5
6
7
a)
b)

Matemtica
N Estudiantes
0
10
15
23
32
10
10

Estadstica
N Estudiantes
5
4
6
16
50
16
3

Determina para que ramo el grupo es ms homogneo. Sol. Estadstica


Determina el puntaje estndar para los dos ramos, s la nota es 4,5
Sol zm = 0,02143 y ze =0,02308

Problema 5
Despus de haber sido evaluados los trabajadores de una empresa se dividieron en cuatro grupos, de los
cuales tenemos los siguientes datos
Grupo

N trabajadores

Nota media

Varianza

30

A
B
C
D

30
40
50
60

6,0
6,5
5,0
4,0

1,00
1,69
0,81
0,64

a) Calcula la nota media para toda la empresa (Sol. 5,16667)


b) Calcula los coeficientes de variacin de cada grupo
Sol. CA = 0,17777 CB = 0,20 CC = 0,18
CD = 0,20
c) Qu grupo es ms homogneo?
d) Calcula la desviacin tpica de todas las notas de la empresa (Sol.0,97219)

Problema 7
En una empresa metalrgica los empleados se clasifican en tres categoras: tcnicos, especialista y
administrativos. El nmero de empleados, el salario medio mensual y la varianza de los salarios de cada
categora en el mes de agosto de 2000 son los que aparecen en el siguiente cuadro
Categora

Nmero
De
Empleados
Tcnicos
20
Especialistas
100
Administrativos
40

Salario medio Varianza de los


mensual
salarios
Miles $
millones $
200
400
120
49
100
25

a) Calcula el salario medio para el conjunto de la empresa y la dispersin de los salarios Sol. 125
y 875
b) En la discusin para fijar los salarios de 2001 han sido propuesta tres alternativas.
1) El aumento de todos los salarios en un 5%
2) El aumento de todos los salarios en $ 5500 mensuales
3) El aumento de los salarios segn la siguiente escala: 4% a los tcnicos, 5% a los
especialistas, y 5,5% a los administrativos
a) Calcula los salarios medios que resultan las tres alternativas y la dispersin en cada caso
Sol. Promedio: Tec. = 208; Esp = 126 y Ad = 105,5
Sol. Dispersin: Tec = 20,80; Esp =7,35 y Ad = 5,275
b) Cul de las tres alternativas tiene mayor efecto para reducir la dispersin inicial de los
salarios para la empresa?

31

También podría gustarte