01 Estadística Descritiva

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 13

Estadísticas II Unidad 0: Estadística Descriptiva

TIPOS DE ESCALAS DE MEDICIÓN


Hay tres tipos de escalas asociados a los numerales anteriores.

Escala Nominal: - La observación de variables no ordenadas constituye un nivel de


medida muy bajo y esta referida a una escala de medida nominal. Se pueden asignar valores
numéricos a las diversas clases, pero estos números no poseen propiedades cuantitativas y
sirven únicamente para identificar las clases. Las únicas relaciones matemáticas aceptadas
en este tipo de escala son la igualdad y la desigualdad.

Escalas Ordinales:- En este nivel de medición las categorías de la variable


representan series ordenadas de acuerdo con sus relaciones. Las clases o categorías en estas
escalas no solo se diferencian unas de otras sino que mantienen una posición relativa entre
sí. Las relaciones matemáticas admitidas se expresan en términos de desigualdades.

Escalas de Intervalos y de razones:- representa el nivel de medición más alto que se


ha logrado, los números utilizados llevan asociados propiedades cuantitativas y permiten la
utilización de operaciones aritméticas fundamentales. La diferencia entre ambas escalas es
que la escala de razón utiliza un cero real.

De acuerdo con los valores que cada variable puede asumir, las escalas pueden
clasificarse en discontinuas o discretas y Continuas.

Las escalas Discretas o Discontinuas son aquellas en que la variable puede tomar un
número finito de valores y su característica básica es la igualdad entre sus unidades
contables. Las mediciones hechas con escalas discontinuas son siempre precisas, si se ha
empleado el procedimiento de cómputo adecuado.

Las escalas Continuas son aquellas en que la variable puede tomar infinitos valores
entre dos valores dados cualquiera, la medición de variables continuas es siempre
aproximada y la característica básica de estas escalas es la igualdad de las unidades de
medidas.

ESTADÍSTICA DESCRIPTIVA
La estadística es un campo del conocimiento que permite deducir y evaluar
conclusiones obtenidas a partir de datos observados. Cuando las conclusiones a cerca de una
determinada población se obtienen a partir de datos observados en una muestra, la estadística
recibe el nombre de Estadística Inferencial.

El Método Estadístico es un conjunto de técnicas que se usan para obtener, analizar


y presentar datos.

Prof. Celso Vivallo Ruz Página 1


Estadísticas II Unidad 0: Estadística Descriptiva

Elementos de la técnica estadística.

a) Recopilación y ordenación de datos.


b) Clasificación y resumen de datos.
c) Presentación de Datos, esto puede realizarse en forma textual, tabular o gráfica.
d) Análisis de datos.

GLOSARIO
VARIABLE: Característica o fenómeno que puede tomar diferentes valores. Así, peso,
coeficiente intelectual y sexo son variables dado que pueden tomar distintos valores cuando
se observan diferentes individuos. Una variable se diferencia de una constante ya que el valor
de ésta nunca puede variar, por ej. π, e, etc.

DATOS: Números o medidas que han sido recopilados como resultados de observaciones.
Pueden ser recuentos tales como el número de individuos que prefieren al candidato A, o
pueden ser las calificaciones en un certamen.

POBLACIÓN O UNIVERSO: Conjunto completo de individuos, objetos, o medidas que


poseen alguna característica común observable. Ej. Todos los ciudadanos chilenos con
derecho a voto.

PARÁMETRO: Cualquier característica de una población que sea medible, por ejemplo, el
% de votos que logrará el candidato A en las próximas elecciones parlamentarias.
MUESTRA: Un subconjunto de la Población o Universo, la muestra debe ser representativa
de la Población.

ESTADÍSTICO: Número resultante de la manipulación de ciertos datos iniciales de acuerdo


con determinados procedimientos específicos. Comúnmente se usa un estadístico que se
calcula en una muestra para estimar el parámetro de una población.

VARIABLE CUANTITATIVA: Es aquella que es medible en escala intervalar o de razón.

VARIABLE CUALITATIVA: Es aquella que no es posible medirla en escala intervalar.

VARIANTE: Es aquel dato obtenido en una variable cuantitativa.

ATRIBUTO: Es aquel dato obtenido en una variable cualitativa.

VARIABLE CONTINUA: Es aquella variable cuantitativa que puede tomar infinitos valores
entre dos valores distintos observables.

VARIABLE DISCRETA: Es aquella variable cuantitativa que puede tomar un número finito
de valores entre dos valores distintos observables.

Prof. Celso Vivallo Ruz Página 2


Estadísticas II Unidad 0: Estadística Descriptiva

VARIABLE DICOTOMICA: Es aquella variable que asume sólo dos resultados posibles,
pero toda variable se puede dicotomizar utilizando algún criterio razonable.

VARIABLE POLICOTOMICA: Las variables que asumen más de dos categorías se


denominan politomicas.

DISTRIBUCIONES DE FRECUENCIAS
La información estadística puede constar de un gran número de observaciones, y
mientras mayor sea su número más conveniente y necesario es presentarla en forma
resumida, lo cual puede omitir algunos detalles, pero mantiene la naturaleza general de la
información.

Distribución de Frecuencias de Atributos


La construcción de este tipo de distribuciones es muy fácil, se debe confeccionar una
tabla con dos columnas, una para el nombre de la variable y la otra para las frecuencias de
cada categoría observada en los datos, además se coloca el total de datos y se puede calcular
porcentajes o acumular frecuencias en casos justificados.
La siguiente tabla muestra la Distribución de Atributos:
Carrera Número de estudiantes
Música 6
Ingeniería 5
Historia 9
Total = 20

Distribución de Frecuencias de Variantes:


La construcción de este tipo de distribuciones es más compleja que la de atributos
debido a que las variantes pueden, aparte de la frecuencia con que se presentan, asumir una
gran cantidad de valores diferentes, sin embargo, esta dificultad puede evitarse usando una
técnica especial que permite agrupar los diversos valores en un número reducido de clases
llamadas intervalos de clases.
Para construir una distribución de frecuencias de variantes, se puede aplicar la Regla
de Sturges para determinar el número de clases según el número de datos, pero también es

Prof. Celso Vivallo Ruz Página 3


Estadísticas II Unidad 0: Estadística Descriptiva

común seleccionar un numero arbitrario entre 5 y 20, dado que menos de 5 no informa sobre
la forma de distribución de los datos y más de 20 resultan gráficos demasiado extensos y
poco explicativos.
Al construir una distribución de este tipo se debe tratar que los intervalos tengan igual
amplitud para que los futuros gráficos tengan columnas de igual base y sea más fácil su
interpretación, también en lo posible tratar de no generar clases con frecuencia cero.

Tablas de frecuencias

Variable Clase LI LS MC FA FR
Edad 1 32.00 37.00 34.50 15 0.10
Edad 2 37.00 42.00 39.50 35 0.23
Edad 3 42.00 47.00 44.50 46 0.31
Edad 4 47.00 52.00 49.50 40 0.27
Edad 5 52.00 57.00 54.50 11 0.07
Edad 6 57.00 62.00 59.50 2 0.01
Edad 7 62.00 67.00 64.50 1 0.01

En toda distribución de Frecuencias se pueden establecer y definir los siguientes


elementos:
a) Intervalos de Clase o Clases: Que corresponden a todas las categorías o grupos en los
cuales se ha dividido la variable estudiada.
b) Cada intervalo tiene un límite inferior que corresponde al menor valor incluido en él y
un límite superior que es el mayor de ellos.
c) El promedio del límite superior de un intervalo y el límite inferior del intervalo siguiente
se denomina límite Real superior del intervalo, y su valor coincide con el límite Real
inferior del intervalo siguiente.
d) Marca de Clase: (Se designa por xi) Es el promedio entre el límite inferior y el límite
superior de un intervalo.
e) La Amplitud de intervalo :( h) Corresponde a la diferencia entre el límite real superior
y el límite real inferior de un intervalo. También corresponde a la diferencia entre dos límites
superiores o dos límites inferiores consecutivos.
f) Frecuencia Absoluta: Corresponde al número de casos incluidos en cada intervalo, se
designa por fi.
A partir de las frecuencias Absolutas se pueden obtener otros tipos de frecuencias:

Prof. Celso Vivallo Ruz Página 4


Estadísticas II Unidad 0: Estadística Descriptiva

1.- Frecuencia Relativa: Es el cuociente entre la frecuencia Absoluta y el total de los casos
analizados. Son todos valores menores que 1 y su suma es la unidad. Se puede expresar en
%. Se designa por fr.
2.- Frecuencia Acumulada: Es la suma de las frecuencias Absolutas hasta un determinado
valor de la variable, se designa por Fi y se pueden obtener sumando de menor a mayor o
viceversa. Si las frecuencias que se acumulan son las frecuencias relativas se obtiene la
frecuencia Acumulada relativa que se designa por Fr.

Representación Gráfica
Consiste en representar los datos en forma de dibujo, de modo que se pueda percibir
los hechos esenciales de una distribución de frecuencia y compararlo con los de otra si fuera
necesario.
Los gráficos no deben considerarse como sustituto del tratamiento estadístico de los
datos, sino como una ayuda visual para la interpretación de ellos.

Tipos de gráficos

Gráfico de Barras y de Columnas: Sirve para representar datos clasificados en escalas


nominales y ordinales. Cada categoría de la variable es representada por un rectángulo cuya
altura es proporcional a la frecuencia que representa. Los rectángulos son de igual base
separados uno de otro y se presentan en cualquier orden. Ejemplo:

10

0
Hist Music Ingen

Prof. Celso Vivallo Ruz Página 5


Estadísticas II Unidad 0: Estadística Descriptiva

Gráfico Sectorial o Circular: Consiste en representar datos clasificados en escala nominal


mediante el área de un circulo que representa al total de casos observados y en que cada
categoría de la variable queda representada por un sector circular proporcional a su
frecuencia. Ejemplo:

Ingen
25%

Music Hist
30% 45%

Representación Gráfica de Variables Cuantitativas


Para representarlas, se necesita un gráfico de dos dimensiones, de modo que debe
utilizarse un sistema de coordenadas cartesianas.
Se pueden utilizar dos procedimientos:
a) Representar la frecuencia del intervalo por un área en cuyo caso la figura resultante se
denomina Histograma.
b) Representar la frecuencia por una ordenada en la marca de clase en cuyo caso la figura se
denomina Polígono de Frecuencia.
La información que proporcionan ambos gráficos es equivalente y son reemplazables
entre sí cuando la amplitud de intervalo es constante.
Histograma:
Es un conjunto de rectángulos adyacentes, cuya área total representa el total de casos.
Si el intervalo tiene la misma amplitud, la altura HISTOGRAMA

de cada rectángulo es proporcional a la frecuencia 50


Número de trabajadores

del intervalo. Si la amplitud varia, la frecuencia 40

30
de cada clase se representa mediante el área del
20
rectángulo correspondiente y por lo tanto su altura
10

se obtendrá dividiendo la frecuencia de la clase 0


27 32 37 42 47 52 57 62 67 72
por la amplitud correspondiente. En la figura se Edad

muestra el Histograma de las edades de los trabajadores.

Prof. Celso Vivallo Ruz Página 6


Estadísticas II Unidad 0: Estadística Descriptiva

Polígono de Frecuencia:
Es la figura que resulta al unir los puntos correspondientes a las ordenadas en la
marca de clase para las distintas frecuencias de los intervalos. Si el polígono de frecuencias
POLIGONO DE FRECUENCIAS HISTOGRAMA DE FREC ACUMULADAS

50 158
Número de trabajadores

Número de trabajadores
40 126

30 95

20 63

10 32

0 0
30 34 38 43 47 52 56 61 65 70 27 32 37 42 47 52 57 62 67 72
Edad Edad

corresponde a las frecuencias acumuladas se denomina Ojiva de Galton. Las figuras


muestran los Polígonos de frecuencias para los datos de las edades de los trabajadores.
Otros Gráficos que se utilizan para variables cuantitativas, y datos no agrupados en
distribuciones de frecuencias son los siguientes.

Gráfico de Cajas:
Este grafico se utiliza para mostrar la dispersión
Gráfico de Cajas
de los datos, además se muestra la media (por un punto) 70

y la mediana (por una línea), la caja comienza en el


cuartil 1 y termina en el cuartil 3, tiene dos barreras que 60

se construyen tomando distancias respecto de la media,


Edad

50
existen diferentes criterios para ubicar estas barreras,
uno se basa en desviaciones estándar y otro en el rango
40
semi-intercuartilico, los puntos que se ubican fuera de
estas barreras se consideran datos atípicos y requieren 30

de una revisión más detallada, pues puede ser que el


Edad
dato este mal digitado.

Prof. Celso Vivallo Ruz Página 7


Estadísticas II Unidad 0: Estadística Descriptiva

Medidas de Tendencia Central


Son aquellas que permiten resumir la información correspondiente a un conjunto de
datos. Las más usadas son la Media Aritmética, la Mediana y el Modo o Moda.
1.- Media Aritmética ( X )
a) Datos no Agrupados: la media aritmética de los datos x1,x2 ,......xn está dada por:
n

x
i 1
i
X =
N
b) Datos Agrupados: en este caso cada valor de la variable se representa con
frecuencias ; f1, f2, ...........fn y X está dado por :
n n


i 1
f i xi fx i i
i 1
X = n
=
f
N
i
i 1

donde; x i es la marca de clase del i-esimo intervalo


f i es la frecuencia Absoluta correspondiente
n
N= f
i 1
i es el total de casos

Propiedades
a) Si x i = a + h x’i  X = a + h X ’i

b) Si x i =  x’i  X =  X ’i
n
c) La función y = f
i 1
i ( x i - x ) 2 es mínima cuando x = X

2.- Mediana ( Md )
Corresponde a aquel valor de la variable, tal que la mitad de los valores observados
son menores y la otra mitad son mayores que él.
Datos no Agrupados: La Mediana es el valor central de los datos ordenados si se tiene
un número impar de observaciones, y es el promedio de los dos valores centrales si el número
de observaciones es par.
Ejemplo : i ) 1 - 2 - 3 - 4 - 6 - 8 - 9  Md. = 4
10  12
ii ) 6 - 7 - 9 - 10 - 12 - 13 - 14 - 15  Md. = = 11
2

Prof. Celso Vivallo Ruz Página 8


Estadísticas II Unidad 0: Estadística Descriptiva

3.- Moda ( Mo.)


Es el valor de la variable que más se repite.
A diferencia del la Media Aritmética y de la Mediana que existen siempre y que son
únicas, el Modo puede no existir y si existe puede no ser único.
Datos no Agrupados: Mo. es el valor observado que aparece con la mayor
frecuencia.
Ejemplo : i) 3 , 5 , 6 , 7 , 8 , 9  Mo. 

. ii) 3, 5 , 5 , 7 , 7 , 7, 9 ,10,10  Mo. = 7


iii ) 3 , 4 , 4 , 4 , 6 , 6 , 7 , 9 ,10,10,10  Mo’ = 4 Mo. = 10
iiii) 3 , 3 , 4 , 4 , 5 , 5 , 9 , 9  Mo. 

Características de la X :
1) El valor de la media aritmética se basa en todas las observaciones, por lo que
está afectada por todos los valores de la variable.
Esto puede resultar que en ciertas ocasiones se les dé demasiada influencia a
algunos valores extremos.
2) La media aritmética puede ser calculada si se conocen los valores individuales
de la variable, o si se conoce el valor total y el número de casos, o si se dispone de una
distribución de frecuencias que permita estimar una buena aproximación del valor promedio
de los casos contenidos en cada clase.
3) La media aritmética se presta a manipulaciones algebraicas posteriores.

Características de la Md.:
1) Es afectada por la posición de cada caso de la serie, pero no por los valores
de los casos. Esto implica que si ocurren desviaciones extremas respecto al centro de la
distribución, la mediana será menos afectada que la X .
2) La Md. no se presta a manipulaciones algebraicas en una forma tan
satisfactoria como lo hace la X .

Prof. Celso Vivallo Ruz Página 9


Estadísticas II Unidad 0: Estadística Descriptiva

Características de la Mo.:
1) El valor del modo se determina por los casos en el punto de mayor
concentración y no es afectado por los demás valores de la variable.
2) El Mo. verdadero es difícil de calcular, aunque es fácil obtener un valor
aproximado.
3) El Mo no se presta a manipulaciones algebraicas posteriores.

Medidas de Orden
Son medidas que dividen a la distribución en un cierto número de partes iguales, los
mas usados son los Cuartiles, Deciles, Percentiles.

Cuartiles:
Dividen a la distribución en 4 partes, se designan por Q1, Q2, Q3.
Q1 = Es un valor tal que un cuarto de los valores observados son menores y los ¾
restantes son mayores que él.
Q2 = Md.
Q3 = Es el valor que ¾ de los valores observados por debajo y un cuarto por
encima de él.

Deciles :
Dividen a la distribución en 10 partes iguales, se designan por D1, D2, .......D9.
D6 =Es un valor tal que 6/10 de los valores observados son menores y los 4/10
restantes son mayores que él.
Obs. D5 = Q2 = Md.

Percentiles:
Dividen a la distribución en 100 partes iguales y se designan por P1, P2,............P99.
P37 = Es el valor de la variable tal que 37/100 de los valores observados son
menores y los 63/100 restantes son mayores que él.
Obs. -) P 50 = D 5 = Q 2 = Md.
-) P 40 = D4

Prof. Celso Vivallo Ruz Página 10


Estadísticas II Unidad 0: Estadística Descriptiva

Medidas de Dispersión
Son aquellas que resumen la forma en que los valores observados se desvían
respecto de una medida de tendencia central considerada.

Desviación Media ( M.D.)


Es la media aritmética de las desviaciones respecto de X en valor absoluto.

X
i 1
i X
a) Datos no Agrupados M.D. =
N

N N

f i 1
i Xi  X f i Xi  X
i 1
b) Datos agrupados M.D. = N
=
f
N
i
i 1

Desviación Estándar o típica


Corresponde a la raíz cuadrada de la media de los desvíos cuadráticos respecto de la
media aritmética. 𝝈 𝒆𝒔 𝒍𝒂 𝒑𝒐𝒃𝒍𝒂𝒄𝒊𝒐𝒏𝒂𝒍 y
𝒔 𝒆𝒔 𝒍𝒂 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍 𝒊𝒏𝒔𝒆𝒔𝒈𝒂𝒅𝒂 (𝒏𝒐 𝒄𝒐𝒏𝒕𝒊𝒆𝒏𝒆 𝒔𝒆𝒔𝒈𝒐)

N n

 ( xi   ) 2  (x i  x) 2
a) Datos no Agrupados σ= i 1
S = i 1

N n 1

N n

f i  ( xi   ) 2
f i  ( xi  x ) 2
b) Datos agrupados σ= i 1
S= i 1

N n 1

Prof. Celso Vivallo Ruz Página 11


Estadísticas II Unidad 0: Estadística Descriptiva

Varianza ( S2 )
Corresponde al cuadrado de la desviación estándar.

Coeficiente de Variación (C.V.)


Corresponde a una medida de dispersión relativa y se utiliza para la comparación de
dispersión entre grupos de datos. Se calcula dividiendo la desviación estándar por la media
aritmética, y se multiplica por 100 para interpretarlo como porcentaje.
S
C.V. =  100
x

Medidas de Forma
Son aquellas que resumen la forma en que los valores observados se distribuyen, El
coeficiente de Asimetría permite medir la asimetría de los datos respecto de su media, la
asimetría puede ser a izquierda o a derecha y el coeficiente de Curtosis mide la altura del
histograma comparado con una distribución normal, el resultado puede indicar que la
distribución es leptocurtica, mesocurtica o platicurtica.

Asimetria a Izquierda con ajuste normal


Simetria con ajuste normal
frecuencia relativa

0.33
0
frecuencia relativa

0.25
0
0.17
0
0.08
0 0.00
10 20 30 40 50 60 70
0 B
0 10 20 30 40 50 60 70

Histograma-B
Histograma-A

Medidas resumen

Variable Media D.E. CV Mín Máx Q1 Q3 Asimetría Kurtosis


A 40.00 12.72 31.81 20.00 60.00 30.00 50.00 0.00 -0.92
B 45.00 11.85 26.34 20.00 60.00 40.00 50.00 -0.38 -0.74

Para las variables A y B se muestran los histogramas y un resumen de medidas, Se


puede ver que el coeficiente de asimetría de A en cero lo cual indica que hay simetría perfecta
en el histograma de A, pero en B es Negativo el coeficiente y gráficamente se observa una
cola pesada a la izquierda.
Prof. Celso Vivallo Ruz Página 12
Estadísticas II Unidad 0: Estadística Descriptiva

Gráfico de Densidad de Puntos y el Q-Q Plot:

Densidad de puntos El gráfico de densidad de puntos ubica un punto por


70 cada dato y el valor del dato presenta la altura en la cual se
ubica el punto, es un gráfico muy auto-explicativo pues no
62

es un resumen de la información, sino que se presenta toda


54
la información y permite visualizar la dispersión de los
Edad

46 datos y su Q Q Plot

distribución. El 70
38 n= 150 r= 0.992 (Edad)

Cuantiles observados(Edad)
gráfico
58
30
Denominado Q-
45
Q Plot, muestra
los cuantiles normales y versus los cuantiles 33

observados, y se utiliza para mostrar gráficamente


20
20.00 45.00 70.00
si la distribución de los datos sigue algún modelo Cuantiles de una Normal(45.287,35.4)

de distribución conocido como puede ser la Edad Recta Y=X

distribución normal.

Prof. Celso Vivallo Ruz Página 13

También podría gustarte