Analisis Estadistico Descriptivo
Analisis Estadistico Descriptivo
Analisis Estadistico Descriptivo
1. Conceptos básicos
2. Construcción de tablas de frecuencias
3. Los gráficos Estadísticos
4. El análisis de tendencia Central
5. El análisis de dispersióm
El nivel descriptivo está referido al estudio y análisis de los datos obtenidos en una
muestra (n) y como su nombre lo indica describen y resumen las observaciones
obtenidas sobre un fenómeno un suceso o un hecho.
Ejemplos :
Ejemplos :
• Los ingresos de los turistas que vienen al país son de $ 35,000 en promedio
• Si las elecciones fueran hoy día el candidato del partido “ X “ obtendría un
45% de los votos
n N
* * *
** * * * *
* * * ** * *
* * * *
Muestra
Población
En todos los casos se debe aplicar el criterio de probabilidad, es decir que cada elemento
de la población tenga la misma probabilidad de ser elegido en la muestra. Este es un
aspecto fundamental pues hacerlo de otra manera ( elección subjetiva) impediría medir
el nivel de confianza y / o de error de los resultados obtenidos.
Las variables son las características, atributos o cualidades del objeto de investigación
se pueden clasificar de muchas maneras. Ejemplo
Calidad de la información .
Calidad de la
información
CALIDAD CALIDAD
INTERNA EXTERNA
Validez Confiabilidad
Representatividad
CONFIABILIDAD :
Período 1 Período 2
VALIDEZ :
ESCALA A ESCALA B
Posición de Posición de
izquierda izquierda
9/10 =0.90 17/20 =0.85
REPRESENTATIVIDAD
Tiene que ver con el grado en que los resultados de la muestra pueden ser atribuidos a
toda la población o universo . Se trabaja con los valores de Z ( niveles de confianza
utilizando las áreas de la curva Normal ) y el valor de e ( máximo error permitido por el
investigador ).
• Nivel nominal
• Nivel ordinal
• Nivel de intervalos
• Nivel de razón
•
Nivel Nominal
Escala cualitativa que asigna arbitrariamente un número a cada respuesta de modo que
sólo tenga valor como un número de identificación. El número de escala no tiene ningún
significado por sí sólo.
1. VISA ( )
2. Mastercard ( )
3. American Express ( )
4. Diners ( )
Porcentajes
Estadística permisible : Moda
Prueba binomial – Ji cuadrado
El número que se asigna en esta escala no representa magnitudes absolutas. Solo sirven
para clasificarlos en determinada categoría, en otras palabras 1, no es la mitad de 2 .
Nivel Ordinal
Escala cualitativa que no sólo clasifica , sino establece jerarquías entre los valores.
Entre mayor sea el número, mayor (o menor) es la existencia del atributo , pero sin
indicar la distancia que hay entre las posiciones , es decir que el numero cuatro en
preferencia no es 300% superior al número 1, solo indica que es preferido respecto del
anterior
1. Inca Kola ( )
2. Coca Cola ( )
3. Real Kola ( )
4. Pepsi Cola ( )
Percentiles - mediana
Estadística permisible Desviación cuartil
Correlación rango-orden
Escala cuantitativa que clasifica, ordena y establece distancias o intervalos iguales entre
las unidades de medida . Asigna un punto de cero en forma arbitraria por convención
por los expertos , pero que no implica la ausencia del atributo. Por ejemplo una prubea
de coeficiente de inteligencia va tener un punto cero , pero no hay una persona con cero
de inteligencia. Otros ejemplos son la medición del calendario , o la medición de la
temperatura
de a
20´000 -10´000
-10´000 0
0 -10´000
10´000 20´000
Media –Mediana-Moda
Estadística permisible Desviación estándar- Varianza
Coeficientes de Correlación
Prueba T – Prueba Z
Nivel de Razón
Escala cuantitativa es igual que las escalas de intervalos, pero poseen un cero absoluto.
(origen natural) en el cual hay una ausencia de la propiedad o atributo, ejemplo el peso
o los ingresos monetarios de una persona
De A
0 999
1,000 1,999
2,000 2,999
3,999 4,000
Media geométrica
Estadística permisible Media armónica
Coeficiente de variación
2.1 Variable discreta , es aquella cuyo valor se expresa únicamente por números
enteros, adquieren valores absolutos y por lo general son cualitativas.
Ejemplo 1 :
En una muestra de veinte bodegas del distrito X ,se desea conocer la cantidad de
marcas de crema dental que ofrecen a sus clientes.
La variable (xi) es el número de marcas de crema dental ofrecidas.
Hecho el estudio se obtuvieron los siguientes resultados :
Bodega xi Bodega xi
Nº Nº
1 6 11 4
2 5 12 5
3 4 13 6
4 4 14 2
5 3 15 4
6 3 16 3
7 4 17 4
8 4 18 6
9 5 19 5
10 6 20 3
N : 20 bodegas
Construyendo la tabla tendríamos :
xi tabulación fi hi (%)
2 / 1 5
3 //// 4 20
4 /////// 7 35
5 ///// 5 25
6 //// 3 15
TOTALES 20 100
Fuente : encuesta área de mercadeo
Gráficamente tenemos :
7
6
Nº bodegas
5
4
3
2
1
0
2 3 4 5 6
Nº marcas crema dental
2.2 Variable continua, es aquella que puede tomar cualquier valor del conjunto de
los números racionales ( enteros o fraccionarios). Son variables cuantitativas
Ejemplo 2 :
R = x10 – x41
m = 1 + 3.322 x Log 50
m = 1 + 3.322 × l.69897
m = 6.64 ≈ 7 intervalos
c = 650 / 7 = 92.8 ≈ 93
Donde :
i : número de intervalo
xi : intervalo de clase inferior
xs : intervalo de clase superior
fi : muestran la repetición de los datos en determinado
intervalo de clase- invalores absolutos ( familias)
Fi : muestran la acumulación progresiva de las frec.absolutas
hi : expresan a las frec. absolutas en términos relativos (%)
Hi : muestran la acumulación progresiva de las frec. Relativas
16
14
12
10
familias
0
413 506 599 692 785 878 971
Edad de clientes
3–5
6- 14
25 – 24
25 - 39
Sueldos mensuales
( ]
320 – 370
370 – 420
420 – 470
470 – 520
520 - 570
1
CHRISTENSEN Howard. Estadística Paso a Paso
2
AVILA Acosta . Estadística Elemental
Numero de grafico y
título
2,500
2,000
1,500
miles $
1,000
500
0
Enero Febrero Marzo Abril Mayo Junio
meses
Grafico 2 : Agencia de Viajes " El Sol " Clientes atendidos en sucursal Cuzco
Clientes
14,000
12,000
10,000
8,000
6,000
4,000
2,000
0
Años 2001 2002 2003 2004 2005 2006
Este gráfico de evolución es útil para representar la evolución de una sola variable en el
tiempo ( serie de tiempo)
Mastercard,
2%
Diners, 7% Efectivo 26%
American, 17%
Visa, 48%
Es utilizado para expresar una variable que esta compuesta de varios subconjuntos es
decir es un gráfico de estructura ( de una sola variable)
25 12
10
ventas (miles)
20
tasa %
8
15
6
10
4
5 2
0 0
2003 2004 2005 2006
años
Es muy útil para mostrar dos frecuencias que tienen valores diferentes (dólares y
porcentajes por ejemplo); cada una de ellas se ubica en uno de los ejes verticales y su
lectura es a través de los valores allí expresados
1 2 3
Año Turistas ( miles) Crecim (%)
1997 224 17.28
1998 271 20.98
1999 310 14.39
2000 325 4.84
2001 319 -1.85
2002 308 -3.45
2003 304 -1.30
2004 365 20.07
2005 392 7.40
2006 415 5.87
2007 488 17.59
En primer lugar vamos a utilizar un gráfico de barras para representar las cifras .
500
450
400
350
300
250
miles
200
150
100
50
0
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
años
Pero es importante acompañar el análisis con otro tipo de gráficos, en este caso
usaremos el gráfico lineal para apreciar cómo es el crecimiento relativo ( en
porcentajes ) de cada año, conforme se aprecia en la columna 3 del cuadro y
cuya expresión gráfica es :
20
%
15
10
0
1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
-5
años
V
crec. = n − 1 × 100
Vn −1
Donde :
325
. crec. = − 1 × 100
310
crec. = 4.84 %
6º paso : Se acciona el comando de series para colocar los datos de los años
8º paso : Se coloca :
• Título del gráfico : tasa de variación anual de llegada de turistas a Lunahuana
• Eje de categorías : años
• Eje de valores : %
• La Media aritmética
• La Mediana
• La Moda
Formula :
n
∑ xi
i =1
=
n
Donde :
xi : clase
n : número de clases
Σ : Sumatoria ( desde i = 1 , hasta i = n)
Ejemplo 3 :
Cliente Duración de la
xi atención
1 3.24
2 4.01
3 2.33
4 2.08
5 3.30
6 3.25
7 3.00
8 4.02
9 4.15
10 2.88
Σ 32.26
= 32.26
10
∑ xi × fi
i =1
=
N
Donde :
xi : marca de clase
fi : frecuencia absoluta
n : total de frecuencias
Ejemplo 4 :
= 11,900
300
= 39.67 años
El promedio de edad de los clientes del Café Bar “ El Sol “ es de 39. años y medio
Ejemplo 5 :
4 8 5 3 9 7 2
Se ordena
2 3 4 5 7 8 9
3 Me 3
Ejemplo 6 :
6 8 9 10 11 15
Se ordena
6 8 9 9.5 10 11 15
3 Me = (9+10) / 2 = 9.5
Formula :
N / 2 − Fa
Me = Li + c ×
fi
Donde :
Clase ( i ) Intervalo fi Fi
1 19 – 23 5 5
2 23 – 27 9 14
3 27 – 31 13 27
4 31 – 35 48 75
5 35 – 39 67 142
6 39 - 43 58 200
7 43 – 47 54 254
8 47- 51 29 283
9 51- 55 17 300
TOTALES 300
(300 / 2) − 142
Me = 39 + 4 ×
58
Me = 39 + 0.55
Me = 39.55 años
50% 50%
19 55
39.55 años
Formula :
fp
Mo = Li + c
fp + fa
Donde :
Li : limite inferior del intervalo de la clase que contiene a la
Moda
c : Tamaño del intervalo de clase
n : Total de frecuencias absolutas
fp : Frecuencia absoluta posterior a la clase que contiene a la
Moda
fa : frecuencia absoluta anterior de la clase que contiene a la
Moda
Clase ( i ) Intervalo fi
1 19 – 23 5
2 23 – 27 9
3 27 – 31 13
4 31 – 35 48
5 35 – 39 67
6 39 - 43 58
7 43 – 47 54
8 47- 51 29
9 51- 55 17
TOTALES 300
Mo = 35 + 2.19
Mo = 37.19 años
LA MODA : RESUMEN
CARACTERISTICAS • Es absolutamente independiente de valores
extremos
• Es un valor típico
VENTAJAS • Es la medida más descriptiva
• Cuando el número de valores es pequeño es
fácil determinarla por observación
DESVENTAJAS • No es posible calcularla en caso de datos no
agrupados
DISTRIBUCIONES Relación
SIMETRICAS = Me = Mo
: 39.67 años
Me : 39.55 años Asimetría a la izquierda
Mo : 37.19 años
( X − Mo )
As =
s
AS > 0 As = 0 As < 0
Asimetría positiva Simetría Asimetría negativa
Sesgo hacia la izquierda Sesgo hacia la derecha
Cola hacia la derecha Cola hacia la izquierda
(39.64 − 37.19)
As =
7.12
70
60
50
clientes
40
30
20
10
0
23 27 31 35 39 43 47 51 55
Edad
Ejemplo 7 :
Tenemos las siguientes distribuciones de datos :
xi A B
1 3 20
2 7 40
3 46 46
4 67 47
5 81 51
Aparentemente ambas distribuciones son iguales, pero ¿ esto es así? : veamos los
Los gráficos :
GRUPO A
90
80
70
60
edad
50
40
30
20
10
0
1 2 3 4 5
elementos
GRUPO B
60
50
40
edad
30
20
10
0
1 2 3 4 5
elementos
A pesar que ambos grupos tienen los mismos indicadores de tendencia central , las
distribuciones de los datos muestran que el grupo B es más homogéneo que el grupo A,
pues los datos están más cerca del valor de la edad promedio ( 40.6 años) , en cambio el
grupo A está más disperso o menos concentrado..
5.1 El Rango ( R )
Rango A = 81 – 3 = 78
Rango B = 51 – 20 = 31
Formula :
n
∑ xi − x
DM = i =1
Donde :
xi : clase
: media aritmética
n : número de clases
Σ : Sumatoria ( desde i = 1 , hasta i = n)
xi A B
1 3 20
2 7 40
3 46 46
4 67 47
5 81 51
X 40.6 40.6
DMA = 28.68
En otras palabras la dispersión del grupo B 2.3 veces menor que la del grupo A,
por tanto este grupo es más homogéneo o más concentrado
b) Datos agrupados
Fórmula :
∑ xi − x × fi
DM = i =1
Donde :
xi : clase
: media aritmética
n : número de frecuencias absolutas
fi : frecuencia absoluta
| | : Valor absoluto ( la resta debe ser siempre positiva)
DM = 5.42 años
Formula :
n
∑ ( xi − x ) 2
s = i =1
Donde :
xi : clase
: media aritmética
n : número de clases
Σ : Sumatoria ( desde i = 1 , hasta i = n)
xi A B
1 3 20
2 7 40
3 46 46
4 67 47
5 81 51
40.6 40.6
sA =31.31 años
sB = 10.98 años
Fórmula :
∑ ( xi − x) 2
× fi
DM = i =1
Donde :
xi : clase
: media aritmética
n : número de frecuencias absolutas
fi : frecuencia absoluta
√ : raiz cuadrada
15,216.16
s=
300
s = 7.12 años
El promedio de las desviaciones de los datos respecto a la media aritmética es
de 7.12 años
Formula :
s
CV = × 100
x
Con los datos del ejemplo Nº 7 ( edad de dos grupos de personas ) tenemos :
indicador A B
s 31.3 10.98
40.8 40.8
El CV seria :
A B
CV 31.3 10.98
= × 100 = × 100
40.8 40.8
= 76.72% = 26.91%