Unidad 4, Estadística

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 15

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO, UASD

MEDIDAS DE DISPERSIÓN Y MEDIDAS


DE FORMA
Unidad 4

Prof. Lilliam V. Peña Amador


Enero 2015
Tabla de contenido

Medidas de dispersión ....................................................................................................................... 3

El Rango ................................................................................................................................................... 3
La varianza ..................................................................................................................................... 4
Desviación estándar ........................................................................................................................ 6
Coeficiente de variación ............................................................................................................... 7

Medidas de dispersión en datos agrupados .................................................................... 7


Medidas de Forma ................................................................................................................. 9
Sesgo o Asimetría ........................................................................................................................... 10

Curtosis .................................................................................................................................................... 10

Instrucciones para utilizar el módulo de Análisis de datos de Excel.....................12

Referencia bibliográfica .................................................................................................................. 15

2
MEDIDAS DE DISPERSIÓN

Al determinar una medida de tendencia central que represente el conjunto, de datos


que estudiamos, se pierde el detalle de cada dato y es precisamente lo que vamos a
determinar, que tan disperso están los datos con relación a esta medida están
cercanos, se parecen o se alejan del promedio.

Así que las medidas de dispersión miden el grado de variabilidad o concentración de


los datos respecto al promedio.

Su uso es importante porque permiten verificar la confiabilidad de los promedios y


verificar la dispersión de los datos, indican si los datos son:

Heterogéneos, esto cuando la medida de dispersión es alta de baja, concentración


alrededor del promedio.

Homogéneos, cuando es de baja dispersión medida de dispersión por lo que la


concentración es alta alrededor del promedio.

Principales medidas de Dispersión:

 El Rango o recorrido
 Varianza
 Desviación estándar
 Coeficiente de variación

El Rango

El rango de una variable es la diferencia entre el valor máximo y el valor mínimo. Su


uso es limitado, ya que solo toma en cuenta los valores extremos mostrando una
panorámica general

R  X (max)  X (min)

Mientras más heterogéneo es el conjunto de datos mayor es el valor del rango.

3
Ejemplo No. 1

Al evaluar dos pacientes del Hospital Dr.Robert Read Cabral que son tratados por
especialistas en enfermedades respiratorias agudas (IRA), se va registrando el número
de episodios y crisis que han presentado cada mes.

Pacientes
Meses Luis Acosta Carlos Torres
noviembre 4 3
diciembre 4 7
enero 4 2
febrero 4 6
marzo 4 4
noviembre 4 5
diciembre 4 1
enero 4 4
Promedio 4 4

En términos medio Carlos ha presentado 4 episodios por mes, (si observamos el


promedio), el numero de episodios que ha presentado Carlos es el mismo que el de
Luis, estos niños se encuentran en la misma situación? Cuál de los dos tiene una
condición más homogénea. Si observamos el rango de cada uno, notamos que el mayor
valor corresponde a Carlos quien presenta una variedad de casos que van desde 1
hasta 7; puede ser más difícil de tratar?

R  X (max)  X (min) RL=0 RC=6

A pesar de que Luis presenta la misma cantidad promedio de episodios y el rango es


cero, es pertinente determinar otras medidas con la cual se pueda profundizar acerca
de la variabilidad de los datos registrados para cada niño en el referido hospital.

La varianza

Es la desviación al cuadrado de los valores que asume la variable con respecto al valor
promedio.

4
La varianza siempre es positiva, al elevar al cuadrado se neutraliza el hecho de
interpretar que no hay variabilidad ya que la suma de los desvíos es igual a cero.

Si la diferencia entre cada calor de la variable y el promedio son grandes, indica que
existe mucha dispersión entre los datos, en otro caso, indicaría lo contrario. Cuando la
varianza es cero, es porque los valores de la variable son iguales.

Para una mejor descripción, interpretación y comprensión de estos resultados es


pertinente recurrir a la desviación estándar ya que se retorna a los datos lineales al
obtener la raíz cuadrada.

Datos simples Datos Agrupados

n 2 n 2

 X i  X  f X i  X
 i 1
 i 1
2 2
S S
n 1 f 1

Ejemplo No.2

Al considerar la cantidad de crisis de los niños, determinaremos esta medidas


Y seleccionamos la primera formula, ya que los datos son simples, así iniciamos al
desarrollar lo que está en paréntesis (a cada valor de la variable se le resta el
promedio, luego se eleva al cuadrado).

Meses Luis Acosta x Luis Meses yCarlos yCarlos


noviembre 4 (4-4)² noviembre (3-4)² 1
diciembre 4 (4-4)² diciembre (7-4)² 9
enero 4 (4-4)² enero (2-4)² 4
febrero 4 (4-4)² febrero (6-4)² 4
noviembre 4 (4-4)² noviembre (4-4)² 0
diciembre 4 (4-4)² diciembre (5-4)² 1
enero 4 (4-4)² enero (1-4)² 9
Promedio 4 (4-4)² Promedio (4-4)² 0
Total 0 Total 28

5
0 28
Al sustituir obtenemos: S luis  0 S Carlos   4.6 episodios 2
2 2

7 1 7 1

Desviación estándar

Es la raíz cuadrada de la varianza


Baja o pequeña más homogéneas son los datos, heterogéneos si el resultado de la
desviación estándar es muy alto. Así podemos observar que antes dos conjuntos de
datos con igual promedio, aquel cuya desviación sea pequeña, y concluir que hay
mayor homogeneidad es en el que el promedio más representativo y adecuado.

Esta medida se utiliza como uno de los parámetros de la distribución normal


Se puede obtener en datos simples y en distribución de frecuencia simple y agrupada.

Formula de la desviación estándar independientemente de cómo estén presentados los


datos.

S  S2

Para el ejercicio anterior la desviación del número de episodio de los niños es:

S Luis  0 S Carlos  4  2.2 episodios

Es decir que no hay variabilidad en el numero de episodio que Luis presenta en el


mes (4 crisis), mientras que Carlos presenta un número variado de crisis al mes en
promedio 4 entre 1.8 y 6.2 crisis (al promedio restamos la desviación y la sumamos).
Para dar una información con mayor entendimiento, determinaremos el coeficiente
de variación que expresa su resultado indicando en que porciento varían los datos.

6
Coeficiente de variación

El coeficiente de variación al relacionar el promedio y la desviación de los datos,


entrega un resultado adimensional que permite una interpretación del nivel de
homogeneidad de un conjunto de datos, si se trata de una población permite
comparar variables distintas y si se trata de dos poblaciones distintas permite la
comparación de esta, como el caso de episodios que presenta Luis y Carlos. Su
fórmula es la siguiente:

S 2.2
CV  * 100 CV  * 100  CV  55%
X 4

Se puede ver que Luis no presenta variación en el numero de episodio , mientras que
el numero de episodio que presenta Carlos varían en un 55%

Medidas de dispersión en datos agrupados

Cuando se dispone de datos en una distribución de frecuencia agrupada, lo primero


es identificar la formula a utilizar y los elementos de la misma, tales como el
denominador que es la suma de la frecuencias y el promedio.

Ya aprendimos a modificar la tabla y extender columnas al seguir una lectura de la


formula: cada valor de la variable menos el promedio al cuadrado, luego se obtiene
la suma y este resultado dividirlo entre la suma de la frecuencia.

n 2

 f X  X 
i
 i 1
2
S
 f 1
Ejemplo No.3

7
Consideremos las siguientes edades y extenderemos la tabla para obtener primero
el promedio, a menos que se tenga este dato.

xi (pm) f x* f
[10--15) 12.5 3 37.5
[15-20) 17.5 5 87.5
[20--25) 22.5 7 157.5
[25--30) 27.5 5 137.5
[30--35) 32.5 3 97.5
Total 23 517.5

 X  i
517.5
X  i 1
  22.5
f 23

Se procede a determinar la varianza, así como se extienden columnas para


determinar el promedio también se hace para desarrollar el numerador de la
fórmula de la varianza.

Edad
pacientes xi (pm) f x* f |x - ẋ| (x - ẋ)2 (x - ẋ)2 * f
[10--15) 12.5 3 37.5 -10 100 300
[15-20) 17.5 5 87.5 -5 25 125
[10--25) 22.5 7 157.5 0 0 0
[25--30) 27.5 5 137.5 5 25 125
[30--35) 32.5 3 97.5 10 100 300
Total 23 517.5 850

n 2

 f X  X i
850
 i 1
  38.63 años 2
2
S
 f 1 22

Desviación típica

8
s S2 s 38.63 s  6.21 años

22.5
CV  * 100  CV  27.6 %
6.21

Ejemplo No.4

Para estas poblaciones: pacientes servicio endocrinología matutina (M)- pacientes


servicio endocrinología vespertina (V)

Peso promedio desviación


M 138 27
V 149 22

Cual grupo de pacientes es más parecido y cual tiene su peso mas disperso?

S 27 22
CV  * 100 CVM  * 100  20% CVV  * 100  15%
X 138 149

Los pacientes de la tanda vespertina son más parecidos, ya que el porciento de


variación de sus pesos es menor (15%), que el de los que se atienden por la mañana.
Si este peso promedio y de cada paciente según su edad sería grande, se estaría
tratando a personas obesas, en el caso de mayor variedad, se entiende que tanto
hay obesas, al límite, medio, y otras de menor peso, por ser de moderada
variación.

Medidas de Forma

Las medidas de forma tal como se llaman, indican la forma que toman los datos al
ser presentados en un gráfico y que se puede determinar por medio de la formula

La forma del grafico puede indicar simetría o asimetría, concentración o


apuntamiento, así como dispersión o achatamiento.

Las medidas de forma son:

9
 El Sesgo o Asimetría
 Curtosis o apuntamiento

El Sesgo o asimetría: es la medida de forma que mide el grado de asimetría que


tienen los datos relacionando las medidas de tendencia central.

Se puede medir a través de una de estas formulas:

x  mo 3( x  me)
A. Sk  B. S k 
s s
El gráfico nos permite deducir si los datos están sesgado, es decir si hay una
tendencia, podemos observar si el valor de la medina deja el espacio (la parte) de
la izquierda como un reflejo de la parte de la derecha, si la curva es muy
empinada o si es muy achatada.

Cuando la curva que resulta de las unir de los puntos medios que se suaviza
sutilmente, se compara con curvas modelos, se puede identificar la forma de
dichos datos.

En cuanto al resultado de la formula, por los valores coincidentes de la media, la


mediana y la moda, al sustituir en el numerador, el resultado si es igual a cero.
Los datos son simétricos si el resultado de la operación es igual a cero. En otros
casos el resultado es mayor o menor que cero y concluimos que hay asimetría a
la derecha, una tendencia a los valores mayores o a la izquierda tienden a valores
menores.

Curtosis: es la medida de forma que indica el grado de apuntamiento o


concentración que tienen los datos. Se puede observar la forma a través de un
grafico a través del cual se aprecia el comportamiento de la distribución de los
datos.

Una forma de medir la curtosis es a través de la formula:

10
1
Q3  Q1 
K 2
P90  P10

Curvas de referencias para comparar la grafica de nuestros datos¹

Simétrica (normal)
Sk= 0
1 2 3

Mesocurtica K=3 Platicurtica K˂3 Leptocurtica K˃3

8 8 8

6 6 6

4 4 4

2 2 2

0 0 0

10[10-- 15[15-20)20 [20-- 25 [25-- 30 [30--35 10[10-- 15 [15- 20 [20--25 [25--30 [30--
35 10[10-- 15[15-20)20 [20--25 [25--30 [30--35
15) 25) 30) 35) 15) 20) 25) 30) 35) 15) 25) 30) 35)

Sesgada Distribución normal Sesgada


Tendencia a joven poca edad población con algunos integrantes Tienden mayor edad
Jóvenes, la mayoría alrededor del
Promedio.

Al considerar las edades de pacientes. Ejemplo No.3

1.- Observamos la curva, a cuál de las anteriores se parece? Ya tenemos una idea,
a la primera y a la del centro, así que se puede pensar que los datos no tienen
tendencia, no hay sesgo, los datos son simétricos, la distribución es normal.

11
X  22.5 Mo  22.5  S k  0

Así mismo se obtiene la curtosis al sustituir en la fórmula dada.

Instrucciones para poder utilizar el módulo de Análisis de datos de Excel:

1. Haga clic en el Botón de Microsoft Office y, a continuación, haga clic


en Opciones de Excel.

12
2. Haga clic en Complementos y, en el cuadro Administrar, seleccione Complementos
de Excel.

3. Haga clic en Ir.

4. En el cuadro Complementos disponibles, active la casilla de


verificación Herramientas para análisis y, a continuación, haga clic en Aceptar.

a. Sugerencia Si Herramientas para análisis no aparece en la lista del


cuadro Complementos disponibles, haga clic en Examinar para buscarlo.

13
b. Si se le indica que Herramientas para análisis no está instalado actualmente en el
equipo, haga clic en Sí para instalarlo.

5. Una vez cargado Herramientas para análisis, el comando Análisis de datos estará
disponible en el grupo Análisis de la ficha Datos.

https://support.office.com

Para calcular cualquier medida de las citadas en esta unidad podemos usar fx o
análisis de datos para lo cual damos clic sea en fx o en datos y análisis de datos, y
seguimos los pasos solicitados.

14
Bibliografía

Triola, Mario F. (2009) Estadística (décima edición) México: Pearson Education

Familia, César (2012) Introducción a la Estadística Elemental Aplicada, tomo 1,


República Dominicana: Editora Trébol

Apuntes cátedra de Estadística. Prof. Francisco Cumsille/ Prof.Claudio Silva.


Maestría bioestadística (1999) Universidad de Chile

http://www.est.uc3m.es/omar/EstadisticaI/EXCELyEstadistica.pdf
Contiene instrucciones para usar el Excel como herramienta para análisis estadístico básico.

¹https://www.google.com.do/search?q=medidas+de+forma&espv=2&biw=1024&bih=471&source=ln
ms&tbm=isch&sa=X&ved=0ahUKEwja_pWV4OTKAhWH1R4KHTkuAe8Q_AUIBigB&dpr=1#imgrc=Z3reB
SJVkKoKgM%3A

15

También podría gustarte