Texto Diseñado para Estudiantes de Pre y Posgrado

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 21

50

1. Medidas de tendencia central de datos no agrupados


Las principales medidas de centralización que vamos a estudiar en este acápite son: media aritmética,
mediana, moda y media geométrica. Existen otras medidas que no se aplican dentro del ámbito
administrativo, por lo tanto no serán estudiadas. De las tres primeras medidas, posiblemente la media
aritmética sea la más utilizada y como se verá más adelante, es fundamental en otros muchos
estudios y cálculos estadísticos. Por otra parte la media geométrica tiene importancia específica
sobre todo en estudios económicos y financieros.

Media Aritmética
Para esta medida vamos a considerar dos alternativas, no porque el concepto y el criterio de cálculo sean
diferentes, más bien responde a condiciones sobre, si la media es obtenida de una población o de una
muestra, lo único que cambiará es la simbología utilizada para la representación (μ: media
aritmética de población) media aritmética de muestra.

En general podemos indicar que, la media aritmética es el valor que resulta de dividir la suma de todos los
valores observados entre el número de datos considerados. Utilizando un lenguaje simbólico, se tiene lo
siguiente:
Σ 𝑥1 + 𝑥2 + 𝑥3 + ⋯ . . +𝑥𝑥
𝑥= 𝑥 =
𝑥
𝑥 𝑥1 + 𝑥2 + 𝑥3 + ⋯ . . +𝑥𝑥
𝑥 Σ =
= 𝑥
Dónde: 𝑥
𝑥

Σ: sumatoria (letra mayúscula sigma)

N: Tamaño de población (número de elementos de la población) n:

Tamaño de la muestra (número de elementos de la muestra) μ: media

aritmética de población (letra griega mu)

𝑥: media aritmética de muestra (equis barra)

Esta medida de tendencia central es la más utilizada e inclusive el lector ya debe estar familiarizado con ella,
toda vez que el lector en su avance estudiantil desde la educación básica obtuvo “promedios” de sus
calificaciones, que no fueron sino la media aritmética de sus aportes y evaluaciones.

Ejemplo 1:
51

En una muestra de diez envases de refrescos se obtuvieron los siguientes valores (cm3): 251, 248.5,
250.8, 249.7, 249, 251.2, 248.8, 249.2, 250.5, 249.3, determinar el contenido medio de esta muestra:
Σ𝑥 251, 248.5, 250.8, 249.7, 249,251.2, 248.8, 249.2, 250.5, 249.3 2498
𝑥= = = = 𝑥𝑥𝑥.𝑥𝑥𝑥𝑥
𝑥 10 10
Propiedades de la media aritmética:

1. Los datos medidos en escala de intervalo o de razón, tienen una media aritmética.

2. El valor de la media aritmética es único, es decir, un conjunto de datos tiene un solo valor de media
aritmética.

3. Para el cálculo de la media aritmética se consideran todos los datos observados. Esta propiedad
determina que la media aritmética sea sensible a la presencia de valores extremos.

4. Es una medida muy útil cuando se necesita comparar estudios estadísticos de la misma naturaleza.

5. La media aritmética es la única medida de tendencia central, donde la suma de las desviaciones de los
elementos con respecto a ella, siempre es cero.

Expresado simbólicamente:
𝑥(𝑥 − 𝑥) = 𝑥

Ejemplo 1:

La media de 2, 10 y 3, es 5.

Entonces:

𝑥(𝑥 − 𝑥) = (𝑥 − 𝑥) + (𝑥𝑥 − 𝑥) + (𝑥 − 𝑥) = −𝑥 + 𝑥 − 𝑥 = 𝑥

Es necesario señalar que la media aritmética tiene algunas desventajas, entre ellas la principal es que al ser
afectada por la presencia de valores extremos (altos o bajos), pierde representatividad del conjunto de datos.
Como Ejemplo de esta desventaja podemos citar al siguiente: suponga que un estudiante obtuvo las
siguientes 4 notas que fueron evaluadas sobre 100. 86, 90, 94 y 6, por lo tanto la media aritmética o
promedio de estas notas es: 69, resulta obvio que el valor medio no es representativo de la notas obtenidas,
ya que tres de las cuatro notas están dentro de un intervalo comprendido entre 86 y 94. En este caso el
extremo inferior afecta completamente al valor de la media. Si el conjunto de datos ha sido categorizado
mediante intervalos y uno de ellos es abierto, no se podrá determinar la media aritmética.
52

Media Aritmética Ponderada: Constituye un caso especial de la media aritmética y ocurre cuando
los datos individuales, están categorizados de acuerdo a la frecuencia o factores de ponderación.

En estos casos la variable está representada por cada valor observado y los pesos constituyen las frecuencias
o los factores de ponderación de cada uno de ellos. Para este caso, el cálculo de la media aritmética se
reduce a encontrar la suma de los productos de cada valor observado con su respectiva frecuencia y dividirla
entre la suma de las frecuencias.

La siguiente expresión simboliza el cálculo descrito.


Σ(𝑥∗ 𝑥) 𝑥1𝑥1 + 𝑥2𝑥2 + 𝑥3𝑥3 + ⋯ . . +𝑥𝑥𝑥𝑥
𝑥= =
Σ𝑥 𝑥1 + 𝑥2 + 𝑥3 + … … . + 𝑥𝑥
Donde “x” representa la variable y “f” frecuencia.

Ejemplo 1:

Un negocio de refrescos vende tres tipos de contenidos, pequeños, medianos y grandes a 40, 60 y 80
centavos de dólar cada uno, en un día en particular vendió 50 pequeños, 45 medianos y 60 grandes, se
quiere determinar cuál es el precio promedio de venta de cada refresco.

TIPO P.VENTA Nº X*f


Centavos Refrescos
x f
Pequeño 40 50 2000

Mediano 60 45 2700

Grande 80 60 4800
TOTAL 155 9500

Σ(𝑥 ∗ 𝑥) 9500
𝑥= = = 61,29 𝑥𝑥𝑥𝑥.
Σ𝑥 155
Mediana
Es el punto medio del total de observaciones, luego de que han sido ordenados y que deja al mismo
número de observaciones por debajo de su valor, así como por arriba de él.

La mediana es una importante medida de ubicación, en casos en que la media aritmética no es


representativa de un conjunto de datos, esta situación se da cuando existe la presencia de valores
extremos altos o bajos, en cuyo caso la mediana proporciona un valor más representativo de la
tendencia central. Para la determinación de la mediana es necesario que los
53

datos se encuentren previamente ordenados y su valor coincide con aquel que deja el mismo número de
observaciones por debajo y por Encima de él.

Para la determinación de la mediana, únicamente se recurre a la determinación del valor medio, existen dos
posibilidades, cuando el número de observaciones es impar y cuando este número es par. En el primer caso
la ubicación del elemento central es directa escogiendo el elemento que ocupa la posición (n + 1) / 2. Es
decir al total de observaciones se le suma una unidad y a este resultado se lo divide entre 2, dando como
resultado la ubicación del elemento central. En el segundo caso es necesaria la determinación de dos
valores centrales, (n / 2) y (n / 2 + 1), una vez determinados se encuentra la media aritmética de estos valores,
que asuvez constituye lamediana del conjunto de datos.

Ejemplo 1:

Determinar la mediana del siguiente conjunto de datos: 8, 10,

18, 14, 15, 13, 11, 16, 17

Ejemplo 2:

b. Determinar la mediana del siguiente conjunto de datos: 21, 15,

18, 20, 16, 19.

Ordenamos los datos: 8, 10, 11, 13, 14, 15, 16, 17, 18. Como el número de elementos es impar (n =
9), ubicamos al elemento central

(9 +1)/2=5. De tal manera que debemos escoger el quinto elemento del ordenamiento de los datos,
para el caso presente este quinto elemento es el 14 (mediana). Se verificaque este valor de acuerdo
al concepto de la mediana, deja por igual el mismo número de elementos por debajo y por encima de él,
en el presente Ejemplo, cuatro.

Ordenamos los datos: 15, 16, 18, 19, 20, 21. Al ser el número de elementos par (n = 6), ubicamos los dos
valores centrales, que, en este caso son: 18 (n /2) y 19 (n / 2 + 1). Luego encontramos la media
aritmética de estos dos valores, este resultado será la mediana del conjunto de datos. (18 + 19) / 2 = 18.5.

Se comprueba que existe la misma cantidad de elemento que son menores a la mediana y mayores a
ella; en este caso tres.

Propiedades de la mediana:
54

Al igual que la media aritmética, su valor es único, entonces, un conjunto de datos posee una sola
mediana.

No se ve afectada por la presencia de valores extremos bajos o altos, en el caso del Ejemplo anterior en
el literal (a.) puede ser el último dato un valor tan alto como se quisiese, que la mediana seguirá siendo la
misma.

Puede ser determinada para distribuciones de frecuencia que tengan intervalos abiertos, siempre y
cuando la mediana no se encuentre en esa categoría.

Puede determinarse para datos que han sido medidos en escala de intervalo, de razón u ordinal.

Moda
Es el valor de la observación o elemento que tiene la mayor frecuencia.

La moda es otra medida de tendencia central, que es muy útil para describir conjuntos de datos nominales y
ordinales y su determinación es sencilla, toda vez que queda fijada por la ubicación del elemento que mayor
frecuencia tiene, es decir, el que más veces aparece en el estudio.

En definitiva la moda puede determinarse para cualquier conjunto de datos y al igual que la mediana no
se ve afectada por la presencia de valores extremos y puede ser determinada para categorías con intervalos
abiertos. Sin embargo la moda tiene una desventaja, la cual hace que no sea muy utilizada,
principalmente para datos numéricos y es que muchos estudios no poseen moda no hay elementos
con mayor frecuencia o puedan tener varias modas (cuando dos o más elementos tienen la misma
mayor frecuencia), dando lugar en este último caso a que los estudios sean bimodales o plurimodales.

Ejemplo 1:

Para los siguientes datos, determinar la moda:

12, 10, 13, 9, 12, 11, 14, 13, 12, 15, 8, 12, 14. Al ordenar los datos obtenemos: 8, 9, 10,
11, 12, 12, 12, 12, 13, 13, 14, 14, 15, podemos observar que el elemento que mayor frecuencia tiene es el
valor 12 el cual se repite 4 veces, por lo tanto es la moda de este conjunto de datos.

32, 30, 28, 29, 31, 33, 35, 36. Igualmente ordenado los datos se obtiene: 28, 29, 30, 31, 32, 33, 35,
36 y podemos observar que no existe ningún elemento que tenga mayor frecuencia, todos tienen frecuencia
1, por lo tanto este conjunto de datos no posee moda.

Media Geométrica
Es de gran utilidad cuando se quiere establecer el promedio de porcentajes, razones,
índices o tasa de crecimiento. Su uso es ampliamente demandado en economía y en
demografía.
55

Pues proporciona el cambio porcentual de ventas, sueldos, o cifras como tasa de inflación, crecimiento
del Producto Nacional Bruto u otras. La expresión matemática que define a esta medida es:

𝑥𝑥 = 𝑥√𝑥1 ∗ 𝑥2 ∗ 𝑥3 ∗ … . .∗ 𝑥𝑥

Entonces podemos indicar que la media geométrica es la raíz enésima del producto de todos los elementos
de un estudio, con la condición de que estos elementos deben ser siempre positivos. Se verifica adicionalmente
que la media geométrica siempre será menor, o máximo igual a la media aritmética (MG ≤ μ).

Ejemplo1:

Las ganancias obtenidas por una empresa en los cuatro últimos años fueron de 8%, 6%, 7.5% y 9%.
¿Cuál es la media geométrica de las ganancias?
4
𝑥𝑥 = ∗ 𝑥2 ∗ 𝑥3 ∗ …. .∗ 𝑥𝑥 = √8 ∗ 6 ∗ 7,5 ∗ 9 = 7,545%
𝑥
√𝑥1

Como una segunda aplicación de la media geométrica podemos citar a la determinación de una tasa
promedio de crecimiento en un intervalo de tiempo, cuando se conoce el valor inicial y final del período. Este
valor queda determinado a partir del uso de la siguiente expresión:

AUMENTO PORCENTUAL PROMEDIO EN UN PERIODO DADO

𝑥𝑥𝑥𝑥𝑥 𝑥𝑥𝑥𝑥𝑥
𝑥𝑥 = (√𝑥 ∗ − 𝑥 ∗ 𝑥𝑥𝑥)
𝑥𝑥𝑥𝑥𝑥 𝑥𝑥𝑥𝑥𝑥𝑥𝑥

Ejemplo 2:

Suponga que una ciudad en el año 1985, tuvo 250000 habitantes y en el año 2010 400000 pobladores,
determinar cuál es la tasa promedio de crecimiento promedio anual de la población de esta ciudad.

Valor final: 400000

Valor inicial: 250000

Duración del período (n): 2010 – 1985 = 25

𝑥𝑥𝑥𝑥𝑥 𝑥𝑥𝑥𝑥𝑥𝑥
𝑥𝑥 = (√𝑥 ∗ − 𝑥 ∗ 𝑥𝑥𝑥) = (√𝑥𝑥 ∗ − 𝑥 ∗ 𝑥𝑥𝑥) = 𝑥,
𝑥𝑥𝑥𝑥𝑥
𝑥𝑥𝑥𝑥𝑥 𝑥%
𝑥𝑥𝑥𝑥𝑥𝑥𝑥 𝑥𝑥𝑥𝑥𝑥𝑥

Esto significa que la población de esta ciudad ha crecido a una tasa promedio anual de aproximadamente
1.9%.

Uso de Excel para determinar las medidas de tendencia central


56

Si vamos a ocupar la hoja electrónica, o más bien, los datos originales se encuentran consignados en ella,
entonces directamente podemos encontrar los valores correspondientes a estas medidas que hemos visto
anteriormente. Simplemente se marca una celda donde queremos que aparezca el resultado y escogemos la
opción de insertar función, luego se señala el tipo de función, en este caso será “Estadísticas” y
aceptamos esta opción, ante lo cual se despliega toda la lista de funciones estadísticas que tiene el programa;
en esta instancia con el cursor nos movilizamos hasta encontrar la función requerida. Una vez que se acepta
esta función el programa pide que se seleccione el rango de datos, es decir, marcaremos las celdas donde
se hallan ubicados, (no es necesario que estén anotados en una sola fila o columna, más bien es preferible
que se hallen ubicados en una matriz de varias filas y columnas, especialmente si el número de datos
es numeroso) y procedemos a aceptar, inmediatamente el programa nos devolverá el resultado solicitado.
Cabe señalar que, para calcular la mediana y la moda no es necesario que los datos se hallen ordenados. La
computadora internamente realiza el proceso y nos entrega el resultado.

El nombre de las funciones estadísticas estudiadas, constan en el listado de las funciones estadísticas con los
siguientes nombres:

MEDIDA FUNCIÓN
Media Promedio
Aritmética
Mediana Mediana
Moda Moda
Media Media
Geométrica Geométrica

A continuación vamos a desarrollar un Ejemplo, en el que se observe lo dicho anteriormente. Se usarán


los datos que se hallan en la página 14 y que corresponden al tiempo (minutos) en que un cliente es atendido en
una ventanilla bancaria.
57

Al dar clic en aceptar se presenta el siguiente cuadro de diálogo, pide en la primera ventana que se marque
las celdas donde se hallan los datos, a continuación damos un nuevo clic en Aceptar y automáticamente se
desplegará el resultado en la celda donde se activó la función promedio, esto se ve con claridad en la
pantalla que consta a continuación:
66

Elaboración: Autores

Como son datos agrupados, se utiliza la fórmula

Siendo,

La posición del primer cuartil.

La posición del 7 decil.

La posición del percentil 30.

Entonces,

El primer cuartil:

115.5 – 85 = 30.75

Li = 300, Ic = 100 , fi = 90

El 7 decil:

Posición:

324.1 – 295 = 29.1

Li = 500, fi = 70
67

El percentil 30

Posición:

138.9 – 85 = 53.9

fi = 90

Estos resultados nos indican que el 25% de los empleados ganan salarios por debajo de $ 334; que bajo 541.57
gana el 57% de los empleados y sobre $359.88, gana el 70%de los empleados.
3. Medidas de dispersión de datos no agrupados

Estas medidas son necesarias para la mejor comprensión de la distribución de un conjunto


de observaciones realizadas en un estudio estadístico y se complementan con las medidas de
centralización vistas anteriormente, toda vez que proporcionan conjuntamente una descripción
numérica más completa de los datos.

Recordemos que las medidas de tendencia central localizan generalmente a un valor que se halla
ubicado en el centro de la distribución, pero no informa sobre el grado de dispersión o variabilidad del
conjunto de datos. El análisis de los resultados de estas medidas también permite comparar los
grados de dispersión entre dos o más distribuciones.

Las principales medidas de variabilidad que estudiaremos son:

o Rango o amplitud de variación


o Desviación media
o Desviación estándar
o Varianza
o Coeficiente de variación

Amplitud de variación (Rango)

Es la medida más simple de dispersión y se obtiene al establecer la diferencia entre el


máximo y el mínimo de los datos cuantitativos.

Amplitud de variación = Máximo – Mínimo


68

El valor obtenido nos brinda la información en relación al intervalo entre los valores límites en los que se
observaron los datos; su utilización está más ligada al control estadísticos de procesos y no es muy utilizada
como medida de dispersión, ya que se ve muy influenciada por la presencia de los valores extremos tanto
inicial como final.

Ejemplo 1:

1.-Determinar la amplitud de variación de las siguientes edades:

25 43 28 32 27 39 40 29 28 33 36 30

Máximo = 43

Mínimo = 25

Amplitud de variación = 43 – 25 = 18

Este valor nos permite también comparar con estudios de la misma naturaleza y establecer con buen
criterio que el conjunto de datos que tenga la menor amplitud de variación, será el que tenga menos
variabilidad o menor dispersión.

Desviación media
Es la medida de dispersión que mide más exactamente el grado de dispersión de un conjunto
de datos con relación a la media aritmética. En otras palabras es la medida que nos determina
en cuantas unidades en promedio los datos se hallan desviados o alejados de la media
aritmética.

El uso de esta medida no es muy generalizado por cuanto para su determinación se utiliza el valor
absoluto de las desviaciones, esta situación no permite un trabajo algebraico mayor, por lo tanto se utiliza
con mayor frecuencia la desviación estándar para representar a la dispersión de los datos frente a la media. Por
medio de la siguiente expresión se calcula la desviación media (DM).
𝑥|𝑥 − 𝑥|
𝑥𝑥 =
𝑥
Dónde:

x: Valor de cada observación

𝑥: Media aritmética de las

observaciones n: observaciones del

estudio

| |: Valor absoluto

Ejemplo 1:
69

En un almacén se determinó en una semana el ingreso de clientes por día, obteniéndose los siguientes
resultados, lunes: 250, martes: 265, miércoles: 243, jueves: 225, viernes: 274y sábado
294. Calcular la desviación media de estos datos.

Solución: Primero se calcula la media aritmética y luego se determina los valores de absolutos
de las desviaciones de las observaciones frente a la media aritmética.
𝑥𝑥𝑥 + 𝑥𝑥𝑥 + 𝑥𝑥𝑥 + 𝑥𝑥𝑥 + 𝑥𝑥𝑥 + 𝑥𝑥𝑥
𝑥= = 𝑥𝑥𝑥. 𝑥
𝑥𝑥𝑥𝑥𝑥𝑥𝑥𝑥
𝑥
Número de Desviación
(X - X X )
clientes absoluta
250 250 – 258.5 = - 8.5 8.5
265 265 – 258.5 = 6.5 6.5
243 243 – 258.5 = -15.5 15.5
225 225 – 258.5 = - 33.5 33.5
274 274 – 258.5 = 15.5 15.5
294 294 – 258.5 = 35.5 35.5
Total 115
𝑥|𝑥 − 𝑥| 𝑥𝑥
𝑥𝑥 = =
𝑥 = 𝑥𝑥, 𝑥 𝑥𝑥𝑥𝑥𝑥𝑥𝑥𝑥
𝑥
𝑥
La interpretación de este resultado, nos indica que en promedio 19.2 clientes por día están alejados o
dispersos los datos obtenidos en este estudio, en relación con la media diaria de visitas que es de 258.5
clientes por día.

Desviación estándar (varianza):


Estas dos medidas de dispersión se basan en los cuadrados de las desviaciones de los
elementos con relación a la media aritmética y podemos indicar que la varianza es la media
aritmética de las desviaciones cuadráticas con relación a la media aritmética general, mientras
que la desviación estándar constituye la raíz cuadrada positiva de la varianza.

Medida Población Muestra


Varianza σ2 S2
Desviación estándar σ S

σ: letra griega sigma minúscula

La interpretación de la desviación estándar es la misma que se le dio a la desviación media, es decir,


proporciona el valor promedio de las desviaciones de los elementos, con relación a la media aritmética;
a pesar de que los valores no son iguales. La interpretación para la varianza es más compleja toda vez
que las unidades están al cuadrado, sin embargo es una mediad
70

muy útil cuando se comparan estudios estadísticos de la misma naturaleza. Las expresiones de cálculo
que nos permitirán determinar sus valores se expresan en la siguiente tabla:

Tabla 22 expresiones de cálculo

MEDIDA POBLACIÓN MUESTRA

𝑥(𝑥 − 𝑥)2 𝑥(𝑥 − 𝑥)2


Varianza 𝑥2 = 𝑥2 =
𝑥 𝑥−1

Desviación estándar 𝑥(𝑥 − 𝑥)2 𝑥(𝑥 − 𝑥)2


𝑥=√ 𝑥 =√
𝑥 𝑥−1
Elaboración: Autores

Como se puede observar en las fórmulas de cálculo de la varianza y desviación estándar de muestra el
denominador es algo diferente a las expresiones de la población, ya que al total de elementos de la
muestra, se descuenta una unidad, esto se realiza con el objeto de que el estadístico sea un mejor
estimador del parámetro.

Las expresiones anotadas anteriormente se basan en el concepto de estas medidas, sin embargo se utilizan
operativamente otras expresiones equivalentes que resultan de un manejo algebraico de las anteriores ya
que facilitan sustantivamente los cálculos.

Las fórmulas alternativas son:

Tabla 23 expresiones de cálculo

Varianza muestral: 𝑥𝑥𝑥2 −


(𝑥𝑥)2
𝑥2 =
𝑥(𝑥 − 1)
Desviación 𝑥𝑥𝑥2 −
estándar muestral: (𝑥𝑥)2
𝑥=√
𝑥(𝑥 − 1)
Elaboración: Autores

Ejemplo 1:

La producción diaria de una fábrica de mesas fue de: lunes 15, martes 18, miércoles 19, jueves 21 y viernes
16, si se considera a estas observaciones como una unidad poblacional, calcular la varianza y la desviación
estándar poblacional

Solución:
71

Calculamos primeramente la media aritmética, para luego proceder a calcular las deviaciones cuadráticas
y aplicar la fórmula de cálculo.

μ = 15 + 18+ 19+21+16 = 17.8 mesas diarias.


5
Producción (
DÍA X–μ (X – μ)2
x)
Lunes 15 - 2.8 7.84
Martes 18 0.2 0.04
Miércoles 19 1.2 1.44
Jueves 21 3.2 10.24
Viernes 16 -1.8 3.24
TOTAL 79 0 22.80

𝑥(𝑥 − 𝑥)2 22.80


𝑥2 = = = 4.56 𝑥𝑥 𝑥𝑥𝑥𝑥𝑥 𝑥𝑥 𝑥𝑥𝑥𝑥𝑥𝑥𝑥𝑥
𝑥 5
𝑥(𝑥 − 𝑥)2 22.8
𝑥=√ =√ = √4.56 = 2.14 𝑥𝑥𝑥𝑥𝑥
𝑥 5

La interpretación de la desviación estándar, nos indica que en promedio la producción diaria de esta unidad
poblacional varía en 2.14 mesas por día. Nótese que la varianza es más difícil de ser interpretada.

4. Medidas de dispersión para datos agrupados

Cuando los datos se encuentran categorizados mediante distribuciones de frecuencia, será necesario que se
trabaje con la marca de clase de cada categoría y la frecuencia de clase respectiva para poder calcular las
medidasdedispersión,en especial, se pondráénfasis enla desviación estándar.

Desviación Estándar
Igual que en el cálculo de la desviación estándar de datos no agrupados, podemos utilizar dos
procedimientos que responden al criterio conceptual el uno y a la forma simplificada el otro. Se debe en
primera instancia determinar la marca de clase de cada categoría con el objeto de calcular las desviaciones de la
marca de clase con relación a la media aritmética, o los cuadrados de la marca
de clase.

Las siguientes expresiones nos permitirán realizar el respectivo cálculo:


72

𝑥(𝑥 − 𝑥)2 ∗ 𝑥 𝑥𝑥(𝑥 − 𝑥)2 ∗ 𝑥 − (𝑥𝑥𝑥)2


𝑥 =√ 𝑥=√
𝑥 −1 𝑥(𝑥 − 1)

En el siguiente Ejemplo calcularemos la desviación estándar, siguiendo los dos procedimientos anotados.

Ejemplo:

1.-El reporte de una muestra de 100 envases de refresco sabor a limón

determinó la siguiente distribución de frecuencias, con esta información calcular la desviación estándar, e
interpretar los resultados:
Tabla 24 reporte de muestra de 100 envases

Nº DE
CONTENIDO (cm3)
ENVASES
497 –498 5
498 –499 23
499 –500 40
500 –501 22
501 –502 10
TOTAL 100
Elaboración: Autores

Primer procedimiento: Calculamos las respectivas marcas de clase, para luego calcular la media
aritmética de la distribución. Posteriormente se determinan las desviaciones cuadráticas de las marcas de
clase, que se las multiplica por la frecuencia de clase.

CONTENID Nº DE MARCA
x*f (x-x)2 (x-x)2f
O (cm^3) ENVASES CLASE
497 – 498 5 497,5 2487,5 4,3681 21,84
498 – 499 23323 498,5 11465,5 1,1881 27,326
499 – 500 40 499,5 19980 0,0081 0,324
500 – 501 22 500,5 11011 0,8281 18,218
501 – 502 10 501,5 5015 3,6481 36,481
TOTAL 1000 49959 104,109
73

497.5 ∗ 498.5 ∗ 23 + 499.5 ∗ 40 + 500.5 ∗ 22 + 501.5 ∗ 10


𝑥= = 𝑥𝑥𝑥. 𝑥𝑥 𝑥𝑥𝑥
𝑥𝑥𝑥

𝑥(𝑥 − 𝑥)2 ∗ 𝑥 104.19 = 1.026 𝑥𝑥3


𝑥=√ =√
𝑥−1 100 − 1

Segundo Procedimiento: Se calculan las marcas de clase, a continuación se determinan los


cuadrados de estas marcas de clase. Luego se establecen los productos entre las marcas de clase y las
frecuencias y los cuadrados de las marcas de clase por las frecuencias.

CONTENIDO Nº DE MARCA
x^2 x*f x^2*f
(cm^3) ENVASES CLASE
497 – 498 5 497,5 247506 2487,5 1237531,3
498 – 499 23 498,5 248502 11465,5 5715551,8
499 – 500 40 499,5 249500 19980 9980010
500 – 501 22 500,5 250500 11011 5511005,5
501 – 502 10 501,5 251502 5015 2515022,5
TOTAL 100 49959 24959121

𝑥𝑥(𝑥 − 𝑥)2 ∗ 𝑥 − 100(24959121) −(49959)2


(𝑥𝑥𝑥)2 =√ = 1.026 𝑥𝑥3
𝑥=√ 100(100 − 1)
𝑥(𝑥 − 1)

Como se puede advertir, los resultados obtenidos en ambos procedimientos son iguales. La
interpretación que se da es que los envases tienen en promedio una desviación de más o menos 1,026 cm3
con relación a la media aritmética.

Si necesita determinar la varianza de este conjunto de datos, simplemente obtenemos el cuadrado de la


desviación estándar. S2 = (1.026)2 = 1.0524 cm6.

La desviación estándar además de permitirnos conocer el grado de dispersión de un conjunto de datos, tiene
otras aplicaciones muy importantes que a continuación se establecen.

Teorema de Chebyshev
Este teorema establece que para cualquier conjunto de datos estadísticos, la proporción
(p) mínima de elementos que se hallan ubicados entre la media aritmética y más o menos “k”
desviaciones estándares (μ + k σ) viene dado por la siguiente expresión:

P≥ 1 -1 donde k >1
K2
74

Específicamente el teorema determina que el al menos el 75% de los datos encuentran en el intervalo [
µ-2σ;µ+2σ ], porque si k = 2, entonces 1 – 1/k² = 1 – ¼ = ¾ = 0.75, que expresado porcentualmente es 75%.
Pero hay que tomar en consideración que este valor es un límite inferior; por lo tanto puede ser que un
mayor porcentaje de elementos se hallen dentro de este intervalo.

Si aplicamos el teorema en mención (cuando k = 2) al Ejemplo anterior, podemos establecer los límites
del intervalo de la siguiente forma:

µ= 499.59 cm3, σ = 1.026 cm3 µ-

2σ =497.54 cm3

µ+2σ = 501.64 cm3

Podemos observar que estos dos valores son aproximadamente igual a las marcas de clase de la primera
categoría (497.5) y la última (501.5), por lo tanto podemos observar que casi el 100% de los envases
se encuentran dentro de estos límites. Esto hace que el teorema sea verdadero.

Cabe resaltar que el teorema es válido si la constante (k) es mayor a uno, caso contrario el teorema no
tiene validez. En la siguiente figura se puede observar el contenido del teorema que fue creado por el
matemático ruso Pafnuty L. Chebyshev (1821 – 1894).

Figura 12 Teorema de Chebyshev

Al menos el 75%

Aplicación del Teorema de Chebyshev para 2σ

Regla empírica
75

Si los datos se encuentran distribuidos normalmente, la regla empírica provee una mejor
aproximación de la concentración de datos entre la media aritmética y un valor de más o menos “k”
desviaciones estándares. Esta regla se aplica cuando k = 1, 2 o 3. En una unidad posterior se estudiará con
más detalle la distribución normal y sus aplicaciones, donde el valor de k puede tomar otros valores y no solo
los enteros 1, 2, y 3.

Tabla 25 Teorema de Chebyshev

REGLA INTERVALO PORCENTAJE DE ELEMENTOS

EMPIRICA µ±1σ 68%

µ±2σ 95%

µ±3σ 99.7%

Elaboración: Autores

Entonces la lectura de estos intervalos es, si los datos se encuentran distribuidos normalmente o se
aproximan a esta distribución, el 68% de los datos se hallan entre la media aritmética y más o menos una
desviación estándar; el 95% de los elementos observados se encuentranentre lamedia ymáso menosdos
desviaciones estándares yel 99.7%de las observaciones entre la media y tres desviaciones estándares.

En la figura que consta a continuación se puede observar con claridad lo mencionadoen el párrafo
anterior. Se determinó que en cinco semanas los precios de una acción A fueron: 55, 70, 63, 69, 72. Los
precios de una acción B en esas mismas cinco semanas fueron: 15, 18, 14,
10, 8.

¿Cómo asesor bursátil cuál acciónrecomendaría comprar? Calculamoslamediaaritmética y la desviación


estándar de cada acción:

ACCIONES
MEDIDAS
A B
Media aritmética $ 65,80 $ 13,00
Desviación estándar $ 6,91 $ 4,00
Coeficiente de variación 10,50% 30,77%

Podemos advertir que si nos centramos en el análisis de la desviación estándar, tomaríamos la decisión
de comprar las acciones B, pero al analizar los coeficientes de variación de estos precios, observamos que
la acción A tiene menor variabilidad, esto significa que los precios de la
76

acción son más estables y existe menos probabilidad de sufrir pérdidas por descensos bruscos en los
precios. Entonces sin lugar a dudas nuestra recomendación será adquirir acciones tipo A.

5. Medidas de forma
Son valores que representan o dan a conocer la manera en que los datos se hallan
distribuidos en relación a la media aritmética y toman como referente de comparación
a la distribución normal o campana de Gauss, en lo que hace relación al sesgo y a
la curtosis. Adicionalmente se toma en consideración al diagrama de caja y bigotes.

Coeficiente de asimetría
Las distribuciones de frecuencia que tienen una representación como la figura de la regla
empírica, son distribuciones consideradas como simétricas, esto significa que la mitad de la
distribución derecha se refleja en la mitad izquierda, tomando como eje de simetría la línea
vertical que pasa por la media aritmética.

La asimetría o sesgo se hace presente cuando la distribución carece de simetría, debido a la presencia
de valores extremos bien bajos o bien altos. La presencia de estos valores influye en la media aritmética y
por lo tanto toma un valor o menor a la mediana o mayor que ella.

La expresión que nos permite calcular el valor del coeficiente de asimetría se lo debe a Karl Pearson, quién
desarrolló dos expresiones, una de las más utilizadas es la siguiente expresión:
𝑥(𝑥 −𝑥𝑥𝑥𝑥𝑥𝑥𝑥)
𝑥𝑥 =
𝑥
Si la distribución es simétrica, su coeficiente de asimetría es cero, en vista de que la media aritmética es
igual que la mediana. Si la media aritmética es mayor que la mediana, entonces la distribución es
asimétrica positiva o tiene sesgo positivo; por el contrario si la media es menor que la mediana, entonces la
distribución tiene sesgo o asimetría negativa.

Generalmente el coeficiente de asimetría se halla ubicado en el intervalo entre- 3 y + 3. Si el valor del


coeficiente se acerca a los límites indica que la distribución es muy asimétrica, en cambio, si está próximo a
cero se trata de una distribución que tiende a ser simétrica

Relación de la media, la mediana y la moda con el sesgo

En la siguiente figura se observa como las medidas de centralización se relacionan entre sí, y con la
asimetría de la distribución. Si las tres medidas son iguales la distribución no tiene sesgo; si: media <
mediana < moda, la distribución es asimétrica negativa y si: media > mediana > moda, la distribución
tiene sesgo positivo
77

Figura 13 Relación de la media, la mediana y la moda con el sesgo

Ejemplo 1:

En una muestra de 10 maletas de equipaje, se determinó los siguientes pesos expresados en kilogramos:
25.2, 18.5, 32.7, 28.4, 32.3, 39.7, 23.8, 42.8, 21.5 y 52.3. Determinar el coeficiente de asimetría de estos
datos.

Calculamos, lamedia aritmética, lamediana y la desviación estándar deestos datos, obteniéndose los
siguientes resultados.

Media aritmética = 31.72 kg mediana = 30.35 kg desviación estándar = 9.57 kg

Entonces el coeficiente de asimetría es:


𝑥(𝑥 − 3(31.72 – 30.35)
𝑥𝑥𝑥𝑥𝑥𝑥𝑥) = = 𝑥. 𝑥𝑥
𝑥𝑥 = 𝑥. 𝑥𝑥
𝑥
Este resultado nos indica que los datos se hallan sesgados ligeramente hacia laderecha,por lo tanto
tienen asimetría positiva.
78

Curtosis:
Se encarga de describir el grado de apuntamiento que tiene una distribución,
considerando a la distribución normal como referente de comparación, las más altas y que no
tienen muchos datos dispersos en las colas, toman el nombre de leptocúrticas, en cambio
aquellas que son más bien aplanadas por disponer de datos más dispersos hacia las colas toman
el nombre de platicúrticas y aquellas que tienen un apuntamiento como la distribución normal,
se denominan mesocúrticas.

La medida que determina este apuntamiento se denomina curtosis, la expresión de cálculo que determina
el valor de la misma está dado por una expresión que relaciona las desviaciones de cuarto grado de los
elementos con la cuarta potencia de ladesviación estándar. Nosotros no veremos el cálculo de esta
medida por no ser muy utilizada en la cotidianidad. Si el lector está interesado en investigar la forma de
cálculo, puede remitirse a cualquier página web relacionada.

En la figura3 adjunta se observa el grado de apuntamiento de las distribuciones

Figura 14 apuntamiento de las distribuciones

Diagrama de caja y bigotes:


Es un gráfico que también permite observar o describir la forma de un conjunto de datos
estadístico. Para su determinación toma en consideración cinco datos:

1. La mediana o cuartil 2

2. El cuartil 1

3. El cuartil 3

4. El máximo (mayor valor observado)

5. El mínimo (menor valor observado)

También podría gustarte