Medidas de Dispersión DA
Medidas de Dispersión DA
Medidas de Dispersión DA
SEMESTRE
Estadística y
Probabilidades
Tecnologías de la Información
La Estadística, como todas las ciencias, no surgió de improviso, sino mediante un proceso largo
de desarrollo y evolución, desde hechos de simple recolección de datos hasta la diversidad y
rigurosa interpretación de los datos que se dan hoy en día.
La palabra estadística proviene del latín “statisticus” que significa “del Estado”; es decir,
correspondiente al gobierno. Por mucho tiempo, la estadística se refería a información numérica
sobre los estados o territorios políticos. Como se conoce hoy en día, requirió de varios siglos para
desarrollarse y de la intervención de muchas personas, teniendo como impulso la resolución de
problemas prácticos planteados por la dinámica social de la época y teniendo siempre como objeto
de estudio a la variación, es decir, la motivación la ha constituido el análisis de los valores que
toman las diferentes variables de estudio a través de las cuales se analiza una población.
Desde que los pueblos se organizaron como Estados, sus gobernantes necesitaron estar
informados sobre aspectos relativos a la cantidad o distribución de la información, nacimientos o
defunciones, producción agrícola o ganadera, bienes muebles, bienes inmuebles, efectivos
militares, etc., con el objeto de recaudar impuestos o de analizar las condiciones de vida de la
población, la estadística se convierte entonces en un importante instrumento del Estado.
Desde el momento en que se constituye una autoridad política, la necesidad de realizar inventarios
de una forma regular a la población y las riquezas existentes en el territorio está ligada a la
conciencia de soberanía y a los primeros esfuerzos administrativos.
Génesis de la Estadística: Con base en los descubrimientos y sus evidencias sobre la recolección
de datos referentes a población, bienes y producción, los orígenes de la estadística se remontan a
civilizaciones muy antiguas tales como la Babilónica (5,000 años a.C.), Egipcia (3,000 años a.
C.), China (2,200 años a.C.), Hindú (400 años a.C.), Romana (400 años a.C.), Griega (300 años
a.C.). No hay que olvidar que fue un censo lo que motivó el viaje de José y María a Belén, trayecto
en el cual nace Jesús.
Por más de mil años, posteriores a la caída del imperio romano de occidente, se puede decir que,
El primer censo del que se tiene noticia en México, data del año 1,116, cuando el rey Chichimeca
Xólotl ordenó que fueran contados todos sus súbditos, totalizando 3,200,000 personas. En 1794,
según noticias enviadas al Virreinato, la Intendencia de Sonora, contaba con 20,473 varones y
17,832 mujeres, o sea un total de 38,305 individuos.
John Graunt encabeza una tendencia conocida como Estadística Investigadora. Buscaban fijar en
números los fenómenos sociales y políticos cuyas leyes empíricas procuraban. Para su tiempo esto
fue atrevido, casi imposible; pero el mérito de ellos es de ser los primeros en buscar las leyes
cuantitativas que rigen la sociedad.
Gracias a Vito Seckendorff, y sobre todo de German Conring al que se le considera como fundador
de la Estadística: la descripción de los hechos notables de un Estado. Conring perfeccionó y
mejoró notablemente la tendencia nueva, sistematizando los conocimientos y los datos. El mejor
de sus seguidores fue Godofredo Achenwall, quien consolidó definitivamente los postulados de
esta nueva ciencia y también de haberle dado el nombre de Estadística.
Poco a poco se han creado sociedades e institutos estadísticos para organizar los datos
seleccionados; la primera de ellas surge en Francia en 1800. Esto ha permitido comparar las
estadísticas de cada país con relación a los demás, con el propósito de saber qué factores influyen
en el crecimiento económico. Esto promovió el surgimiento del primer congreso internacional de
estadística, efectuado en Bruselas en 1853 y organizado por Lambert Adolphe Jaques Quetelet,
quien aplica la estadística a las ciencias sociales e implementa el método estadístico de su época
a las diversas ramas de la ciencia.
Un ejemplo evidente que muestra que los desarrollos de la estadística han surgido como respuesta
a necesidades prácticas, son los trabajos desarrollados por William Sealy Gosset abordando
problemas sobre variedades de cebada y concibiendo su famosa distribución “t de Student”, sus
trabajos fueron completados y formalizados por Fisher. El hijo de Karl Pearson, Egon Pearson y
el matemático Jerzy Neyman pueden considerarse los fundadores de las pruebas modernas de
contraste de hipótesis.
Hoy, la Estadística, junto con el cálculo de probabilidades, constituyen una rama fundamental de
las matemáticas, con aplicaciones en casi todas las actividades humanas: física, astronomía,
biología, genética, medicina, agricultura, química, y muchas más; en todas estas ciencias se hacen
predicciones, encuestas, controles de calidad, estimaciones o verificaciones de hipótesis con
respecto a parámetros poblacionales, todo ello ha permitido lograr avances científicos y
tecnológicos; que a través de los años, han coadyuvado al desarrollo y bienestar social.
La estadística día con a día gana terreno en su aplicación en toda actividad humana por simple
que ésta sea.
• La planeación de la producción.
• El control de calidad.
• Las ventas.
• El almacén.
6. En materia de población los datos aportan una buena ayuda para fijar la política de
estímulos al control de la natalidad, dirigir la inmigración o emigración, establecer los
planes de lucha contra las enfermedades epidémicas o plagas que azotan los campos,
etcétera.
10. En la Biología se emplean métodos estadísticos para estudiar las reacciones de las plantas
y los animales ante diferentes períodos ambientales y para investigar la herencia. Las leyes
de Mendel sobre la herencia en donde los factores hereditarios se atribuyen a unidades
llamadas genes y al estudio sistemático de los cruzamientos entre individuos portadores
de genes diferentes, lo que ha permitido precisar de qué manera los genes se separan o se
reúnen en las generaciones sucesivas. La verificación de las hipótesis formuladas por
Mendel y sus continuadores necesitó el empleo de la Estadística.
13. En los negocios se pueden predecir los volúmenes de venta, medir las reacciones de los
consumidores ante los nuevos productos, probar la efectividad de una campaña
publicitaria.
15. En el Deporte se ocupa para determinar el impacto de una nueva dieta alimenticia en el
rendimiento de atletas o someter a prueba la efectividad de dos o más técnicas de
ejercitación y práctica de un deporte.
16. El Mundo Político, todo intento de buen gobierno exige, dejando a un lado los
presupuestos ideológicos, algo tan simple y complejo a la vez como es el conocer sobre
qué realidad se gobierna; exige el estar perfectamente informado de las posiciones
objetivas de partida para desde ellas, tomar las medidas adecuadas a fin de dirigir la
sociedad a esa meta Es claro que cuanto más, correcto y veraz sea este conocimiento de
la realidad, las medidas de gobierno serán también más correctas., el conocimiento de la
realidad para los fines del buen gobierno pasa por su cuantificación, o que es equivalente,
por la obtención de estadísticas.
Unidad Estadística:
Elemento indivisible del cual se obtiene el carácter cuantitativo o cualitativo, se refiere al objeto
principal de la investigación que pueden ser los seres vivos, objetos o situaciones experimentales.
Ejemplo:
Colectivo o Población:
Colectivo estadístico:
Parámetro:
Estadístico:
Carácter o Dato: Es una característica observada o medida en una unidad estadística, los
caracteres pueden ser: cualitativos (categóricos), o cuantitativos (numéricos).
Ejemplo
El conjunto de caracteres induce una Variable, por tanto, al presentar dos tipos de caracteres se
generan a la par dos tipos de variables cualitativas (conjunto de caracteres categóricos o cadenas
de texto) y cuantitativas (conjunto de caracteres numéricos). El conjunto de caracteres se conoce
como dominio de la variable.
Variables Cualitativas
Conocidas como mudables estadísticas, son aquellas cuyos caracteres son del tipo categórico, es
decir, indican categorías, etiquetas alfanuméricas o "nombres".
Ejemplo
Variables Cuantitativas
Conocidas como variables estrictamente estadísticas son aquellas cuyos caracteres son del tipo
numérico.
Ejemplo
Número de hermanos: 1, 3, 4, 8, 0
Cantidad de alumnos por semestre: 34, 45, 28, 23
Continuas: son aquellas que toman cualquier valor numérico entero, fraccionario o,
incluso, irracional. Teóricamente, se cubren todos los posibles valores en un intervalo. Este
tipo de variable se obtiene principalmente a través de mediciones y está sujeta a la precisión
de los instrumentos de medición. Ejemplo
Se dice que una variable cualitativa se mide mediante una escala nominal, o es de tipo nominal,
si sus valores son etiquetas o atributos y no existe un orden entre ellos. Cada uno de los caracteres
agrupa a un grupo mutuamente excluyente y la única relación implicada es la de equivalencia (=).
Ejemplos
Se dice que una variable cualitativa se mide mediante una escala ordinal, o es de tipo ordinal, si
sus valores son etiquetas o atributos, pero existe un cierto orden entre ellos. Cada uno de los
caracteres agrupa a un grupo mutuamente excluyente y la relación implicada es la de equivalencia
(=) dentro de cada grupo y la de mayor que (>) entre grupos.
Ejemplos
Se dice que una variable cuantitativa se mide mediante una escala de intervalo si existe una noción
de distancia entre los valores de la variable, aunque no se pueden realizar operaciones numéricas
y el cero en el dominio de la variable es relativo.
Ejemplos
Escala de razón
Se dice que una variable cuantitativa se mide mediante una escala de razón si los valores de la
variable tienen un sentido físico y existe el cero absoluto.
Ejemplos
Distribuciones de Frecuencias
𝐗𝒊
𝐱𝟏
𝐱𝟐
⋮
𝐱𝐤
Memoria RAM
Computador Computador Sistema Operativo
(GB)
1 8 1 Windows
2 4 2 Linux
3 6 3 Windows
4 4 4 Windows
El conjunto de distribuciones estadísticas unitarias forma una matriz de datos de dimensión k*p,
donde k son las unidades estadísticas y p son las variables.
i 𝐗𝟏 𝐗𝟐 𝐗𝟑 ⋯ 𝐗𝐩
1 x11 x12 x13 ⋯ x1p
2 x21 x22 x23 ⋯ x2p
⋮ ⋮ ⋮ ⋮ ⋱ ⋮
k xk1 xk2 xk3 ⋯ xkp
Ejemplo
Una de las pruebas a ejecutar sobre las matrices de datos es el análisis de confiabilidad ya que la
mayoría de estas se forman luego de la aplicación y tabulación de encuestas o entrevistas, las
técnicas de confiabilidad evalúan la confiabilidad de las preguntas descritas en los cuestionarios
y una de las más conocidas es el Alpha de Cronbach.
Alpha de Cronbach
Luego de evaluar la fiabilidad en una encuesta de 5 preguntas con el uso de SPSS, se muestra la
siguiente tabla.
Se observa que el valor de alfa es de 0.597, se encuentra por debajo, pero ya veremos que existen
posibilidades de elevar la fiabilidad del índice.
“Alfa de Cronbach si se elimina el elemento”, equivale al valor de Alfa si eliminamos cada uno
de los ítems. Así, por ejemplo, si eliminamos el ítem 3, el Alfa mejoraría a 0.762.
Esta distribución es muy usada cuando el tamaño de la muestra (n) es muy grande y se requiere
resumir la información de una variable cualitativa o cuantitativa. Para la construcción de la tabla
resumen asociada a una variable cuantitativa, es necesario que los caracteres se encuentren
ordenados de forma ascendente, en el caso de tratarse de una variable cualitativa se mantendrá el
orden jerárquico apropiado si la escala de medida de la variable es ordinal.
La frecuencia absoluta del caracter 𝐱 𝐢 es el número de veces que aparece repetido el caracter en
la recopilación de datos y se lo representa por 𝐧𝐢 ; además de la suma de la columna se obtiene el
tamaño de la muestra
𝐧 = ∑ 𝐧𝐢
𝐢=𝟏
La frecuencia relativa del caracter 𝐱 𝐢 es el cociente entre la frecuencia absoluta del caracter 𝐱 𝐢 y
el número total de datos n. Se representa por 𝐟𝐢 y, evidentemente, es la proporción de aparición
de cada caracter con respecto al total.
𝐧𝐢
𝐟𝐢 =
𝐧
Además,
∑ 𝐟𝐢 = 𝟏
𝐢=𝟏
En relación a las frecuencias acumuladas, cumplen dos propiedades triviales como consecuencia
de las sumas acumulativas de las frecuencias absolutas 𝐧𝐢 y frecuencias relativas 𝐟𝐢 donde se
produce que:
𝐍𝐤 = 𝐧 𝐲 𝐅𝐤 = 𝟏
Ejemplos
Número de Usuarios en
𝐧𝐢 𝐟𝐢 𝐍𝐢 𝐅𝐢
Barrio Facebook
1 148 12 0,286 12 0,286
2 155 15 0,357 27 0,643
3 160 10 0,238 37 0,881
4 167 5 0,119 42 1,000
Total 42 1,000
Variable Cualitativa
Marcas de
𝐧𝐢 𝐟𝐢 𝐍𝐢 𝐅𝐢
Computadores
Hp 11 0,733 11 0,733
Dell 2 0,133 13 0,867
Asus 1 0,067 14 0,933
Samsung 1 0,067 15 1,000
Total 15 1.000
De las tablas presentes se puede analizar varios puntos de información por ejemplo conocer el
porcentaje de caracteres específicos:
Esta distribución es usada para resumir la información de una variable cuantitativa continua, a
través de clases o intervalos. La construcción de la tabla cuenta con el siguiente procedimiento.
R = X máx − Xmín
k = √n
R
A =
k
El límite inferior de la primera clase es igual al carácter mínimo de la variable y el límite superior
de la última clase debe ser igual al carácter máximo de la variable. Esta observación garantiza que
todos los caracteres de la variable se encuentren formando parte de las tabulaciones.
Ejemplo
Tiempos de Simulación
𝐧𝐢 𝐟𝐢 𝐍𝐢 𝐅𝐢
(minutos)
140 143 8 0,160 8 0,160
143 146 5 0,100 13 0,260
146 149 13 0,260 26 0,520
149 152 3 0,060 29 0,580
152 155 10 0,200 39 0,780
155 158 8 0,160 47 0,940
158 161 3 0,060 50 1
Total 50 1
Representaciones Gráficas
1. Diagramas de caja
El diagrama de caja es una presentación visual que describe al mismo tiempo varias características
importantes de un conjunto de datos, tales como el centro, la dispersión, la simetría o asimetría y
la identificación de observaciones atípicas. Este gráfico es el más adecuado para analizar la
información de una variable cuantitativa.
Este gráfico se puede construir de forma manual a partir del uso de las medidas de posición no
central y a través de software estadístico.
Un diagrama de puntos es una forma de resumir la información de una variable cuantitativa cuyo
dominio almacene hasta un máximo de 30 caracteres dispuestos en una recta numérica.
Este gráfico permite analizar:
Según el agrupamiento de los caracteres en la recta numérica los puntos pueden ajustarse a
distribuciones Platicúrtica, Mesocúrtica y Leptocúrtica
Se aconseja utilizar el gráfico para representar hasta un máximo de 30 caracteres ya que con una
mayor cantidad de información se tiende a confundir el tipo de distribución a la que se ajusta una
variable.
Ejemplo
Graficar un diagrama de puntos para la variable Tiempo de duración de las baterías (horas)
La gráfica indica que los datos están agrupados cerca de las 18 horas y su recorrido va desde el
17 hasta 35 horas, el carácter 35 horas puede ser considerado como atípico por encontrase alejado
de los demás tiempos de duración.
Pruebas de Normalidad
Para la comprobación del ajuste de una variable cuantitativa a una ley de probabilidad normal
existen varias maneras de inspeccionar la normalidad univariante y para ello seguido se muestran
las siguientes técnicas:
1. Pruebas Gráficas
Un gráfico cuantil cuantil permite observar cuan cerca está la distribución de un conjunto
de datos a alguna distribución ideal o comparar la distribución de dos conjuntos de datos.
La forma del gráfico debería ser idealmente una línea recta específica; sin embargo si los
puntos se disponen en forma de "U" o con alguna curvatura, ello se debe a que la
distribución es asimétrica, mientras que si se presentan en forma de "S" significará que los
datos son heterogéneos
El diagrama de caja permite inspeccionar de forma robusta el ajuste de una variable a una
ley de probabilidad normal, tras el análisis de la presencia de asimetría. Existirá asimetría
positiva si la mediana está más cerca de la parte inferior de la caja y asimetría negativa si
la mediana está más cerca de la parte superior de la caja, tomando en cuenta que cuanto
más larga sea la caja y los bigotes, el conjunto de datos contará con mayor variabilidad,
contrario a los detalles anteriores si la mediana fracciona la caja en partes iguales y los
bigotes muestran la misma longitud entonces la variable es simétrica lo que es sinónimo de
presencia de normalidad
Este contraste compara la función de distribución empírica muestral con la teórica de una
población normal, de manera que se rechazaría la hipótesis nula de normalidad cuando el valor
experimental del estadístico (que sería la mayor diferencia registrada entre ambas funciones) es
significativamente grande. Este contraste no resulta muy apropiado para estudios de medicina y
economía ya que sin importar el tamaño de muestra casi la totalidad de variables analizadas siguen
una ley normal a pesar que los contrastes gráficos muestren lo contrario. No se muestra el
procedimiento de esta prueba ya que sigue el mismo modelo de la siguiente técnica.
Con efectos de corregir el problema anterior, Lilliefors propuso una nueva tabla de valores críticos
en donde los intervalos de aceptación se redujeron con el fin de ajustar de mejor manera a las
variables, la potencia de esta prueba radica en el análisis de variables con tamaño de muestra
superior a 50 datos. Su contraste se detalla a continuación:
a. Planteamiento de Hipótesis
H0: La variable X se ajusta a una distribución normal
H1: La variable X no se ajusta a una distribución normal
b. Nivel de Significancia
α = 0.05
c. Estadístico de Prueba
D = máx (|Fi − ∅(Zi )| o |Fi − 1 − ∅(Zi )|)
d. Región de Rechazo
D ≥ Dn,∝ Rechazar H0
valor p ≤ α Rechazar H0
e. Decisión
Esta prueba mide el grado de ajuste a una recta de las observaciones de la muestra (x1, x2,
x3, … , xn) representadas en un gráfico de probabilidad normal. Es el más adecuado cuando el
tamaño de muestra es pequeño (inferior o igual a 50) y no requiere que los parámetros de la
distribución estén especificados. Su contraste se detalla a continuación:
a. Planteamiento de Hipótesis
H0: La variable X se ajusta a una distribución normal
H1: La variable X no se ajusta a una distribución normal
b. Nivel de Significancia
α = 0.05
c. Estadístico de Prueba
b2
W= ̅)2
∑ni=1(xi − X
d. Región de Rechazo
W ≤ W∝,n Rechazar H0
valor p ≤ α Rechazar H0
e. Decisión
a. Planteamiento de Hipótesis
H0: La variable X se ajusta a una distribución normal
H1: La variable X no se ajusta a una distribución normal
b. Nivel de Significancia
α = 0.05
c. Estadístico de Prueba
n
1
A2 = −n − S donde S = ∑(2i − 1)[ln F(Yi ) + ln (1 − F(Yn+1−i) ))]
n
i=1
d. Región de Rechazo
A2 ≥ A2T Rechazar H0
valor p ≤ α Rechazar H0
e. Decisión
Representaciones Gráficas
1. Diagramas de barras
El diagrama de barras es un gráfico de uso estricto para variables cualitativas, los caracteres se
exhiben mediante rectángulos, del mismo ancho, cada uno de los cuales representa una categoría
particular. La longitud (y por lo tanto el área) de cada rectángulo es proporcional al número de
casos en la categoría que representa. Si los caracteres son nominales, las categorías se pueden
colocar en cualquier orden; pero si los caracteres son ordinales, las categorías deben estar
ordenadas. Para la construcción del gráfico se requiere de la siguiente información
Con el gráfico de barras se distinguen las características más frecuentes de un proceso; mente se
Ejemplo
En un estudio de investigación de mercados se requiere conocer cuál es la marca de computador
que mayor demanda presenta en el mercado de consumidores, para ello se solicitó el análisis de
las marcas Mac, Hp, Asus, Toshiba y Samsung. Construir un diagrama de barras para identificar
la mayor marca de demanda.
La marca de computador más usado es Hp, sin embargo, entre la marcas Asus y Samsung
mantienen una demanda semejante.
2. Diagramas de sectores
Al igual que el diagrama de barras el gráfico de sectores solo se usa para resumir variables
cualitativas que no almacenen una cantidad superior a 6 categorías, para su construcción se
necesita de la siguiente información:
Un gráfico de sectores es un círculo dividido en segmentos, donde el área de cada uno de los
sectores es proporcional a la frecuencia relativa de esa categoría. El ángulo central de la categoría
es igual a ∡i = fi ∗ 360
Ejemplo
En un estudio de control de calidad se requiere conocer cuál es la marca de computador más usado
en el mercado de consumo. Construir un diagrama de sectores para identificar la marca de mayor
demanda
3. Histogramas
Ejemplo
En la última etapa del proceso de producción de quesos se pesaron las unidades que están listas
para la distribución al público. Resuma la información recolectada a través de un histograma.
Pesos 𝐜𝐢
𝐧𝐢
(gr)
1200 1400 100 1300
1400 1600 85 1500
1600 1800 55 1700
1800 2000 35 1900
Total 275
Histograma
300,0000
Frecuencia Relativa
250,0000
200,0000
150,0000
100,0000
50,0000
0,0000
1300,0 1500,0 1700,0 1900,0
Marca de clase
El histograma de los pesos de queso indica que no es una variable simétrica, y cuenta con tan solo
una moda, la longitud de las barras anticipa la presencia de grande variación entre los pesos.
4. Gráfico de Dispersión
El diagrama de dispersión es un gráfico bivariado que permite estudiar las relaciones entre dos
variables cuantitativas X e Y. El diagrama muestra estos pares como una nube de puntos para
análisis de las relaciones entre:
Las relaciones entre los conjuntos asociados de datos se infieren a partir de la forma de las nubes.
• Una relación positiva entre X e Y significa que los valores crecientes de X están asociados
con los valores crecientes de Y.
• Una relación negativa entre X e Y significa que los valores crecientes de X están asociados
con los valores decrecientes de Y.
Entre las medidas características de una distribución destacan las llamadas medidas de
centralización, que nos indicarán el valor promedio de los datos, o en torno a qué valor se
distribuyen estos. Si la variable se muestra a través de una distribución estadística de frecuencias
unitarias (datos sin agrupar) las medidas de tendencia se calculan según las fórmulas siguientes:
Media Aritmética
Cuando se cuenta con una muestra de tamaño n, donde la variable cuantitativa X toma los valores
x1 , x2 , x3 , … , x𝑘 . La media aritmética x̅, es la suma de los caracteres de la variable dividida para
su el tamaño de muestra. Su función es:
x1 + x 2 + x 3 + ⋯ + x 𝑘
x̅ =
n
equivalente a
∑ki=1 xi
x̅ =
n
La media aritmética es una medida dimensional y representa el punto central del dominio de la
variable cuantitativa. No es una medida significativa ante la presencia de valores atípicos.
Ejercicio
Calcular el promedio del número de usuarios en Twiter por manzana tomados de un estudio del
uso de redes sociales.
19 + 22 + 35 + 18 + 17
x̅ = = 22 personas
5
(x(n) + x (n)+1)
2 2
x̃ =
2
n n
Donde x es el carácter ordenado que se ubica en la posición y ( ) + 1 (n es el tamaño
2 2
de la muestra)
Ejercicio
Calcular el promedio del número de usuarios en Twiter por manzana tomados de un
estudio del uso de redes sociales.
Variable ordenada
(x 4 +x 4 )
(2) (2)+1 (x2 + x3 ) (19 + 22)
x̃ = = = = 20.5 ~ 21 personas
2 2 2
x̃ = x(n−1)+1
2
n−1
Donde x es el carácter ordenado que se ubica en la posición (n es el tamaño de
2
muestra)
Ejercicio
Calcular la mediana del número de usuarios en Twiter por manzana tomados de un estudio
del uso de redes sociales.
Variable ordenada
x̃ = x(5−1)+1 = x3 = 19 personas
2
Moda
La moda es el valor que aparece con mayor frecuencia en el conjunto de datos. A diferencia de la
media y mediana, la moda se puede calcular tanto para variables cuantitativas como cualitativas.
Ejemplos
Memoria RAM
Computador Computador Sistema Operativo
(GB)
1 8 1 Windows
2 4 2 Linux
3 6 3 Windows
4 4 4 Windows
Consideraciones:
Si la Media > Mediana > Moda la variable tiene problemas de asimetría positiva.
Si la Media < Mediana < Moda la variable tiene problemas de asimetría negativa.
Cuando los variables se muestran a través de distribuciones de frecuencias con y sin intervalos,
el cálculo de las medidas de tendencia central sigue el siguiente proceso
1. Media Aritmética
∑𝑘𝑖=1 xi ∗ ni
x̅ =
n
Donde xi son los caracteres de la variable, ni son las frecuencias absolutas y n es el tamaño
de muestra.
Número de
𝐧𝐢
Defectos
0 25
1 43
2 27
3 12
Total 107
∑𝑘𝑖=1 ci ∗ ni
x̅ =
n
Ejemplo
En la última etapa del proceso de producción de chips se mide la longitud de los chips
Longitud 𝐜𝐢
𝐧𝐢
(mm)
1200 1400 100 1300
1400 1600 85 1500
1600 1800 55 1700
1800 2000 35 1900
Total 275
2. Mediana
n
Clase mediana =
2
Frecuencia Absoluta
Variable Frecuencia Absoluta
Acumulada
X 𝐧𝐢
𝐍𝐢
𝐱𝟏 n1 N1
𝐱𝟐 n2 N2
⋮ ⋮ ⋮
𝐱𝐤 nk Nk
Total n
Número de
𝐧𝐢 𝐍𝐢
Defectos
0 25 25
1 43 68
2 27 95
3 12 107
Total 107
107
Clase mediana = = 53.5
2
x̃ = 1 defecto
La planta de producción encontró como mediana, un defecto por chip.
n
Clase mediana =
2
Frecuencia Absoluta
Clases Frecuencia Absoluta
Acumulada
𝐧𝐢
𝐍𝐢
𝑳𝐢𝟏 𝐿s1 n1 N1
𝑳𝒔𝟏 𝐿𝑠2 n2 N2
⋮ ⋮ ⋮ ⋮
𝑳𝐬𝐤−𝟏 𝐿sk nk Nk
Total n
n
− Ni−1
2
x̃ = Li + A
ni
Longitud
𝐧𝐢 𝐍𝐢
(mm)
1200 1400 100 100
1400 1600 85 185
1600 1800 55 240
1800 2000 35 275
Total 275
275
Clase mediana = = 137.5
2
275
− 100
2
x̃ = 1400 + ∗ 200
85
3. Moda
Ejemplo
En una planta de producción de chips se contabilizaron el número de defectos en cada
chip, con la información recolectada se solicita hallar la moda de los defectos hallados en
los productos.
Número de
𝐧𝐢
Defectos
0 25
1 43
2 27
3 12
Total 107
La planta de producción encontró que la cantidad de defectos más frecuentes en los chips
fue 1.
Frecuencia Absoluta
Clases Frecuencia Absoluta
Acumulada
𝐧𝐢
𝐍𝐢
𝑳𝐢𝟏 𝐿s1 n1 N1
𝑳𝒔𝟏 𝐿𝑠2 n2 N2
𝑳𝒔𝟐 𝐿𝑠3 n3 N3
⋮ ⋮ ⋮ ⋮
𝑳𝐬𝐤−𝟏 𝐿sk nk Nk
Total n
d1
Mo = Li + A
d1 + d2
Ejemplo
En la última etapa del proceso de producción de chips se mide la longitud de los chips
que están listos para la distribución al público. Calcular la moda de la longitud de los
chips
Longitud
𝐧𝐢 𝐍𝐢
(mm)
1200 1400 100 100
1400 1600 85 185
1600 1800 55 240
1800 2000 35 275
Total 275
100
Mo = 1200 + ∗ 200 = 1270.17mm
100 + 85
Las medidas de dispersión indican la variabilidad de los caracteres en torno a su valor promedio
(generalmente la media aritmética), de tal forma que se puede detectar si los caracteres se
encuentran muy o poco esparcidos en torno al valor central.
Varianza
∑ki=1(xi − x̅)2
s2 =
n−1
Es importante considerar que cuando la función se divide para n -1 se están analizando muestras,
y si se divide para n el análisis es para la población.
Ejercicio
Calcular la varianza del número de usuarios en Twiter por manzana tomados de un estudio del
uso de redes sociales.
Número de usuarios
en Twiter
(personas)
19
22
35
18
17
(19 − 22)2 + (22 − 22)2 + (35 − 22)2 + (18 − 22)2 + (17 − 22)2
s2 = = 54.7
5−1
Observación: la media para el desarrollo del ejercicio fue calculado en el apartado de medidas de tendencia central
∑ki=1(xi − x̅)2
𝑠=√
n−1
Esta medida dimensional permite analizar el grado de alejamiento entre cada uno de los
caracteres de la variable con respecto a la media aritmética.
Ejercicio
Calcular la desviación estándar del número de usuarios en Twiter por manzana tomados de un
estudio del uso de redes sociales.
Número de usuarios
en Twiter
(personas)
19
22
35
18
17
(19 − 22)2 + (22 − 22)2 + (35 − 22)2 + (18 − 22)2 + (17 − 22)2
𝑠=√ = 7.39 𝑝𝑒𝑟𝑠𝑜𝑛𝑎𝑠
5−1
Observación: la media para el desarrollo del ejercicio fue calculado en el apartado de medidas de tendencia central
La desviación estándar del número de usuarios en Twiter por manzana fue de 7 personas lo que
indica que la media del número de usuarios en Twiter puede variar entre 22 ± 7 personas
Rango
Esta medida se utiliza para el cálculo aproximado de la desviación estándar bajo los siguientes
criterios
R R
s≈ si n ≤ 16 s≈ si 16 < n ≤ 100
√n 4
R R
s≈ si 100 < n ≤ 400 s≈ si n > 400
5 6
Ejercicio
Calcular el rango del número de usuarios en Twiter por manzana tomados de un estudio del uso
de redes sociales.
Número de usuarios
en Twiter
(personas)
19
22
35
18
17
R = 35 − 17 = 18 personas
Coeficiente de Variación
s
CV = ∗ 100
x̅
El coeficiente de variación calculado para una única variable permite identificar si los caracteres
son homogéneos o heterogéneos. Si el CV es mayor al 20% los caracteres serán heterogéneos.
Ejercicio
Calcular el coeficiente de variación del número de usuarios en Twiter por manzana tomados de
un estudio del uso de redes sociales.
Número de usuarios
en Twiter
(personas)
19
22
35
18
17
7 personas
CV = ∗ 100 = 31.8%
22 personas
Cuando los variables se muestran a través de distribuciones de frecuencias con y sin intervalos,
el cálculo de las medidas de dispersión sigue el siguiente proceso
1. Desviación estándar
Ejemplo
En una planta de producción de chips se contabilizaron el número de defectos, con la
información recolectada se solicita calcular la desviación estándar de defectos hallados
en los productos.
Número de
𝐧𝐢
Defectos
0 25
1 43
2 27
3 12
Total 107
x̅ = 1 defecto
Ejemplo
En la última etapa del proceso de producción de quesos se pesaron las unidades que están
listas para la distribución al público. Calcular la desviación estándar del peso de los
quesos.
Pesos
𝐧𝐢 𝐜𝐢
(gr)
1200 1400 100 1300
1400 1600 85 1500
1600 1800 55 1700
1800 2000 35 1900
Total 275
x̅ = 1518.1 gr
s = 206.72 gr
La planta de producción encontró una desviación de 206.72 gr con respecto a la media por
lo que el promedio del peso transportado puede variar entre 1518.1 ± 206.72 gr.
Observación:
Las fórmulas del rango y coeficiente de variación no sufren cambios por lo no existe necesidad
de proponer nuevas fórmulas para sus cálculos, en cuanto a la varianza no se la estudia en este
apartado considerando que es una medida adimensional.