Teoria 2024
Teoria 2024
Teoria 2024
VARIABLE. La población que estudiamos tiene características que la diferencian o asemejan a otras
poblaciones. Esos rasgos son las variables.
Hablamos de variable cualitativa si describe un atributo no numérico, como el tipo de envase de un
producto, el motor elegido para un vehículo, el programa de radio más escuchado…
Será variable cuantitativa si describe un atributo numérico, por ejemplo la cantidad consumida de un
producto en una semana, el gasto en restaurantes realizado en un mes, el número de horas que vemos
la tele…. Se conoce como X.
ni = frecuencia absoluta (número de veces que aparece cada uno de los valores)
n
fi = frecuencia relativa (proporción de observaciones que presentan el valor de ni ) = Ni
Ni = frecuencia absoluta acumulada. Es la suma de todas las frecuencias hasta esa variable
Ni = Ni-1 + ni
Fi = frecuencia relativa acumulada. Es la suma de todas las frecuencias relativas hasta esa variable.
Fi= Ni / N
Fi = Fi-1 + fi
NOTA: Para hallar las frecuencias relativas y frecuencias relativas acumuladas. Si utilizamos toda la
población o universo usamos N. Si usamos un número de muestras usamos n.
MEDIDAS DE POSICIÓN CENTRAL.- MEDIA, MEDIANA Y MODA
LA MEDIA. Es una medida de posición central que nos proporciona el centro de una distribución, el
punto alrededor dl cual la distribución gira. Se representa mediante y se define como el sumatorio de
los datos de la distribución entre el número total de ellos.
∑ xi
x=
n
También podemos calcular la media desde la distribución de frecuencias absolutas. Cuando recogemos
muchas observaciones es más cómodo utilizar la siguiente fórmula:
∑ x i ∙ ni
x=
n
Para operar con intervalos calculamos las marcas de clase, es decir la media de cada intervalo. Para
obtener la media de la distribución multiplicamos cada marca de clase por el número de veces que
aparece y esto lo dividimos entre el número de observaciones.
LA MEDIANA. Valor que ocupa la posición central. Si nos encontramos con una muestra de valores n
para calcular la mediana utilizaremos una u otra fórmula en función de si n es par o impar y buscaremos
cuales son los valores que se encuentran en esa posición.
xn+1
n = Impares → Me = 2
xn + xn
+1
2 2
n = Pares → Me = 2
Para calcular la mediana en una serie de datos agrupados en intervalos utilizamos la siguiente fórmula.
Primero debemos identificar en que intervalo se encuentra la mediana, y será aquel donde se acumulen
como mínimo el 50% de observaciones (podemos observar la columna de frecuencias absolutas
acumuladas).
n
− Ni−1
2
Me = Li−1 + · ai
ni
LA MODA. En las variables cualitativas no podemos calcular la media, al no ser datos numéricos. Pero la
moda nos puede dar una idea de la distribución.
La moda es el valor que más se repita en una distribución y no tiene por qué ser única. Si hay algún valor
cuya frecuencia se repita en el mismo número y más que para otros valores habrá más de una moda.
En el caso de que nos encontremos con datos agrupados en intervalos para hallar la moda deberemos
identificar en primer lugar cual es el intervalo modal, es decir, en que intervalo se encuentra la moda.
Si todos los intervalos tienen la misma amplitud el intervalo modal será el que tenga mayor frecuencia y
aplicaremos la siguiente fórmula.
ni+1
Mo = Li−1 + ·a
ni−1 + ni+1 i
Si existe un único intervalo con una amplitud diferente deberemos calcular las alturas de cada intervalo,
y aquel con mayor altura (mayor densidad) será el intervalo modal y deberemos aplicar la siguiente
fórmula.
hi+1
Mo = Li−1 + ·a
hi−1 + hi+1 i
Recordar que:
ai = amplitud de un intervalo. Diferencia entre el valor máximo y mínimo del intervalo.
hi = altura de un intervalo. Es la densidad que tiene el intervalo. Sirve para calcular la moda con datos
n
agrupados en intervalos. hi = iai
EJEMPLO.-
Se sabe que en una academia hay 8 alumnos que tienen entre 0 y 10 años, 12 entre 10 y 20, 20 entre 20
y 30, 15 entre 30 y 40, y 5 entre 40 y 50. Calcular la media, la moda y la mediana.
INTERVALO ni Ni fi Fi ai hi xi
(0-10] 8 8 8/60 8/60 = 0,13 10 8/10 5
(10-20] 12 20 12/60 20/60 = 0,33 10 12/10 15
(20-30] 20 40 20/60 40/60 = 0,66 10 20/10 25
(30-40] 15 55 15/60 55/60 = 0,91 10 15/10 35
(40-50] 5 60 5/60 60/60 = 1 10 5/10 45
TOTAL 60 1
5 · 8 + 15 · 12+ 25 · 20 + 35 · 15 + 45 · 5 40+180+500+525+225
X= = = 24,5
60 60
𝑀𝑒 = ? Para calcular la mediana debemos saber en qué intervalo se encuentra (aquel donde la
suma de las frecuencias sea ≥ al 50%. El intervalo es (20-30], ya que acumula hasta el 66% de
los casos. Ahora aplicaremos la fórmula. Recordamos que la mediana coincide con el segundo
cuartil.
𝑀𝑜 = ? Para calcular la moda debemos saber el intervalo modal. Si todos los intervalos tienen la
misma amplitud será aquel que tenga la mayor frecuencia. Si tienen intervalos distintos el
intervalo modal será aquel que tenga la mayor altura. En este caso todos los intervalos tienen la
misma amplitud (10), y el intervalo modal será el que tenga mayor frecuencia (20-30], por lo
que aplicaremos la siguiente formula
ni+1
Mo = Li−1 + ·a
ni−1 + ni+1 i
ni+1 15 15
Mo = Li−1 + ni−1 + ni+1
· ai = 20 + 12+15
· 10 = 20 + 27 · 10 = 25,55
Podemos dividir una distribución en diferentes partes para obtener datos de una proporción de la
población.
Si dividimos la muestra en 4 partes lo haremos a través de los cuartiles. Existen 3 cuartiles (Q1, Q2 y Q3.
Hasta el primer cuartil se acumulan el 25% de observaciones del total de muestras, hasta el segundo
(coincide con la mediana) se acumulan el 50% de observaciones y hasta el tercero el 75% de
observaciones.
Cuando utilizamos deciles dividimos la distribución en 10 partes. Existen 9 deciles (D1, D2, D3…….D9). En
el primer decil se acumulan el 10% de observaciones, en el decil 4 el 40%, en el decil 9 el 90%...
Si utilizamos centiles dividen la distribución en 100 partes. Tenemos 99 centiles (C1, C2, C3,…..C99). En el
centil 37, por ejemplo, se acumulan el 37% de observaciones.
Cuando los datos se encuentran agrupados en intervalos, para calcular procederemos igual que para la
mediana (la misma fórmula pero cambiando la posición). Primero identificamos en que intervalo se
encuentra el decil, cuartil o centil que buscamos y aplicamos la siguiente formula sobre ese intervalo.
Si queremos calcular un decil o un centil, sustituiremos la 𝑖 por el valor de la posición que queremos
encontrar:
DECIL 3 CENTIL 92
Nº vuelos Retraso Ni
750 0 750
1000 5 1750
1000 10 2750
500 15 3250
300 20 3550
200 30 3750
20% de vuelos con más retraso = decil 8 = Posición 0,8 · 3750 = 3000
El 20% de vuelos con más retraso tardan 15 minutos.
75% de los vuelos con menor retraso = Q3 = 0,75 · n = 0,75 · 3750 = 2812,50
El 75% de vuelos con menos retraso tienen 15 minutos de retraso.
EJEMPLO.-
Halla la media, la mediana y la moda de la siguiente distribución sobre las facturas en electricidad de
diferentes familias:
INTERVALOS xi ni Ni xi ni ai hi
(0 -50] 25 10 10 250 50 10/50
(50 -70] 60 30 40 1.800 20 30/20
(70 -90] 80 25 65 2.000 20 25/20
(90 -120] 105 27 92 2.835 30 27/30
(120 - 150] 135 20 112 2.700 30 20/30
(150 – 200] 175 18 130 3.150 50 18/50
(200 – 250] 225 15 145 3.375 50 15/50
(250 – 300] 275 5 150 1.375 50 5/50
TOTAL 150 17.485
𝟏𝟕.𝟒𝟖𝟓
La media = = = 116,56
𝟏𝟓𝟎
Para hallar la moda debemos tener en cuenta que los intervalos tienen diferente amplitud, por lo que
utilizaremos la fórmula para hallar la moda con las alturas. El intervalo modal será el que tenga mayor
altura, en este caso el intervalo (50 -70] ya que 30/20 es la mayor altura.
𝐡𝐢+𝟏 𝟐𝟓/𝟐𝟎
𝐌𝐨 = 𝐋𝐢−𝟏 + 𝐡𝐢−𝟏 + 𝐡𝐢+𝟏
· 𝐚𝐢 = 𝟓𝟎 + 𝟏𝟎/𝟓𝟎+ 𝟐𝟓/𝟐𝟎
· 𝟐𝟎 = 67,24
Indica cuanto pagan como mínimo el 20% de las familias que más consumen.
Buscamos el decil 8. El decil 8 se encuentra en el intervalo (150-200] ya que 150 · 0,8 = 120. Buscamos
el intervalo donde se acumulen 120 observaciones.
Indica cuanto pagan como máximo el 45% de las familias que menos consumen.
Buscamos el centil 45. El intervalo que buscamos es (90 -120], aquel donde se acumulan 67,5
observaciones como mínimo. (150 · 0,45 = 67,5)
∑ x2i · ni 2
s2 = −x
n
Se calcula sumando las variables al cuadrado por sus frecuencias, dividiéndolo entre el número
de muestras y restándole la media al cuadrado.
s = +√s2
COEFICIENTE DE VARIACIÓN DE PEARSON.
Es una medida de dispersión respecto a la media relativa, es decir, sin unidades. Por lo tanto
permite comparar la dispersión de varias distribuciones aunque estén expresadas en unidades
diferentes y presenten una media aritmética diferente a estas distribuciones.
CV =
s
x · 100 (en porcentaje)
El coeficiente de variación se calcula dividiendo la varianza entre la media de una distribución y
multiplicándolo por 100.
No presenta unidades.
Si los valores del coeficiente (CV) < 100% indica que la distribución es homogénea. La 𝐱 es
representativa.
Valores del coeficiente (CV) > 100%. La distribución es heterogénea. . La 𝐱 no es
representativa.
Si la x = 0 el CV es indeterminado.
FREQUENCY
2 2.00 110 58
2 .00 111
4 2.00 112 59
6 2.00 113 68
12 6.00 114 024679
16 4.00 115 0234
20 4. 00 116 8999
28 8.00 117 01235699
40 12.00 118 001223566689
49 9.00 119 011446688
59 10.00 120 2233556699
70 11.00 121 11346667999
80 10.00 122 1233456789
86 6.00 123 035899
91 5.00 124 01789
95 4.00 125 6678
97 2.00 126 12
97 .00 127
99 2.00 128 27
100 1.00 129 2
n = 100
𝟏𝟏𝟗𝟗𝟔𝟑
Media = x = = 1199,63
𝟏𝟎𝟎
BOX-PLOT
Elabora la caja BOX-PLOT de los productos envasados. ¿Qué tipo de asimetría presenta?
Recordemos:
VALORES ATIPICOS: Distan del primer o el tercer cuartil (límite inferior y límite superior
respectivamente) más de 1,5 veces el recorrido intercuartílico.
VALORES EXTREMOS: Distan del primer o el tercer cuartil (límite inferior y límite superior
respectivamente) más de 3 veces el recorrido intercuartílico.
ATIPICOS:
EXTREMOS:
LA DISTRIBUCIÓN CONJUNTA.
Es una herramienta muy útil para el análisis estadístico de los resultados de una distribución de
frecuencias cuando estudiamos dos variables de la población que están relacionadas y que
llamaremos x e y. Se trata de trabajar con datos de dos o más variables.
La distribución conjunta consiste en la transformación de la distribución de frecuencias en una
tabla de doble entrada, lo cual nos permite ver las relaciones causa – efecto entre las dos
variables.
Podemos estudiar las variables por separado llegando a conclusiones interesantes, pero esta
forma de representación de los datos resulta más comprensible, lo que facilita la labor de la
investigación.
Por ejemplo, una empresa puede estudiar la edad de su público objetivo y hallar la media. Si
las edades están muy dispersas se reflejará en la desviación típica y la moda será el valor que
más se repita. Así podrá conocer en mayor medida a su público objetivo, lo que le va a permitir
comunicarse mejor con él al definir campañas de publicidad, acciones de marketing directo,
organizar eventos… También puede ser interesante relacionar la edad con los gustos o las
necesidades, así una empresa de productos alimenticios puede vender su producto en
pequeñas dosis adecuadas para la ración de la merienda a los más jóvenes y en envases
tamaño familiar para que lo compren las madres.
COVARIANZA
Es el promedio de las desviaciones respecto a la media de ambas variables. Nos sirve para
conocer si la relación entre ambas variables es positiva o negativa. Al multiplicar las
desviaciones respecto a la media de cada observación estamos viendo si la distribución es
creciente o decreciente.
Si las desviaciones de x son positivas y las de y son negativas la relación entre ellas será
decreciente y viceversa.
Si ambas son positivas o negativas el resultado de la multiplicación será positivo, lo que quiere
decir que la relación será positiva.
Si la covarianza es positiva significa que cuando una variable crece la otra también (tienen el
mismo sentido y la misma relación). Cuando la covarianza tiene signo negativo significa que
cuando una variable crece la otra disminuye y a la inversa.
Se calcula sumando las variables de x por las variables de y y dividiéndolo entre el número de
muestras, restando a continuación la media de x por la media de y.
∑ xi ∙ yi ∙ ni
Sxy = − x∙ y
N
Ejemplo:
En este caso parece claro que la covarianza es positiva. A más horas de estudio mejor nota.
EL COEFICIENTE DE CORRELACIÓN
Nos índica el grado de relación existente entre dos variables. Se conoce como r. Toma valores
entre 1 y -1.
Cuando r = -1, la relación entre dos variables es perfecta y negativa y el diagrama de dispersión
también será una línea recta. Cuando aumente la variable independiente disminuirá la
dependiente de forma lineal.
Cuando r =0 no existirá relación entre las variables el diagrama de dispersión no tendrá una
forma definida y será una nube de puntos.
Sxy
r(x, y) =
sx ∙ sy
Si dibujamos en una gráfica los valores de una distribución (X e Y) y los unimos con una línea
nos quedaría la siguiente recta.
Esa línea debe pasar lo más cerca posible de todos los puntos. Si r = 1 todos los puntos se
encuentran en la recta y esta es positiva (ascendente). Si r = -1 todos los puntos se encuentran
sobre la recta y esta es descendente (negativa). Conforme nos alejamos de 1 y de -1 hacia 0
significa que hay más dispersión (la nube de puntos se aleja de la recta cada vez más).
Si r = 1 nos indica que estudiando un número de horas x, si aumentamos ese número de horas
la nota que obtendremos en el examen aumentará en la misma proporción.
Si r tiende a cero, es próximo a 0, pero positivo todavía, significa que a más de horas de
estudio mejor nota, pero la nota no mejorará mucho….
CURTOSIS Y ASIMETRÍA.-
Ambas son medidas de forma y nos permiten observar como es una distribución a través de
una representación gráfica.
La asimetría nos permite observar un indicador del grado de igualdad de las dos mitades de
una distribución correspondiente a una variable métrica, tomando el valor 0 cuando es
plenamente simétrica.