Teoria 2024

CONCEPTOS ESTADÍSTICOS BÁSICOS.
POBLACIÓN O UNIVERSO. Es el grupo de elementos que vamos a estudiar. Podemos estudiar a

individuos de 15 a 25 años, consumidores de viajes de aventura, personas con ingresos entre 6.000 y
24.000 euros, productos fabricados por una empresa en un año… Se conoce como N.
VARIABLE. La población que estudiamos tiene características que la diferencian o asemejan a otras
poblaciones. Esos rasgos son las variables.
Hablamos de variable cualitativa si describe un atributo no numérico, como el tipo de envase de un
producto, el motor elegido para un vehículo, el programa de radio más escuchado…
Será variable cuantitativa si describe un atributo numérico, por ejemplo la cantidad consumida de un
producto en una semana, el gasto en restaurantes realizado en un mes, el número de horas que vemos
la tele…. Se conoce como X.
DISTRIBUCIÓN DE FRECUENCIAS. Al estudiar una población realizamos observaciones de las variables. Si

estamos analizando la variable “edad de los poseedores de la marca de motocicletas que fabrica nuestra
empresa” conseguiremos un total de observaciones (n), compuesto por cada uno de los datos recogidos
(ni). Si agrupamos estos datos tenemos la distribución de frecuencias.
Cuando no tratamos matemáticamente esas observaciones obtenemos la tabla de frecuencias
absolutas y cuando cada observación la expresamos en función del total de observaciones llegamos a la
tabla de frecuencias relativas, que muestra el peso de cada observación respecto al total de
observaciones. Cada observación de la tabla de frecuencias relativa la nombramos como fi. Al ser un
valor porcentual, podemos comparar dos distribuciones con un número de observaciones diferentes.
ni = frecuencia absoluta (número de veces que aparece cada uno de los valores)
n
fi = frecuencia relativa (proporción de observaciones que presentan el valor de ni ) = Ni
Ni = frecuencia absoluta acumulada. Es la suma de todas las frecuencias hasta esa variable
Ni = n1+ n2 +.... +ni
También se puede calcular de la siguiente manera:
Ni = Ni-1 + ni
Fi = frecuencia relativa acumulada. Es la suma de todas las frecuencias relativas hasta esa variable.
Fi= Ni / N
Otra forma de calcularlo es:
Fi = Fi-1 + fi
NOTA: Para hallar las frecuencias relativas y frecuencias relativas acumuladas. Si utilizamos toda la
población o universo usamos N. Si usamos un número de muestras usamos n.
MEDIDAS DE POSICIÓN CENTRAL.- MEDIA, MEDIANA Y MODA
LA MEDIA. Es una medida de posición central que nos proporciona el centro de una distribución, el
punto alrededor dl cual la distribución gira. Se representa mediante y se define como el sumatorio de
los datos de la distribución entre el número total de ellos.
∑ xi
x=
n
También podemos calcular la media desde la distribución de frecuencias absolutas. Cuando recogemos
muchas observaciones es más cómodo utilizar la siguiente fórmula:
∑ x i ∙ ni
x=
n
Para operar con intervalos calculamos las marcas de clase, es decir la media de cada intervalo. Para
obtener la media de la distribución multiplicamos cada marca de clase por el número de veces que
aparece y esto lo dividimos entre el número de observaciones.
LA MEDIANA. Valor que ocupa la posición central. Si nos encontramos con una muestra de valores n
para calcular la mediana utilizaremos una u otra fórmula en función de si n es par o impar y buscaremos
cuales son los valores que se encuentran en esa posición.
xn+1
n = Impares → Me = 2
xn + xn
+1
2 2
n = Pares → Me = 2
Para calcular la mediana en una serie de datos agrupados en intervalos utilizamos la siguiente fórmula.
Primero debemos identificar en que intervalo se encuentra la mediana, y será aquel donde se acumulen
como mínimo el 50% de observaciones (podemos observar la columna de frecuencias absolutas
acumuladas).
n
− Ni−1
2
Me = Li−1 + · ai
ni
LA MODA. En las variables cualitativas no podemos calcular la media, al no ser datos numéricos. Pero la
moda nos puede dar una idea de la distribución.
La moda es el valor que más se repita en una distribución y no tiene por qué ser única. Si hay algún valor
cuya frecuencia se repita en el mismo número y más que para otros valores habrá más de una moda.
En el caso de que nos encontremos con datos agrupados en intervalos para hallar la moda deberemos
identificar en primer lugar cual es el intervalo modal, es decir, en que intervalo se encuentra la moda.
Si todos los intervalos tienen la misma amplitud el intervalo modal será el que tenga mayor frecuencia y
aplicaremos la siguiente fórmula.
ni+1
Mo = Li−1 + ·a
ni−1 + ni+1 i
Si existe un único intervalo con una amplitud diferente deberemos calcular las alturas de cada intervalo,
y aquel con mayor altura (mayor densidad) será el intervalo modal y deberemos aplicar la siguiente
fórmula.
hi+1
Mo = Li−1 + ·a
hi−1 + hi+1 i
Recordar que:
ai = amplitud de un intervalo. Diferencia entre el valor máximo y mínimo del intervalo.
hi = altura de un intervalo. Es la densidad que tiene el intervalo. Sirve para calcular la moda con datos
n
agrupados en intervalos. hi = iai
EJEMPLO.-
Se sabe que en una academia hay 8 alumnos que tienen entre 0 y 10 años, 12 entre 10 y 20, 20 entre 20
y 30, 15 entre 30 y 40, y 5 entre 40 y 50. Calcular la media, la moda y la mediana.
INTERVALO ni Ni fi Fi ai hi xi
(0-10] 8 8 8/60 8/60 = 0,13 10 8/10 5
(10-20] 12 20 12/60 20/60 = 0,33 10 12/10 15
(20-30] 20 40 20/60 40/60 = 0,66 10 20/10 25
(30-40] 15 55 15/60 55/60 = 0,91 10 15/10 35
(40-50] 5 60 5/60 60/60 = 1 10 5/10 45
TOTAL 60 1
5 · 8 + 15 · 12+ 25 · 20 + 35 · 15 + 45 · 5 40+180+500+525+225
X= = = 24,5
60 60
𝑀𝑒 = ? Para calcular la mediana debemos saber en qué intervalo se encuentra (aquel donde la
suma de las frecuencias sea ≥ al 50%. El intervalo es (20-30], ya que acumula hasta el 66% de
los casos. Ahora aplicaremos la fórmula. Recordamos que la mediana coincide con el segundo
cuartil.
i · n − Ni−1 0,5 ·60−20

Me = Q 2 = Li−1 + ni
· ai = 20 + 20
· 10 = 25
𝑀𝑜 = ? Para calcular la moda debemos saber el intervalo modal. Si todos los intervalos tienen la
misma amplitud será aquel que tenga la mayor frecuencia. Si tienen intervalos distintos el
intervalo modal será aquel que tenga la mayor altura. En este caso todos los intervalos tienen la
misma amplitud (10), y el intervalo modal será el que tenga mayor frecuencia (20-30], por lo
que aplicaremos la siguiente formula
ni+1
Mo = Li−1 + ·a
ni−1 + ni+1 i
ni+1 15 15
Mo = Li−1 + ni−1 + ni+1
· ai = 20 + 12+15
· 10 = 20 + 27 · 10 = 25,55
DECILES, CUARTILES Y CENTILES.
Podemos dividir una distribución en diferentes partes para obtener datos de una proporción de la
población.
Si dividimos la muestra en 4 partes lo haremos a través de los cuartiles. Existen 3 cuartiles (Q1, Q2 y Q3.
Hasta el primer cuartil se acumulan el 25% de observaciones del total de muestras, hasta el segundo
(coincide con la mediana) se acumulan el 50% de observaciones y hasta el tercero el 75% de
observaciones.
Cuando utilizamos deciles dividimos la distribución en 10 partes. Existen 9 deciles (D1, D2, D3…….D9). En
el primer decil se acumulan el 10% de observaciones, en el decil 4 el 40%, en el decil 9 el 90%...
Si utilizamos centiles dividen la distribución en 100 partes. Tenemos 99 centiles (C1, C2, C3,…..C99). En el
centil 37, por ejemplo, se acumulan el 37% de observaciones.
Cuando los datos se encuentran agrupados en intervalos, para calcular procederemos igual que para la
mediana (la misma fórmula pero cambiando la posición). Primero identificamos en que intervalo se
encuentra el decil, cuartil o centil que buscamos y aplicamos la siguiente formula sobre ese intervalo.
i · n − Ni−1 0,25 · n − Ni−1

Q1 = Li−1 + ni
· ai → Q1 = 0,25 → Q1 = Li−1 + ni
· ai
i · n − Ni−1 0,50 · n − Ni−1

Me = Q 2 = Li−1 + ni
· ai → Q 2 = 0,50 → Q 2 = Li−1 + ni
· ai
i · n − Ni−1 0,75 · n − Ni−1

Q 3 = Li−1 + ni
· ai → Q 3 = 0,75 → Q 3 = Li−1 + ni
· ai
Si queremos calcular un decil o un centil, sustituiremos la 𝑖 por el valor de la posición que queremos
encontrar:
DECIL 3 CENTIL 92
0,3 · n − Ni−1 0,92 · n − Ni−1

D3 = Li−1 + ni
· ai C92 = Li−1 + ni
· ai
EJEMPLO-
Tenemos una muestra con la siguiente distribución de retrasos:
Nº vuelos Retraso Ni
750 0 750
1000 5 1750
1000 10 2750
500 15 3250
300 20 3550
200 30 3750
Calcula el tiempo de retraso de los siguientes vuelos:
 20% de vuelos con más retraso
 25% de vuelos con menos retraso
 50% de vuelos con más retraso
 50% de vuelos con menos retraso
 75% de los vuelos con menor retraso
 20% de vuelos con más retraso = decil 8 = Posición 0,8 · 3750 = 3000
El 20% de vuelos con más retraso tardan 15 minutos.
 25% de vuelos con menos retraso = Q1 = 0,25 · n = 0,25 · 3750 = 937,50

El 25% de vuelos con menos retraso tienen 5 minutos de retraso.
 50% de vuelos con más retraso = Me = Q2 = 0,50 · n = 0,50 · 3750 = 1875
 50% de vuelos con menos retraso = Me = Q2 = 0,50 · n = 0,50 · 3750 = 1875

El 50% de vuelos con menos retraso tienen 10 minutos de retraso como máximo.
(El 50% de vuelos con más retraso tienen 10 minutos de retraso como mínimo.)
 75% de los vuelos con menor retraso = Q3 = 0,75 · n = 0,75 · 3750 = 2812,50
El 75% de vuelos con menos retraso tienen 15 minutos de retraso.
EJEMPLO.-
Halla la media, la mediana y la moda de la siguiente distribución sobre las facturas en electricidad de
diferentes familias:
INTERVALOS xi ni Ni xi ni ai hi
(0 -50] 25 10 10 250 50 10/50
(50 -70] 60 30 40 1.800 20 30/20
(70 -90] 80 25 65 2.000 20 25/20
(90 -120] 105 27 92 2.835 30 27/30
(120 - 150] 135 20 112 2.700 30 20/30
(150 – 200] 175 18 130 3.150 50 18/50
(200 – 250] 225 15 145 3.375 50 15/50
(250 – 300] 275 5 150 1.375 50 5/50
TOTAL 150 17.485
𝟏𝟕.𝟒𝟖𝟓
La media = = = 116,56
𝟏𝟓𝟎
La mediana se encuentra en el intervalo donde se acumulen el 50% o más de las observaciones (N ≥

75)
La mediana se encuentra en el intervalo (90-120]
𝐢 · 𝐧 − 𝐍𝐢−𝟏 𝟎,𝟓 · 𝟏𝟓𝟎 − 𝟔𝟓

𝐌𝐞 = 𝐐𝟐 = 𝐋𝐢−𝟏 + · 𝐚𝐢 = 𝟗𝟎 + · 𝟑𝟎 = 101,11
𝐧𝐢 𝟐𝟕
Para hallar la moda debemos tener en cuenta que los intervalos tienen diferente amplitud, por lo que
utilizaremos la fórmula para hallar la moda con las alturas. El intervalo modal será el que tenga mayor
altura, en este caso el intervalo (50 -70] ya que 30/20 es la mayor altura.
𝐡𝐢+𝟏 𝟐𝟓/𝟐𝟎
𝐌𝐨 = 𝐋𝐢−𝟏 + 𝐡𝐢−𝟏 + 𝐡𝐢+𝟏
· 𝐚𝐢 = 𝟓𝟎 + 𝟏𝟎/𝟓𝟎+ 𝟐𝟓/𝟐𝟎
· 𝟐𝟎 = 67,24
Indica cuanto pagan como mínimo el 20% de las familias que más consumen.
Buscamos el decil 8. El decil 8 se encuentra en el intervalo (150-200] ya que 150 · 0,8 = 120. Buscamos
el intervalo donde se acumulen 120 observaciones.
𝐢 · 𝐧 − 𝐍𝐢−𝟏 𝟎,𝟖 · 𝟏𝟓𝟎 − 𝟏𝟏𝟐

𝐃𝟖 = 𝐋𝐢−𝟏 + 𝐧𝐢
· 𝐚𝐢 = 𝟏𝟓𝟎 + 𝟏𝟖
· 𝟓𝟎 = 172,22
Indica cuanto pagan como máximo el 45% de las familias que menos consumen.
Buscamos el centil 45. El intervalo que buscamos es (90 -120], aquel donde se acumulan 67,5
observaciones como mínimo. (150 · 0,45 = 67,5)
𝐢 · 𝐧 − 𝐍𝐢−𝟏 𝟎,𝟒𝟓 · 𝟏𝟓𝟎 − 𝟔𝟓

𝐂𝟒𝟓 = 𝐋𝐢−𝟏 + · 𝐚𝐢 = 𝟗𝟎 + · 𝟑𝟎 = 92,77
𝐧𝐢 𝟐𝟕
MEDIDAS DE DISPERSIÓN.-
LA VARIANZA. La varianza es una medida de dispersión que representa la variabilidad de una

serie de datos respecto a su media. La varianza siempre es mayor o igual que cero. No puede
ser nunca negativa ya que es una medida cuadrática. Es la media de las diferencias respecto a
la media elevadas al cuadrado. Como medida es muy importante ya que nos sirve para calcular
otros parámetros. Al ser una medida cuadrática (elevada al cuadrado) es más fácil
transformarla en la desviación típica para trabajar en las mismas medidas que la media. La
varianza se conoce como s2 o σ2.
∑ x2i · ni 2
s2 = −x
n
Se calcula sumando las variables al cuadrado por sus frecuencias, dividiéndolo entre el número
de muestras y restándole la media al cuadrado.
LA DESVIACIÓN ESTÁNDAR O TÍPICA.
Si la media es una medida de posición, la desviación típica es una medida de dispersión, es

decir, mide como están dispersos los datos en la distribución.
Es una medida que complementa a la media, ya que nos informa si las observaciones están
cerca de la media o si están alejadas de esta.
Es la raíz cuadrada positiva de la varianza (siempre positiva, nunca negativa) o cero si todos los
valores son iguales (no hay desviación). Cuanta más pequeña sea la desviación típica mayor
será la concentración de datos alrededor de la media. Se conoce como s o como σ.
Se calcula hallando la raíz cuadrada positiva de la varianza:
s = +√s2
COEFICIENTE DE VARIACIÓN DE PEARSON.
Es una medida de dispersión respecto a la media relativa, es decir, sin unidades. Por lo tanto
permite comparar la dispersión de varias distribuciones aunque estén expresadas en unidades
diferentes y presenten una media aritmética diferente a estas distribuciones.
CV =
s
x · 100 (en porcentaje)
El coeficiente de variación se calcula dividiendo la varianza entre la media de una distribución y
multiplicándolo por 100.
No presenta unidades.
Indica el número de veces que la desviación estándar contiene a la media.
Si los valores del coeficiente (CV) < 100% indica que la distribución es homogénea. La 𝐱 es
representativa.
Valores del coeficiente (CV) > 100%. La distribución es heterogénea. . La 𝐱 no es
representativa.
Si la x = 0 el CV es indeterminado.
Contra más pequeño sea el coeficiente de variación más homogénea es la representatividad de

la muestra.
DIAGRAMA STEM & LEAF
Es una representación gráfica de una distribución. Consiste en un diagrama de tallo (Stem) y

hoja (Leaf).
En el tronco van las unidades más grandes. Las hojas corresponden al valor más pequeño de
cada individuo. El STEM WIDTH nos indica la unidad de medida (metros - centímetros o kilos –
gramos por ejemplo). EJEMPLO:
FREQUENCY
2 2.00 110 58
2 .00 111
4 2.00 112 59
6 2.00 113 68
12 6.00 114 024679
16 4.00 115 0234
20 4. 00 116 8999
28 8.00 117 01235699
40 12.00 118 001223566689
49 9.00 119 011446688
59 10.00 120 2233556699
70 11.00 121 11346667999
80 10.00 122 1233456789
86 6.00 123 035899
91 5.00 124 01789
95 4.00 125 6678
97 2.00 126 12
97 .00 127
99 2.00 128 27
100 1.00 129 2
n = 100
Moda = Mo = 1186,1216 y 1219. Hay 3 modas
Mediana = Me = (x50 + x51) / 2 = 1202
𝟏𝟏𝟗𝟗𝟔𝟑
Media = x = = 1199,63
𝟏𝟎𝟎
BOX-PLOT
Elabora la caja BOX-PLOT de los productos envasados. ¿Qué tipo de asimetría presenta?
1105 1175 1202 1224 1292
Q1 = Posición 0,25 · n = 0,25 · 100 = 25 Q1 = X25= 1175

Q2= Posición 0,50 · n = 0,50 · 100 = 50 Q2 = (X50 + X51)/2 = 1202
Q3 = Posición 0,75 · n = 0,75 · 100 = 75 Q3 = X75 = 1224
Presenta una ligera asimetría negativa (por la izquierda).
¿Cuál es el rango o recorrido de la distribución?
El rango es la diferencia entre el extremo superior y el inferior de la distribución.
R = xmax – xmin = R = 1292 – 1105 = 187
¿Cuál es el recorrido intercuartílico? = RQ
El recorrido intercuartílico es la distancia que hay entre el primer y el tercer cuartil = RQ = Q3 – Q1 =

1224 – 1175 = 49
¿Existen valores atípicos o extremos en la distribución?
Recordemos:
VALORES ATIPICOS: Distan del primer o el tercer cuartil (límite inferior y límite superior
respectivamente) más de 1,5 veces el recorrido intercuartílico.
VALORES EXTREMOS: Distan del primer o el tercer cuartil (límite inferior y límite superior
respectivamente) más de 3 veces el recorrido intercuartílico.
ATIPICOS:
Linferior = Q1 – 1,5 RQ = 1175 – 1,5  49 = 1175 – 73,5 = 1101,5
Lsuperior = Q3 + 1,5 RQ = 1224 + 1,5  49 = 1224 + 73,5 = 1297,5
EXTREMOS:
Linferior = Q1 – 3 RQ = 1175 – 3  49 = 1175 – 147 = 1028
Lsuperior = Q3 + 3 RQ = 1224 + 3  49 = 1224 + 147 = 1371
LA DISTRIBUCIÓN CONJUNTA.
Es una herramienta muy útil para el análisis estadístico de los resultados de una distribución de
frecuencias cuando estudiamos dos variables de la población que están relacionadas y que
llamaremos x e y. Se trata de trabajar con datos de dos o más variables.
La distribución conjunta consiste en la transformación de la distribución de frecuencias en una
tabla de doble entrada, lo cual nos permite ver las relaciones causa – efecto entre las dos
variables.
Podemos estudiar las variables por separado llegando a conclusiones interesantes, pero esta
forma de representación de los datos resulta más comprensible, lo que facilita la labor de la
investigación.
Por ejemplo, una empresa puede estudiar la edad de su público objetivo y hallar la media. Si
las edades están muy dispersas se reflejará en la desviación típica y la moda será el valor que
más se repita. Así podrá conocer en mayor medida a su público objetivo, lo que le va a permitir
comunicarse mejor con él al definir campañas de publicidad, acciones de marketing directo,
organizar eventos… También puede ser interesante relacionar la edad con los gustos o las
necesidades, así una empresa de productos alimenticios puede vender su producto en
pequeñas dosis adecuadas para la ración de la merienda a los más jóvenes y en envases
tamaño familiar para que lo compren las madres.
COVARIANZA
Es el promedio de las desviaciones respecto a la media de ambas variables. Nos sirve para
conocer si la relación entre ambas variables es positiva o negativa. Al multiplicar las
desviaciones respecto a la media de cada observación estamos viendo si la distribución es
creciente o decreciente.
Si las desviaciones de x son positivas y las de y son negativas la relación entre ellas será
decreciente y viceversa.
Si ambas son positivas o negativas el resultado de la multiplicación será positivo, lo que quiere
decir que la relación será positiva.
Si la covarianza es positiva significa que cuando una variable crece la otra también (tienen el
mismo sentido y la misma relación). Cuando la covarianza tiene signo negativo significa que
cuando una variable crece la otra disminuye y a la inversa.
Se calcula sumando las variables de x por las variables de y y dividiéndolo entre el número de
muestras, restando a continuación la media de x por la media de y.
La fórmula de la covarianza es la siguiente:
∑ xi ∙ yi ∙ ni
Sxy = − x∙ y
N
Ejemplo:
X = horas de estudio para un examen

Y = nota obtenida en un examen
En este caso parece claro que la covarianza es positiva. A más horas de estudio mejor nota.
EL COEFICIENTE DE CORRELACIÓN
Nos índica el grado de relación existente entre dos variables. Se conoce como r. Toma valores
entre 1 y -1.
Cuando r = 1, la relación entre dos variables es perfecta y positiva y el diagrama de dispersión

será una línea recta. Cuando aumente la variable independiente aumentará la dependiente de
forma lineal.
Cuando r = -1, la relación entre dos variables es perfecta y negativa y el diagrama de dispersión
también será una línea recta. Cuando aumente la variable independiente disminuirá la
dependiente de forma lineal.
Cuando r =0 no existirá relación entre las variables el diagrama de dispersión no tendrá una
forma definida y será una nube de puntos.
La fórmula del coeficiente de correlación es la siguiente:
Sxy
r(x, y) =
sx ∙ sy
Para calcular el coeficiente de correlación dividimos la covarianza entre la varianza de x por la

varianza de y.
Si dibujamos en una gráfica los valores de una distribución (X e Y) y los unimos con una línea
nos quedaría la siguiente recta.
Esa línea debe pasar lo más cerca posible de todos los puntos. Si r = 1 todos los puntos se
encuentran en la recta y esta es positiva (ascendente). Si r = -1 todos los puntos se encuentran
sobre la recta y esta es descendente (negativa). Conforme nos alejamos de 1 y de -1 hacia 0
significa que hay más dispersión (la nube de puntos se aleja de la recta cada vez más).
El coeficiente de correlación nos indica la intensidad. Con la covarianza conocíamos la relación

entre dos variables (positiva o negativa). Con este coeficiente de correlación conocemos el
grado de relación. Si r = 1 significa que cuando una variable crece la otra variable lo hace con la
misma intensidad. Si r = -1 significa que cuando una variable disminuye la otra crece con la
misma intensidad. Conforme tiende a 0 disminuye esa intensidad.
Ejemplo:
X = horas de estudio para un examen

Y = nota obtenida en un examen
Si r = 1 nos indica que estudiando un número de horas x, si aumentamos ese número de horas
la nota que obtendremos en el examen aumentará en la misma proporción.
Si r tiende a cero, es próximo a 0, pero positivo todavía, significa que a más de horas de
estudio mejor nota, pero la nota no mejorará mucho….
CURTOSIS Y ASIMETRÍA.-
Ambas son medidas de forma y nos permiten observar como es una distribución a través de
una representación gráfica.
La asimetría nos permite observar un indicador del grado de igualdad de las dos mitades de
una distribución correspondiente a una variable métrica, tomando el valor 0 cuando es
plenamente simétrica.
∑(𝒙𝒊 −𝒙)𝟑 ∙𝒏𝒊

ASIMETRÍA (a3) =
𝒏∙𝑺𝟑
AsimetrÍa positiva (o hacia la derecha). La media es mayor que la mediana y esta a su vez que
la moda siendo a3 > 0. En este caso la mayor frecuencia se encuentra en los valores más bajos
de la variable.
AsimetrÍa negativa (o hacia la izquierda). La media es menor que la mediana y esta a su vez
que la moda siendo a3 < 0. En este caso la mayor frecuencia se encuentra en los valores más
altos de la variable.
La curtosis mide el apuntalamiento de la representación gráfica de una distribución realizando

una valoración dela cantidad de observaciones que se encuentran próximas a la media y a la
moda. Esta medida de forma únicamente tiene interés estadístico cuando la distribución es
simétrica.
∑(𝒙𝒊 −𝒙)𝟒 ∙𝒏𝒊

CURTOSIS (K) =
𝒏∙𝑺𝟒
Distribución mesocúrtica. Cuando k = 0. Se trata de aquellas distribuciones que se

corresponden con la distribución normal.
Distribución leptocúrtica. Cuando k > 0. Son aquellas distribuciones cuya representación
gráfica presenta un mayor apuntamiento que la distribución normal, con colas más anchas.
Distribución platicúrtica. Cuando k < 0. Son aquellas distribuciones cuya representación gráfica
presenta un menor apuntamiento que la distribución normal, con colas menos anchas.

Teoria 2024

Cargado por

Copyright:

Formatos disponibles

Teoria 2024

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Teoria 2024

Cargado por

Copyright:

Formatos disponibles

CONCEPTOS ESTADÍSTICOS BÁSICOS.

POBLACIÓN O UNIVERSO. Es el grupo de elementos que vamos a estudiar. Podemos estudiar a

DISTRIBUCIÓN DE FRECUENCIAS. Al estudiar una población realizamos observaciones de las variables. Si

Ni = n1+ n2 +.... +ni

También se puede calcular de la siguiente manera:

Otra forma de calcularlo es:

i · n − Ni−1 0,5 ·60−20

DECILES, CUARTILES Y CENTILES.

i · n − Ni−1 0,25 · n − Ni−1

i · n − Ni−1 0,50 · n − Ni−1

i · n − Ni−1 0,75 · n − Ni−1

0,3 · n − Ni−1 0,92 · n − Ni−1

Tenemos una muestra con la siguiente distribución de retrasos:

Calcula el tiempo de retraso de los siguientes vuelos:

 20% de vuelos con más retraso

 25% de vuelos con menos retraso

 50% de vuelos con más retraso

 50% de vuelos con menos retraso

 75% de los vuelos con menor retraso

 25% de vuelos con menos retraso = Q1 = 0,25 · n = 0,25 · 3750 = 937,50

 50% de vuelos con más retraso = Me = Q2 = 0,50 · n = 0,50 · 3750 = 1875

 50% de vuelos con menos retraso = Me = Q2 = 0,50 · n = 0,50 · 3750 = 1875

La mediana se encuentra en el intervalo donde se acumulen el 50% o más de las observaciones (N ≥

𝐢 · 𝐧 − 𝐍𝐢−𝟏 𝟎,𝟓 · 𝟏𝟓𝟎 − 𝟔𝟓

𝐢 · 𝐧 − 𝐍𝐢−𝟏 𝟎,𝟖 · 𝟏𝟓𝟎 − 𝟏𝟏𝟐

𝐢 · 𝐧 − 𝐍𝐢−𝟏 𝟎,𝟒𝟓 · 𝟏𝟓𝟎 − 𝟔𝟓

LA VARIANZA. La varianza es una medida de dispersión que representa la variabilidad de una

LA DESVIACIÓN ESTÁNDAR O TÍPICA.

Si la media es una medida de posición, la desviación típica es una medida de dispersión, es

Indica el número de veces que la desviación estándar contiene a la media.

Contra más pequeño sea el coeficiente de variación más homogénea es la representatividad de

DIAGRAMA STEM & LEAF

Es una representación gráfica de una distribución. Consiste en un diagrama de tallo (Stem) y

Moda = Mo = 1186,1216 y 1219. Hay 3 modas

Mediana = Me = (x50 + x51) / 2 = 1202

1105 1175 1202 1224 1292

Q1 = Posición 0,25 · n = 0,25 · 100 = 25 Q1 = X25= 1175

Presenta una ligera asimetría negativa (por la izquierda).

¿Cuál es el rango o recorrido de la distribución?

El rango es la diferencia entre el extremo superior y el inferior de la distribución.

R = xmax – xmin = R = 1292 – 1105 = 187

¿Cuál es el recorrido intercuartílico? = RQ

El recorrido intercuartílico es la distancia que hay entre el primer y el tercer cuartil = RQ = Q3 – Q1 =

¿Existen valores atípicos o extremos en la distribución?

Linferior = Q1 – 1,5 RQ = 1175 – 1,5  49 = 1175 – 73,5 = 1101,5

Lsuperior = Q3 + 1,5 RQ = 1224 + 1,5  49 = 1224 + 73,5 = 1297,5

Linferior = Q1 – 3 RQ = 1175 – 3  49 = 1175 – 147 = 1028

Lsuperior = Q3 + 3 RQ = 1224 + 3  49 = 1224 + 147 = 1371

La fórmula de la covarianza es la siguiente:

X = horas de estudio para un examen

Cuando r = 1, la relación entre dos variables es perfecta y positiva y el diagrama de dispersión

La fórmula del coeficiente de correlación es la siguiente:

Para calcular el coeficiente de correlación dividimos la covarianza entre la varianza de x por la

El coeficiente de correlación nos indica la intensidad. Con la covarianza conocíamos la relación

X = horas de estudio para un examen

∑(𝒙𝒊 −𝒙)𝟑 ∙𝒏𝒊

La curtosis mide el apuntalamiento de la representación gráfica de una distribución realizando

∑(𝒙𝒊 −𝒙)𝟒 ∙𝒏𝒊

Distribución mesocúrtica. Cuando k = 0. Se trata de aquellas distribuciones que se