Tema 1 Estadística Descriptiva
Tema 1 Estadística Descriptiva
Tema 1 Estadística Descriptiva
Estadística Descriptiva
Introducción
Medidas centrales y de dispersión
Representación gráfica de datos
¿Qué es la estadística?
Ej.: Consideremos la población formada por todos los estudiantes de la UEM. La altura
media de todos los estudiantes es el parámetro μ.Pero la altura de los estudiantes de
Física será un estadístico.
Variables Estadísticas
Una variable estadística es una característica que se mide/observa en los individuos
de una población. Puede tomar cualquier valor dentro de un conjunto determinado, que
llamamos dominio de la variable o rango. Ejemplos: altura, peso, sexo, color de
ojos…
Variables cuantitativas son las que tienen por modalidades cantidades numéricas con
las que podemos hacer operaciones aritméticas.
• Continuas: cuando admiten cualquier valor intermedio dentro de un rango, por ej.,
el peso de un niño al nacer.
• Discretas: cuando no admiten cualquier valor intermedio dentro de su rango, por
ej., los posibles valores al lanzar un dado.
Variables Estadística
Cualitativa Ordinal
Variable
Discreta
Nominal Cuantitativa
Continua
Clasifica las siguientes variables
Variables
Estado civil
Número de resistencias
Análisis univariable: cuando sólo nos interesa una variable de una población (o
muestra), por ejemplo, los ingresos del conjunto de clientes de un cierto banco.
Tendencia
Mediana
central
Moda
Desviación típica
Dispersión Varianza
Rango
Unidad 1.
T2. Representación de datos
Tablas de frecuencia
Diagramas de barra
Diagramas de tarta
Histogramas
Gráficos de correlación
Estadística Descriptiva.
Representación de datos.
Objetivo de la representación de datos:
Sexo Frecuencia
Hombre 23
Mujer 32
Tablas de frecuencia
Frecuencia absoluta simple (ni): expresa el número de veces que ocurre un
determinado valor de una variable.
n
ni
fi =
N
con
f =1
i=1
i
Ni j=1
n
i n j
i
Fi = = = = f j
j
N N j=1 N j=1
Tabla de frecuencia
Valores Frecuencias Frecuencias Frecuencias Frecuencias Frecuencias Frecuencias
de la absolutas relativas relativas absolutas relativas relativas
variable simples simples simples acumuladas acumuladas acumuladas
porcentuales porcentuales
Xi ni ƒi=ni/N Ni Fi=Ni/N
pi=ƒi*100 Pi=Fi*100
X1 n1 ƒ1 p1 Ni = ni Fi = ƒi Pi=pi
… … … … … … …
Xk nk ƒk pk Nk = N Fk = 1 Pk=100
Tabla de frecuencia
EJEMPLO 1
Se ha contado el número de hijos de 100 matrimonios que llevan
casados más de 15 años. Obteniendo los siguientes resultados:
0 0 1 1 2 0 3 0 2 4
2 1 0 5 5 2 2 3 1 1
1 2 2 4 5 0 3 2 2 2
2 4 3 1 1 1 0 0 2 3
1 4 0 0 1 1 2 2 3 2
3 1 1 0 0 1 2 0 2 2
0 0 0 0 1 1 4 3 3 2
1 6 3 1 3 2 1 2 3 0
1 3 0 2 3 2 1 3 4 0
6 2 1 3 0 3 1 0 2 2
Tabla de frecuencia
EJEMPLO 1
Nº de ni fi Ni Fi
hijos
0 22 0.22 22 0.22
1 24 0.24 46 0.46
2 26 0.26 72 0.72
3 17 0.17 89 0.89
4 6 0.06 95 0.95
5 3 0.03 98 0.98
6 2 0.02 100 1
100 1
Tablas de frecuencia
Asimétricos a la Asimétricos a la
derecha izquierda
Representación gráfica de datos
El histograma da información sobre:
HISTOGRAMA
(%)
Representación gráfica de datos
EJEMPLO 3
- Representación de las frecuencias relativas
acumuladas:
(%)
Representación gráfica de datos
Boxplot o diagrama de caja y bigotes
Es una representación gráfica de un conjunto de datos que consta de dos
partes, la caja y los bigotes.
Se puede representar en horizontal o vertical
Representación gráfica de datos
Boxplot o diagrama de caja y bigotes
Ofrece información sobre la simetría, concentración y dispersión de los
datos, y sobre la existencia de datos atípicos
Sirve para mostrar la relación entre dos variables continuas (puede existir una clara
relación o no haber ninguna)
Representación gráfica de datos
Diagramas de dispersión
Aunque exista una correlación, ello no implica causalidad!!!
EJERCICIO 1
Unos grandes almacenes disponen de un aparcamiento para sus clientes. Los siguientes
datos que se refieren al número de horas que permanecen en el aparcamiento una serie
de coches:
Calcula:
1.Obtener la tabla de frecuencias del conjunto de datos e interpretar la tabla.
2. Representa gráficamente los datos mediante diagrama de barras.
Unidad 1.
Medidas centrales y de dispersión
Distribución de datos
Medidas de tendencia central
Medidas de dispersión
Estadística Descriptiva
Presentación
Distribución
Datos
Análisis Univariable
Media
Tendencia
Mediana
central
Moda
Desviación típica
Dispersión Varianza
Rango
Medidas de tendencia central y
posición
Media: normalmente se usa la media aritmética, que es el valor promedio de todas las
observaciones de la muestra.
Mediana: es el valor que queda en medio cuando ordenamos los datos de la muestra en orden
creciente (de menor a mayor).
1 𝑁
𝑥 = ∑ (𝑥𝑖 ⋅ 𝑛𝑖 ) =
𝑁 𝑖=1
Medidas centrales. Media
Inconvenientes de la media:
• No tiene sentido su cálculo en variables cualitativas
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Ventaja: buenas propiedades matemáticas Media = 5.0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Media = 6.8
Medidas centrales. Mediana
Es un valor que divide a los datos en dos grupos con el mismo número de individuos.
Para calcularla:
• ordenamos los datos de menor a mayor.
• si el número de datos es impar, la mediana es el dato que se sitúa justo en el
medio.
• si el número de datos es par, la mediana es la media de los dos datos centrales.
Ventajas e inconvenientes: 0 1 2 3 4 5 6 7 8 9 10
Mediana = valor central = 5
Bimodal
Unimodal
EJERCICIO 2
En un experimento psicológico, fue registrado el tiempo de un trabajo
para 10 personas bajo una limitación de 5 minutos. Estas mediciones
son en segundos:
Mediana:
1) Ordenar los datos de mayor a menor:
175 185 190 190 200 225 230 240 250 265
200 + 225
𝑀𝑒 = = 212,5 𝑠
2
Moda: valor que más se repite:
Mo = 190 s
Medidas de posición (Cuantiles)
CUARTILES
𝑄1 = Primer cuartil
𝑄2 = Segundo cuartil
𝑄3 = Tercer cuartil
i (n+1)
Qi )=
4
Calcular el Q1 = P25
Menor dispersión
Igual media
Mayor dispersión
Igual media
Medidas de dispersión
EJEMPLO
Los valores 0 y 10 tienen como media 5.
Los valores 5 y 5 tienen como media 5.
En ambos casos tienen la misma media, sin embargo los conjuntos son diferentes.
En ocasiones, conocer sólo la media no nos da una idea de cómo están repartidos
el resto de valores entorno a ella.
𝑛
2
1 ¯ 2 Distancia
𝜎𝑥 = (𝑥𝑖 − 𝑥 ) cuadrática
𝑁
𝑖=1
𝑛
2
1 2 ¯ 2
𝜎𝑥 = (𝑥𝑖 ) − 𝑥
𝑁
𝑖=1
Medidas de dispersión
VARIANZA POBLACIONAL VS MUESTRAL
𝑁
2
1 ¯ 2
𝜎 = (𝑥𝑖 − 𝑥 )
𝑁
𝑖=1
𝑛
2
1 ¯ 2
𝑠 = (𝑥𝑖 − 𝑥 ) Estimador insesgado de la
𝑛−1 varianza poblacional
𝑖=1
Medidas de dispersión
DESVIACIÓN TÍPICA
Para lograr una medida de la distancia media calculamos la raíz cuadrada
de la varianza:
1 2
𝜎= 𝑥𝑖 − 𝑥ҧ
𝑁
¯ 3 𝑥1 , 𝑥2 , 𝑥3 , … 𝑥𝑁 constituye toda la
𝑁
1 ∑𝑖=1(𝑥𝑖 − 𝑥) población
𝐴𝑠 = 3 𝜎 es la desviación típica
𝑁 𝜎
As = 0
As > 0 As < 0
Medidas de forma
CURTOSIS
Leptocúrtica K>3
Platicúrtica K<3
Diagrama de caja y bigotes
• 𝑄1 = Primer cuartil
• 𝑄2 = Segundo cuartil = Mediana
• 𝑄3 = Tercer cuartil
• R = 𝑄3 − 𝑄1
(Rango intercuartílico)
• Valores atípicos:
Valores tal que > 𝑄3 + 1.5 × 𝑅
Valores tal que < 𝑄1 − 1.5 × 𝑅
Nº de
1 2 3 4 5 6 7 8
metros
Nº de
2 6 10 5 10 3 2 2
niños
Calcula:
1) Tabla de frecuencias y diagrama de barras para la frecuencia relativa absoluta.
posición
30,75
cuartil 3
valor cuartil
5 m
3
Estadística
Descriptiva.
Bivariante
Estadística descriptiva
bivariante
Vamos a medir dos (o más) características (variables) sobre cada individuo.
Las variables pueden ser cuantitativas o cualitativas, combinadas de todas las formas posibles
(cuantitativa-cuantitativa, cuantitativa-cualitativa, continua-discreta, etc.)
Si para cada individuo tenemos dos datos, podemos construir una tabla
de doble entrada.
Marginales de x
159-161 161-163 165-167 167-169 169-171
allas 165 filas
48 3 2 2 1 0 0 8
51 2 3 4 2 2 1 14
54 1 3 6 8 5 1 24
57 0 0 1 2 8 3 14
60 0 0 0 2 4 4 10
Total
column 6 8 13 15 19 9 70
a
Marginales de y
Tabla de frecuencia relativa
Para construir la tabla bivariante anterior con las frecuencias
relativas simples, hay que dividir por cada frecuencia por el
número total de datos.
Distribuciones marginales
Se obtienen al estudiar una de las variables de forma independiente de la otra.
La distribución de la variable X se calcula sumando, para cada fila y sobre todas las
columnas, las frecuencias conjuntas.
La distribución de la variable Y se calcula sumando, para cada columna y sobre todas las
filas, las frecuencias conjuntas.
Datos bivariables
Frecuencias
marginales
Pesos ni
48 8
51 14
54 24
57 14
60 10
Total 70
Datos bivariables
Distribuciones condicionadas
X/Y= 167-169
48 0
51 2
54 5
57 8
60 4
Datos bivariables
80
70
60
50
Tiempo (h)
40
30
20
10 r=-0,95
0
140 150 160 170 180 190 200
Velocidad (km/h)
Descripción gráfica de datos
bivariados
Analizamos los caballos de fuerza (horsepower) de 155 coches
frente al gasto de gasolina (mpg = milla por galón)
La millas
recorridas
parecen
reducirse al
aumentar el
número de
caballos
Relación entre variables
𝑥𝑖 → 𝑣𝑎𝑙𝑜𝑟𝑒 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑥
σ 𝑥𝑖 − 𝑥ҧ (𝑦𝑖 − 𝑦)
ത σ(𝑥𝑖 ∗𝑦𝑖 ) 𝑦𝑖 → 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑦
𝑐𝑜𝑣 𝑥, 𝑦 = = - 𝑥ҧ 𝑦ത
𝑁 𝑁
𝑥ҧ → media de la variable x
𝑦ത → media de la variable y
Medidas de dependencia
lineal Tiene el mismo signo que la covarianza.
No mide las relaciones no-lineales
𝜎𝑥 = 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑡í𝑝𝑖𝑐𝑎 𝑑𝑒 𝑥
𝐶𝑜𝑣 (𝑥,𝑦) 𝜎𝑦 = desviación típica de y
𝑟= 𝐶𝑜𝑣 𝑥, 𝑦 = 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎
𝜎𝑥 𝜎𝑦
Coeficientes de correlación
Recta de regresión
Buscamos la ecuación de una recta
que “aproxime lo mejor posible” a
todos los puntos
Recta de regresión
Si sólo tenemos dos puntos, hay una
única recta que pasa por ellos
Recta de regresión
En este caso es imposible que una recta
pase por todos los puntos.
¿Cuál elijo?
Recta de regresión
Valor
observado Error de
Valor predicho predicción
por la recta
Error de predicción =
Recta de regresión
Recta de regresión
Observaciones
La recta de regresión siempre pasa por el punto (x¯, y¯)
Loc.1 Loc.2
media: 2,51 media: 3,28
varianza: 1,91 varianza: 2,36
cov(V1,V2) = 1.995