Tema 1 Estadística Descriptiva

Unidad 1.
Estadística Descriptiva
Introducción
Medidas centrales y de dispersión
Representación gráfica de datos
¿Qué es la estadística?
Estadística —> Ciencia de los datos.
La estadística se ocupa de la recogida, clasificación, presentación y análisis de

los datos, y el uso de estos con el fin de resolver problemas, tomar decisiones y
formular predicciones.
La estadística nos ayuda a entender y emplear la información (datos) en aquellas
situaciones o problemas prácticos que entrañan una cierta incertidumbre o
variabilidad.
Variabilidad: cuando sucesivas observaciones de un fenómeno o un sistema no

producen idénticos resultados.
Estadística Descriptiva: cuando los resultados del
análisis se limitan al conjunto de datos que estoy
analizando.
Estadística Inferencial: cuando queremos extrapolar

los resultados de nuestro análisis a un conjunto de
datos más amplio, o a una población.
La estadística descriptiva sirve para describir, analizar y representar un grupo

de datos por medio de métodos numéricos y gráficos que sintetizan y muestran la
información contenida en dichos datos.
Conceptos básicos
Individuo o elemento: personas u objetos que contienen
cierta información que se quiere estudiar.
Población: conjunto de individuos o elementos que cumplen

ciertas propiedades comunes.
Ej.: el conjunto de estudiantes de la Universidad Europea
de Madrid, el censo de Villaviciosa, el conjunto de
personas que viven en Madrid entre 18 y 65 años.
Muestra: subconjunto representativo de una población.

Ej.: un subconjunto de estudiantes de la UEM.
Parámetro: función definida sobre los valores numéricos de características medibles

de una población.
Estadístico: función definida sobre los valores numéricos de una muestra.
Ej.: Consideremos la población formada por todos los estudiantes de la UEM. La altura
media de todos los estudiantes es el parámetro μ.Pero la altura de los estudiantes de
Física será un estadístico.
Variables Estadísticas
Una variable estadística es una característica que se mide/observa en los individuos
de una población. Puede tomar cualquier valor dentro de un conjunto determinado, que
llamamos dominio de la variable o rango. Ejemplos: altura, peso, sexo, color de
ojos…
Variables cualitativas: característica de un individuo u objeto que no se pueden

expresar mediante números.
• Variables cualitativas nominales: sus modalidades no obedecen a un orden. Por
ejemplo, una variable de color C ∈ {“rojo”, “azul”, “verde”}.
• Variables cualitativas ordinales: sus modalidades son de tipo nominal, pero es
posible establecer un orden entre ellas. Por ejemplo, en una encuesta el grado de
satisfacción puede ser {“muy satisfecho”, “satisfecho”, “poco satisfecho”, “nada
satisfecho”}.
Variables cuantitativas son las que tienen por modalidades cantidades numéricas con
las que podemos hacer operaciones aritméticas.
• Continuas: cuando admiten cualquier valor intermedio dentro de un rango, por ej.,
el peso de un niño al nacer.
• Discretas: cuando no admiten cualquier valor intermedio dentro de su rango, por
ej., los posibles valores al lanzar un dado.
Variables Estadística
Cualitativa Ordinal
Variable
Discreta
Nominal Cuantitativa
Continua
Clasifica las siguientes variables
Variables
Estado civil
Densidad de un material (kg/m3)
Número de resistencias
Revoluciones por minuto (rpm)
Tiempo de reacción (s)
Número de padres fumadores
Hábito de beber (bebedor/abstemio)
Dosis de alcohol (alta/baja/sin alcohol)
Consumo de alcohol (g)
Cantidad de válvulas abiertas
Posibles resultados de un examen tipo test con 20 preguntas

La estadística descriptiva sirve para describir, analizar y representar un grupo de
datos por medio de métodos numéricos y gráficos que sintetizan y muestran la
información contenida en dichos datos.
Análisis univariable: cuando sólo nos interesa una variable de una población (o
muestra), por ejemplo, los ingresos del conjunto de clientes de un cierto banco.
Análisis multivariable: cuando nos interesan múltiples variables de la población,

con el objetivo de establecer relaciones entre ellas, por ejemplo, los ingresos y
el nivel de estudios de los clientes de un cierto banco.
Tablas de
Presentación frecuencia
Distribución
Datos
Gráficos
Análisis Univariable
Media
Tendencia
Mediana
central
Moda
Desviación típica
Dispersión Varianza
Rango
Unidad 1.
T2. Representación de datos
Tablas de frecuencia
Diagramas de barra
Diagramas de tarta
Histogramas
Gráficos de correlación
Estadística Descriptiva.
Representación de datos.
Objetivo de la representación de datos:
Resumir información contenida en los datos para facilitar su análisis.
Hay dos maneras equivalentes de presentar la información contenida en un

conjunto de datos:
Tablas de frecuencia Representaciones gráficas
Sexo Frecuencia
Hombre 23
Mujer 32
Frecuencia absoluta simple (ni): expresa el número de veces que ocurre un
determinado valor de una variable.
Frecuencia absoluta acumulada (Ni): para el valor xi de la variable sería la la

suma de las frecuencias absolutas de los valores inferiores o iguales a él.
i
Ni = n j =n1 +n 2 +...+n i
j=1
Frecuencia relativa simple (fi): el cociente entre la frecuencia absoluta simple

(ni) y el número total de observaciones realizadas (N).
n
ni
fi =
N
con
 f =1
i=1
i
Frecuencia relativa acumulada (Fi): en el punto xi el cociente entre la frecuencia

absoluta acumulada (Ni) y el número total de observaciones realizadas (N).
Ni j=1
n
i n j
i
Fi = = = =  f j
j
N N j=1 N j=1
Tabla de frecuencia
Valores Frecuencias Frecuencias Frecuencias Frecuencias Frecuencias Frecuencias
de la absolutas relativas relativas absolutas relativas relativas
variable simples simples simples acumuladas acumuladas acumuladas
porcentuales porcentuales
Xi ni ƒi=ni/N Ni Fi=Ni/N
pi=ƒi*100 Pi=Fi*100
X1 n1 ƒ1 p1 Ni = ni Fi = ƒi Pi=pi
X2 n2 ƒ2 p2 N2=N1+n2 F2 = F1 +ƒ2 P2=P1+p2
… … … … … … …
Xi ni ƒi pi Ni=Ni-1+ni Fi = Fi-1 +ƒi Pi=Pi-1+pi

… … … … … … …
Xk nk ƒk pk Nk = N Fk = 1 Pk=100
Tabla de frecuencia
EJEMPLO 1
Se ha contado el número de hijos de 100 matrimonios que llevan
casados más de 15 años. Obteniendo los siguientes resultados:
0 0 1 1 2 0 3 0 2 4
2 1 0 5 5 2 2 3 1 1
1 2 2 4 5 0 3 2 2 2
2 4 3 1 1 1 0 0 2 3
1 4 0 0 1 1 2 2 3 2
3 1 1 0 0 1 2 0 2 2
0 0 0 0 1 1 4 3 3 2
1 6 3 1 3 2 1 2 3 0
1 3 0 2 3 2 1 3 4 0
6 2 1 3 0 3 1 0 2 2
Tabla de frecuencia
EJEMPLO 1
Nº de ni fi Ni Fi
hijos
0 22 0.22 22 0.22
1 24 0.24 46 0.46
2 26 0.26 72 0.72
3 17 0.17 89 0.89
4 6 0.06 95 0.95
5 3 0.03 98 0.98
6 2 0.02 100 1
100 1
Hay muchos Se agrupan en clase

valores o intervalos
¿Cuántas clases elegir?

Pocas Se pierde mucha información de los datos.
Muchas La frecuencia resultante en cada una puede ser pequeña y poco útil para el
estudio
¿Qué longitud elegir para cada clase?

Se suelen elegir intervalos de igual longitud
Tabla de frecuencia
EJEMPLO 2
Los siguientes datos muestran los niveles de colesterol en la sangre de 40

estudiantes de primer año de una universidad:
213 173 193 196 220 183 194 200

192 200 200 199 178 183 188 193
187 181 193 205 196 211 202 213
216 206 195 191 171 194 184 191
221 212 221 204 204 191 183 227
EJEMPLO 2: Tabla de frecuencias de los niveles

de colesterol en sangre
Diagrama de Barras
Gráficos de frecuencias para datos cualitativos o cuantativos discretos.

Barras separadas para cada valor.
La altura de las barras representa la frecuencia absoluta o relativa de
cada valor.
Diagrama de tarta o sectores

Gráficos de frecuencias para datos cualitativos.
El área de cada sector representa la frecuencia relativa de cada valor.
Histogramas
Gráficos de frecuencias para datos cuantitativos

continuos.
Dispersos
Cada barra representa una clase. No hay hueco entre
barras.
Las bases son iguales a la amplitud de cada clase.
La altura corresponde a la frecuencia absoluta o

relativa de la clase.
Marca de clase: Es el valor medio de cada clase.
El área que hay bajo el histograma es proporcional a

la cantidad de individuos del intervalos.
Simétricos
El histograma da información sobre:
La simetría de los datos y la dispersión de los mismos
La forma de la distribución
Asimétricos a la Asimétricos a la
derecha izquierda
Si existen brechas entre los datos posibles dos poblaciones.
Si hay valores muy alejados valores atípicos.

EJEMPLO 3
La variable representa el peso (en g) de 191 monedas

de 1 euro.
TABLAS DE FRECUENCIAS
EJEMPLO 3
HISTOGRAMA
Representación de las frecuencias relativas:
(%)
EJEMPLO 3
- Representación de las frecuencias relativas
acumuladas:
(%)
Boxplot o diagrama de caja y bigotes
Es una representación gráfica de un conjunto de datos que consta de dos
partes, la caja y los bigotes.
Se puede representar en horizontal o vertical
Boxplot o diagrama de caja y bigotes
Ofrece información sobre la simetría, concentración y dispersión de los
datos, y sobre la existencia de datos atípicos
Para representar este gráfico es necesario conocer

la mediana, el primer y tercer cuartil y calcular los
límites inferior y superior.
Diagramas de dispersión
Sirve para mostrar la relación entre dos variables continuas (puede existir una clara
relación o no haber ninguna)
Diagramas de dispersión
Aunque exista una correlación, ello no implica causalidad!!!
EJERCICIO 1
Unos grandes almacenes disponen de un aparcamiento para sus clientes. Los siguientes
datos que se refieren al número de horas que permanecen en el aparcamiento una serie
de coches:
Calcula:
1.Obtener la tabla de frecuencias del conjunto de datos e interpretar la tabla.
2. Representa gráficamente los datos mediante diagrama de barras.
Unidad 1.
Medidas centrales y de dispersión
Distribución de datos
Medidas de tendencia central
Medidas de dispersión
Presentación
Distribución
Datos
Análisis Univariable
Media
Tendencia
Mediana
central
Moda
Desviación típica
Dispersión Varianza
Rango
Medidas de tendencia central y
posición
Media: normalmente se usa la media aritmética, que es el valor promedio de todas las
observaciones de la muestra.
Mediana: es el valor que queda en medio cuando ordenamos los datos de la muestra en orden
creciente (de menor a mayor).
Moda: es el valor que se repite con mayor frecuencia.
Cuantil: punto que divide los datos en n intervalos regulares

Medidas centrales. Media
Valor promedio de todas las observaciones de la muestra.
Si tenemos un con junto de datos 𝑥1 , 𝑥2 , 𝑥3 . . . 𝑥𝑁 no agrupados, la media se calcula como:

1 𝑁
𝑥 = ∑ 𝑥𝑖
𝑁 𝑖=1
En el caso de tener datos agrupados en una tabla de frecuencia:
1 𝑁
𝑥 = ∑ (𝑥𝑖 ⋅ 𝑛𝑖 ) =
𝑁 𝑖=1
Medidas centrales. Media
Inconvenientes de la media:
• No tiene sentido su cálculo en variables cualitativas
• Sensible a valores extremos.

Ej: salarios. 𝑋1 ={900, 950, 1000, 1000, 1050, 1100, 1200} 𝑋1 ≈ 1028
𝑋2 = {900, 950, 1000, 1000, 1050, 1100, 8000} 𝑋2 = 2000
• No recomendable como medida central en distribuciones muy asimétricas.
• Tiene las mismas unidades que la variable de estudio
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Ventaja: buenas propiedades matemáticas Media = 5.0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Media = 6.8
Medidas centrales. Mediana
Es un valor que divide a los datos en dos grupos con el mismo número de individuos.
Para calcularla:
• ordenamos los datos de menor a mayor.
• si el número de datos es impar, la mediana es el dato que se sitúa justo en el
medio.
• si el número de datos es par, la mediana es la media de los dos datos centrales.
Ventajas e inconvenientes: 0 1 2 3 4 5 6 7 8 9 10
Mediana = valor central = 5
• Conveniente cuando los datos son asimétricos. 0 1 2 3 4 5 6 7 8 9 10

Mediana = media del valor (n/2) y (1 + n/2) =
=(3+5)/2=4
• No es sensible a valores extremos.

Ej: salarios. 𝑋1 = }1200 ,1100 ,1050 ,1000 ,1000 ,950 ,900{𝑀𝑒1 = 1000
𝑋2 = }8000 ,1100 ,1050 ,1000 ,1000 ,950 ,900{ 𝑀𝑒2 = 1000
¡Propiedades matemáticas complicadas!

Medidas centrales. Moda
• Es el valor más frecuente, el que más se repite.

• En datos agrupados, es la clase más frecuente.
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6
• Puede no existir moda, haber una, o varias.
No hay moda
Moda = 9
• Muy útil para variables cualitativas
• La presencia de varias modas puede indicar la existencia de varios
grupos.
Bimodal
Unimodal
EJERCICIO 2
En un experimento psicológico, fue registrado el tiempo de un trabajo
para 10 personas bajo una limitación de 5 minutos. Estas mediciones
son en segundos:
1. Encuentra el tiempo promedio de trabajo.

2. Encuentra la mediana y la moda del tiempo de trabajo.
3. Si estás escribiendo un informe para describir estos datos. ¿qué
medida de tendencia central usaría? Justifica la respuesta.
EJERCICIO 2
Media:
175 + 190 + 250 + 230 + 240 + 200 + 185 + 190 + 225 + 265
𝑥ҧ = = 215 𝑠
10
Mediana:
1) Ordenar los datos de mayor a menor:
175 185 190 190 200 225 230 240 250 265
2) Calcular el centro de los datos:

En este caso tenemos 10 datos, es un número par, por tanto, la Mediana será
el número de la posición
5 y 6.
200 + 225
𝑀𝑒 = = 212,5 𝑠
2
Moda: valor que más se repite:
Mo = 190 s
Medidas de posición (Cuantiles)
CUARTILES
Son valores no centrales muy importantes de las distribuciones.

Son valores de la variable (𝑄1 , 𝑄2 𝑦 𝑄3 ) que dividen a la distribución en 4 partes,
cada una de las cuales engloba el 25 % de las mismas.
𝑄1 = Primer cuartil
𝑄2 = Segundo cuartil
𝑄3 = Tercer cuartil
𝑄3 − 𝑄1 = Rango intercuartílico (medida de dispersión)

CUARTILES
Posición del cuartil i i⋅(n+1)

Qi = con i=1,2,3
4
CUARTILES
i  (n+1)
Qi )=
4
Calcular el Q1 = P25
1º Posición del Q1 = (1 (20+1))/4 = 5.25
2º Calcular el valor: (en este caso la posición es decimal y deberemos

buscar el valor exacto con la fórmula):
Valor: Q1 = 28 + 0,25*(29-28) = 28.25

EJEMPLO
Menor dispersión
Igual media
Mayor dispersión
Igual media
EJEMPLO
Los valores 0 y 10 tienen como media 5.
Los valores 5 y 5 tienen como media 5.
En ambos casos tienen la misma media, sin embargo los conjuntos son diferentes.
En ocasiones, conocer sólo la media no nos da una idea de cómo están repartidos
el resto de valores entorno a ella.
¿están cerca o lejos de la media?

VARIANZA
Mide el promedio de las desviaciones (al cuadrado) de las observaciones con
respecto a la media.
Para datos no agrupados la varianza de un conjunto de datos 𝑥1 , 𝑥2 , 𝑥3 , … 𝑥𝑛 es:
𝑛
2
1 ¯ 2 Distancia
𝜎𝑥 = ෍(𝑥𝑖 − 𝑥 ) cuadrática
𝑁
𝑖=1
• Una manera fácil de calcular la varianza es utilizar el desarrollo:
𝑛
2
1 2 ¯ 2
𝜎𝑥 = ෍(𝑥𝑖 ) − 𝑥
𝑁
𝑖=1
VARIANZA POBLACIONAL VS MUESTRAL
• Para datos no agrupados la varianza poblacional de un conjunto de datos 𝑥1 , 𝑥2 , 𝑥3 , … 𝑥𝑁 (toda la población)

es:
𝑁
2
1 ¯ 2
𝜎 = ෍(𝑥𝑖 − 𝑥 )
𝑁
𝑖=1
• Para datos no agrupados la varianza muestral de un conjunto de datos 𝑥1 , 𝑥2 , 𝑥3 , … 𝑥𝑛 (muestra de la

población) es:
𝑛
2
1 ¯ 2
𝑠 = ෍(𝑥𝑖 − 𝑥 ) Estimador insesgado de la
𝑛−1 varianza poblacional
𝑖=1
DESVIACIÓN TÍPICA
Para lograr una medida de la distancia media calculamos la raíz cuadrada
de la varianza:
1 2
𝜎= ෍ 𝑥𝑖 − 𝑥ҧ
𝑁
Tiene las mismas unidades que la variable estadística y es en general más

“tangible”.
Medidas de forma
COEFICIENTE DE ASIMETRÍA
• El coeficiente de asimetría mide la simetría de los datos respecto de la

media. Se define como:
¯ 3 𝑥1 , 𝑥2 , 𝑥3 , … 𝑥𝑁 constituye toda la
𝑁
1 ∑𝑖=1(𝑥𝑖 − 𝑥) población
𝐴𝑠 = 3 𝜎 es la desviación típica
𝑁 𝜎
As = 0
As > 0 As < 0
Medidas de forma
CURTOSIS
• El coeficiente de curtosis mide el apuntamiento de los datos. Se define

como:
𝑁 ¯ 4 𝑥1 , 𝑥2 , 𝑥3 . . . 𝑥𝑁 constituye toda la población

1 ∑𝑖=1(𝑥𝑖 − 𝑥) 𝜎 es la desviación típica
𝐾= 4
𝑁 𝜎
Leptocúrtica K>3
Mesocúrtica K=3 Distribución Gaussiana
Platicúrtica K<3
Diagrama de caja y bigotes
• 𝑄1 = Primer cuartil
• 𝑄2 = Segundo cuartil = Mediana
• 𝑄3 = Tercer cuartil
• R = 𝑄3 − 𝑄1
(Rango intercuartílico)
• 𝐿𝑚𝑎𝑥 de los bigotes = 1.5 x R
• Valores atípicos:
Valores tal que > 𝑄3 + 1.5 × 𝑅
Valores tal que < 𝑄1 − 1.5 × 𝑅
• Extremos del bigote:

Máx valor tal que < 𝑄3 + 1.5 × 𝑅
𝑥𝑚𝑖𝑛 𝑥𝑚𝑎𝑥 Mín valor tal que > 𝑄1 − 1.5 × 𝑅
Ejercicio Completo
En una clínica infantil se ha ido anotando, durante un mes, el número de metros
que cada niño anda, seguido y sin caerse, el primer día que comienza a caminar,
obteniéndose la tabla de información de a continuación:
Nº de
1 2 3 4 5 6 7 8
metros
Nº de
2 6 10 5 10 3 2 2
niños
Calcula:
1) Tabla de frecuencias y diagrama de barras para la frecuencia relativa absoluta.
2) Media, mediana, moda y el Q3
3) Varianza y desviación típica

Ejercicio Completo
xi ni fi Ni Fi xi*ni xi^2*ni
1 2 0,05 2 0,05 2 2
2 6 0,15 8 0,2 12 24
3 10 0,25 18 0,45 30 90
4 5 0,125 23 0,575 20 80
5 10 0,25 33 0,825 50 250
6 3 0,075 36 0,9 18 108
7 2 0,05 38 0,95 14 98
8 2 0,05 40 1 16 128
suma 40 suma 162 780
media 4,05 m varianza 3,10 m^2

moda 3 y 5 m desv tip 1,76 m
mediana 4 m
posición
30,75
cuartil 3
valor cuartil
5 m
3
Estadística
Descriptiva.
Bivariante
Estadística descriptiva
bivariante
Vamos a medir dos (o más) características (variables) sobre cada individuo.
Las variables pueden ser cuantitativas o cualitativas, combinadas de todas las formas posibles
(cuantitativa-cuantitativa, cuantitativa-cualitativa, continua-discreta, etc.)
Una muestra de la población consistirá en pares ordenados (x,y) de ambas características

observadas sobre cada individuo.
Llamaremos distribución conjunta de frecuencias de dos variables (X e Y) a la tabla que

representa los valores observados de frecuencias absolutas o relativas de cada par.
Descripción de los datos
Tabla bivariante
Si para cada individuo tenemos dos datos, podemos construir una tabla
de doble entrada.
EJEMPLO : Se han estudiado el peso ( X ) y la altura ( Y ) de 70

individuos, obteniéndose los datos de la siguiente tabla
(cuantitativa-cuantitativa)
Pesos/tal
159-161 161-163 1636-165 165-167 167-169 169-171
las
48 3 2 2 1 0 0
51 2 3 4 2 2 1
54 1 3 6 8 5 1
57 0 0 1 2 8 3
60 0 0 0 2 4 4
Tablas de frecuencia - tablas de
contingencia
Pesos/tal
159-161 161-163 1636-165 165-167 167-169 169-171
las
48 3 2 2 1 0 0
51 2 3 4 2 2 1
54 1 3 6 8 5 1
57 0 0 1 2 8 3
60 0 0 0 2 4 4
En cada celda tenemos la frecuencia conjunta, Fi,j , es decir, el

número de individuos que presentan simultaneamente las características xi e
yj
Tablas de frecuencia/contingencia
En una tabla de doble entrada, la suma de todas las frecuencias relativas absolutas es ....
Pesos/t 1636- Total
Marginales de x
159-161 161-163 165-167 167-169 169-171
allas 165 filas
48 3 2 2 1 0 0 8
51 2 3 4 2 2 1 14
54 1 3 6 8 5 1 24
57 0 0 1 2 8 3 14
60 0 0 0 2 4 4 10
Total
column 6 8 13 15 19 9 70
a
Marginales de y
Tabla de frecuencia relativa
Para construir la tabla bivariante anterior con las frecuencias
relativas simples, hay que dividir por cada frecuencia por el
número total de datos.
Pesos/t 1636- Total

159-161 161-163 165-167 167-169 169-171
allas 165 filas
48 0,043 0,029 0,029 0,014 0,000 0,000 0,114
51 0,029 0,043 0,057 0,029 0,029 0,014 0,200
54 0,014 0,043 0,086 0,114 0,071 0,014 0,343
57 0,000 0,000 0,014 0,029 0,114 0,043 0,200
60 0,000 0,000 0,000 0,029 0,057 0,057 0,143
Total
column 0,086 0,114 0,186 0,214 0,271 0,129 1,000
a
En una tabla de doble entrada, la suma de todas las frecuencias

relativas es ....
Datos bivariables
Distribuciones marginales
Se obtienen al estudiar una de las variables de forma independiente de la otra.
La distribución de la variable X se calcula sumando, para cada fila y sobre todas las
columnas, las frecuencias conjuntas.
La distribución de la variable Y se calcula sumando, para cada columna y sobre todas las
filas, las frecuencias conjuntas.
Datos bivariables
Frecuencias
marginales
Pesos/t 1636- Total

159-161 161-163 165-167 167-169 169-171
allas 165 filas
48 3 2 2 1 0 0 8
51 2 3 4 2 2 1 14
54 1 3 6 8 5 1 24
57 0 0 1 2 8 3 14
60 0 0 0 2 4 4 10
Total
column 6 8 13 15 19 9 70
a
Datos bivariables
Distribución marginal de la variable pesos:
Pesos ni
48 8
51 14
54 24
57 14
60 10
Total 70
Datos bivariables
Distribuciones condicionadas
Se obtienen al estudiar un conjunto más pequeño de los datos

formado por aquellos que tienen, por ejemplo, la característica xi,
con i = 1,...r , o la característica yj, con j = 1,...s.
Si consideramos los datos que tienen la característica yj , la
variable definida sobre este conjunto se denomina variable
condicionada, y se suele denotar mediante X | Y = yj
Datos bivariables
Pesos/tal
159-161 161-163 163-165 165-167 167-169 169-171
las
48 3 2 2 1 0 0
51 2 3 4 2 2 1
54 1 3 6 8 5 1
57 0 0 1 2 8 3
60 0 0 0 2 4 4
Frecuencias absolutas condicionadas (al
valor de la fila o la columna)
X/Y= 167-169
48 0
51 2
54 5
57 8
60 4
Datos bivariables
Frecuencias relativas de la TALLA Frecuencias relativas del PESO

condicionada al PESO=54 Condicionado a la ALTURA :169-171
Y/X=54 𝒇(𝒚𝒋 Τ𝒙 = 𝟓𝟒) X/Y=169-171 𝒇(𝒙𝒊 Τ𝒚 = 𝟓𝟒)

159-161 1/24 48 0/24
161-163 3/24 51 1/24
163-165 6/24 54 1/24
165-167 8/24 57 3/24
167-169 5/24 60 4/24
169-171 1/24 TOTAL 1
TOTAL 1
Independencia entre
variables
El gran interés de analizar dos variables conjuntamente es conocer
si existe o no una relación entre ellas.
Los dos casos extremos en la relación de dos variables son:
- La ausencia de relación: Independencia

El conocimiento de una variable no permite conocer nada sobre
la otra variable.
- El caso de dependencia funcional Y= f(x)

y depende funcionalmente de X, si el conocimiento de X
permite conocer, de forma exacta, los valores que toma Y.
Independencia entre
variables
Entre estos dos casos extremos anteriores, existen un tipo de
relaciones, que son las que nos van a interesar estudiar en
muchos casos:
- Sabemos que dos variables están relacionadas, pero no

existe una dependencia funcional exacta.
Este es el caso de dependencia estadística, en el que
se puede describir, aproximadamente, el comportamiento de una
variable a partir de otra y otras variables Y ≈f(X).
Toda la información sobre la relación entre dos variables la

provee la función de distribución conjunta. Además, basada en
dicha distribución, existen una serie de medidas que nos van
a servir para analizar esta relación
Descripción gráfica de datos
bivariados
La representación más útil para mostrar la relación entre dos
variables continuas sin agrupar es el diagrama de dispersión.
Cada par se representa como un punto del plano cartesiano
80
70
60
50
Tiempo (h)
40
30
20
10 r=-0,95
0
140 150 160 170 180 190 200
Velocidad (km/h)
Descripción gráfica de datos
bivariados
Analizamos los caballos de fuerza (horsepower) de 155 coches
frente al gasto de gasolina (mpg = milla por galón)
La millas
recorridas
parecen
reducirse al
aumentar el
número de
caballos
Relación entre variables
Relación lineal negativa Relación lineal positiva

Relación entre variables
Ausencia de relación Relación no lineal

Medidas de dependencia lineal
Las dos medidas más utilizadas para cuantificar el grado y sentido
de la dependencia lineal son:
Nos indica si la relación entre las variables es

positiva o negativa.
• Covarianza
Su magnitud depende de las unidades.
Si las variables son estadísticamente independientes

entonces la covarianza es nula.
𝑥𝑖 → 𝑣𝑎𝑙𝑜𝑟𝑒 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑥
σ 𝑥𝑖 − 𝑥ҧ (𝑦𝑖 − 𝑦)
ത σ(𝑥𝑖 ∗𝑦𝑖 ) 𝑦𝑖 → 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑦
𝑐𝑜𝑣 𝑥, 𝑦 = = - 𝑥ҧ 𝑦ത
𝑁 𝑁
𝑥ҧ → media de la variable x
𝑦ത → media de la variable y
Medidas de dependencia
lineal Tiene el mismo signo que la covarianza.
No mide las relaciones no-lineales
Decimos que las variables son incorreladas si r= 0

• Correlación
Hay relación lineal perfecta si r = 1 o r = -1
Cuanto más cerca esté de 1 o -1 mejor será el grado de

relación lineal.
r puede tener valores entre -1 y 1
𝜎𝑥 = 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑡í𝑝𝑖𝑐𝑎 𝑑𝑒 𝑥
𝐶𝑜𝑣 (𝑥,𝑦) 𝜎𝑦 = desviación típica de y
𝑟= 𝐶𝑜𝑣 𝑥, 𝑦 = 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎
𝜎𝑥 𝜎𝑦
Coeficientes de correlación
Recta de regresión
Buscamos la ecuación de una recta
que “aproxime lo mejor posible” a
todos los puntos
Recta de regresión
Si sólo tenemos dos puntos, hay una
única recta que pasa por ellos
Recta de regresión
En este caso es imposible que una recta
pase por todos los puntos.
¿Cuál elijo?
Recta de regresión
Valor
observado Error de
Valor predicho predicción
por la recta
Error de predicción =
Recta de regresión
Recta de regresión
Observaciones
La recta de regresión siempre pasa por el punto (x¯, y¯)
Si la pendiente es positiva (covarianza es positiva), valores

grandes de la variable, se relacionarán con valores grandes de la
variable (dependencia positiva).
Si es negativa, valores grandes de la variable X se relacionarán

con valores pequeños de Y (dependencia negativa).
Recta de regresión
Ejemplo
La variable V1 tiene la velocidad del viento registrada en la localización 1, mientras
que la variable V2 tiene las velocidades registradas en esos mismos instantes en la
localización 2. Se tiene un total de 115 pares de medidas.
Loc.1 Loc.2
media: 2,51 media: 3,28
varianza: 1,91 varianza: 2,36
cov(V1,V2) = 1.995
En la localización 1 se va a establecer un sistema informático para la telemedida de la

velocidad del viento, pero no para la localización 2. Se quiere calcular la recta de regresión
que permita predecir la velocidad de la Localización 2 conociendo la de la Localización 1.
Recta de regresión. Ejemplo
Si, por ejemplo, en la Localización 1 se mide una velocidad de

viento de 5 m/s, la predicción en la Localización 2 es de un
viento de
0.657+1.045x5=5.88 m/s

Tema 1 Estadística Descriptiva

Cargado por

Copyright:

Formatos disponibles

Tema 1 Estadística Descriptiva

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 1 Estadística Descriptiva

Cargado por

Copyright:

Formatos disponibles

Unidad 1.

Estadística —> Ciencia de los datos.

La estadística se ocupa de la recogida, clasificación, presentación y análisis de

Variabilidad: cuando sucesivas observaciones de un fenómeno o un sistema no

Estadística Inferencial: cuando queremos extrapolar

La estadística descriptiva sirve para describir, analizar y representar un grupo

Población: conjunto de individuos o elementos que cumplen

Muestra: subconjunto representativo de una población.

Parámetro: función definida sobre los valores numéricos de características medibles

Estadístico: función definida sobre los valores numéricos de una muestra.

Variables cualitativas: característica de un individuo u objeto que no se pueden

Densidad de un material (kg/m3)

Revoluciones por minuto (rpm)

Tiempo de reacción (s)

Número de padres fumadores

Hábito de beber (bebedor/abstemio)

Dosis de alcohol (alta/baja/sin alcohol)

Consumo de alcohol (g)

Cantidad de válvulas abiertas

Posibles resultados de un examen tipo test con 20 preguntas

Análisis multivariable: cuando nos interesan múltiples variables de la población,

Resumir información contenida en los datos para facilitar su análisis.

Hay dos maneras equivalentes de presentar la información contenida en un

Tablas de frecuencia Representaciones gráficas

Frecuencia absoluta acumulada (Ni): para el valor xi de la variable sería la la

Frecuencia relativa simple (fi): el cociente entre la frecuencia absoluta simple

Frecuencia relativa acumulada (Fi): en el punto xi el cociente entre la frecuencia

X2 n2 ƒ2 p2 N2=N1+n2 F2 = F1 +ƒ2 P2=P1+p2

Xi ni ƒi pi Ni=Ni-1+ni Fi = Fi-1 +ƒi Pi=Pi-1+pi

Hay muchos Se agrupan en clase

¿Cuántas clases elegir?

¿Qué longitud elegir para cada clase?

Los siguientes datos muestran los niveles de colesterol en la sangre de 40

213 173 193 196 220 183 194 200

EJEMPLO 2: Tabla de frecuencias de los niveles

Gráficos de frecuencias para datos cualitativos o cuantativos discretos.

Diagrama de tarta o sectores

Gráficos de frecuencias para datos cuantitativos

Las bases son iguales a la amplitud de cada clase.

La altura corresponde a la frecuencia absoluta o

Marca de clase: Es el valor medio de cada clase.

El área que hay bajo el histograma es proporcional a

Si existen brechas entre los datos posibles dos poblaciones.

Si hay valores muy alejados valores atípicos.

La variable representa el peso (en g) de 191 monedas

Representación de las frecuencias relativas:

Para representar este gráfico es necesario conocer

Moda: es el valor que se repite con mayor frecuencia.

Cuantil: punto que divide los datos en n intervalos regulares

Si tenemos un con junto de datos 𝑥1 , 𝑥2 , 𝑥3 . . . 𝑥𝑁 no agrupados, la media se calcula como:

En el caso de tener datos agrupados en una tabla de frecuencia:

• Sensible a valores extremos.

• No recomendable como medida central en distribuciones muy asimétricas.

• Tiene las mismas unidades que la variable de estudio

• Conveniente cuando los datos son asimétricos. 0 1 2 3 4 5 6 7 8 9 10

• No es sensible a valores extremos.

¡Propiedades matemáticas complicadas!

• Es el valor más frecuente, el que más se repite.

1. Encuentra el tiempo promedio de trabajo.