Tema 1 Estadística Descriptiva

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 84

Unidad 1.

Estadística Descriptiva

Introducción
Medidas centrales y de dispersión
Representación gráfica de datos
¿Qué es la estadística?

Estadística —> Ciencia de los datos.

La estadística se ocupa de la recogida, clasificación, presentación y análisis de


los datos, y el uso de estos con el fin de resolver problemas, tomar decisiones y
formular predicciones.
¿Qué es la estadística?
La estadística nos ayuda a entender y emplear la información (datos) en aquellas
situaciones o problemas prácticos que entrañan una cierta incertidumbre o
variabilidad.

Variabilidad: cuando sucesivas observaciones de un fenómeno o un sistema no


producen idénticos resultados.
¿Qué es la estadística?
Estadística Descriptiva: cuando los resultados del
análisis se limitan al conjunto de datos que estoy
analizando.

Estadística Inferencial: cuando queremos extrapolar


los resultados de nuestro análisis a un conjunto de
datos más amplio, o a una población.

La estadística descriptiva sirve para describir, analizar y representar un grupo


de datos por medio de métodos numéricos y gráficos que sintetizan y muestran la
información contenida en dichos datos.
Conceptos básicos
Individuo o elemento: personas u objetos que contienen
cierta información que se quiere estudiar.

Población: conjunto de individuos o elementos que cumplen


ciertas propiedades comunes.
Ej.: el conjunto de estudiantes de la Universidad Europea
de Madrid, el censo de Villaviciosa, el conjunto de
personas que viven en Madrid entre 18 y 65 años.

Muestra: subconjunto representativo de una población.


Ej.: un subconjunto de estudiantes de la UEM.

Parámetro: función definida sobre los valores numéricos de características medibles


de una población.

Estadístico: función definida sobre los valores numéricos de una muestra.

Ej.: Consideremos la población formada por todos los estudiantes de la UEM. La altura
media de todos los estudiantes es el parámetro μ.Pero la altura de los estudiantes de
Física será un estadístico.
Variables Estadísticas
Una variable estadística es una característica que se mide/observa en los individuos
de una población. Puede tomar cualquier valor dentro de un conjunto determinado, que
llamamos dominio de la variable o rango. Ejemplos: altura, peso, sexo, color de
ojos…

Variables cualitativas: característica de un individuo u objeto que no se pueden


expresar mediante números.
• Variables cualitativas nominales: sus modalidades no obedecen a un orden. Por
ejemplo, una variable de color C ∈ {“rojo”, “azul”, “verde”}.
• Variables cualitativas ordinales: sus modalidades son de tipo nominal, pero es
posible establecer un orden entre ellas. Por ejemplo, en una encuesta el grado de
satisfacción puede ser {“muy satisfecho”, “satisfecho”, “poco satisfecho”, “nada
satisfecho”}.

Variables cuantitativas son las que tienen por modalidades cantidades numéricas con
las que podemos hacer operaciones aritméticas.
• Continuas: cuando admiten cualquier valor intermedio dentro de un rango, por ej.,
el peso de un niño al nacer.
• Discretas: cuando no admiten cualquier valor intermedio dentro de su rango, por
ej., los posibles valores al lanzar un dado.
Variables Estadística

Cualitativa Ordinal

Variable
Discreta
Nominal Cuantitativa
Continua
Clasifica las siguientes variables
Variables
Estado civil

Densidad de un material (kg/m3)

Número de resistencias

Revoluciones por minuto (rpm)

Tiempo de reacción (s)

Número de padres fumadores

Hábito de beber (bebedor/abstemio)

Dosis de alcohol (alta/baja/sin alcohol)

Consumo de alcohol (g)

Cantidad de válvulas abiertas

Posibles resultados de un examen tipo test con 20 preguntas


Estadística Descriptiva
La estadística descriptiva sirve para describir, analizar y representar un grupo de
datos por medio de métodos numéricos y gráficos que sintetizan y muestran la
información contenida en dichos datos.

Análisis univariable: cuando sólo nos interesa una variable de una población (o
muestra), por ejemplo, los ingresos del conjunto de clientes de un cierto banco.

Análisis multivariable: cuando nos interesan múltiples variables de la población,


con el objetivo de establecer relaciones entre ellas, por ejemplo, los ingresos y
el nivel de estudios de los clientes de un cierto banco.
Estadística Descriptiva
Tablas de
Presentación frecuencia
Distribución
Datos
Gráficos
Análisis Univariable
Media

Tendencia
Mediana
central

Moda

Desviación típica

Dispersión Varianza

Rango
Unidad 1.
T2. Representación de datos

Tablas de frecuencia
Diagramas de barra
Diagramas de tarta
Histogramas
Gráficos de correlación
Estadística Descriptiva.
Representación de datos.
Objetivo de la representación de datos:

Resumir información contenida en los datos para facilitar su análisis.

Hay dos maneras equivalentes de presentar la información contenida en un


conjunto de datos:

Tablas de frecuencia Representaciones gráficas

Sexo Frecuencia

Hombre 23

Mujer 32
Tablas de frecuencia
Frecuencia absoluta simple (ni): expresa el número de veces que ocurre un
determinado valor de una variable.

Frecuencia absoluta acumulada (Ni): para el valor xi de la variable sería la la


suma de las frecuencias absolutas de los valores inferiores o iguales a él.
i
Ni = n j =n1 +n 2 +...+n i
j=1

Frecuencia relativa simple (fi): el cociente entre la frecuencia absoluta simple


(ni) y el número total de observaciones realizadas (N).

n
ni
fi =
N
con
 f =1
i=1
i

Frecuencia relativa acumulada (Fi): en el punto xi el cociente entre la frecuencia


absoluta acumulada (Ni) y el número total de observaciones realizadas (N).

Ni j=1
n
i n j
i
Fi = = = =  f j
j

N N j=1 N j=1
Tabla de frecuencia
Valores Frecuencias Frecuencias Frecuencias Frecuencias Frecuencias Frecuencias
de la absolutas relativas relativas absolutas relativas relativas
variable simples simples simples acumuladas acumuladas acumuladas
porcentuales porcentuales
Xi ni ƒi=ni/N Ni Fi=Ni/N
pi=ƒi*100 Pi=Fi*100
X1 n1 ƒ1 p1 Ni = ni Fi = ƒi Pi=pi

X2 n2 ƒ2 p2 N2=N1+n2 F2 = F1 +ƒ2 P2=P1+p2

… … … … … … …

Xi ni ƒi pi Ni=Ni-1+ni Fi = Fi-1 +ƒi Pi=Pi-1+pi


… … … … … … …

Xk nk ƒk pk Nk = N Fk = 1 Pk=100
Tabla de frecuencia

EJEMPLO 1
Se ha contado el número de hijos de 100 matrimonios que llevan
casados más de 15 años. Obteniendo los siguientes resultados:

0 0 1 1 2 0 3 0 2 4
2 1 0 5 5 2 2 3 1 1
1 2 2 4 5 0 3 2 2 2
2 4 3 1 1 1 0 0 2 3
1 4 0 0 1 1 2 2 3 2
3 1 1 0 0 1 2 0 2 2
0 0 0 0 1 1 4 3 3 2
1 6 3 1 3 2 1 2 3 0
1 3 0 2 3 2 1 3 4 0
6 2 1 3 0 3 1 0 2 2
Tabla de frecuencia
EJEMPLO 1

Nº de ni fi Ni Fi

hijos
0 22 0.22 22 0.22

1 24 0.24 46 0.46

2 26 0.26 72 0.72

3 17 0.17 89 0.89

4 6 0.06 95 0.95

5 3 0.03 98 0.98

6 2 0.02 100 1

100 1
Tablas de frecuencia

Hay muchos Se agrupan en clase


valores o intervalos

¿Cuántas clases elegir?


Pocas Se pierde mucha información de los datos.
Muchas La frecuencia resultante en cada una puede ser pequeña y poco útil para el
estudio

¿Qué longitud elegir para cada clase?


Se suelen elegir intervalos de igual longitud
Tabla de frecuencia
EJEMPLO 2

Los siguientes datos muestran los niveles de colesterol en la sangre de 40


estudiantes de primer año de una universidad:

213 173 193 196 220 183 194 200


192 200 200 199 178 183 188 193
187 181 193 205 196 211 202 213
216 206 195 191 171 194 184 191
221 212 221 204 204 191 183 227
Tablas de frecuencia

EJEMPLO 2: Tabla de frecuencias de los niveles


de colesterol en sangre
Representación gráfica de datos
Diagrama de Barras

Gráficos de frecuencias para datos cualitativos o cuantativos discretos.


Barras separadas para cada valor.
La altura de las barras representa la frecuencia absoluta o relativa de
cada valor.
Representación gráfica de datos

Diagrama de tarta o sectores


Gráficos de frecuencias para datos cualitativos.
El área de cada sector representa la frecuencia relativa de cada valor.
Representación gráfica de datos
Histogramas

Gráficos de frecuencias para datos cuantitativos


continuos.
Dispersos
Cada barra representa una clase. No hay hueco entre
barras.

Las bases son iguales a la amplitud de cada clase.

La altura corresponde a la frecuencia absoluta o


relativa de la clase.

Marca de clase: Es el valor medio de cada clase.

El área que hay bajo el histograma es proporcional a


la cantidad de individuos del intervalos.
Simétricos
El histograma da información sobre:
La simetría de los datos y la dispersión de los mismos
Representación gráfica de datos
El histograma da información sobre:
La forma de la distribución

Asimétricos a la Asimétricos a la
derecha izquierda
Representación gráfica de datos
El histograma da información sobre:

Si existen brechas entre los datos posibles dos poblaciones.

Si hay valores muy alejados valores atípicos.


Representación gráfica de datos
EJEMPLO 3

La variable representa el peso (en g) de 191 monedas


de 1 euro.
TABLAS DE FRECUENCIAS
Representación gráfica de datos
EJEMPLO 3

HISTOGRAMA

Representación de las frecuencias relativas:

(%)
Representación gráfica de datos
EJEMPLO 3
- Representación de las frecuencias relativas
acumuladas:

(%)
Representación gráfica de datos
Boxplot o diagrama de caja y bigotes
Es una representación gráfica de un conjunto de datos que consta de dos
partes, la caja y los bigotes.
Se puede representar en horizontal o vertical
Representación gráfica de datos
Boxplot o diagrama de caja y bigotes
Ofrece información sobre la simetría, concentración y dispersión de los
datos, y sobre la existencia de datos atípicos

Para representar este gráfico es necesario conocer


la mediana, el primer y tercer cuartil y calcular los
límites inferior y superior.
Representación gráfica de datos
Diagramas de dispersión

Sirve para mostrar la relación entre dos variables continuas (puede existir una clara
relación o no haber ninguna)
Representación gráfica de datos
Diagramas de dispersión
Aunque exista una correlación, ello no implica causalidad!!!
EJERCICIO 1
Unos grandes almacenes disponen de un aparcamiento para sus clientes. Los siguientes
datos que se refieren al número de horas que permanecen en el aparcamiento una serie
de coches:

Calcula:
1.Obtener la tabla de frecuencias del conjunto de datos e interpretar la tabla.
2. Representa gráficamente los datos mediante diagrama de barras.
Unidad 1.
Medidas centrales y de dispersión

Distribución de datos
Medidas de tendencia central
Medidas de dispersión
Estadística Descriptiva
Presentación
Distribución
Datos

Análisis Univariable
Media

Tendencia
Mediana
central

Moda

Desviación típica

Dispersión Varianza

Rango
Medidas de tendencia central y
posición
Media: normalmente se usa la media aritmética, que es el valor promedio de todas las
observaciones de la muestra.

Mediana: es el valor que queda en medio cuando ordenamos los datos de la muestra en orden
creciente (de menor a mayor).

Moda: es el valor que se repite con mayor frecuencia.

Cuantil: punto que divide los datos en n intervalos regulares


Medidas centrales. Media
Valor promedio de todas las observaciones de la muestra.

Si tenemos un con junto de datos 𝑥1 , 𝑥2 , 𝑥3 . . . 𝑥𝑁 no agrupados, la media se calcula como:


1 𝑁
𝑥 = ∑ 𝑥𝑖
𝑁 𝑖=1

En el caso de tener datos agrupados en una tabla de frecuencia:

1 𝑁
𝑥 = ∑ (𝑥𝑖 ⋅ 𝑛𝑖 ) =
𝑁 𝑖=1
Medidas centrales. Media
Inconvenientes de la media:
• No tiene sentido su cálculo en variables cualitativas

• Sensible a valores extremos.


Ej: salarios. 𝑋1 ={900, 950, 1000, 1000, 1050, 1100, 1200} 𝑋1 ≈ 1028
𝑋2 = {900, 950, 1000, 1000, 1050, 1100, 8000} 𝑋2 = 2000

• No recomendable como medida central en distribuciones muy asimétricas.

• Tiene las mismas unidades que la variable de estudio

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Ventaja: buenas propiedades matemáticas Media = 5.0

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Media = 6.8
Medidas centrales. Mediana
Es un valor que divide a los datos en dos grupos con el mismo número de individuos.

Para calcularla:
• ordenamos los datos de menor a mayor.
• si el número de datos es impar, la mediana es el dato que se sitúa justo en el
medio.
• si el número de datos es par, la mediana es la media de los dos datos centrales.

Ventajas e inconvenientes: 0 1 2 3 4 5 6 7 8 9 10
Mediana = valor central = 5

• Conveniente cuando los datos son asimétricos. 0 1 2 3 4 5 6 7 8 9 10


Mediana = media del valor (n/2) y (1 + n/2) =
=(3+5)/2=4

• No es sensible a valores extremos.


Ej: salarios. 𝑋1 = }1200 ,1100 ,1050 ,1000 ,1000 ,950 ,900{𝑀𝑒1 = 1000
𝑋2 = }8000 ,1100 ,1050 ,1000 ,1000 ,950 ,900{ 𝑀𝑒2 = 1000

¡Propiedades matemáticas complicadas!


Medidas centrales. Moda

• Es el valor más frecuente, el que más se repite.


• En datos agrupados, es la clase más frecuente.
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6
• Puede no existir moda, haber una, o varias.
No hay moda
Moda = 9
• Muy útil para variables cualitativas
• La presencia de varias modas puede indicar la existencia de varios
grupos.

Bimodal
Unimodal
EJERCICIO 2
En un experimento psicológico, fue registrado el tiempo de un trabajo
para 10 personas bajo una limitación de 5 minutos. Estas mediciones
son en segundos:

1. Encuentra el tiempo promedio de trabajo.


2. Encuentra la mediana y la moda del tiempo de trabajo.
3. Si estás escribiendo un informe para describir estos datos. ¿qué
medida de tendencia central usaría? Justifica la respuesta.
EJERCICIO 2
Media:
175 + 190 + 250 + 230 + 240 + 200 + 185 + 190 + 225 + 265
𝑥ҧ = = 215 𝑠
10

Mediana:
1) Ordenar los datos de mayor a menor:
175 185 190 190 200 225 230 240 250 265

2) Calcular el centro de los datos:


En este caso tenemos 10 datos, es un número par, por tanto, la Mediana será
el número de la posición
5 y 6.

200 + 225
𝑀𝑒 = = 212,5 𝑠
2
Moda: valor que más se repite:
Mo = 190 s
Medidas de posición (Cuantiles)
CUARTILES

Son valores no centrales muy importantes de las distribuciones.


Son valores de la variable (𝑄1 , 𝑄2 𝑦 𝑄3 ) que dividen a la distribución en 4 partes,
cada una de las cuales engloba el 25 % de las mismas.

𝑄1 = Primer cuartil

𝑄2 = Segundo cuartil
𝑄3 = Tercer cuartil

𝑄3 − 𝑄1 = Rango intercuartílico (medida de dispersión)


Medidas de posición (Cuantiles)
CUARTILES

Posición del cuartil i i⋅(n+1)


Qi = con i=1,2,3
4
Medidas de posición (Cuantiles)
CUARTILES

i  (n+1)
Qi )=
4
Calcular el Q1 = P25

1º Posición del Q1 = (1 (20+1))/4 = 5.25

2º Calcular el valor: (en este caso la posición es decimal y deberemos


buscar el valor exacto con la fórmula):

Valor: Q1 = 28 + 0,25*(29-28) = 28.25


Medidas de dispersión
EJEMPLO

Menor dispersión
Igual media

Mayor dispersión
Igual media
Medidas de dispersión
EJEMPLO
Los valores 0 y 10 tienen como media 5.
Los valores 5 y 5 tienen como media 5.
En ambos casos tienen la misma media, sin embargo los conjuntos son diferentes.

En ocasiones, conocer sólo la media no nos da una idea de cómo están repartidos
el resto de valores entorno a ella.

¿están cerca o lejos de la media?


Medidas de dispersión
VARIANZA
Mide el promedio de las desviaciones (al cuadrado) de las observaciones con
respecto a la media.
Para datos no agrupados la varianza de un conjunto de datos 𝑥1 , 𝑥2 , 𝑥3 , … 𝑥𝑛 es:

𝑛
2
1 ¯ 2 Distancia
𝜎𝑥 = ෍(𝑥𝑖 − 𝑥 ) cuadrática
𝑁
𝑖=1

• Una manera fácil de calcular la varianza es utilizar el desarrollo:

𝑛
2
1 2 ¯ 2
𝜎𝑥 = ෍(𝑥𝑖 ) − 𝑥
𝑁
𝑖=1
Medidas de dispersión
VARIANZA POBLACIONAL VS MUESTRAL

• Para datos no agrupados la varianza poblacional de un conjunto de datos 𝑥1 , 𝑥2 , 𝑥3 , … 𝑥𝑁 (toda la población)


es:

𝑁
2
1 ¯ 2
𝜎 = ෍(𝑥𝑖 − 𝑥 )
𝑁
𝑖=1

• Para datos no agrupados la varianza muestral de un conjunto de datos 𝑥1 , 𝑥2 , 𝑥3 , … 𝑥𝑛 (muestra de la


población) es:

𝑛
2
1 ¯ 2
𝑠 = ෍(𝑥𝑖 − 𝑥 ) Estimador insesgado de la
𝑛−1 varianza poblacional
𝑖=1
Medidas de dispersión
DESVIACIÓN TÍPICA
Para lograr una medida de la distancia media calculamos la raíz cuadrada
de la varianza:

1 2
𝜎= ෍ 𝑥𝑖 − 𝑥ҧ
𝑁

Tiene las mismas unidades que la variable estadística y es en general más


“tangible”.
Medidas de forma
COEFICIENTE DE ASIMETRÍA

• El coeficiente de asimetría mide la simetría de los datos respecto de la


media. Se define como:

¯ 3 𝑥1 , 𝑥2 , 𝑥3 , … 𝑥𝑁 constituye toda la
𝑁
1 ∑𝑖=1(𝑥𝑖 − 𝑥) población
𝐴𝑠 = 3 𝜎 es la desviación típica
𝑁 𝜎

As = 0
As > 0 As < 0
Medidas de forma
CURTOSIS

• El coeficiente de curtosis mide el apuntamiento de los datos. Se define


como:

𝑁 ¯ 4 𝑥1 , 𝑥2 , 𝑥3 . . . 𝑥𝑁 constituye toda la población


1 ∑𝑖=1(𝑥𝑖 − 𝑥) 𝜎 es la desviación típica
𝐾= 4
𝑁 𝜎

Leptocúrtica K>3

Mesocúrtica K=3 Distribución Gaussiana

Platicúrtica K<3
Diagrama de caja y bigotes
• 𝑄1 = Primer cuartil
• 𝑄2 = Segundo cuartil = Mediana
• 𝑄3 = Tercer cuartil
• R = 𝑄3 − 𝑄1
(Rango intercuartílico)

• 𝐿𝑚𝑎𝑥 de los bigotes = 1.5 x R

• Valores atípicos:
Valores tal que > 𝑄3 + 1.5 × 𝑅
Valores tal que < 𝑄1 − 1.5 × 𝑅

• Extremos del bigote:


Máx valor tal que < 𝑄3 + 1.5 × 𝑅
𝑥𝑚𝑖𝑛 𝑥𝑚𝑎𝑥 Mín valor tal que > 𝑄1 − 1.5 × 𝑅
Ejercicio Completo
En una clínica infantil se ha ido anotando, durante un mes, el número de metros
que cada niño anda, seguido y sin caerse, el primer día que comienza a caminar,
obteniéndose la tabla de información de a continuación:

Nº de
1 2 3 4 5 6 7 8
metros

Nº de
2 6 10 5 10 3 2 2
niños

Calcula:
1) Tabla de frecuencias y diagrama de barras para la frecuencia relativa absoluta.

2) Media, mediana, moda y el Q3

3) Varianza y desviación típica


Ejercicio Completo
xi ni fi Ni Fi xi*ni xi^2*ni
1 2 0,05 2 0,05 2 2
2 6 0,15 8 0,2 12 24
3 10 0,25 18 0,45 30 90
4 5 0,125 23 0,575 20 80
5 10 0,25 33 0,825 50 250
6 3 0,075 36 0,9 18 108
7 2 0,05 38 0,95 14 98
8 2 0,05 40 1 16 128

suma 40 suma 162 780

media 4,05 m varianza 3,10 m^2


moda 3 y 5 m desv tip 1,76 m
mediana 4 m

posición
30,75
cuartil 3
valor cuartil
5 m
3
Estadística
Descriptiva.
Bivariante
Estadística descriptiva
bivariante
Vamos a medir dos (o más) características (variables) sobre cada individuo.

Las variables pueden ser cuantitativas o cualitativas, combinadas de todas las formas posibles
(cuantitativa-cuantitativa, cuantitativa-cualitativa, continua-discreta, etc.)

Una muestra de la población consistirá en pares ordenados (x,y) de ambas características


observadas sobre cada individuo.

Llamaremos distribución conjunta de frecuencias de dos variables (X e Y) a la tabla que


representa los valores observados de frecuencias absolutas o relativas de cada par.
Descripción de los datos
Tabla bivariante

Si para cada individuo tenemos dos datos, podemos construir una tabla
de doble entrada.

EJEMPLO : Se han estudiado el peso ( X ) y la altura ( Y ) de 70


individuos, obteniéndose los datos de la siguiente tabla
(cuantitativa-cuantitativa)
Pesos/tal
159-161 161-163 1636-165 165-167 167-169 169-171
las
48 3 2 2 1 0 0
51 2 3 4 2 2 1
54 1 3 6 8 5 1
57 0 0 1 2 8 3
60 0 0 0 2 4 4
Tablas de frecuencia - tablas de
contingencia
Pesos/tal
159-161 161-163 1636-165 165-167 167-169 169-171
las
48 3 2 2 1 0 0
51 2 3 4 2 2 1
54 1 3 6 8 5 1
57 0 0 1 2 8 3
60 0 0 0 2 4 4

En cada celda tenemos la frecuencia conjunta, Fi,j , es decir, el


número de individuos que presentan simultaneamente las características xi e
yj
Tablas de frecuencia/contingencia
En una tabla de doble entrada, la suma de todas las frecuencias relativas absolutas es ....

Pesos/t 1636- Total

Marginales de x
159-161 161-163 165-167 167-169 169-171
allas 165 filas
48 3 2 2 1 0 0 8
51 2 3 4 2 2 1 14
54 1 3 6 8 5 1 24
57 0 0 1 2 8 3 14
60 0 0 0 2 4 4 10
Total
column 6 8 13 15 19 9 70
a

Marginales de y
Tabla de frecuencia relativa
Para construir la tabla bivariante anterior con las frecuencias
relativas simples, hay que dividir por cada frecuencia por el
número total de datos.

Pesos/t 1636- Total


159-161 161-163 165-167 167-169 169-171
allas 165 filas
48 0,043 0,029 0,029 0,014 0,000 0,000 0,114
51 0,029 0,043 0,057 0,029 0,029 0,014 0,200
54 0,014 0,043 0,086 0,114 0,071 0,014 0,343
57 0,000 0,000 0,014 0,029 0,114 0,043 0,200
60 0,000 0,000 0,000 0,029 0,057 0,057 0,143
Total
column 0,086 0,114 0,186 0,214 0,271 0,129 1,000
a

En una tabla de doble entrada, la suma de todas las frecuencias


relativas es ....
Datos bivariables

Distribuciones marginales
Se obtienen al estudiar una de las variables de forma independiente de la otra.

La distribución de la variable X se calcula sumando, para cada fila y sobre todas las
columnas, las frecuencias conjuntas.

La distribución de la variable Y se calcula sumando, para cada columna y sobre todas las
filas, las frecuencias conjuntas.
Datos bivariables
Frecuencias
marginales

Pesos/t 1636- Total


159-161 161-163 165-167 167-169 169-171
allas 165 filas
48 3 2 2 1 0 0 8
51 2 3 4 2 2 1 14
54 1 3 6 8 5 1 24
57 0 0 1 2 8 3 14
60 0 0 0 2 4 4 10
Total
column 6 8 13 15 19 9 70
a
Datos bivariables
Distribución marginal de la variable pesos:

Pesos ni
48 8
51 14
54 24
57 14
60 10
Total 70
Datos bivariables
Distribuciones condicionadas

Se obtienen al estudiar un conjunto más pequeño de los datos


formado por aquellos que tienen, por ejemplo, la característica xi,
con i = 1,...r , o la característica yj, con j = 1,...s.
Si consideramos los datos que tienen la característica yj , la
variable definida sobre este conjunto se denomina variable
condicionada, y se suele denotar mediante X | Y = yj
Datos bivariables
Pesos/tal
159-161 161-163 163-165 165-167 167-169 169-171
las
48 3 2 2 1 0 0
51 2 3 4 2 2 1
54 1 3 6 8 5 1
57 0 0 1 2 8 3
60 0 0 0 2 4 4
Frecuencias absolutas condicionadas (al
valor de la fila o la columna)

X/Y= 167-169
48 0
51 2
54 5
57 8
60 4
Datos bivariables

Frecuencias relativas de la TALLA Frecuencias relativas del PESO


condicionada al PESO=54 Condicionado a la ALTURA :169-171

Y/X=54 𝒇(𝒚𝒋 Τ𝒙 = 𝟓𝟒) X/Y=169-171 𝒇(𝒙𝒊 Τ𝒚 = 𝟓𝟒)


159-161 1/24 48 0/24
161-163 3/24 51 1/24
163-165 6/24 54 1/24
165-167 8/24 57 3/24
167-169 5/24 60 4/24
169-171 1/24 TOTAL 1
TOTAL 1
Independencia entre
variables
El gran interés de analizar dos variables conjuntamente es conocer
si existe o no una relación entre ellas.

Los dos casos extremos en la relación de dos variables son:

- La ausencia de relación: Independencia


El conocimiento de una variable no permite conocer nada sobre
la otra variable.

- El caso de dependencia funcional Y= f(x)


y depende funcionalmente de X, si el conocimiento de X
permite conocer, de forma exacta, los valores que toma Y.
Independencia entre
variables
Entre estos dos casos extremos anteriores, existen un tipo de
relaciones, que son las que nos van a interesar estudiar en
muchos casos:

- Sabemos que dos variables están relacionadas, pero no


existe una dependencia funcional exacta.
Este es el caso de dependencia estadística, en el que
se puede describir, aproximadamente, el comportamiento de una
variable a partir de otra y otras variables Y ≈f(X).

Toda la información sobre la relación entre dos variables la


provee la función de distribución conjunta. Además, basada en
dicha distribución, existen una serie de medidas que nos van
a servir para analizar esta relación
Descripción gráfica de datos
bivariados
La representación más útil para mostrar la relación entre dos
variables continuas sin agrupar es el diagrama de dispersión.

Cada par se representa como un punto del plano cartesiano

80
70
60
50
Tiempo (h)

40
30
20
10 r=-0,95
0
140 150 160 170 180 190 200

Velocidad (km/h)
Descripción gráfica de datos
bivariados
Analizamos los caballos de fuerza (horsepower) de 155 coches
frente al gasto de gasolina (mpg = milla por galón)

La millas
recorridas
parecen
reducirse al
aumentar el
número de
caballos
Relación entre variables

Relación lineal negativa Relación lineal positiva


Relación entre variables

Ausencia de relación Relación no lineal


Medidas de dependencia lineal
Las dos medidas más utilizadas para cuantificar el grado y sentido
de la dependencia lineal son:

Nos indica si la relación entre las variables es


positiva o negativa.
• Covarianza
Su magnitud depende de las unidades.

Si las variables son estadísticamente independientes


entonces la covarianza es nula.

𝑥𝑖 → 𝑣𝑎𝑙𝑜𝑟𝑒 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑥
σ 𝑥𝑖 − 𝑥ҧ (𝑦𝑖 − 𝑦)
ത σ(𝑥𝑖 ∗𝑦𝑖 ) 𝑦𝑖 → 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑦
𝑐𝑜𝑣 𝑥, 𝑦 = = - 𝑥ҧ 𝑦ത
𝑁 𝑁
𝑥ҧ → media de la variable x

𝑦ത → media de la variable y
Medidas de dependencia
lineal Tiene el mismo signo que la covarianza.
No mide las relaciones no-lineales

Decimos que las variables son incorreladas si r= 0


• Correlación
Hay relación lineal perfecta si r = 1 o r = -1

Cuanto más cerca esté de 1 o -1 mejor será el grado de


relación lineal.

r puede tener valores entre -1 y 1

𝜎𝑥 = 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑡í𝑝𝑖𝑐𝑎 𝑑𝑒 𝑥
𝐶𝑜𝑣 (𝑥,𝑦) 𝜎𝑦 = desviación típica de y
𝑟= 𝐶𝑜𝑣 𝑥, 𝑦 = 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎
𝜎𝑥 𝜎𝑦
Coeficientes de correlación
Recta de regresión
Buscamos la ecuación de una recta
que “aproxime lo mejor posible” a
todos los puntos
Recta de regresión
Si sólo tenemos dos puntos, hay una
única recta que pasa por ellos
Recta de regresión
En este caso es imposible que una recta
pase por todos los puntos.
¿Cuál elijo?
Recta de regresión

Valor
observado Error de
Valor predicho predicción
por la recta

Error de predicción =
Recta de regresión
Recta de regresión
Observaciones
La recta de regresión siempre pasa por el punto (x¯, y¯)

Si la pendiente es positiva (covarianza es positiva), valores


grandes de la variable, se relacionarán con valores grandes de la
variable (dependencia positiva).

Si es negativa, valores grandes de la variable X se relacionarán


con valores pequeños de Y (dependencia negativa).
Recta de regresión
Ejemplo
La variable V1 tiene la velocidad del viento registrada en la localización 1, mientras
que la variable V2 tiene las velocidades registradas en esos mismos instantes en la
localización 2. Se tiene un total de 115 pares de medidas.

Loc.1 Loc.2
media: 2,51 media: 3,28
varianza: 1,91 varianza: 2,36

cov(V1,V2) = 1.995

En la localización 1 se va a establecer un sistema informático para la telemedida de la


velocidad del viento, pero no para la localización 2. Se quiere calcular la recta de regresión
que permita predecir la velocidad de la Localización 2 conociendo la de la Localización 1.
Recta de regresión. Ejemplo

Si, por ejemplo, en la Localización 1 se mide una velocidad de


viento de 5 m/s, la predicción en la Localización 2 es de un
viento de
0.657+1.045x5=5.88 m/s

También podría gustarte