Power de Correlación y Regresión

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 36

CORRELACIÓN

COEFICIENTES: r de Pearson,
Spearman y Q de Kendall
REGRESIÓN LINEAL
RECTAS DE REGRESIÓN
CORRELACIÓN LINEAL PARA
VARIABLES CUANTITATIVAS
Se considera que dos variables cuantitativas están relacionadas
entre sí cuando los valores de una de ellas varían de forma
sistemática con respecto a los valores de la otra. Dicho de otro
modo, si tenemos dos variables, X e Y, existe relación entre ellas si al
aumentar o disminuir los valores de X también lo hacen los de Y, o
por el contrario si al aumentar los valores de X disminuyen los de Y.
Definición de Correlación
La correlación es una medida descriptiva mide la co-variación de dos
variables.
• La correlación es la medición del grado y el sentido en el que pares
de valores relacionados en dos variables tienden a cambiar juntos.
También proporciona una medición del grado en que pueden
predecirse los valores en una variable, a partir de los valores de la
otra variable.
Recuerde: no significa que entre las dos variables
exista una relación de causa – efecto.
¿Cómo comprobar si hay relación entre las variables?

• El gráfico de dispersión es la manera más sencilla de


comprobar la relación entre las dos variables, pudiendo esta
adoptar diferentes formas.

• El método más usual para medir la intensidad de la relación


lineal entre dos variables es la correlación producto-momento
o coefi-ciente de correlación de Pearson.
CORRELACIÓN ENTRE VARIABLES
CUANTITATIVAS

• Los componentes fundamentales de una relación entre dos variables


cuantitativas son:
• La Fuerza

• El Sentido

• La Forma
El coeficiente de Correlación de Pearson se utiliza en el nivel intervalar
y racional.
CORRELACIÓN ENTRE VARIABLES CUANTITATIVAS

• La fuerza mide el grado en que los pares de observaciones quedan representados en una
línea. Si la nube de observaciones es estrecha y alargada, una línea recta representará
adecuadamente a la nube de puntos y a la relación y por tanto ésta será fuerte.

• El sentido de la relación se refiere a cómo varían los valores de Y con respecto a X . Si al


crecer o disminuir los valores de la variable X lo hacen los de Y, será una relación positiva o
directa. Si al aumentar X, disminuye Y, será una relación negativa o inversa.

• La forma establece el tipo de línea a emplear para definir el mejor ajuste. Se pueden
emplear tres tipos de líneas: una línea recta, una curva monotónica o una curva no
monotónica.
CONDICIONES PARA LA APLICACIÓN DEL
COEFICIENTE r de PEARSON

• Variables cuantitativas: Ambas variables examinadas han de ser


cuantitativas. Para variables ordinales se puede usar el coeficiente de
Spearman.

• Normalidad: La normalidad de ambas variables es un requisito en el caso


del coeficiente de correlación de Pearson, pero no en el de Spearman.

• Independencia: Las observaciones han de ser independientes, es decir,


sólo hay una observación de cada variable para cada individuo.
GRÁFICO DE DISPERSIÓN

• El diagrama de dispersión es simplemente un gráfico de


dos dimensiones, donde en un eje (la abscisa) se grafica
una variable (independiente), y en el otro eje (la ordenada)
se grafica la otra variable (dependiente). Si las variables
están correlacionadas, el gráfico mostraría algún nivel de
correlación (tendencia) entre las dos variables. Si no hay
ninguna correlación, el gráfico presentaría una figura sin
forma, una nube de puntos dispersos en el gráfico.
CORRELACIÓN POSITIVA
CORRELACIÓN PERFECTA POSITIVA

r=+1
CORRELACIÓN LINEAL NEGATIVA
CORRELACIÓN PERFECTA NEGATIVA
CORRELACIÓN NULA
EJEMPLO DE CORRELACIÓN POSITIVA

ALUMNOS X Y DIAGRAMA DE DISPERSIÓN

NOTAS DEL PARCIAL DE PSICOLOGÍA II


A 4 2 10
9
B 5 4 8
7
C 6 5
6
D 6 6 5
4
E 7 8 3
2
F 9 9 1
0
G 10 9 0 2 4 6 8 10 12
NOTAS DEL PARCIAL DE ESTADÍSTICA

r =+0,94
EL COEFICIENTE DE CORRELACIÓN LINEAL
r de PEARSON

• El Coeficiente de Correlación Lineal de Pearson es un índice estadístico que permite


medir la fuerza de la relación lineal entre dos variables. Su resultado es un valor que
fluctúa entre - 1 (correlación perfecta de sentido negativo) y +1 (correlación
perfecta de sentido positivo), pasando por 0 (correlación nula). Cuanto más
cercanos a 0 sean los valores, indican una mayor debilidad de la relación o incluso
ausencia de correlación entre las dos variables.

Fórmula:
Ʃ(x-Mx)(y-My)
r= --------------------
N. Sx. Sy
EL COEFICIENTE DE CORRELACIÓN LINEAL
DE PEARSON
• Se simboliza: r
• El signo indica la dirección de la correlación (positiva o negativa) y el valor numérico, la
magnitud o grado de la correlación. Ejemplo:
-0, 90 = Correlación negativa muy fuerte
Cuando se trabaja con programas de análisis estadístico en PC, reportan si el coeficiente de
correlación es significativo o no, de la siguiente manera:
s = 0,001 (significancia)
r = 0,7831 ( valor del coeficiente de correlación)
Si “s” es menor del valor 0,05, se dice que el coeficiente es significativo al nivel de 0,05 (
95% de confianza de que la correlación sea verdadera y 5% de probabilidad de error). Si “s”
es menor a 0,01, el coeficiente es significativo al nivel de 0,01 (99% de confianza de que la
correlación sea verdadera y 1% de probabilidad de error).
INTERPRETACIÓN DE R DE PEARSON

r CORRELACIÓN RELACIÓN
• 0.00 - 0.20 pequeña muy poco intensa
• 0.20 - 0.40 baja pequeña pero apreciable
• 0.40 - 0.60 mediana considerable
• 0.60 - 0.80 alta intensa
• 0.80 – 0.99 muy alta muy intensa
• +/– 1 perfecta perfecta
Q de Kendall
• Se utiliza para saber si dos variables dicotómicas (tienen dos
categorías mutuamente excluyentes), medidas en el nivel nominal
está relacionadas.
Fórmula: A.D-B.C
Q=-------------
A.D+B.C
EJEMPLO
FUMA

SEXO SI NO

VARÓN 10 A 40 B

MUJER 30 C 25 D

TOTAL 40 65
Coeficiente de Spearman
CORRELACIÓN POR RANGO DE SPEARMAN (estadística no
paramétrica)

• Se utiliza en el nivel de medición de las variables: Ordinal

• Desventaja: es una prueba no paramétrica y por tanto sufre todas las


debilidades asociadas a estas pruebas.
• Ventaja: Es sencilla de calcular y puede utilizarse con datos que no son de
intervalos. La característica es orden para poder establecer los rangos.
EJEMPLO
ALUMNOS X Y

A 1 3
La siguiente tabla muestra el rango u orden obtenido en el primer
B 2 4 examen de Estadística (X) y el rango u orden obtenido en el segundo
C 3 1 examen de Estadística (Y) de 8 estudiantes universitarios.
D 4 5

E 5 6

F 6 2

G 7 8

H 8 7
EJEMPLO
X Y d=X_Y d2 (X-Y)2
1 3 -2 4
2 4 -2 4
3 1 2 4
4 5 -1 1
5 6 -1 1
6 2 4 16
7 8 -1 1
8 7 1 1
∑=32
REGRESIÓN
• La regresión es su forma más sencilla se llama regresión lineal
simple. Se trata de una técnica estadística que analiza la relación
entre dos variables cuantitativas, tratando de verificar si dicha
relación es lineal.
• Si tenemos dos variables hablamos de regresión simple, si hay más
de dos variables regresión múltiple.
• Su objetivo es explicar el comportamiento de una variable Y, que
denominaremos variable explicada (o dependiente), a partir de otra
variable X, que llamaremos variable explicativa (o independiente).
REGRESIÓN LINEAL

• Definición: Es un modelo matemático para estimar el efecto de una variable sobre otra. Esta asociado con el
coeficiente r de Pearson.
• Es la estimación de una recta que mejor se ajusta a las observaciones. Esta recta se obtiene aplicando el criterio
de los cuadrados mínimos, lo que significa que la suma de las distancias de cada punto a la recta teórica,
elevados al cuadrado, será un valor mínimo.
• Variables: Dos. Una se considera como independiente y otra como dependiente. La regresión supone que hay una
variable fija, controlada por el investigador (es la variable independiente o predictora), y otra que no está
controlada (variable respuesta o dependiente). La correlación supone que ninguna es fija: las dos variables están
fuera del control de investigador.
• Nivel de Medición: Intervalar y Racional.

• Ecuación de la recta: Y = a + b.x, donde Y es un valor de la variable dependiente que se desea predecir, “a” es la
ordenada en el origen (distancia donde la recta corta el eje Y desde el origen). “b” la pendiente y “x” la valor de la
variable independiente.
Criterio de los mínimos cuadrados

• Para el cálculo de la recta de regresión se aplica el método de


mínimos cuadrados entre dos variables. Es aquella recta en la que
las diferencias elevadas al cuadrado entre los valores calculados
por la ecuación de la recta y los valores reales de la serie, son las
menores posibles.
FÓRMULAS DE LAS RECTAS DE
CUADRADOS MÍNIMOS

• Se obtienen dos rectas de regresión Yx (variable


independiente X; variable dependiente Y) y la recta
Xy (variable independiente Y; variable dependiente
X).
RECTAS DE REGRESIÓN
• Para estimar Y a partir de X, siendo la variable independiente X
Sy
Yx=r ------ (X-Mx)+My
Sx
• Para estimar X a partir de Y, siendo la variable independiente Y
Sx
Xy=r ------ (Y-My)+MX
Sy
ESTIMACIÓN PREDICTIVA
• Cuando se supone que dos variables se encuentran relacionadas de algún modo, se
toma una muestra de la población y se establece la correlación de Pearson para las
dos variables en cuestión, además se establecen las rectas predictivas. Ahora bien,
las predicciones que se realizan no son para los sujetos de las muestras que
conocemos, sino para cualquier sujeto perteneciente a la misma población.
• Si se intenta realizar un pronóstico sobre cualquier sujeto de la población que ha
obtenido un determinado puntaje en una de las variables estudiadas y se intenta
saber cuál será el puntaje más probable que tenga en la otra, deben realizarse varias
suposiciones:
• 1.- Que la muestra haya sido tomada al azar de la población (Muestreo
probabilístico)
• 2.- Que las dos variables se distribuyan normalmente.
ECUACIÓN DE LA RECTA DE REGRESIÓN

DIAGRAMA DE DISPERSIÓN
12

y = 1.1771x - 1.7604
10
R 2 = 0.8867
Notas del parcial de Psicología II

0
0 2 4 6 8 10 12
Notas del parcial de Estadística
PREDECIR EL VALOR DE Y CUANDO X VALE 5

•Yx=bx-a y = 1,1771x -1,7604


•Ye=1,1771.5-1,7604=4,12
Una persona que obtuvo 5 en el parcial de Estadística se estima que se va a sacar
4,12 en el parcial de Psicología II.
•Siempre que la correlación no sea perfecta se comente un error en la
estimación, que lo podemos calcular con el error de estimación predictiva:
•S(est.y)=Sy + √1-r2=0,985 Al valor estimado de y=4,12 le sumanos y
restamos una vez el error típico =0,985, por lo tanto hay una probabilidad de 68,
34% que el verdadero valor de y estará entre 5,10 y 3,13
•Coeficiente de determinación=0,88 Es la proporción de variación de la
variable Y que es explicada por la variable X (variable predictora o explicativa)

R² = 0,8867
ERROR ESTÁNDAR DE ESTIMACIÓN
PREDICTIVA
Mide la dispersión alrededor de la recta de regresión

s(est y) = sy √1 – r2
INDICES PARA INTERPRETAR EL COEFICIENTE DE
CORRELACIÓN

Una pregunta importante que se plantea en el análisis de regresión es la


siguiente: ¿Qué parte de la variación total en Y se debe a la variación en X?
¿Cuánto de la variación de Y no explica X?

El estadístico que mide esta proporción o porcentaje se denomina coeficiente de


determinación (R2). Si por ejemplo, al hacer los cálculos respectivos se obtiene
un valor de 0.846. Esto significa que el modelo explica el 84.6 % de la variación
de la variable dependiente. Se interpreta como el porcentaje de covarianza o
varianza asociada, o porcentaje de varianza explicada por X o por Y.
COEFICIENTE DE DETERMINACIÓN
• Las características de este coeficiente son:
• R2 es una cantidad adimensional que sólo puede tomar valores en
[0, 1]
• Cuando un ajuste es bueno, R2 será cercano a uno (mayor será la
fuerza de asociación entre ambas variables)
• Cuando un ajuste es malo, R2 será cercano a cero (la recta no
explica nada, no existe asociación entre X e Y)
INDICES PARA INTERPRETAR EL COEFICIENTE DE
CORRELACIÓN

Coeficiente de alienación:
K=√1-r2 % de azar o incertidumbre en el pronóstico

Índice de eficiencia predictiva: o seguridad en el pronóstico


E=100 (1-K)
E=100 (1- √1-r2)

También podría gustarte