Correlação

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 18

Correlação e Regressão

1. Introdução
• Quando consideramos variáveis como peso e altura de um grupo de
pessoas, uso do cigarro e incidência do câncer, vocabulário e
compreensão da leitura, procuramos verificar se existe alguma
relação entre as variáveis e qual o grau dessa relação.
• Sendo a relação entre as variáveis de natureza quantitativa, o
instrumento adequado para descobrir e medir essa relação é a
correlação.
• O estudo da relação entre duas variáveis qualitativas pode ser feito
pelo teste Qui-Quadrado (veremos mais adiante).
1. Introdução
• Uma vez caracterizada a relação, procuramos descrevê-la através de
uma função matemática. A regressão é o instrumento adequado para
a determinação dos parâmetros dessa função.

• Correlação: mede o grau de associação linear entre duas variáveis


quantitativas (X e Y).

• Regressão: descreve a relação entre X e Y por meio de um modelo


estatístico, chamado Modelo de Regressão Linear Simples (MRLS).
2. Relação funcional e Relação Estatística
Área e lado de um quadrado: A = 𝑙 2
Atribuindo um valor qualquer a l, é possível determinar exatamente a
área.
Relação entre Peso e Altura de um grupo de pessoas
Alturas iguais correspondem a pesos diferentes ou alturas diferentes
correspondem a pesos iguais.
2. Relação funcional e Relação Estatística
Área e lado de um quadrado: A = 𝑙 2 Relação funcional

Peso e altura de um grupo de pessoas Relação estatística

Quando duas variáveis estão ligadas por uma relação estatística,


dizemos que existe correlação entre elas.

A relação entre as duas variáveis (X, Y) pode ser explicada pelo


gráfico diagrama de dispersão.
2. Diagrama de Dispersão
Consideremos, por exemplo, uma amostra aleatória de 5 alunos de
uma determinada turma de Estatística Básica, em que foram
observadas, dentre outras variáveis, as notas e o número de faltas
de cada aluno.

Aluno (nº) 1 8 25 30 12
Nº de Faltas (X) 2 6 60 6 0
Notal Final (Y) 10,0 7,0 0,0 8,0 9,0
2. Gráfico: Diagrama de Dispersão
12
10
8

Nota Final
6
4
2
0
0 20 40 60 80
Nº de Faltas

Indica uma relação negativa entre o número de faltas e a nota, ou


seja, a medida que nº de faltas aumenta, a nota tende a diminuir.
2. Gráfico: Diagrama de Dispersão
Correlação linear positiva: pontos do diagrama têm como
“imagem” uma reta ascendente.
Correlação linear negativa: pontos do diagrama têm como
“imagem” uma reta descendente.
Correlação não-linear: pontos do diagrama têm como
“imagem” uma curva.
Se os pontos apresentam-se dispersos, concluímos que não há
relação alguma entre as variáveis.
2. Gráfico: Diagrama de Dispersão

Correlação linear positiva Correlação linear negativa Correlação não-linear


2. Gráfico: Diagrama de Dispersão

Não há Correlação
3. Coeficiente de correlação linear de Pearson (r)
O coeficiente de correlação foi proposto por Karl Pearson em
1896.
Mede o grau de associação linear entre duas variáveis
quantitativas (X, Y), e ainda, o sentido dessa correlação (positivo ou
negativo). O coeficiente de correlação de Pearson é dado por:
σ𝑥 × σ𝑦
σ 𝑥𝑦 −
𝑟= 𝑛
σ 𝑥 2 σ 𝑦 2
σ 𝑥2 − × σ 𝑦2 −
𝑛 𝑛
n é o número de observações (pares ordenados).
O coeficiente de correlação (r) varia entre -1 e +1.
Calcule o coeficiente de correlação de Pearson para os dados
abaixo:
Nº de faltas (X) Nota final (Y)
2 10
6 7
60 0 𝑛=5
6 8
0 9

A maneira mais prática para calcular o coeficiente de correlação é


abrir, na tabela, colunas correspondentes aos valores de XY, X² e Y².
Nº de faltas (X) Nota final (Y) X×𝑌 𝑋2 𝑌2
𝑛=5 2 10 20 4 100
6 7 42 36 49
60 0 0 3600 0
6 8 48 36 64
0 9 0 0 81

෍ = 74 ෍ = 34 ෍ = 110 ෍ = 3676 ෍ = 294


Logo:

74 × 34
110 − −393,2 −393,2
𝑟= 5 = = = −0,977
742 342 2580,8 × 62,8 402,58
3676 − × 294 −
5 5

r = -0,977 indica uma correlação linear negativa altamente


significativa entre as duas variáveis (Nº de faltas e Nota).
3. Coeficiente de correlação linear de Pearson (r)
• Se r = +1, há uma correlação perfeita e positiva entre as variáveis.
• Se r = -1, há uma correlação perfeita e negativa entre as variáveis.
• Se r = 0, não há correlação, ou a relação que porventura exista não é
linear.
• Se 0,6 ≤ 𝑟 ≤ 1 , podemos concluir que a correlação entre as
variáveis é significativa.
• Se 0,3 ≤ 𝑟 < 0,6, há uma correlação relativamente fraca entre as
variáveis.
• Se 0 ≤ 𝑟 < 0,3, a correlação não é significativa, ou seja, nada
podemos concluir sobre a relação entre ambas as variáveis.
4. Diagrama de dispersão e r.
10 10
8 8
6 6
Nota

Nota
4 4
2 2
0 0
0 2 4 6 8 10 0 2 4 6 8 10
Horas de Estudo Nº de Faltas

Correlação positiva perfeita Correlação negativa perfeita


r=1 r=-1
4. Diagrama de dispersão e r.
12 12
10 10
8 8
Nota

Nota
6 6
4 4
2 2
0 0
0 2 4 6 8 10 0 2 4 6 8 10
Horas de Estudo Nº de Faltas

Correlação positiva Correlação negativa


r positivo r negativo
4. Diagrama de dispersão e r.

5
34
4 31

Temperatua
3 28
Y

2 25
22
1 19
0 16
0 2 4 6 8 10 0 5 10 15 20 25
X Hora

Correlação nula Correlação não linear


r=0 r=0

Você também pode gostar