Acetatos EstatDescritiva AnáliseExploratória

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 86

Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Estatística Descritiva e Análise Exploratória de Dados

• 2.1. População e Amostra. Variáveis de Interesse.


• 2.2. Tabulação de Dados. Representações Gráficas.
• 2.3. Características Amostrais: Medidas de Localização, Dispersão,
Assimetria e Concentração.
• 2.4. Noção de Outlier. Diagrama de Extremos e Quartis.
• 2.5. Dados Bivariados: Representação Gráfica, Recta de Regressão
dos Mínimos Quadrados e Coeficiente de Correlação.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 1


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

2.1. População e Amostra. Variáveis de Interesse

Amostra aleatória

População

Amostra

Estatísticas (conhecidas)
Parâmetro (desconhecidos)

Inferência Estatística

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 2


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

População ou Universo: conjunto de elementos cujas características são


objecto de análise estatística.

Unidade estatística: cada um dos elementos que constitui a população.

Amostra: subconjunto representativo da população.

Dimensão da amostra: número de elementos que a forma, que designamos


por n.

Dado: valor da variável associado a determinado elemento da população ou


amostra. Pode ser ou um valor numérico, um símbolo ou um termo.

Estatística Descritiva: recolha, apresentação e descrição de colecções de


dados (através de tabelas e gráficos ou pela determinação de medidas
numéricas que sintetizem os dados).

Inferência Estatística: generalização das características observadas na


amostra para a população e avaliação do grau de incerteza associado à
respectiva generalização.
Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 3
Estatística I – Estatística Descritiva e Análise Exploratória de Dados

O objectivo último da Estatística é inferir, partindo da amostra as


características de interesse da população, desconhecidas à priori.
As amostras que fundamentam as inferências devem ser representativas da
população. A variabilidade presente na amostra deve reflectir a
variabilidade da população.

O estudo de uma população pode ser feito por:


Censo ou Recenseamento: todos os elementos da população são
analisados. Difícil de implementar, dispendioso e demorado.

Processo de Amostragem ou Sondagem: apenas os elementos da


amostra são analisados. Vantagens: praticabilidade, custo, rapidez,
precisão e exactidão.

Variável: quantifica, classifica ou nomeia a variação do atributo para cada


elemento da população ou da amostra (característica em estudo, seja x).

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 4


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Natureza das Variáveis:


Nominal
Qualitativa
Ordinal

Variável
Discreta
Quantitativa
Contínua

Qualitativas: categorizam (descrevem ou nomeiam) um elemento da


população. As operações aritméticas não fazem sentido, mesmo que os
dados observados sejam codificados numericamente.

Escala nominal: a ordem das categorias não tem significado.


Escala ordinal: a ordem das categorias tem significado.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 5


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Obs. O valor de uma variável qualitativa pode ser representado


numericamente. Por exemplo, o atributo “sexo” dá origem a duas
categorias: “mulher”, “homem”, podendo ser codificado: {mulher}≡ 0 e
{homem}≡ 1. Para o atributo “grau de satisfação com um produto”, para as
categorias “muito”, “pouco” e “nada”, existe uma ordem natural associada.

Quantitativas: quantificam um elemento da população recorrendo ao


valor numérico da intensidade observada.

Variável Discreta: se apenas assume um número finito de valores ou


uma infinidade numerável de valores. Os dados numéricos referem-se
a processos de contagem ou números inteiros.

Variável Contínua: pode assumir um número infinito não numerável


de valores, dentro de um intervalo de números reais. Usualmente
associadas a processos de medida.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 6


Estatística I – Estatística Descritiva e Análise Exploratória de Dados
Exemplos:
1. Nível de especialização de um trabalhador da indústria em Portugal.
(Qualitativa, ordinal)
2. Peso, em quilos, de cada um dos alunos de uma turma de Estatística do
ISCAL do ano lectivo 2009/2010. (Quantitativa, contínua)
3. Estado civil de um cidadão nacional. (Qualitativa, nominal)
4. Velocidade instantânea de um automóvel durante o percurso entre duas
portagens consecutivas. (Quantitativa, contínua)
5. Número de flocos num pacote de cereais. (Quantitativa, discreta)
6. Número de fusíveis com defeito produzidos por dia. (Quantitativa,
discreta)
7. Nível de instrução de um português num dado ano. (Qualitativa,
ordinal)
8. Grau de satisfação com um novo automóvel. (Qualitativa, ordinal)
9. Número de ficheiros no disco rígido de um computador. (Quantitativa,
discreta)
10.Nível de PH na água de uma piscina. (Quantitativa, contínua)
11.Número de acidentes, por apólice de seguro. (Quantitativa, discreta)
Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 7
Estatística I – Estatística Descritiva e Análise Exploratória de Dados

2.2. Tabulação de Dados. Representações Gráficas

• Em geral, as colecções de dados numéricos não se encontram nem


ordenadas, nem agrupadas (colecção ou rol bruto de dados).

• Quando se dispõe de uma colecção numerosa de dados,


independentemente da natureza da variável (discreta ou contínua) são
necessários métodos mais flexíveis de apresentação e síntese.

• Usamos as distribuições de frequência (ou distribuições empíricas) para


apresentar e resumir colecções de dados.

Distribuição de Frequências: quadro ou tabela onde se efectua a


correspondência entre os dados (todos os valores ou modalidades de uma
variável) e as respectivas frequências.
Dados não agrupados: cada dado é apresentado isoladamente.
Dados agrupados: os dados são agrupados em intervalos de classe.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 8


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Dois Conceitos Básicos:

• Frequência absoluta (Fi): número de vezes que a observação se repete


na amostra, verificando-se ∑i Fi= n.

• Frequência relativa (fi): número de vezes que o valor da variável foi


observado em relação ao número total de casos da amostra, i.é., fi = Fi /n,
verificando-se ∑i fi= 1.

1ºCaso: Tabulação e representações gráficas para dados não agrupados

• A colecção de dados/observações: x1 , x2 , ... , xn.


• Os seus valores por ordem crescente: a1 , a2 , ... , ap.
• As frequências absolutas: F1 , F2 , ... , Fp.
• As frequências relativas: f1 , f2 , ... , fp.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 9


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Tabela de frequências para dados não agrupados

xi Fi fi Fi ac. fi ac.
a1 F1 f1 F1 f1
a2 F2 f2 F1+F2 f1+f2
. . . . .
. . . . .
. . . . .
ap Fp fp F1+F2+...+Fp f1+f2+...+ fp

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 10


Estatística I – Estatística Descritiva e Análise Exploratória de Dados
Obs. O cálculo da frequência absoluta acumulada, cuja notação é Fi ac., é
imediato a partir da tabela anterior. Analogamente para a frequência
relativa acumulada. Assim a frequência absoluta acumulada até ao valor ak
é a frequência total dos valores não superiores a ele.
Exemplo: Considerando os dados do exerc. 1., construa uma tabela de frequências.

xi Fi fi Fiac fiac
500 15 0,107 15 0,107
600 20 0,143 35 0,250
700 36 0,257 71 0,507
800 24 0,171 95 0,679
900 20 0,143 115 0,821
1000 15 0,107 130 0,929
1100 10 0,071 140 1,000
Total 140 1

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 11


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

• A distribuição de frequências pode ser melhorada através da


representação gráfica. Se os valores que a variável assume não se
encontram agrupados, a representação obtém-se pelo diagrama de barras
ou traços.
Toma-se um sistema de eixos cartesianos e a frequência (absoluta ou
relativa) é marcada no eixo das ordenadas. Os valores da sucessão
assumidos pela variável, são marcados no eixo das abcissas. Neste tipo de
gráficos, a altura de cada barra ou traço é proporcional à respectiva
frequência.

• A representação gráfica correspondente às frequências relativas


acumuladas, obtém-se através do diagrama de escadas.

Obs. Qualquer gráfico, no caso em análise, deve ser constituído por:


1. Um título identificando a população de interesse;
2. Uma escala vertical identificando as frequências (relativas ou absolutas);
3. Uma escala horizontal identificando a variável.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 12


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

• Com base no exerc. 1., represente graficamente as frequências relativas


simples e acumuladas.
Diagrama de Barras

Diagrama de barras do salário de 140 trabalhadores

0,300
0,257
Frequência relativa

0,250

0,200 0,171
0,143 0,143
0,150
0,107 0,107
0,100 0,071

0,050

0,000
500 600 700 800 900 1000 1100
Salário em euros

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 13


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Diagrama de Escadas

F unç ão C umulativ a da dis tribuiç ão dos s alários

1,000
F requênc ia R elativa A c umulada

0,900
0,800
0,700
0,600
0,500
0,400
0,300
0,200
0,100
0,000
500 600 700 800 900 1000 1100

S alário em euros

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 14


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

2ºCaso: Tabulação e representações gráficas para dados agrupados

• Quando a variável discreta assume valores num intervalo muito grande e


no caso das variáveis contínuas, é usual procedermos ao agrupamento
da colecção de dados através de intervalos de classe.
• Não é possível indicar uma escolha óptima para o n.º de classes. Por um
lado, não deverá ser um número muito pequeno para que não se perca
informação, por outro lado, um número elevado de classes pode
introduzir irregularidades que não existam nas observações (importância
da experiência e objectivos do investigador).
• Existem algumas regras, destacando-se a regra de Sturges:

m  1  3,322log n
• Cada classe deverá ter, sempre que possível, a mesma amplitude. Os
conceitos atrás referidos (frequência absoluta e relativa, simples e
acumuladas) generalizam-se para distribuições agrupadas.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 15


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

• Exemplo: Considerando os dados do exerc.4, construa uma tabela de


frequências.

Distribuição de Frequências dos atrasos nas partidas de voos domésticos

Xi X i’ Fi fi Fiac fiac

] 0, 10] 5 25 0,313 25 0,313

]10, 20] 15 20 0,250 45 0,563

]20, 30] 25 16 0,200 61 0,763

]30, 40] 35 13 0,163 74 0,925

]40, 50] 45 6 0,075 80 1,000


Total 80 1

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 16


Estatística – Estatística Descritiva e Análise Exploratória de Dados

A ideia de conjunto de uma distribuição de frequências pode ser


melhorada através da representação gráfica. No caso de dados
numéricos agrupados, isto é, distribuídos em classes, a representação
gráfica é obtida através do:

Histograma: Gráfico formado por uma sucessão de rectângulos


adjacentes. É um diagrama de barras (ou áreas) da distribuição de
frequência dos dados. É constituído por:
1. Um título identificando a população de interesse.
2. Uma escala vertical identificando as frequências nas diversas classes.
3. Uma escala horizontal identificando a variável. Limites de classe e/ou
pontos médios podem ser marcados ao longo do eixo das abcissas.

Exemplo: Considerando os dados do exerc.4., represente graficamente as


frequências relativas simples.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 17


Estatística – Estatística Descritiva e Análise Exploratória de Dados

Histograma da distribuição das frequências relativas

Histograma da distribuição dos atrasos nos voos

0,350
0,300
Frequência relativa

0,250
0,200
0,150
0,100
0,050
0,000
]0, 10] ]10, 20] ]20, 30] ]30, 40] ]40, 50]
Atrasos (Classes)

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 18


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Polígono de frequências
Representação gráfica construída a partir do histograma. Resulta de unir
sucessivamente, por segmentos de recta, os pontos médios dos topos dos
rectângulos. Para fechar o polígono de frequências, criamos duas classes
adicionais em cada um dos extremos do histograma, com amplitude
idêntica à das classes adjacentes com frequência nula. O polígono é
fechado, unindo os pontos médios destas novas classes aos segmentos já
construídos.
Exemplo: Recorra ao último histograma para visualizar o polígono de
frequências.

Para as frequências relativas acumuladas pode traçar-se um Histograma


Integral e o Polígono de frequências acumuladas ou Ogiva,
pressupondo que a distribuição dos elementos dentro de cada classe se faz
de uma forma uniforme. Este polígono é prolongado indefinidamente para
a esquerda do 1º ponto sobre o eixo das abcissas, e para a direita do último
ponto, sobre a recta paralela ao mesmo eixo e a uma distância igual à
unidade.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 19


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Polígono de Frequências da distribuição dos atrasos nos voos


(frequências relativas)

Polígno de frequências da distribuição dos atrasos

0,350

0,300

0,250

0,200

0,150

0,100

0,050

0,000
5 15 25 35 45

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 20


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Histograma Integral da distribuição dos atrasos nos voos


(frequências relativas acumuladas)

Histograma integral da distribuição dos atrasos nos voos


Frequência relativa acumulada

1,200

1,000

0,800

0,600

0,400

0,200

0,000
]0, 10] ]10, 20] ]20, 30] ]30, 40] ]40, 50]

Atrasos (Classes)

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 21


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

2.3. Características Amostrais: Medidas de Localização

• Caracterizam o valor numérico em torno do qual se distribuem os


restantes elementos de uma amostra.
• Principais medidas de tendência central: média, mediana e moda.

Média: característica numérica de uma colecção ou amostra, utilizada


com mais frequência. É o valor numérico que equilibra os elementos da
colecção, quando os consideramos como pontos de massa unitária num
eixo.

A média aritmética é a soma de todos os valores observados dividida pelo


número total de observações, n, e define-se por:
1 1 n
x  ( x1  x2  ...  xn )   xi
n n i 1

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 22


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Média de distribuições de frequências:

Numa distribuição de frequências de dados não agrupados, recorremos à


frequência absoluta ou relativa dos mesmos. Isto é, ponderamos o valor de
cada observação pela sua frequência.

Expressão da média de distribuições de frequência:

1 p p
x   Fi xi   fi xi
n i 1 i 1

Mediana: Indica o valor numérico central da sucessão ordenada.

Consideramos uma colecção ordenada por ordem crescente, e calculámos as


estatísticas de ordem. Em geral, x(i) é a estatística de ordem i.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 23


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Obs. A mediana é representada por Me(x). Se o número de observações é


ímpar, o valor central é único. No caso de ser par, a mediana será a média
dos dois valores centrais.

Como determinar a mediana?


1. Ordenam-se os dados por ordem crescente.
2. Calcula-se a ordem da mediana: ordem(Me) = (n+1)/2.
3. Recorrendo às estatísticas de ordem a mediana pode definir-se por:

 x( i ) , se n impar;
Me( x)  
 x( i )  x( i 1)  2, se n par.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 24


Estatística I – Estatística Descritiva e Análise Exploratória de Dados
Notas:
1. O valor da média e da mediana não é, necessariamente, um valor
observado na amostra.
2. A mediana, ocupa a posição central na sucessão das estatísticas de ordem,
estando menos sujeita à influência de valores “discrepantes”. Assim, é
uma medida mais resistente do que a média.
3. Se os dados se representam através de uma distribuição de frequências,
determina-se a mediana recorrendo ao conceito de frequência relativa
acumulada (valor que acumula, pelo menos, 50% das observações).

Moda Bruta: A moda, representada por Mo(x), de uma amostra ou colecção


é o valor de x mais frequente.

Notas:
1. Se existem dois ou mais valores observados com frequência máxima,
dizemos que não há moda única.
2. As medidas apresentadas tem, em geral, valores distintos (excepto se a
distribuição for simétrica), e a sua capacidade para resumir a informação
da amostra depende das características dos dados.
Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 25
Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Medidas de Localização (medidas de tendência não central)

• As medidas de tendência não central, ou estatística de ordem, visam


descrever a posição relativa de uma observação específica em relação ao
conjunto dos dados da colecção.
• A partir destas medidas são definidas características numéricas da
colecção, salientando-se os quantis. São exemplos de medidas de
tendência não central os quartis e os percentis, como casos particulares
dos quantis.

Quantil: O quantil de ordem k, 0 < k < 1, seja Pk , de uma colecção


ordenada por ordem crescente, é o valor numérico que tem kn
observações inferiores e (1-k)n observações superiores.

k% ≤ ≤ (100 - k )%
min Pk max

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 26


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Quartis: Valores numéricos que dividem, em quartos, a colecção ordenada


por ordem crescente. Cada colecção de dados tem três quartis.

1. Primeiro quartil (Q1): valor numérico tal que o n.º de observações para
valores inferiores a Q1 é 25%, e o nº de observações superiores é 75%.
2. Segundo quartil (Q2): corresponde à mediana.
3. Terceiro quartil (Q3): valor numérico tal que o n.º de observações para
valores inferiores a Q3 é 75%, e o n.º de observações superiores é 25%.

25% 25% 25% 25%


min Q1 Q2 Q3 max
Notas:
1. O 1º quartil e o 25º quantil são iguais: Q1 = P25
2. A mediana, o 2º quartil e o 50º quantil são iguais: Me  Q2  P50
3. O 3º quartil e o 75º quantil são iguais: Q3 = P75

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 27


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Procedimento para o cálculo dos quantis (Pk)


1. Ordenam-se as n observações, por ordem crescente.
2. Calcula-se o rácio i = (nk)/100.
3. Se i é inteiro:
ordem(Pk) = i+0.5= i,5 (a ordem a partir do mínimo)
Pk é a média das estatísticas de ordem i e i+1.
x(i )  x(i 1)
Pk 
2
Se i não é inteiro:
ordem(Pk) = [i]+1 (a ordem a partir do mínimo)
Pk é a estatística de ordem [i]+1, isto é, a observação que ocupa a
posição [i]+1.
Pk  x(i1) .

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 28


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

2.3 Características Amostrais (Cont.): Medidas de Dispersão

• É comum encontrarmos variáveis que, apesar de terem a mesma


tendência central, são compostas por valores bem distintos. As medidas
de dispersão permitem descrever a variabilidade dos dados, para
responder a questões do tipo: Quão “espalhados” estão os dados?.

Amplitude Total: É a diferença entre o máximo e o mínimo da colecção


ou amostra:
r  max( xi ) - min( xi )
Obs. Apenas considera dois valores (os extremos), não sendo sensível aos
valores intermédios.

Amplitude interquartil: Medida de dispersão absoluta, que compreende


50% das observações centrais. Embora “resistente”, no seu cálculo não
intervêm nem as observações menores nem as maiores.
AIQ  Q3 - Q1.
Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 29
Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Obs. A dispersão deve definir-se tomando em conta a posição das


observações em relação a uma referência fixa, valor escolhido para
localizar a colecção ou a distribuição empírica, em geral a média. É
possível utilizar outras medidas de tendência central.

Variância: Corresponde à média dos quadrados dos desvios em relação à


média.

Fórmulas da variância de distribuições de frequência:

1
s   Fi  xi - x    fi  xi - x  ou, pela formula alternativa
2 2 2

n
2
  1 1 2
s  x - x   fi ( xi ) -   fi xi    Fi ( xi ) - ( Fi xi )  .
2 2 2 2 2

  n n 

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 30


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Desvio padrão: Raiz quadrada positiva da variância.

s  s2
Notas:
1. O uso da raiz quadrada deve-se ao facto de, no cálculo da variância não
ser possível comparar os valores médios de quadrados com a média da
amostra. A unidade de medida da variável vem alterada.
2. O desvio padrão é a medida de dispersão mais utilizada e, à semelhança
da média, o seu valor pode ser muito influenciado pelos valores
extremos de uma distribuição.
Coeficiente de variação: Medida de dispersão relativa, definida por:
s
CV  100
x
– Quanto menor o seu valor, menor é o grau de dispersão relativa e maior
será a representatividade da média enquanto medida descritiva da
amostra. É independente da unidade de medida em que se exprime a
variável, permitindo a comparação entre duas ou mais distribuições.
Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 31
Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Propriedades Importantes das Medidas de Localização e Dispersão

1. Se adicionarmos a cada elemento de uma colecção de dados a mesma


constante c, a média e a mediana da nova colecção são iguais à média e
à mediana da colecção original, mais a constante c. A amplitude de
variação e o desvio padrão permanecem inalterados, contudo o
coeficiente de variação sofre alterações (diminui).
Seja a colecção original x  ( x1 , x2 , , xn ) e y  ( y1, y2 , , yn ), onde yi  xi  c .

1 n 1 n 1 n
y   yi   (c  xi )  c   xi  c  x .
n i 1 n i 1 n i 1

ordem(me( y))  ordem(me( x))  me( y)  c  me( x).

ry  c  x( n) -  c  x(1)   x( n) - x(1)  rx .

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 32


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

n n n

 i
( y
i 1
- y ) 2
  i
( c  x -
i 1
c - x ) 2
  i 
( x - x ) 2

i 1

1 n 1 n
 s   ( yi - y )   ( xi - x )2  sx2  s y  sx .
2
y
2

n i 1 n i 1

sy sx
cvy   cvy  .
y x c

2. Se multiplicarmos cada elemento de uma colecção de dados pela


mesma constante c (c>0), a média, a mediana, a amplitude de variação
e o desvio padrão da nova colecção são iguais à média, à mediana, à
amplitude e ao desvio padrão da colecção original, vezes a constante c.
O coeficiente de variação permanece inalterado.
Seja a colecção original x  ( x1, x2 , , xn ) e y  ( y1, y2 , , yn ), onde yi  cxi .

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 33


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

1 n 1 n 1 n
y   yi   cxi  c  xi  cx
n i 1 n i 1 n i 1

ordem(me( y))  ordem(me( x))  me( y)  cme( x).

ry  cx(n) - cx(1)  c( x(n) - x(1) )  crx .


n n n n

 ( yi - y )   (cxi - cx )   c ( xi - x ) c
i 1
2

i 1
2

i 1
2 2 2
 i 
( x
i 1
- x ) 2

1 n 2 1
n
 s   ( yi - y )  c  ( xi - x )2  c 2 sx2  s y  csx .
2
y
2

n i 1 n i 1
sysx
cvy   cvy   cvy  cvx .
y x
Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 34
Estatística I – Estatística Descritiva e Análise Exploratória de Dados

3. Se adicionarmos (ou multiplicarmos) a cada elemento de uma


colecção de dados a mesma constante c, os efeitos sobre qualquer
estatística de ordem, nomeadamente sobre os quantis, são análogos
ao que acontece com a mediana, isto é:

ordem(Qk ( y))  ordem(Qk ( x))  Qk ( y)  Qk ( x)  c.

ordem(Qk ( y))  ordem(Qk ( x))  Qk ( y)  cQk ( x).

4. Note-se que, no caso de multiplicarmos cada elemento da colecção


de dados pela mesma constante, e c<0, a ordem associada a cada
elemento será invertida.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 35


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

2.3 Características Amostrais (Cont.): Medidas de Assimetria

Uma distribuição diz-se:

• Simétrica (ou não enviesada) se a média é igual à mediana. O centro de


gravidade coincide com o valor que divide a distribuição em duas partes
iguais, ambas com o mesmo número de observações.

• Assimétrica positiva (ou enviesada à esquerda) se a média é superior à


mediana. O peso das observações de maior valor desloca a média no
sentido do máximo.

• Assimétrica negativa (ou enviesada à direita) se a média é inferior à


mediana. O peso das observações de menor valor desloca a média no
sentido do mínimo.
Obs. O enviesamento corresponde ao lado mais abrupto, ou seja menos longo. A
assimetria será tanto mais acentuada, quanto mais afastadas se encontrarem as
medidas de tendência central. A média desloca-se para o lado mais longo da
distribuição, à medida que se acentua a assimetria.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 36


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

• A representação gráfica das distribuições de frequências, permite


evidenciar o comportamento das observações no que respeita à sua
simetria ou assimetria. A mediana dividirá a área total do gráfico em
duas partes iguais e a média deslocar-se-à para a direita ou para a
esquerda consoante tivermos assimetria positiva ou assimetria negativa.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 37


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Obs.
1. Pela visualização gráfica apenas avaliamos de forma qualitativa o
enviesamento da distribuição. Seria útil medidas de assimetria que
permitissem a sua quantificação. Em termos absolutos, as medidas de
assimetria são positivas, negativas ou nulas consoante as distribuições
são assimétricas positivas, assimétricas negativas ou simétricas:

Se (Q3 - Me) = (Me - Q1) → Distribuição simétrica

Se (Q3 - Me) > (Me - Q1) → Distribuição assimétrica positiva

Se (Q3 - Me) < (Me - Q1) → Distribuição assimétrica negativa

2. É possível definir diversas medidas de assimetria relativa. Têm a


vantagem de não depender das unidades em que a variável se
expressa, permitindo a comparação entre duas ou mais distribuições
(relembre a noção de dispersão relativa) através do grau de
assimetria. Destacam-se:

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 38


Estatística I – Estatística Descritiva e Análise Exploratória de Dados
Coeficiente de Assimetria de Pearson:
3( x - Med )
G1 
Notas: s
1. Resulta da comparação de dois valores: diferença entre a média e a mediana e o
desvio padrão associado à média.
2. Será nulo quando a média é igual à mediana (distribuição é simétrica). Se a
média for superior (inferior) à mediana, a distribuição é assimétrica positiva
(negativa).
3. Quando a distribuição é unimodal, pode definir-se este coeficiente substituindo a
mediana pela moda e não multiplicar pelo factor de escala (o valor três).

Coeficiente de Assimetria de Bowley:


(Q3 - Med ) - ( Med - Q1 ) (Q3 - Med ) - ( Med - Q1 )
G2  
(Q3 - Med )  ( Med - Q1 ) AIQ
Notas:
1. Mais “resistente” que o grau de assimetria de Pearson. Com efeito, intervêm
apenas a mediana e os quartis.
2. O denominador corresponde ao valor da amplitude interquartil.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 39


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Observações:

1. No caso dos dados agrupados, é habitual tomar o ponto médio de cada


classe como representante da classe. Assim, no cálculo das
características amostrais o valor de xi é substituído pelo ponto médio
da i-ésima classe.

2. Como é evidente, ao tomarmos o ponto médio de uma classe como


representante dos seus elementos, estamos a efectuar uma
simplificação e, simultaneamente, a introduzir um erro.

3. Designamos por hipótese básica de tabulagem admitir que todos os


valores de uma classe são iguais ao respectivo ponto médio.
Designamos por erro de tabulagem ao erro cometido, que deve ser tido
em conta na análise dos resultados.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 40


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

4. Numa distribuição de frequências, para dados agrupados, devido à


hipótese básica da tabulagem, as medidas que caracterizam a amostra
correspondem a uma estimativa do valor para a população.

5. No cálculo dos quantis (mediana, quartis, etc.) é necessário estimar as


estatísticas de ordem. Suponha-se que se pretende estimar o 2º quartil
(mediana) para dados agrupados. O procedimento consiste em
encontrar a classe que acumula pelo menos 50% das observações e,
numa fase seguinte, o seu valor é estimado por interpolação linear.

6. Numa distribuição de frequências agrupada em intervalos de igual


amplitude, chamamos classe modal à classe com maior frequência. A
moda pode considerar-se o ponto médio da classe modal.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 41


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

2.3 Características Amostrais (Cont.): Medidas de Concentração

Para medir a forma como uma determinada característica de uma


população se distribui pelos seus elementos, é muitas vezes utilizada uma
medida de concentração. Contudo, tal só é possível quando uma
característica se pode distribuir de forma mais ou menos uniforme e, em
simultâneo, possibilitar duas situações extremas:

(a) um só elemento da população detém todo o atributo (concentração


máxima);
(b) cada elemento da população detém igual parcela do atributo
(concentração mínima).

Notas :
1. Pode medir-se a concentração do rendimento familiar, do nível de
riqueza, das áreas de exploração agrícolas, dos salários, mas a certos
atributos físicos ou biométricos não é possível aplicar medidas de
concentração.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 42


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

2. Por exemplo, a altura de um conjunto de indivíduos de um grupo,


embora possa conceber-se que a altura está igualmente repartida em
torno da média, já não se pode pensar que a estatura total está
concentrada num só indivíduo.

3. A concentração está relacionada com a variabilidade ou dispersão dos


valores observados. Se a característica está igualmente repartida, a
variabilidade é nula. Por outro lado, se estiver concentrada num
pequeno número de elementos (ou apenas num), a variabilidade é
muito maior.

4. A análise da concentração de uma distribuição de frequência pode ser


feita de duas forma: graficamente através da Curva de Lorenz, ou
através de um indicador numérico, o Índice de Gini.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 43


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Curva de Lorenz

• Dada uma característica (xi) de uma população com n elementos


observados, obtém-se a curva de Lorenz unindo, num referencial
cartesiano, as frequências acumuladas para cada elemento relativamente
ao total com as frequências acumuladas do atributo em estudo, também
face ao total.

• É a partir representação gráfica das frequências relativas acumuladas


que se obtém a curva de Lorenz, onde se representam:

No eixo das abcissas – os valores acumulados, em termos relativos,


do numero de ocorrências

j
pi   fi  fi ac, com j = 1,2,..., m classes.
i 1

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 44


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Curva de Lorenz (cont.)


No eixo das ordenadas – os valores relativos correspondentes ao
atributo em estudo, ou seja, a proporção da totalidade do atributo
possuída pelos mesmos elementos, i.é
j j

 fi xi  fi xi
qi  i 1
m
 i 1
, com j = 1,2,..., m classes.
x
 fi xi
i 1
Obs.
Se a concentração for mínima (cada elemento da população detém
igual parcela do atributo), então a curva de Lorenz degenera na
diagonal que se designa por recta de igual distribuição. Assim,
quanto mais afastada estiver a curva desta recta maior é a
concentração.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 45


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Índice (Coeficiente) de concentração de Gini

Indicador numérico que traduz o grau de concentração, simbolizado por:

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 46


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

m -1 m -1
  pi - qi   qi
G i 1
m -1
 1 - mi -11 , com i = 1,2,..., m classes.
 pi  pi
i 1 i 1

• Propriedades do índice de Gini:


– G=0 no caso de igual repartição, ou seja, pi  qi , i = 1,2,..., m classes.
– G=1 quando a concentração é máxima, i.é, qi  0, i = 1,2,..., m classes.
– 0 ≤ G ≤ 1 e cresce com a concentração.

• Exemplo: Com base no Exerc. 11, no qual se apresenta a distribuição


dos salários de 3000 trabalhadores de uma determinada empresa,
pretende-se que quantifique o grau de concentração da característica em
estudo.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 47


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

xi (em euros) fi ( xi fi ) x pi = fi .ac qi   xi fi x  ac


0 0,00 0,00 0,00 0,00
200 0,27 0,10 0,27 0,10
325 0,20 0,12 0,47 0,22
450 0,15 0,12 0,62 0,34
600 0,12 0,13 0,74 0,48
875 0,10 0,16 0,84 0,64
1125 0,09 0,19 0,93 0,82
1375 0,07 0,18 1,00 1,00

--- 1,00 --- --- ---

x   fi xi 543,5 euros.
i

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 48


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

• Através da tabela, constata-se que 20% dos trabalhadores (i.é, 600) auferem
325 euros. Significa que a empresa despende cerca de 195 000 euros, ou seja
12% do total dos salários.
• Interpretando as duas últimas colunas, onde os valores acumulados se
exprimem em relação ao total, verifica-se, por exemplo, que cerca de 74% dos
trabalhadores da empresa recebem apenas 48% da quantia despendida pela
empresa em salários.
m -1 8-1
  pi - qi   qi
G i 1
m -1
 1 - 8i-11 
 pi  pi
i 1 i 1

1-
 0, 00  0,10  0, 22  ...  0,82 
0,33.
 0, 00  0, 27  0, 47  ...  0,93
• Deixa-se como exercício a interpretação deste valor e a representação da curva
de Lorenz.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 49


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

2.4 Noção de Outlier. Diagrama de Extremos e Quartos

• Quando se pretende examinar uma colecção para identificar a presença de


valores muito grandes ou muito pequenos, designados por outliers, é
habitual recorrer a medidas resistentes. A explicação para a presença
destes valores resulta de:

(a) Erros humanos − observação cujo valor foi incorrectamente


registado ou medido. Neste caso, a observação deverá ser
eliminada se o seu valor não puder ser corrigido.
(b)Da natureza do fenómeno em estudo − observação que nos parece
discrepante, por comparação com as restantes, mas que foi
correctamente registada. Neste caso, é sempre possível fazer a
análise estatística, com e sem a observação em questão, tendo em
vista avaliar a sua influência, pois trata-se de uma observação
influente.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 50


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

• Critério de classificação de outliers:


Inferior Superior
Barreiras internas Q1-1,5×AIQ Q3+1,5×AIQ

Barreiras externas Q1-3×AIQ Q3+3×AIQ

• Seja uma colecção de dados ordenada por ordem crescente. A regra


prática consiste:
1.
Se xi  Q1 - 1,5  AIQ; Q3  1,5  AIQ → xi diz-se outlier

2.
Se x  Q1 - 3  AIQ; Q3  3  AIQ → xi diz-se outlier severo

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 51


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

3.
Se o valor xi é outlier via (1.) mas não o é via (2.) → diz-se um outlier
moderado

2. 3. 3. 2.

1. 1. 1. 1.
BEI BII BIS BES

Os extremos, os quartis e a mediana permitem construir o Resumo de 5


números. Veja-se para o Exerc. 13:

min Q1 Q2 Q3 max
93,6 94,1 94,7 95 96

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 52


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Os cálculos do Resumo dos 5 números apresentam-se de seguida, sendo


essenciais para avaliar a presença de outliers (veja-se acetato 28 –
procedimento Para o cálculo dos quartis):

k = 25: (14) (25) / 100 = 3,5 ordem = 4 Q1 = 94,1;

k = 50: (14) (50) / 100 = 7 ordem = 7,5 Q2 = Me = 94,7;

k = 75: (14) (75) / 100 = 10,5 ordem = 11 Q3 = 95.

Obs. Em termos de localização, destaca-se como medida resistente a média


aparada a 100.(α)%, permitindo atribuir menor ponderação aos valores
extremos. É obtida eliminando 100.(α)% das menores observações e
100.(α)% das maiores observações e calculando a média simples das
restantes.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 53


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

A capacidade descritiva do resumo de 5 números aprecia-se melhor através


do diagrama Caixa-de-Bigodes:

– Os 5 valores numéricos, são localizados numa escala horizontal ou


vertical;
– O rectângulo (a caixa) representa 50% das observações entre o 1º e o 3º
quartis. O segmento no seu interior refere-se à mediana;
– Os bigodes são segmentos de recta representando a outra metade das
observações. O primeiro segmento de recta representa o quarto das
observações que é inferior ao valor do 1º quartil, e o segundo segmento
de recta representa o quarto das observações que é superior ao valor do
3º quartil. Os bigodes são delimitados pelos extremos.

– A presença de outliers, obriga a modificar a caixa-de-bigodes. São


definidas as barreiras (que não figuram propriamente no gráfico),
indicam-se os outliers como pontos isolados. Utilizam-se símbolos
gráficos distintos para distinguirmos outliers moderados de outliers
severos. Os bigodes são “aparados” do mínimo (resp. máximo) ao
menor (resp. maior) valor não outlier.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 54


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 55


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Notas:

1. Quando existem outliers na distribuição, o impacto visual do gráfico


caixas-com-bigodes altera-se uma vez que os “bigodes” são aparados
e, consequentemente, a dispersão nesse segmento será menor.

2. A caixa-de-bigodes é uma representação gráfica que nos indica: a


amplitude da amostra, a amplitude interquartil e a dispersão no
primeiro e último quartos. Podemos ainda ter uma ideia sobre se a
amostra exibe algum tipo de enviesamento, isto é, se existe alguma
assimetria.

3. É possível a comparação entre duas ou mais variáveis, através de


diagramas paralelos, desde que os valores observados se expressem
nas mesmas unidades de medida. Para mais fácil interpretação, a
ordenação é feita pelo valor da mediana.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 56


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 57


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

2.5 Dados Bivariados: Representação Gráfica, Recta de Regressão


dos Mínimos Quadrados e Coeficiente de Correlação

Numa situação em que se observam pares de valores  xi , yi  , pode ter


interesse estudar as potenciais relações estatísticas existentes entre os
dois fenómenos. Não se trata de estudar relações funcionais (isto é, a
medida em que o valor de uma variável é determinado exactamente pela
outra), mas sim de estudar a forma como a variação de uma variável
poderá afectar (em média) a variação da outra (por exemplo, o peso e a
altura são variáveis em geral relacionadas, mas a sua relação não é
determinística).

Duas variáveis ligadas por uma relação estatística dizem-se


correlacionadas. Se as variações ocorrem tendencialmente no mesmo
sentido, a correlação diz-se positiva. Se ocorrem em sentidos opostos, a
correlação diz-se negativa.

Objectivo: Estudar se existe alguma correlação entre os fenómenos ou


variáveis observadas e, a existir, se é possível expressa-la (e medi-la) por
uma relação (medida) matemática.
Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 58
Estatística I – Estatística Descritiva e Análise Exploratória de Dados
Introdução
• Na análise de regressão linear simples pretende-se analisar se duas
variáveis estão relacionadas do ponto de vista estatístico e, em caso
afirmativo, qual o grau desse relacionamento.
• Determinar um modelo que permita descrever a relação causa-efeito
que existe entre as duas variáveis.
• Aplicar o modelo obtido para prever o valor de uma das variáveis,
sendo conhecido o valor da outra.

Alguns exemplos:
• Relação entre o consumo privado de um determinado bem e o
rendimento disponível das famílias.
• Relação entre as vendas de uma empresa e as despesas em publicidade.
• Relação entre o salário de um indivíduo e o seu nível de instrução.
• Relação entre a esperança de vida e o consumo de tabaco.
• Relação entre o sexo de um indivíduo e a sua preferência por
determinado programa de televisão.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 59


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

O Modelo de Regressão Linear Simples (MRLS)


• Um procedimento comum, para estabelecer potenciais relações entre as
duas variáveis em análise, consiste em supor a existência de uma relação
funcional linear nos parâmetros desconhecidos, os quais são estimados
a partir das observações amostrais.
• O Modelo de Regressão Linear Simples baseia-se apenas na relação entre
duas variáveis (x, y), cuja forma funcional é dada por:

yi  0  1 xi   i , i=1,2,...n.

onde se tem:
xi – variável independente, exógena, regressor ou explicativa do modelo;
yi – variável dependente, endógena, resposta ou explicada do modelo;
εi – Erro aleatório, desvio ou termo de perturbação. Reflecte a componente
aleatória que o modelo não consegue explicar;
βj – Parâmetros ou coeficientes do modelo, (j=0, 1).

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 60


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

• O modelo apresentado tem duas partes:

1. Uma determinística dada por yi  0  1 xi , i.é, pelo valor situado sobre


a recta de regressão obtida com base nos dados amostrais.
2. Uma parte aleatória ou estocástica dada por  i , i.é, pelos desvios dos
pontos relativamente à recta de regressão.

• Como β0 e β1 são parâmetros desconhecidos é necessário, com base numa


amostra, encontrar as suas estimativas b0 e b1, respectivamente.

• Num estudo deste tipo pode-se começar por analisar se a relação entre as
variáveis é (ou não) linear, através de uma representação gráfica dos n
pares de observações (x, y): o Diagrama de Dispersão.

• No diagrama de dispersão os valores da variável x são representados no


eixo das abcissas, e os valores da variável y são representados no eixo
das ordenadas.
Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 61
Estatística I – Estatística Descritiva e Análise Exploratória de Dados

• Através da nuvem de pontos obtida no diagrama de dispersão, é possível


verificar se y varia linearmente com x. Em caso afirmativo, diz-se que x e y
se encontram correlacionados linearmente.

• A correlação linear é positiva, quando x aumenta e y também aumenta (fig.


1). A correlação linear é negativa, quando x aumenta e y diminui (fig. 2).

Figura 1. Figura 2.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 62


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

• Nos casos em que x varia, e y não apresenta um padrão de variação linear,


concluímos que não existe correlação linear. Nas figuras 3 e 4 representam-se
alguns exemplos de correlação não linear:

Figura 3. Figura 4.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 63


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

• Existindo “forte” evidência linear entre X e Y, pela análise do diagrama


de dispersão, com base no dados amostrais pretende-se ajustar uma recta
de regressão que tente explicar Y, variável dependente (explicada),
como função linear de X, variável independente (explicativa).

O Método dos Mínimos Quadrados (MMQ)

• Dos diversos métodos existentes para ajustar uma recta a um conjunto de


pontos, o método dos mínimos quadrados é o mais utilizado.

• A equação da recta de regressão permite obter estimativas dos valores da


variável dependente, conhecidas as estimativas b0 e b1, dos parâmetros β0
e β1, dada por:
ŷ  b0  b1 x

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 64


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

• Pelo MMQ, as estimativas b0 e b1 são determinadas de modo a que o


desvio quadrático global seja mínimo. Isto é, pretendemos minimizar a
função:
n n n
SQ(b0 , b1 )    i2  ( yi - yˆi )2    yi - (b0  b1 xi ) 
2

i 1 i 1 i 1

Onde se tem, para cada observação, o respectivo desvio ou erro


aleatório entre o valor observado e o valor ajustado:

 i  yi - yˆi .
Graficamente, estamos a minimizar a soma dos quadrados dos desvios
medidos na vertical entre cada ordenada observada e a correspondente
ordenada da recta de regressão.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 65


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Graficamente:

y  b0  b1 x
 ( x, y)
  y - yˆ
 ( x , y)
y

y

x
Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 66
Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Cálculo dos coeficientes do modelo


O MMQ é um método de estimação que permite conhecer os estimadores
do modelo de regressão, minimizando a soma dos quadrados dos desvios
ou erros. Trata-se de um problema de minimização de uma função a duas
variáveis (b0 e b1). Constrói-se o sistema de estacionaridade

 
 b SQ (b0 , b1 )  0


0


 
 SQ(b0 , b1 )  0
 b1

Donde a resolução do sistema permite obter os coeficientes estimados:

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 67


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

b 
 ( x - x )( y - y )  xy - nx y

 (x - x )  x - nx
1 2 2 2

b0 
 y -b x
 y -b x
1
1
n

Ordenada na origem (b0) – Termo autónomo ou constante do


modelo. Significa que, independentemente do valor do regressor (no
limite xi = 0), o valor da variável dependente assume, em média, um
valor constante e igual a b0.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 68


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Declive ou coeficiente de regressão (b1) – Representa a variação prevista


da variável dependente y, por cada unidade de incremento da variável
independente x:
 yˆi
b1  .
 xi

Com base no Exerc. 1: Pretende-se que:

1. Determine a recta de regressão e interprete os coeficientes estimados.


2. Trace o diagrama de dispersão e represente graficamente a recta de
regressão.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 69


Estatística I – Estatística Descritiva e Análise Exploratória de Dados
Cálculo de b1 e b0:
x y x2 x.y
23 12 529 276
31 17 961 527
… … … …
37 21 1369 777
Σx =234 Σy =133 Σx2 = 7074 Σ x.y = 4009

b 
 xy - nx y 4009 - 8  29, 2516,625 
  0,517
 x - nx 7074 - 8  29, 25
1 2 2 2

b0  y - b1 x  16, 625 - 0,5174  29, 25  1, 491

Recta de regressão dos mínimos quadrados: yˆ  1, 491  0,5174 x

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 70


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Interpretação dos coeficientes b1 e b0:


O declive b1 significa que, o incremento de uma grama no peso de um peixe
representará um aumento de, aproximadamente, 0,52 centímetros no respectivo
comprimento. A constante do modelo, b0, neste caso, não deve ser interpretada.
Não faz muito sentido prever um comprimento de 1,5 centímetros para um peixe
cujo peso seja 0 gramas!.

Diagrama de dispersão:

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 71


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Notas:
1. A recta de regressão pode ser utilizada com o objectivo de prever o valor
da variável y, quando for conhecido o valor assumido por x.

2. A previsão de valores da variável y deve ser feita tendo em conta o


domínio dos valores observados para x. Assim, nem sempre a
interpretação do coeficiente b0 assume significado no modelo (veja-se o
exemplo anterior).

3. A recta de regressão deve ser usada para efeitos de previsão, tendo em


conta a população de onde a amostra foi extraída. No exemplo anterior,
caso o aquário contivesse diversas espécies, a previsão do comprimento
de um peixe referir-se-ia à espécie que originou a amostra.

4. O MRLS deve ser utilizado, para efeitos de previsão num horizonte


temporal reduzido. No curto prazo, parece razoável admitir uma certa
estabilidade do fenómeno em estudo. Extrapolações de longo prazo são,
em geral, incorrectas devido ao aumento da incerteza que lhe está
associada.
Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 72
Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Qualidade do ajustamento: os resíduos da regressão e o coeficiente


de determinação

• Uma vez encontrada a recta de regressão pelo MMQ, vamos agora


analisar se a relação encontrada tem (ou não) significado do ponto de vista
estatístico. Interessa-nos medir a contribuição da variável x na previsão de
y. Isto é, avaliar a proporção da variabilidade total da variável dependente
que é explicada pelo modelo linear.

• Se x não contribui com informação para a previsão de y, então a


correlação entre as variáveis é nula, ou seja, as variáveis são
independentes uma da outra.

• Se x contribui com informação para a previsão de y, então a melhor


previsão para o valor de y é dada pela recta ajustada, e temos de avaliar a
proporção de erros de previsão de y que foram reduzidos através do uso da
informação fornecida por x.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 73


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Pelo principio da decomposição aditiva da variação total de y em torno da


sua média amostral, tem-se, para um ponto genérico (xi, yi):
( yi - y )  ( yˆi - y )  ( yi - yˆi )

Na análise de regressão linear, considerando um conjunto de pontos e,


analogamente ao critério dos mínimos quadrados, não desejando a
compensação dos desvios, tem-se a seguinte igualdade:
n n n

 i
( y
i 1
- y ) 2
  i
( ˆ
y - y
i 1
) 2
  i i
( y - ˆ
y ) 2

i 1

Variação total de y: SQT  SQ( y)   ( y - y ) 2

Soma dos quadrados da regressão: SQR   ( yˆ - y )


2

Soma dos quadrados dos resíduos: SQE   ( y - yˆ )   


2 2

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 74


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

• Resumindo: SQT = SQR  SQE

Donde: SQR SQE


 1
SQT SQT

O quociente SQR/SQT, pode ser interpretado como a proporção da


variabilidade total de y que é explicada através da recta de regressão. Isto
é, comparamos a soma dos quadrados explicados pela regressão, SQR, com
a variação total da variável dependente, SQT. O quociente SQE/SQT, pode
ser interpretado como a proporção da variabilidade total de y que não é
explicada pela recta de regressão.

No caso de SQR contribuir maioritariamente para SQT, então o modelo de


regressão pode ser considerado eficaz para efeitos de previsão.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 75


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Coeficiente de determinação: Medida utilizada para avaliar a qualidade


de ajustamento da recta de regressão linear (obtida pelo método dos
mínimos quadrados) aos dados. Representa a proporção da variação total
da variável dependente y, explicada pela regressão linear. Define-se por:

SQR SQT - SQE s 2


r2   ; r 2  b12 x2 e 0  r 2  1
SQT SQT sy

• r2 = 1 – Ajustamento linear é perfeito. A recta de regressão explica


totalmente a variabilidade de y. Como SQT = SQR, todos os pontos do
diagrama de dispersão se situam sobre a recta de ajustamento.

• r2 = 0 – Ajustamento linear nulo. A recta de regressão não se pode


definir, uma vez que x não contribui para explicar a variabilidade de y. Tal
não significa que não exista uma relação entre as variáveis, contudo, caso
exista, não será linear.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 76


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Obs. Em geral, a proporção não explicada pelo modelo linear, é dada por
1- r2. A parte que fica por explicar no modelo, designada por variação
residual, ou erro, resulta de factores não incluídos na regressão, que
actuam sobre y e não sobre x.

Com base no Exerc. 5:

Pretende-se que determine e interprete o coeficiente de determinação e


verifique que a recta de regressão é dada por: .

yˆ  50, 488 - 5,744 x

Veja-se o quadro de apoio para determinar o indicador r2.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 77


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

x y x2 y2 xy ( y - y )2 ŷ ( yˆ - y )2
2,5 40 6,25 1600 100,00 82,81 36,13 27,33
3,0 43 9,00 1849 129,00 146,41 33,26 5,55
4,0 30 16,00 900 120,00 0,81 27,51 11,48
3,5 35 12,25 1225 122,50 16,81 30,38 0,27
2,7 42 7,29 1764 113,40 123,21 34,98 16,64
4,5 19 20,25 361 85,50 141,61 24,64 39,19
3,8 32 14,44 1024 121,60 1,21 28,66 5,01
2,9 39 8,41 1521 113,10 65,61 33,83 8,59
5,0 15 25,00 225 75,00 252,81 21,77 83,39
2,2 14 4,84 196 30,80 285,61 37,85 48,32
34,1 309 123,73 10665 1010,90 1116,90 309,01 245,77

x y  x 2
 y 2
 xy SQT  yˆ SQR

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 78


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Cálculo do coeficiente de determinação:

r2 
SQR

 i
( ˆ
y - y ) 2


245, 77
0, 220
SQT (y i - y) 2
1116,90

• É habitual indicar o coeficiente de determinação em percentagem.


Podemos dizer que a proporção, em percentagem, da variabilidade total
de y que é explicada pelo modelo de regressão é dada por:

r 2 100  22,09

• Apenas 22% da variabilidade da quilometragem, por cada cinco litros


de combustível, pode ser explicada pelo peso das viaturas. Como é
evidente, a capacidade de previsão do modelo é muito reduzida.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 79


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Coeficiente de Correlação

Estamos agora interessados em avaliar a intensidade da relação linear


entre as variáveis x e y. Começamos por introduzir uma medida de
variabilidade conjunta das variáveis: a covariância.

A covariância do par de variáveis (x,y), é dada por:


1 n
cov( x, y)   ( xi - x )( yi - y )
n i 1

É de esperar que uma associação linear positiva entre as variáveis se


traduza numa covariância positiva, sendo o inverso verdadeiro.

A distribuição do sinal do produto ( xi - x )( yi - y ) é feita de acordo com o


gráfico seguinte:

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 80


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Distribuição do sinal do produto ( xi - x )( yi - y ) , quando as variáveis se


encontram positivamente correlacionadas.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 81


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Obs. Embora a covariância nos permita avaliar a direcção e a intensidade da


associação linear, o seu valor depende da unidade de medida das variáveis.

Exemplo: Retome os dados do exercício 5., referentes ao peso (em


toneladas), x, e aos quilómetros percorridos por cada cinco litros de
combustível, y, de dez veículos pesados.

A covariância entre x e y medindo o peso em toneladas é –4,279. Caso a


unidade de medida de x fosse em quilogramas, o valor obtido seria –4279.
No entanto, não houve qualquer alteração essencial na associação entre as
variáveis, apenas uma mudança de escala. Temos, pois, de encontrar uma
característica amostral que seja invariante face às alterações de escala.

O problema fica resolvido se recorrermos às observações normalizadas das


variáveis x e y. Definimos então o coeficiente de correlação linear r do par
(x,y) como a covariância das respectivas variáveis normalizadas. Isto é:

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 82


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Donde:
x-x y- y
r  cov( , )
sx sy

A expressão anterior pode ser reescrita, tendo em vista a sua aplicação


prática.
cov( x, y )
r
sx s y

O coeficiente de correlação linear, r, é uma medida do grau de associação


linear entre duas variáveis. O sinal do coeficiente indica se a correlação é
positiva ou negativa.

r
 ( x - x )( y - y ) , e -1  r  1
 (x - x )  ( y - y)
2 2

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 83


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

• r  1 : correlação linear é perfeita e positiva


• r  -1 : correlação linear é perfeita e negativa
• r  0 : impossibilidade de estabelecer qualquer tipo de relação linear entre
as variáveis, uma vez que as mesmas não se encontram associadas
linearmente.

Para o exercício, tem-se que o coeficiente de correlação é dado por:

n  COV(xy)   ( x - x )( y - y )  xy -
 x y
 -42,79
i i
n

r
 ( x - x )( y - y ) 
-42,79
 -0, 47
 (x - x )  ( y - y)
2 2
 7, 4491116,9 

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 84


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

Resumo:

• Demonstra-se que o coeficiente de correlação pode ser calculado em


função do coeficiente de determinação:

SQR
rx , y     r2 .
SQT

• O coeficiente de determinação é uma medida relativa da qualidade do


ajustamento efectuado, o coeficiente de correlação é uma medida do
grau de intensidade da relação linear entre as variáveis.

• Um valor elevado para o coeficiente de correlação, não significa que x


seja causa de y ou que y seja causa de x. A existência de correlação nada
diz sobre a eventual existência de uma relação causal entre as variáveis
observadas.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 85


Estatística I – Estatística Descritiva e Análise Exploratória de Dados

• Duas variáveis podem estar associadas devido à influência de uma


causa comum. Por exemplo, existe correlação positiva elevada entre o
número anual de casos de insolação e a produção de trigo, no entanto
não é razoável concluir que é a produção de trigo que causa insolações
ou que são as insolações que dão origem a boas colheitas de trigo. Neste
caso, são os verões quentes que causam insolações e também boas
colheitas de trigo. Chamamos espúrias às relações do tipo anterior, que
revelam uma causalidade aparente.

Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 86

Você também pode gostar