Acetatos EstatDescritiva AnáliseExploratória
Acetatos EstatDescritiva AnáliseExploratória
Acetatos EstatDescritiva AnáliseExploratória
Amostra aleatória
População
Amostra
Estatísticas (conhecidas)
Parâmetro (desconhecidos)
Inferência Estatística
Variável
Discreta
Quantitativa
Contínua
xi Fi fi Fi ac. fi ac.
a1 F1 f1 F1 f1
a2 F2 f2 F1+F2 f1+f2
. . . . .
. . . . .
. . . . .
ap Fp fp F1+F2+...+Fp f1+f2+...+ fp
xi Fi fi Fiac fiac
500 15 0,107 15 0,107
600 20 0,143 35 0,250
700 36 0,257 71 0,507
800 24 0,171 95 0,679
900 20 0,143 115 0,821
1000 15 0,107 130 0,929
1100 10 0,071 140 1,000
Total 140 1
0,300
0,257
Frequência relativa
0,250
0,200 0,171
0,143 0,143
0,150
0,107 0,107
0,100 0,071
0,050
0,000
500 600 700 800 900 1000 1100
Salário em euros
Diagrama de Escadas
1,000
F requênc ia R elativa A c umulada
0,900
0,800
0,700
0,600
0,500
0,400
0,300
0,200
0,100
0,000
500 600 700 800 900 1000 1100
S alário em euros
m 1 3,322log n
• Cada classe deverá ter, sempre que possível, a mesma amplitude. Os
conceitos atrás referidos (frequência absoluta e relativa, simples e
acumuladas) generalizam-se para distribuições agrupadas.
Xi X i’ Fi fi Fiac fiac
0,350
0,300
Frequência relativa
0,250
0,200
0,150
0,100
0,050
0,000
]0, 10] ]10, 20] ]20, 30] ]30, 40] ]40, 50]
Atrasos (Classes)
Polígono de frequências
Representação gráfica construída a partir do histograma. Resulta de unir
sucessivamente, por segmentos de recta, os pontos médios dos topos dos
rectângulos. Para fechar o polígono de frequências, criamos duas classes
adicionais em cada um dos extremos do histograma, com amplitude
idêntica à das classes adjacentes com frequência nula. O polígono é
fechado, unindo os pontos médios destas novas classes aos segmentos já
construídos.
Exemplo: Recorra ao último histograma para visualizar o polígono de
frequências.
0,350
0,300
0,250
0,200
0,150
0,100
0,050
0,000
5 15 25 35 45
1,200
1,000
0,800
0,600
0,400
0,200
0,000
]0, 10] ]10, 20] ]20, 30] ]30, 40] ]40, 50]
Atrasos (Classes)
1 p p
x Fi xi fi xi
n i 1 i 1
x( i ) , se n impar;
Me( x)
x( i ) x( i 1) 2, se n par.
Notas:
1. Se existem dois ou mais valores observados com frequência máxima,
dizemos que não há moda única.
2. As medidas apresentadas tem, em geral, valores distintos (excepto se a
distribuição for simétrica), e a sua capacidade para resumir a informação
da amostra depende das características dos dados.
Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 25
Estatística I – Estatística Descritiva e Análise Exploratória de Dados
k% ≤ ≤ (100 - k )%
min Pk max
1. Primeiro quartil (Q1): valor numérico tal que o n.º de observações para
valores inferiores a Q1 é 25%, e o nº de observações superiores é 75%.
2. Segundo quartil (Q2): corresponde à mediana.
3. Terceiro quartil (Q3): valor numérico tal que o n.º de observações para
valores inferiores a Q3 é 75%, e o n.º de observações superiores é 25%.
1
s Fi xi - x fi xi - x ou, pela formula alternativa
2 2 2
n
2
1 1 2
s x - x fi ( xi ) - fi xi Fi ( xi ) - ( Fi xi ) .
2 2 2 2 2
n n
s s2
Notas:
1. O uso da raiz quadrada deve-se ao facto de, no cálculo da variância não
ser possível comparar os valores médios de quadrados com a média da
amostra. A unidade de medida da variável vem alterada.
2. O desvio padrão é a medida de dispersão mais utilizada e, à semelhança
da média, o seu valor pode ser muito influenciado pelos valores
extremos de uma distribuição.
Coeficiente de variação: Medida de dispersão relativa, definida por:
s
CV 100
x
– Quanto menor o seu valor, menor é o grau de dispersão relativa e maior
será a representatividade da média enquanto medida descritiva da
amostra. É independente da unidade de medida em que se exprime a
variável, permitindo a comparação entre duas ou mais distribuições.
Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 31
Estatística I – Estatística Descritiva e Análise Exploratória de Dados
1 n 1 n 1 n
y yi (c xi ) c xi c x .
n i 1 n i 1 n i 1
ry c x( n) - c x(1) x( n) - x(1) rx .
n n n
i
( y
i 1
- y ) 2
i
( c x -
i 1
c - x ) 2
i
( x - x ) 2
i 1
1 n 1 n
s ( yi - y ) ( xi - x )2 sx2 s y sx .
2
y
2
n i 1 n i 1
sy sx
cvy cvy .
y x c
1 n 1 n 1 n
y yi cxi c xi cx
n i 1 n i 1 n i 1
( yi - y ) (cxi - cx ) c ( xi - x ) c
i 1
2
i 1
2
i 1
2 2 2
i
( x
i 1
- x ) 2
1 n 2 1
n
s ( yi - y ) c ( xi - x )2 c 2 sx2 s y csx .
2
y
2
n i 1 n i 1
sysx
cvy cvy cvy cvx .
y x
Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 34
Estatística I – Estatística Descritiva e Análise Exploratória de Dados
Obs.
1. Pela visualização gráfica apenas avaliamos de forma qualitativa o
enviesamento da distribuição. Seria útil medidas de assimetria que
permitissem a sua quantificação. Em termos absolutos, as medidas de
assimetria são positivas, negativas ou nulas consoante as distribuições
são assimétricas positivas, assimétricas negativas ou simétricas:
Observações:
Notas :
1. Pode medir-se a concentração do rendimento familiar, do nível de
riqueza, das áreas de exploração agrícolas, dos salários, mas a certos
atributos físicos ou biométricos não é possível aplicar medidas de
concentração.
Curva de Lorenz
j
pi fi fi ac, com j = 1,2,..., m classes.
i 1
fi xi fi xi
qi i 1
m
i 1
, com j = 1,2,..., m classes.
x
fi xi
i 1
Obs.
Se a concentração for mínima (cada elemento da população detém
igual parcela do atributo), então a curva de Lorenz degenera na
diagonal que se designa por recta de igual distribuição. Assim,
quanto mais afastada estiver a curva desta recta maior é a
concentração.
m -1 m -1
pi - qi qi
G i 1
m -1
1 - mi -11 , com i = 1,2,..., m classes.
pi pi
i 1 i 1
x fi xi 543,5 euros.
i
• Através da tabela, constata-se que 20% dos trabalhadores (i.é, 600) auferem
325 euros. Significa que a empresa despende cerca de 195 000 euros, ou seja
12% do total dos salários.
• Interpretando as duas últimas colunas, onde os valores acumulados se
exprimem em relação ao total, verifica-se, por exemplo, que cerca de 74% dos
trabalhadores da empresa recebem apenas 48% da quantia despendida pela
empresa em salários.
m -1 8-1
pi - qi qi
G i 1
m -1
1 - 8i-11
pi pi
i 1 i 1
1-
0, 00 0,10 0, 22 ... 0,82
0,33.
0, 00 0, 27 0, 47 ... 0,93
• Deixa-se como exercício a interpretação deste valor e a representação da curva
de Lorenz.
2.
Se x Q1 - 3 AIQ; Q3 3 AIQ → xi diz-se outlier severo
3.
Se o valor xi é outlier via (1.) mas não o é via (2.) → diz-se um outlier
moderado
2. 3. 3. 2.
1. 1. 1. 1.
BEI BII BIS BES
min Q1 Q2 Q3 max
93,6 94,1 94,7 95 96
Notas:
Alguns exemplos:
• Relação entre o consumo privado de um determinado bem e o
rendimento disponível das famílias.
• Relação entre as vendas de uma empresa e as despesas em publicidade.
• Relação entre o salário de um indivíduo e o seu nível de instrução.
• Relação entre a esperança de vida e o consumo de tabaco.
• Relação entre o sexo de um indivíduo e a sua preferência por
determinado programa de televisão.
yi 0 1 xi i , i=1,2,...n.
onde se tem:
xi – variável independente, exógena, regressor ou explicativa do modelo;
yi – variável dependente, endógena, resposta ou explicada do modelo;
εi – Erro aleatório, desvio ou termo de perturbação. Reflecte a componente
aleatória que o modelo não consegue explicar;
βj – Parâmetros ou coeficientes do modelo, (j=0, 1).
• Num estudo deste tipo pode-se começar por analisar se a relação entre as
variáveis é (ou não) linear, através de uma representação gráfica dos n
pares de observações (x, y): o Diagrama de Dispersão.
Figura 1. Figura 2.
Figura 3. Figura 4.
i 1 i 1 i 1
i yi - yˆi .
Graficamente, estamos a minimizar a soma dos quadrados dos desvios
medidos na vertical entre cada ordenada observada e a correspondente
ordenada da recta de regressão.
Graficamente:
y b0 b1 x
( x, y)
y - yˆ
( x , y)
y
y
x
Sandra Gancho Custódio e Sofia Delgado António ISCAL - 2011/2012 66
Estatística I – Estatística Descritiva e Análise Exploratória de Dados
b SQ (b0 , b1 ) 0
0
SQ(b0 , b1 ) 0
b1
Donde a resolução do sistema permite obter os coeficientes estimados:
b
( x - x )( y - y ) xy - nx y
(x - x ) x - nx
1 2 2 2
b0
y -b x
y -b x
1
1
n
b
xy - nx y 4009 - 8 29, 2516,625
0,517
x - nx 7074 - 8 29, 25
1 2 2 2
Diagrama de dispersão:
Notas:
1. A recta de regressão pode ser utilizada com o objectivo de prever o valor
da variável y, quando for conhecido o valor assumido por x.
i
( y
i 1
- y ) 2
i
( ˆ
y - y
i 1
) 2
i i
( y - ˆ
y ) 2
i 1
Obs. Em geral, a proporção não explicada pelo modelo linear, é dada por
1- r2. A parte que fica por explicar no modelo, designada por variação
residual, ou erro, resulta de factores não incluídos na regressão, que
actuam sobre y e não sobre x.
x y x2 y2 xy ( y - y )2 ŷ ( yˆ - y )2
2,5 40 6,25 1600 100,00 82,81 36,13 27,33
3,0 43 9,00 1849 129,00 146,41 33,26 5,55
4,0 30 16,00 900 120,00 0,81 27,51 11,48
3,5 35 12,25 1225 122,50 16,81 30,38 0,27
2,7 42 7,29 1764 113,40 123,21 34,98 16,64
4,5 19 20,25 361 85,50 141,61 24,64 39,19
3,8 32 14,44 1024 121,60 1,21 28,66 5,01
2,9 39 8,41 1521 113,10 65,61 33,83 8,59
5,0 15 25,00 225 75,00 252,81 21,77 83,39
2,2 14 4,84 196 30,80 285,61 37,85 48,32
34,1 309 123,73 10665 1010,90 1116,90 309,01 245,77
x y x 2
y 2
xy SQT yˆ SQR
r2
SQR
i
( ˆ
y - y ) 2
245, 77
0, 220
SQT (y i - y) 2
1116,90
r 2 100 22,09
Coeficiente de Correlação
Donde:
x-x y- y
r cov( , )
sx sy
r
( x - x )( y - y ) , e -1 r 1
(x - x ) ( y - y)
2 2
n COV(xy) ( x - x )( y - y ) xy -
x y
-42,79
i i
n
r
( x - x )( y - y )
-42,79
-0, 47
(x - x ) ( y - y)
2 2
7, 4491116,9
Resumo:
SQR
rx , y r2 .
SQT