Aula 3 4 Estatistica Na MQ 100913
Aula 3 4 Estatistica Na MQ 100913
Aula 3 4 Estatistica Na MQ 100913
Metrologia Química
Tópicos
1) Box Plot
2) Outlieres
3) Teste de Hipóteses, Distribuição Normal critérios de normalidade
4) Tamanho das Amostras
5) Análise de Variância, Análise de resíduos
6) Regressão Linear
7) Exercícios com Minitab
Box Plots - Medidas separatrizes
As medidas separatrizes delimitam proporções de observações de
uma variável ordinal.
Como a mediana divide o conjunto em duas metades, é razoável
pensar numa medida separatriz que efetue uma divisão adicional:
dividir cada metade em duas metades. Essas medidas separatrizes
são denominadas quartis.
De modo semelhante, é possível encontrar valores que delimitem
porções expressas em percentagem de dados em um conjunto
ordenado. Esses valores são denominados percentis. Entretanto,
de todas essas medidas separatrizes, teremos interesse particular
na mediana, e nos quartis.
Box Plots - Quartis
Os quartis dividem um conjunto de dados ordenado em quatro partes
iguais. São elas:
-Primeiro quartil Q1: 25% dos valores ficam abaixo e 75% ficam acima
desta medida.
- Segundo quartil Q2: 50% dos valores ficam abaixo e 50% ficam acima
desta medida, corresponde à mediana (Q2=Md).
- Terceiro quartil Q3: 75% dos valores ficam abaixo e 25% ficam acima
desta medida.
10
Box Plots - Quartis no Minitab
O Minitab calcula os valores dos quartis de forma um pouco diferente, dependendo
da situação isto pode levar a resultados distintos.
Box Plots - Quartis no Minitab
Que
conclusões
podemos
tirar só
olhando
para o
boxplot?
Box Plots - Quartis no Minitab
𝑖𝑖
Para obtermos os quartis acima como o Minitab calcula, usamos a fórmula 𝑄𝑄𝑖𝑖 = (𝑁𝑁 +
4
1).
1
𝑄𝑄1 = 10 + 1 = 2,75, o valor 2,75 está entre 9 e 16, pega-se a parte fracionária do
4
2,75 (0,75) e multiplica-se pelo intervalo entre 9 e 16 (7), e soma-se ao 9, assim, (16-
9)=7x0,75=5,25+9=14,25. Da mesma forma obtemos 𝑄𝑄2 𝑒𝑒 𝑄𝑄3 .
2
𝑄𝑄2 = 10 + 1 = 5,5 o valor 5,5 está entre 39 e 45; (45-39)=6x0,5=3+39=42.
4
3
𝑄𝑄3 = 10 + 1 = 8,25 o valor 8,25 está entre 46 e 48; (48-46)=2x0,25=0,5+46=46,5.
4
A amplitude interquatílica é dada pela diferença (46,50-14,25)=32,25.
OUTLIERS
O Minitab considera um outlier ou valor aberrante quando o valor está fora da faixa:
Limit Superior: Q3 + 1,5 (Q3-Q1) e Limite Inferior: Q1 – 1,5(Q3-Q1)
Exitem vários testes para valores aberrantes.
OUTLIERS
Teste de Grubbs
Três testes foram desenvolvidos por Grubbs para detectar valores
aberrantes (outliers) em distribuições normais. Todos usam testes
estatísticos baseados em distribuições padrão.
O primeiro é um teste para somente um valor aberrante.
𝑥𝑥̅ −𝑥𝑥1 𝑥𝑥 −𝑥𝑥̅
𝐺𝐺′𝑙𝑙𝑙𝑙𝑙𝑙 = ou 𝐺𝐺′ℎ𝑖𝑖𝑖𝑖𝑖 = 𝑛𝑛
𝑠𝑠 𝑠𝑠
O segundo teste é para um par de valores aberrantes em posições
opostas do conjunto de dados.
𝑥𝑥 −𝑥𝑥
𝐺𝐺 ′′ = 𝑛𝑛 1 (valores críticos se estiver acima dos tabelados)
𝑠𝑠
O terceiro teste é para um par de valores aberrantes no mesmo lado
do conjunto de dados.
2
′′′ 𝑛𝑛−3 .𝑠𝑠𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑜𝑜𝑜𝑜 2 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚
𝐺𝐺𝑙𝑙𝑙𝑙𝑙𝑙 = (valores críticos se estiver acima dos tabelados)
𝑛𝑛−1 .𝑠𝑠 2
2
′′′ 𝑛𝑛−3 .𝑠𝑠𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 𝑜𝑜𝑜𝑜 2 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚
𝐺𝐺ℎ𝑖𝑖𝑖𝑖𝑖 = (valores críticos se estiver abaixo dos tabelados)
𝑛𝑛−1 .𝑠𝑠 2
OUTLIERS
Teste de
Grubbs
OUTLIERS
Teste de Grubbs
Exercício: Determine se entre as medições das massas de uma
amostra existe valores aberrantes.
Massa (g) 159 153 184 153 156 150 147 Média 157,43
Ordenados 147 150 153 153 156 159 184 Des Padrão 12,34
Rank 1 2 3 4 5 6 7
1) Calculando 𝐺𝐺 ′
′ 157,43 − 147 ′ 184 − 157,43
𝐺𝐺𝑙𝑙𝑙𝑙𝑙𝑙 = = 0,8425 ⋯ 𝐺𝐺ℎ𝑖𝑖𝑖𝑖𝑖 = = 2,153
12,34 12,34
Os valores críticos pela tabela de Grubbs 𝐺𝐺 ′ ; n=7 para 95%=2,020 e 𝐺𝐺 ′ ;
n=7 para 99% = 2,139. Assim comparando com os valores calculados
pode-se concluir que o valor 184 é um valor aberrante para confianças
de 95% e 99% já que o valor calculado 2,153 é maior do que os valores
tabelados. O valor 147 não é considerado aberrante já que o 0,8425 é
menor do que os valores tabelados.
OUTLIERS
Teste de Grubbs
Exercício: Determine se entre as massas de uma amostra existe
valores aberrantes.
OUTLIERS
Teste de Grubbs
Exercício: Determine se entre as massas de uma amostra existe
valores aberrantes.
Massa (g) 159 153 184 153 156 150 147 Média 157,43
Ordenados 147 150 153 153 156 159 184 Des Padrão 12,34
Rank 1 2 3 4 5 6 7
1) Calculando 𝐺𝐺 ′′
′′
184 − 147
𝐺𝐺 = = 2,998
12,34
Os valores críticos pela tabela de Grubbs 𝐺𝐺 ′′ ; n=7 para 95%=3,222;
n=7 para 99% = 3,338. Como o valor calculado é menor do que o
tabelado, podemos afirmar que os dois valores extremos não formam
pares de valores aberrantes.
OUTLIERS
Teste de Grubbs
Exercício: Determine se entre as massas de uma amostra existe
valores aberrantes.
1) Calculando 𝐺𝐺 ′′′
′′′ 4 𝑥𝑥 171,5 ′′′ 4 𝑥𝑥 11,7
𝐺𝐺𝑙𝑙𝑙𝑙𝑙𝑙 = = 0,751 ... 𝐺𝐺ℎ𝑖𝑖𝑖𝑖𝑖 = = 0,051
6 𝑥𝑥 152,29 6 𝑥𝑥 152,29
Os valores críticos para 𝐺𝐺 ′′′ são 0,0708 para 95% de confiança e
0,0308 para 99%.
LEMBRANDO QUE ESTES SÃO VALORES CRÍTICOS ABAIXO.
′′′
Observa-se que 𝐺𝐺ℎ𝑖𝑖𝑖𝑖𝑖 é significante para 95% mas não para 99%.
Outro critério tem sido frequentemente utilizado para decidir sobre 𝐻𝐻0 .
Essa decisão também pode ser baseada em um valor que expressa a
probabilidade de que seja obtido um valor t mais extremo que o valor
observado, dado que 𝐻𝐻0 é verdadeiro. Esta probabilidade é conhecida
como valor p.
Testes de hipóteses – Valor p
𝑆𝑆 𝑆𝑆
𝑋𝑋� − 𝑡𝑡∝⁄2 < 𝜇𝜇 < 𝑋𝑋� + 𝑡𝑡∝⁄2
𝑛𝑛 𝑛𝑛
𝑛𝑛 − 1 𝑆𝑆 2 2
𝑛𝑛 − 1 𝑆𝑆 2
≤ 𝜎𝜎 ≤ 2
𝜒𝜒 2 𝛼𝛼⁄2;𝑛𝑛−1 𝜒𝜒 1−(𝛼𝛼⁄2);𝑛𝑛−1
1
𝐹𝐹1−∝,𝜈𝜈2,𝜈𝜈1 =
𝐹𝐹𝛼𝛼,𝜈𝜈2,𝜈𝜈1
Tamanho da Amostra e erros
Embora os dois tipos de erros sejam indesejáveis, o erro tipo I é
tipicamente mais importante, sendo α chamado nível de significância ou
tamanho do teste. A hipótese 𝐻𝐻0 é geralmente elaborada de tal forma
que o erro tipo I seja o mais importante a ser evitado.
Para explicar o
assunto da relação
entre erros e
tamanho da
amostra, tomemos
o exemplo de uma
distribuição normal
com média 2500 e
limites inferior =
2450 e superior =
2550.
Tamanho da Amostra e erros
Pela figura percebe-se que a probabilidade α é a soma das duas áreas
extremas. Dessa forma, tem-se:
∝= 𝑃𝑃 𝑋𝑋� < 2450 ⋮ 𝜇𝜇 = 2500 + 𝑃𝑃(𝑋𝑋� > 2550 ⋮ 𝜇𝜇 = 2500)
Considerando que as amostras selecionadas tenham vindo de uma
população normal, com σ=100psi, a probabilidade α (normalizando-se a
2450−2500
distribuição) pode ser calculada da seguinte forma: 𝑍𝑍1 = ⁄
=
100 10
2550−2500
− 1,58 ⋯ 𝑍𝑍2 = = 1,58
100⁄ 10
∝= 𝑃𝑃 𝑍𝑍 < −1,58 + 𝑃𝑃 𝑍𝑍 > 1,58 = 0,0571 + 0,0571 = 0,1142
Este resultado quer dizer que 11,42% de todas as amostras aleatórias
conduziram à rejeição da hipótese nula, quando a média populacional
verdadeira fosse realmente 2.500 psi. Existem duas maneiras de
diminuir esse valor do erro:
Tamanho da Amostra e erros
a) Aumentando a região de aceitação, através da mudança dos valores
críticos, o que implica em alterar o intervalo de confiança:
2400 − 2500 2600 − 2500
∝= 𝑃𝑃 𝑍𝑍 < + 𝑃𝑃 𝑍𝑍 >
100⁄ 10 100⁄ 10
= 0,000789 + 0,000789 = 0,001578
b) Aumentar o tamanho da amostra, aumentando assim os valores de z
(variável normal padrão), com a consequente diminuição de α.
2450 − 2500 2550 − 2500
∝= 𝑃𝑃 𝑍𝑍 < + 𝑃𝑃 𝑍𝑍 >
100⁄ 20 100⁄ 20
= 0,012674 + 0,012674 = 0,025348
Referência:
∝= 𝑃𝑃 𝑍𝑍 < −1,58 + 𝑃𝑃 𝑍𝑍 > 1,58 = 0,0571 + 0,0571 = 0,1142
Tamanho da Amostra e erros
Com relação ao cálculo da probabilidade β, referente ao erro tipo II,
imagine que o valor verdadeiro da média populacional seja µ = 2600 psi
e que a média da amostra, 𝑋𝑋� = 2.500, estivesse entre os valores 2.450
psi e 2.550 psi.
O erro tipo II pode ser calculado
pelas equações a seguir:
𝛽𝛽 = 𝑃𝑃(2450 ≤ 𝑋𝑋� ≤ 2550 ⋮ 𝜇𝜇
= 2600)
2450 − 2600
𝑍𝑍1 = = −4,74 ⋯ 𝑍𝑍2
100⁄ 10
2550 − 2600
= = −1,897
100⁄ 10
𝛽𝛽 = 𝑃𝑃 −4,74 ≤ 𝑍𝑍 ≤ −1,897
= 0,02891 − 0,00
= 0,02891
Tamanho da Amostra e erros
Este resultado quer
dizer que existem
2,89% de chance de se
aceitar a hipótese nula,
quando na realidade ele
é falsa. Esse erro pode
ser aumentado
rapidamente para o
caso do valor
verdadeiro da média
populacional se
aproximar muito do
valor de 𝐻𝐻0 : 𝜇𝜇 = 2.500
contra 𝐻𝐻1 :µ=2.525 psi),
conforme se pode
observar na figura.
Tamanho da Amostra e erros
Usando o mesmo raciocínio do cálculo anterior, trocando µ=2600 por
µ=2525, obtém-se β=0,8817. Como antes, esse erro pode ser
diminuído, caso se trabalhe com uma amostra maior.
Duas conclusões importantes podem ser tiradas do exposto acima:
a) À medida que o erro tipo I diminui, o erro tipo II aumenta, para o
mesmo tamanho de amostra;
b) Um aumento no tamanho da amostra reduz os dois tipos de erro,
desde que os valores críticos permaneçam constantes.
Tamanho da Amostra e erros
No caso de um teste de hipóteses onde temos as hipóteses:
𝐻𝐻0 : 𝜇𝜇1 = 𝜇𝜇2 𝑒𝑒 𝐻𝐻1 : 𝜇𝜇1 ≠ 𝜇𝜇2 , não sendo as médias iguais temos que
𝛿𝛿 = 𝜇𝜇1 − 𝜇𝜇2 , como 𝐻𝐻0 : 𝜇𝜇1 = 𝜇𝜇2 não é verdade, estamos preocupados
com falharmos em rejeitar 𝐻𝐻0 , ou seja com o erro tipo II, que depende
da diferença das médias δ.
Curvas de β versus δ para um particular tamanho de amostra são
chamadas de Curvas Características Operacionais ou curva O.C.
O erro β é também função do tamanho da amostra. Geralmente, para
um dado valor de δ, o erro β decresce quando o tamanho da amostra
cresce. Ou seja uma diferença específica entre médias é mais
facilmente detectada para amostras maiores.
Tamanho da Amostra e erros
Curvas Operacionais são úteis para selecionar o tamanho da amostra
em um experimento. Por exemplo, suponha que duas formulações de
cimento diferem entre si por 0,5 kgf/cm2, desejamos detectar esta
diferença com alta probabilidade. Isto porque 𝜇𝜇1 − 𝜇𝜇2 = 0,5𝑘𝑘𝑘𝑘𝑘𝑘/𝑐𝑐𝑐𝑐2 é
a diferença crítica das médias que desejamos detectar, assim um
𝜇𝜇1 −𝜇𝜇2 0,5 0,25
parâmetro d é calculado da seguinte forma: 𝑑𝑑 = = =
2𝜎𝜎 2𝜎𝜎 𝜎𝜎
Estima-se um n* =16
Experimentos de um único fator –
Análise de Variância
Suponhamos que desejamos determinar a resistência à tração de
cinco diferentes formulações de tecidos, nas quais se variou o
percentual de algodão. Estamos interessados em testar se as cinco
formulações apresentam diferenças de resistência. Este problema
poderia ser resolvido fazendo-se 10 testes t aos pares, para as
diferentes combinações possíveis das cinco formulações.
Como existem 10 possíveis pares de combinações, sendo a
probabilidade de aceitar corretamente a hipótese nula 1-α = 0,95 para
cada teste individual, a probabilidade de aceitar corretamente a
hipótese nula para todos os 10 testes será de apenas 0,95 10 = 0,60,
aumentando grandemente a ocorrência do erro tipo I.
O procedimento apropriado para testar a igualdade de várias médias é
a análise de variância. Provavelmente, a técnica mais utilizada em
inferência estatística.
Experimentos de um único fator –
Análise de Variância
a=número de tratamentos
n=número de replicações
Soma
quadrática
da diferença
entre as
observações
Variabilidade total em um
dos dados em tratamento e
relação à grande a média do
média tratamento
Soma quadrática
da diferença entre
as médias dos
tratamentos e a SS nos
grande média SS devido ao erro tratamentos
Referência: Felipe Campelo - Dept. Engenharia Elétrica/ Electrical Engineering - UFMG
Disponível em http://cpdee.ufmg.br/~fcampelo/files/disciplinas/EEE933/2013-1/
Análise de Variância
Variância total
Variância
comum dentro
de cada
tratamento
Variância entre
os tratamentos
a=número de tratamentos;
n=número de replicações;
N=número total de experimentos, a.n=N
𝑀𝑀𝑀𝑀𝐸𝐸 𝑀𝑀𝑀𝑀𝐸𝐸
𝑦𝑦�𝑖𝑖. − 𝑡𝑡∝⁄2;𝑁𝑁−𝑎𝑎 ≤ 𝜇𝜇𝑖𝑖 ≤ 𝑦𝑦�𝑖𝑖. + 𝑡𝑡∝⁄2;𝑁𝑁−𝑎𝑎
𝑛𝑛 𝑛𝑛
2𝑀𝑀𝑀𝑀𝐸𝐸 𝑀𝑀𝑀𝑀𝐸𝐸
𝑦𝑦�𝑖𝑖. − 𝑦𝑦�𝑗𝑗. − 𝑡𝑡∝⁄2;𝑁𝑁−𝑎𝑎 ≤ 𝜇𝜇𝑖𝑖 − 𝜇𝜇𝑗𝑗 ≤ 𝑦𝑦�𝑖𝑖. − 𝑦𝑦�𝑗𝑗. + 𝑡𝑡∝⁄2;𝑁𝑁−𝑎𝑎
𝑛𝑛 𝑛𝑛
Análise de Variância – Exemplo
Usando os dados do exemplo das percentagens de algodão
podemos estimar a média geral e a média dos efeitos dos
tratamentos, como 𝜇𝜇� = 376⁄25 = 15,04 é:
∑𝑎𝑎𝑖𝑖=1 𝑐𝑐𝑖𝑖 𝑑𝑑𝑖𝑖 = 0 ou para o ensaio desbalanceado ∑𝑎𝑎𝑖𝑖=1 𝑛𝑛𝑖𝑖 𝑐𝑐𝑖𝑖 𝑑𝑑𝑖𝑖 = 0
Análise de Variância – Contrastes
Suponhamos que desejamos testar, no nosso exemplo de resistência
de tecidos em função do percentual de algodão, as seguintes
hipóteses comparando médias de diversos tratamentos.
Análise de Variância – Contrastes
Encontramos então os valores numéricos dos contrastes e a soma
quadrática como segue:
Análise de Variância – Contrastes
2𝑀𝑀𝑀𝑀𝐸𝐸 2(8,06)
𝑑𝑑0,05 4; 20 = 2,65 = 4,76
𝑛𝑛 5
Análise de Variância – Dispersão
Até então usamos a análise de variância e métodos para determinar
que níveis de fatores, resultam em diferentes médias entre os
tratamentos. Caso tenhamos variâncias diferentes para diferentes
tratamentos, usamos transformações para estabilizar a variância.
Em alguns problemas, no entanto, estamos interessados em saber se
os diferentes níveis dos fatores afetam a variabilidade, isto é estamos
interessados em pesquisar se diferentes níveis dos fatores afetam a
dispersão dos níveis. Isto ocorre quando o desvio padrão, variância e
outras medições de variabilidade são usadas como resposta de saída.
Análise de Variância – Dispersão
Para ilustrar esta ideia, consideremos os valores da tabela abaixo
resultante de um experimento em uma fundição de alumínio. O
alumínio é produzido pela combinação de alumina com outros
ingredientes em uma célula de reação, com a aplicação de calor
através de uma corrente elétrica que passa através da célula. Alumina
é adicionado continuamente à célula para manter a proporção em
relação aos outros ingredientes. Quatro algoritmos de controle da
mistura são investigados neste experimento.
A variável de resposta em estudo é relacionada a tensão elétrica da
célula. Especificamente, um sensor mede a tensão da célula várias
vezes a cada segundo, produzindo milhares de medições de tensão a
cada experimento. O engenheiro de processo decide usar a média da
tensão e o desvio padrão da tensão da célula (entre parênteses) como
variáveis de resposta. A tensão média é importante pois afeta a
temperatura da célula e o desvio padrão da tensão afeta a eficiência da
célula.
Análise de Variância – Dispersão
Uma análise de variância foi feita para determinar se os diferentes
algoritmos de controle afetam a tensão da célula. O experimento
revelou que os diferentes algoritmos de controle não alteram a tensão
média da célula.
Source DF SS MS F P
Factor 3 6,1661 2,0554 21,96 0,000
Error 20 1,8716 0,0936
Total 23 8,0377
S = 0,3059 R-Sq = 76,71% R-Sq(adj) = 73,22%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev -+---------+---------+---------+--------
Alg 1 6 3,0877 0,2422 (----*----)
Alg 2 6 3,5086 0,3667 (----*----)
Alg 3 6 2,1998 0,2337 (----*----)
Alg 4 6 3,3559 0,3558 (----*----)
-+---------+---------+---------+--------
2,00 2,50 3,00 3,50
Análise de Variância – Dispersão
Pela análise dos resultados verificamos que o algoritmo de controle
afeta a dispersão, hipótese 𝐻𝐻0 descartada. Testes padrões de
adequação do modelo, indicam que não há problemas com a validade
do experimento.
Residual Plots for Alg 1; Alg 2; Alg 3; Alg 4
Normal Probability Plot Versus Fits
99
0,50
90
0,25
Residual
Percent
50 0,00
-0,25
10
-0,50
1
-0,50 -0,25 0,00 0,25 0,50 2,5 3,0 3,5
Residual Fitted Value
Histogram
4,8
3,6
Frequency
2,4
1,2
0,0
-0,4 -0,2 0,0 0,2 0,4 0,6
Residual
Análise de Variância – Dispersão
Pela análise dos box plots e as médias dos valores, notamos que o
algoritmo 3 produz maior dispersão que os algoritmos 1, 4 e 2, que
entre si não apresentam diferenças significativas.
3,5
3,0
Data
2,5
2,0
A equação geral que descreve a curva ajustada pode ser escrita como:
𝑦𝑦 = 𝑎𝑎 + 𝑏𝑏𝑏𝑏
Onde 𝑏𝑏 é a inclinação da reta e 𝑎𝑎 é onde a reta intercepta o eixo y.
Altas médias
causadas por
uma desigual
distribuição
dos pontos.
Regressão Linear
Exame visual dos dados
Antes de efetuar a regressão linear é uma boa prática examinar os
dados tentando identificar possíveis outliers.
Outlier alterando a
inclinação da reta
ajustada.
Regressão Linear
Exame visual dos dados
Antes de efetuar a regressão linear é uma boa prática examinar os
dados tentando identificar possíveis outliers.
Outlier alterando a
intersecção do
eixo y pela reta
ajustada.
Regressão Linear
Cálculo da inclinação e intersecção
Para cálculo de 𝑏𝑏 e 𝑎𝑎 as seguintes equações são utilizadas:
∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ 𝑦𝑦𝑖𝑖 − 𝑦𝑦�
𝑏𝑏 =
∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ 2
𝑎𝑎 = 𝑦𝑦� − 𝑏𝑏𝑥𝑥̅
𝑥𝑥̅ 𝑒𝑒 𝑦𝑦� são as médias de x e y.
Uma vez que a e b tenham sidos calculados podemos calcular os
resíduos e o desvio padrão dos resíduos.
𝑦𝑦𝑖𝑖 = é um valor medido (proveniente dos meus dados);
𝑦𝑦�𝑖𝑖 = é um valor obtido pela reta ajustada;
𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖 = é um resíduo;
𝑛𝑛 = número de pares medidos (dados).
∑𝑛𝑛𝑖𝑖=1 𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖 2
𝑠𝑠𝑦𝑦⁄𝑥𝑥 =
𝑛𝑛 − 2
𝑛𝑛 − 2 = é o número de graus de liberdade do desvio padrão dos
resíduos.
Regressão Linear
Cálculo da inclinação e intersecção
Mostra um padrão de
resíduos quando a reta foi
incorretamente forçada a
passar por zero
Há uma incerteza associada com 𝑥𝑥� que pode ser calculada pela
𝑠𝑠𝑦𝑦⁄𝑥𝑥 1 1 𝑦𝑦�0 −𝑦𝑦� 2
equação: 𝑠𝑠𝑥𝑥� = + +
𝑏𝑏 𝑁𝑁 𝑛𝑛 𝑏𝑏2 ∑𝑛𝑛
𝑖𝑖=1 𝑥𝑥𝑖𝑖 −𝑥𝑥̅
2
Cálculo de b e a.
∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ 𝑦𝑦𝑖𝑖 − 𝑦𝑦� 708,0
𝑏𝑏 = = = 10,114
∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ 2 70
𝑎𝑎 = 𝑦𝑦� − 𝑏𝑏𝑥𝑥̅ = 51,67 − 10,114 𝑥𝑥 5 = 1,100
Regressão Linear
Exercício
Desvio padrão de b
Pode-se afirmar que a
inclinação é diferente
de zero. Portanto y e x
Desvio padrão dos resíduos são fortemente
correlacionados
Regressão Linear
Exercício
Interpretação dos valores de r indicados pelo software Minitab.
S, R 2 and adjusted R2 are measures of how well the model fits the data.
These values can help you select the model with the best fit.
· S is measured in the units of the response variable and represents the
standard distance that data values fall from the regression line. For a given
study, the better the equation predicts the response, the lower S is.
· R 2 (R-Sq) describes the amount of variation in the observed response
values that is explained by the predictor(s) . R2 always increases with
additional predictors. For example, the best five-predictor model will always
have a higher R2 than the best four-predictor model. Therefore, R2 is most
useful when comparing models of the same size.
· Adjusted R2 is a modified R2 that has been adjusted for the number of
terms in the model. If you include unnecessary terms, R2 can be artificially
high. Unlike R2 , adjusted R2 may get smaller when you add terms to the
model. Use adjusted R2 to compare models with different numbers of
predictors.
Regressão Linear
Exercício
Interpretação dos valores de r indicados pelo software Minitab.
Press and R2 (pred) are measures of how well the model predicts the
response.
· PRESS is the sum of squares of the prediction error. In general, the
smaller the PRESS value, the better the model's predictive ability.
PRESS is used to calculate the predicted R.
· R2 (pred) indicates how well the model predicts responses for new
observations. Predicted R2 can prevent overfitting the model. This
statistic is more useful than adjusted R for comparing models because
it is calculated with observations not included in model calculation.
Larger values of predicted R2 suggest models of greater predictive
ability.
Regressão Linear
Exercício
Interpretação dos valores de r indicados pelo software Minitab.
Example Output:
Summary of Model
Interpretation
The model explains 92.95% of the variation in the Salary data. The
adjusted R is 91.12%. R (pred) is 85.59%, indicating that the model
explains 85.59% of the variation in Salary when the model is used for
prediction.
Regressão Linear
Exercício
Análise
dos
resíduos.
Regressão Linear
Exercício sobre incerteza de x
Analysis of Variance