Apontamentos Métodos Estatísticos
Apontamentos Métodos Estatísticos
Apontamentos Métodos Estatísticos
Apontamentos
de métodos
estatísticos
2017/2018
Giovanna Calvão
Capítulo 1 – Introdução à estatística
A estatística desenvolve métodos de obtenção, análise e interpretação de
dados experimentais ou observacionais, dependendo da natureza do estudo, para
deles extrair conclusões. É particularmente útil em situações de elevada incerteza,
sendo que os métodos desenvolvidos pela estatística auxiliam a tomada de decisões
na presença das incertezas e, ao mesmo tempo, quantifica o grau de confiança que
se pode atribuir à conclusão que esteve na origem da decisão tomada.
Raciocínio indutivo
Conclusão do particular para o geral, o que pode significar que conclusões
obtidas em estudos de natureza estatística, pela aplicação de um raciocínio indutivo,
não sejam garantidamente corretas (ex: ‘Todos os alunos que estão nesta aula
entraram na FCUP antes das 9h → conclusão: todos os alunos da fcup entraram na
mesma antes das 9h);
1
Estudos experimentais
2
Blocking
Arranjo de unidades experimentais em grupos (‘blocks’) que possuam
semelhanças entre si, ou seja, o mais homogéneo quanto possível, tendo em conta
fatores que possam ser relevantes para o estudo;
Reatividade
Fenómeno que acontece quando os indivíduos alteram o seu
comportamento devido ao conhecimento de estarem a ser observados,
podendo ser uma alteração negativa e positiva e depende da situação, sendo uma
ameça significativa para a validade do estudo e é tipicamente controlada através do
‘double blind’ experiment – efeito Hawthorne é uma forma de reativade que ocorre
quando os participantes sabem que estão a ser estudados e alteram o seu
comportamento como resposta à atenção que recebem dos ‘investigadores’.
Blinding
Método onde se previne que todas as pessoas envolvidas no tratamento
saibam quais os indivíduos que receberam qual tratamento.
3
→ para se ter a certeza que o grupo de controlo é parecido ao experimental, os
investigadores colocam os indivíduos aleatoriamente nos grupos – randomized
controlled experiments;
→ sempre que possível, o grupo de controlo recebo o placebo que é neutro mas
parecido com o do tratamento, a resposta deverá ser para o tratamento em si e não
para a ideia do tratamento;
Estudos observacionais
Variáveis de confundimento
Variáveis relacionadas com a variável dependente e/ou uma ou mais das
variáveis independentes e que não são incluídas no modelo de análise de dados –
quando não consideradas podem levar a conclusões erradas.
4
↳ exemplo: um estudo que foi feito sobre o amamentamento concluiu que
amamentar levava a um maior risco de morte, conclusão totalmente errada pois não
tiveram em conta as variáveis de confundimento como o acesso a água potável que
dependia de país para país.
Nunca tentar analisar dados sem antes se perceber o que está a ser medido
e porquê. Search the literature, ask questions.
Correlação
Relação matemática entre duas coisas que estão a ser medidas, variando
entre 0 e 1; por exemplo, se medirmos alturas e pesos de um grupo de pessoas há
uma correlação de quase 0,8 – podemos prever com uma grande certeza um se
soubermos o outro;
Causalidade
Em estudos observacionais é difícil estabelecer-se uma relação real e
convincente de causa-efeito pois existem variadas variáveis de confundimento
que se não forem detetadas podem levar a falsas conclusões; é uma relação entre
duas coisas não matematicamente mas sim fisicamente ou filosificamente,
envolvendo tempo (uma x coisa acontece e pouco depois disso acontece y como
resultado dessa);
Estratificação
Nos estudos observacionais, tais como nos experimentais, deve-se procurar
que os grupos de controlo e de tratamento/experimental tenham característivcas
semelhantes no que diz respeito a fatores que se suspeita terem uma influência nos
resultados.
5
Constatação experimental vs. Interpretação: os autores devem deixar
claro qual a diferença entre ambos nos seus estudos, sendo que a constatação
experimental é uma informação objetiva que pode ser útil para o leitor e a
interpretação é subjetiva, dependendo de pessoa para pessoa, algo que o leitor
poderá ou não concordar. Este princípio de separação clara do ‘objetivo’ e do
‘subjetivo’ conduz a regras muito estritas no que diz respeito à forma como devem
ser apresentados os trabalhos de índolo científica/técnica, nomeadamente a
separação entre a secção de resultados e da secção de discussão.
6
Conclusões de um estudo estatístico:
7
Capítulo 2 – População, amostragem e variáveis estatísticas
Em traços gerais, o objetivo de um estudo
de natureza estatística é conseguir obter
informação global (isto é, informação não
individual) sobre as características dos elementos
de um conjunto (população), a partir da
observação individual dos elementos de um
subconjunto da população (amostra).
População
Conjunto de elementos (indivíduos, animais, objetos, empresas, ocorrências,
etc.) cujos atributos se pretendem conhecer; os elementos da população são
designados por “unidades estatísticas”;
8
Obs: a unidade de medida deve ser sempre indicada, a omissão ou confusão nas
unidades de medida pode ter graves consequências.
Amostra
É uma parte (subconjunto) da população que é objeto de estudo detalhado;
Na grande maioria das situações a população tem um grande nº de elementos,
não sendo possível a observação deles todos, em particular por impossibilidade
técnica, por insuficiência de recursos ou quando a observação/medida implica a
destruição da unidade experimental.
9
do método que é utilizado na obtenção da amostra. Não caracteriza a qualidade
de uma amostra em particular, obtida por aplicação desse método.
Amostragem
A obtenção de uma amostra deverá ser feita com especial cuidado de uma forma
não subjetiva, recorrendo às técnicas de amostragem;
10
Obs: a distinção entre “com/sem reposição” não faz sentido quando a população não
é finita.
11
Amostragem aleatória com reposição
Considerando-se uma população finita constituída por N elementos: neste
tipo de amostragem de n (n<N) elementos da população – todas as Nn amostras
ordenadas se podem obter são igualmente prováveis.
↳ Este tipo de amostragem é, do ponto de vista teórico, muito mais simples de tratar;
12
As técnicas de amostragem referidas acima são genericamente designadas
por “probabilísticas” (probability samplig methods), porém existem outras
técnicas, as ditas “não probabilísticas” que por vezes são utilizadas por razões de
conviniência, de simplicidade ou porque os métodos probabilísticas não são
utilizáveis.
13
Amostragem de julgamento (judgement sampling)
É usada quando a amostra é feita com base em certos preconceitos sobre
a população em geral. O pressuposto é que o investigador irá selecionar unidades
estatísticas com base no facto de serem característicos da população em
estudo. O ponto crítico aqui é a objetividade: até que ponto podemos confiar no
julgamento para chegarmos a uma amostra típica? Este método é subjetivo e
depende de cada investigador e até se pode considerar mais tendencioso que a
Amostra de conveniência. Uma vantagem será o custo reduzido e o tempo envolvido
a escolher a amostra.
14
Números pseudo-aleatórios
São números gerados em computador utilizando uma relação de recorrência
(isto é, o nº seguinte é obtido à custa do anterior). O primeiro nº é obtido por
transformação de leitura do relógio interno do computador, daí o não haver dois
“inícios iguais”. A fórmula de recorrência utilizada assegura que os nºs que são
gerados têm características que os tornam praticamente indistinguíveis de nºs
obtidos por um sorteio. Esta continua a ser uma área de investigação atual.
Variáveis quantitativas
Medições ou contagens: características/atributos que podem ser medidos
numa escala quantitativa, ou seja, características mensuráveis).
15
Variáveis qualitativas
Indicam o “grupo”, podem ser (1) nominais (ou categóricas ou não ordinais)
– não têm subjacente nenhuma ideia de ordem, como por exemplo, a cor de cabelo
ou (2) ordinais – “apontam” para uma ordem natural, temos a gravidade de x
doença no tempo como exemplo.
Exemplo: a cor pode ser vista como várias coisas, se for vista como frequência é
quantitativa contínua, se observada no arco-íris é qualitativa ordinal e se for
observada como a cor dos olhos dos alunos da FCUP é qualitativa nominal.
23,9 24,7 27,0 32,9 20,9 21,7 29,7 28,5 ← estas medições têm 3 algarismos
significativos com uma casa decimal e têm dois dígitos variáveis: o das décimas e o
das unidades (effective digits ou variable digits).
16
Capítulo 3 – Análise explicatória dos dados (AED)
Na análise explicatória de dados o objeto de estudo é a Amostra que foi
obtida; são desenvolvidos métodos (quantitativos e gráficos) para a caracterização
dessa mesma Amostra, sendo que todos os estudos que envolvem estatística
começam pela AED).
Diagrama de pontos
Para pontos
coincidentes temos dois
tipos de representação: em
“overplot” onde se
marcam os pontos sem
interessar se esses já
existem na marcação ou
não e em “stack” onde se
empilham (como na
imagem acima).
17
Diagrama de caule e folhas
Este tipo de diagrama organiza os dados de uma maneira compacta, com
pouca perda de informação, dando ainda informação “visual” sobre a “distribuição”
dos valores na amostra.
O nº 212 pode ser representado por 21|2 e, de forma análoga, 21.2 pode ser
também representado por 21|2. Para os distingir temos que indicar as unidades
que neste caso são 20|0=200.
Nº de dígitos = 3
Nº de caules = 7
Recomendações gerais:
2. O nº de caules não deve ser maior que 10, exceto quando a dimensão da
amostra é muito elevada; este pode ser aumentado por fragmentação, isto
é, cada um dos fragmentos deve ter o mesmo nº possível de folhas – um caule
só pode ser divido em 2 ou 5;
18
Histograma (distribuição de frequências/diagrama das frequências)
Representação gráfica em colunas (retângulos) de um conjunto de dados
previamente tabulado e dividido em classes (em geral uniformes). A base de cada
retângulo representa uma classe e a altura representa a quantidade/frequência com
que o valor dessa classe ocorreu no conjunto de dados.
19
Para o n = 40, o critério de sturges indica que o nº de classes (nc) deverá ser
7:
R=(max-min)=102.5-71.0=31.5
Descontinuidades de um histograma
Polígno de frequências
Este método pode ser utilizado em qualquer que seja a escala dos yy:
frequências absolutas, frequências relativas ou densidades.
20
Para se resolverem as descontinuidades de um histograma é possível fazer
histograma de classes de amplitude diferente. Porém, é necessário ter em
atenção o seguinte: quando as classes não têm todas a mesma amplitude, qual a
escala a utilizar no eixo dos yy? Quando as classes não têm todas a mesma
amplitude só se pode utilizar a escala de densidades.
21
Curva de densidades
São curvas (funções) mais macias que os polígnos de frequências que
descrevem a forma da distribuição dos dados observados.
22
Exemplo: Consideremos uma população com 200 elementos, 20 dos quais
são do sexo F (10% F na população); foram retiradas amostras de 20 elementos
(com reposição), tendo-se obtido o seguinte...
23
Diagrama ou Gráfico de barras
Este tipo de gráfico, por vezes também chamado de histograma, corresponde
à descrição gráfica de um conjunto de valores observados de uma variável
quantitativa discreta, podendo ser utilizadas frequências absolutas ou relativas
mas nunca se recorre a densidades.
24
Medidas quantitativas (variáveis quantitativas)
As medidas quantitativas ou variáveis quantitativas são a descrição da
amostra de modo quantitativo.
𝑠 = √𝑠 2 (desvio padrão)
𝑠
𝑐𝑣 = ( ) ∗ 100% (coeficiente de variação)
𝑥̅
Obs: o desvio padrão da amostra deve ser representado por s: nunca deve ser
representado por sigma (σ). Este designa uma entidade matemática de natureza
muito diferente da de s:
25
- s é o desvio padrão da amostra, um valor calculado a partir da amostra, variando
de amostra para amostra.
Estatísticas de Ordem
Quando a variável estatística é quantitativa (ou qualitativa ordinal) os n
valores que constituem a amostra {x1,x2,x3,...,xn} podem ser ordenados, obtendo-
se {x(1),x(2),...,x(n)} em que x(1) ≤ x(2) ≤ ... ≤ x(n).
𝑀 = 𝑥𝑘+1 𝑠𝑒 𝑛 = 2𝑘 + 1
1
𝑀 = (𝑥𝑘 + 𝑥𝑘+1 ) 𝑠𝑒 𝑛 = 2𝑘
2
26
A posição relativa da média e da mediana é definida pela distribuição de
dados da amostra, se esta for unimodal e enviesada à direita (à esquerda), em
geral, a média está situada à direita (à esquerda) da mediana.
Quantis (“quantiles”)
Podemos pensar numa generalização do conceito de mediana da amostra;
considerando, por exemplo, o valor V que divide os dados da amostra em duas partes
(mediana):
1º quartil: Q1=q0,25
3º quartil: Q3=q0,75
27
Método de Freund e Perles (deteção de erros)
28
Exemplo de cálculo do quantil 0,25 (25%) – método (b)
K 1 2 3 4 5 6 7 8 9 10
x(k) 1 1 2 3 3 3 4 5 5 6
q(k) 1/11 2/11 3/11 4/11 5/11 6/11 7/11 8/11 9/11 10/11
𝑥(3) − 𝑥(2)
𝑄1 = 𝑥(2) = ∗ (0,25 − 𝑞(2))
𝑞(3) − 𝑞(2)
2 3
𝑥(2) = 1; 𝑥(3)2; 𝑞(2) = 𝑒 𝑞(3) =
11 11
𝑄1 = 1,75
Para uma mesma amostra, os valores calculados dos quantis e dos quartis
dependem do método utilizado, sendo que o método utilizado nos programas
de estatística não é necessariamente o mesmo;
Moda da amostra
A moda é frequentemente definida como sendo o valor mais frequente na
amostra (o que apresenta mais ocorrências) – pode definir-se para as variáveis
quantitativas discretas e para as variáveis categóricas.
29
Com esta definição, a distribuição dos dados na amostra pode ser unimodal,
bimodal, etc.
M0≅2,0 minutos
M1≅4,4 minutos
[𝑥̅ − 𝑠, 𝑥̅ + 𝑠]
IQR=Q3-Q1 ≅ 1,4s
30
Medidas quantitativas vs variáveis qualitativas
0 | 8 = 8 mm
0|8
1 | 0155
2 | 00259
3 | 0357
↳ Representação adequada desde que (Q3-Q1) não seja muito menor que (máx-
min)
31
Esta representação facilita a
comparação de várias amostras, no
que diz respeito à localização,
dispersão e assimetria.
Assimetria
32
Diagrama de Caixa e Bigodes e simetria
Contrariamente ao que é afirmado com alguma frequência, não é fácil
avaliar o grau de simetria da distribuição dos dados na amostra através deste
diagrama.
Isto é:
Outliers
Aplicamos esta designação a qualquer elemento da amostra que não se
parece “encaixar” no conjunto dos valores que a constituem, sendo que pode
acontecer por diversas razões.
33
Diagrama de caixa e bigodes de 4
amostras (n=100) de uma
mesma população
c/distribuição exponencial em que nos 4 casos ocorrem “outliers” (no sentido
de estarem acima da barra superior). Ocorrem valores discordantes mas nada há de
“anormal” neles, é uma distribuição enviesada à direita e é nesse lado que se
encontram os outliers.
O que fazer perante um “outlier” que, após uma análise cuidada, foi
considerado um erro?
34
2. Interpretação e comparação sumária entre o desvio padrão, o intervalo entre
quartis (IQR) e o intervalo de variação.
35
Conclusão:
36
Correlação e causalidade
O facto de 2 variáveis estarem correlacionadas (por ex, o peso e a altura
de um indivíduo), não significa que uma variável seja a “causa” e a outra o
“efeito”. O coeficiente de correlação quantifica apenas o grau de associação entre
duas variáveis que participam no cálculo da intensidade dessa associação de uma
forma simétrica, enquanto que numa relação de causa-efeito a participação das
variáveis não é simétrica – uma é a causa e a outra o efeito.
1. Não existir uma relação linear forte entre as variáveis e o valor |r| não
o indicar;
2. Existir uma relação linear forte entre as variáveis e o valor |r| não o
indicar.
37
Capítulo 4 – Teoria elementar da probabilidade
A estatística recorre à utilização do raciocínio indutivo (particular → geral)
que significa tirarmos uma conclusão sobre as características dos elementos de uma
População, partindo da observação individual das características dos elementos de
uma amostra (retirada dessa população), o que não significa que essas inferências
estejam corretas.
38
Experiência aleatória
Uma experiência aleatória produz um resultado observável que não é
possível conhecermos antes da realização da mesma pois há fatores aleatórios que
estão fora do nosso alcance (ex: lançamento de um dado, tirar uma carta de um
baralho, etc).
Características:
fn(A) → P(A)
Muitas vezes não conseguimos obter P(A), porém, podemos obter uma
estimativa do seu valor, assim:
̂(𝐀) = 𝐟𝐧 (𝐀)
𝐏
39
Podemos agora responder a certas questões sobre probabilidade...
O que é?
É um nº entre 0 e 1.
O que significa?
Como se obtém?
40
Exemplo 2: produção industrial de um produto, classificado de acordo com
o grau de contaminação bacteriológica em 4 tipos (classes). Na segunda imagem
constatamos a evolução das frequências de ocorrência em função do nº de
unidades analisadas e daí podemos constatar experimentalmente que as
frequências de ocorrências parecem aproximar-se de valores bem definidos quando
o nº de unidades analisadas aumenta.
41
Como apresentar os resultados obtidos na determinação experimental
de uma probabilidade?
f(positive|pregnant)=80/85 ≋ 0,941176
Frequências de ocorrência
Imaginemos que se vai realizar uma experiência aleatória E n vezes: essas n
repetições (provas) da experiência aleatória E devem ser independentes entre si (no
sentido em que, habitualmente usamos a palavra independente) – os resultados
obtidos depois de realizada algumas vezes a experiência E não vai influenciar
(influenciar é diferente de “dar alguma informação sobre”) os resultados que se irão
obter em novas realizações da experiência E.
42
Estas são as três propriedades fundamentais das frequências de ocorrência
que vão conduzir à definição axiomática de probabilidade. Sejam A e B dois
acontecimentos associados à experiência E
0 ≤ fn(A) ≤ 1
fn(S)=1
Será que A e B são exclusivos entre si? Mostrar que qualquer que seja o nº de
lançamentos efetuados fn(ocorre A ou ocorre B)= fn(A)+ fn(B).
Espaço de resultados
Conjunto formado por todos os resultos que é possível obter quando se
efetua uma experiência aleatória, designa-se por S. O espaço de resultados associado
a uma experiência aleatória pode não ser único, sendo que a sua escolha depende
muito do problema em questão
Finito
43
Temos acontecimentos elementares – os subconjuntos de S são
formados por 1 só elemento; acontecimentos certos – como S ocorre
sempre, S é o acontecimento certo e acontecimento impossível – o
conjunto vazio é também um subconjunto de S.
Infinito
Exemplos práticos:
A1={(i,j),i=5,...,8; j=i,13,...,22}
44
Operações sobre acontecimentos
̅
O acontecimento complentar traduz o “não”: A
45
Leis de Morgan
Associatividade: A ∪ (B ∪ C) =(A ∪ B) ∪ C
A ∩ (B ∩ C)= (A ∩ B) ∩ C
Comutatividade: A ∪ B = B ∪ A
Distributividade: A ∪ (B ∩ C)= (A ∪ B) ∩ (A ∪ C)
46
entre a teoria matemática e o método experimental de uma probabilidade por uma
frequência de ocorrência.
Axioma 2: P(S)=1
Este axioma 3 é mais geral, estamos a supor aqui S infinito e S como sendo o
espaço de resultados associado a uma experiência aleatória.
Exemplo em que NÃO se pode usar a definição clássica: enquanto que em alguns
grupos de animais, como cobras e lagartos, o sexo dos embriões é determinado pelos
cromossomas sexuais, noutros como tartarugas e crocodilos, o sexo é determinado
por fatores ambientais tais como a temperatura a que o ovos se desenvolvem (mais
quente são fêmeas, mas frio são machos). Isto significa que não é verdade que
P(Nascer Macho)=P(Nascer Fêmea) = 0,5.
47
O cálculo de P(A) pela aplicação da definição clássica é um problema de
matemática que envolve problemas de contagem (eventualmente recorrendo à
análise combinatória). A aplicabilidade desta definição não é um problema de
matemática, depende da situação concreta e da “arte” em a analisar.
48