Apontamentos Estatistica I
Apontamentos Estatistica I
Apontamentos Estatistica I
2º semestre, 1º ano
APONTAMENTOS ESTATISTICA I
Introdução à Estatística
• Definição
A estatística é uma ciência relativa à recolha, análise e interpretação de dados, com o
objetivo de extrair conclusões e tomar decisões.
• Objetivo
a) A Estatística pode ser considerada uma disciplina matemática que aborda o
problema da relação entre amostras e populações através da Teoria das
Probabilidades.
b) Na “ótica do utilizador”, trata-se de um conjunto de técnicas para análise de
dados.
• Estatística descritiva
a) Procedimentos organizar, resumir e descrever conjuntos volumosos de dados.
b) Recorre a técnicas aritméticas (ex: médias, equações de regressão) e técnicas
gráficas (ex: histogramas).
c) Conjunto de procedimentos para organizar e sumariar a informação de uma
forma tão breve e precisa quanto possível.
Podemos por isso dizer que a estatística descritiva permite descrever a amostra e a estatística
indutiva permite generalizar adequadamente essa descrição para a população de onde a
amostra foi retirada, recorrendo para isso à Teoria das Probabilidades.
1
Estatística I
2º semestre, 1º ano
Exemplo: Por que razão João e Pedro têm resultados diferentes num teste
psicológico?
Fontes de variação:
- Diferenças individuais na capacidade avaliada
- Oscilações na motivação e na concentração
- Clareza das instruções e sua compreensão
- Erros de medida
-Condições ambientais
g) Compreender melhor alguns aspetos da literatura científica
2
Estatística I
2º semestre, 1º ano
Omnipresença de informação
estatística nos mass media:
tabelas, gráficos, quantificações
…Avaliar criticamente essa
informação e pensar
estatisticamente.
• História da Estatística
Antiguidade: recenseamentos
Ex: Registo de realização de recenseamentos com 3000 anos (Babilónia, China, Egipto).
A informação recolhida era utilizada na cobrança de impostos ou para o alistamento
militar (a palavra “censo” deriva do verbo latino censere, que quer dizer “cobrar”)
“Statistik” (1749)
Jogos de azar
Há provas arqueológicas da existência de hábitos de jogo na China em 2500 aC.
3
Estatística I
2º semestre, 1º ano
• Variáveis
Unidades de análise Atributo (variável) Valor
• Medir
a) Consiste em atribuir números a objetos, segundo determinadas regras.
b) Correspondência um-para-um entre o atributo medido (observação) e os
números que o representam.
c) As regras para atribuir números às observações devem se padronizadas.
d) As regras devem ser estáveis, não se alterando de situação para situação ou de
objeto para objeto.
4
Estatística I
2º semestre, 1º ano
• Níveis de medida
Podemos usar os números segundo estas quatro propriedades, dando origem a quatro
tipos de níveis de medida:
a) Escala Nominal ou Categorial
b) Escala Ordinal
c) Escala Intervalar
d) Escala de Quociente ou de Razão
Exemplo:
• Escala Ordinal
a) Os números são usados para ordenar os objetos consoante a “quantidade”
da característica medida.
b) Informa se um objeto tem mais ou menos quantidade do que outro, mas
não quão mais ou menos.
c) Pode ser usada qualquer série de números, desde que preserve as
relações de ordem entre os objetos medidos.
d) Além da operação de contagem, é possível identificar “posições” (máximo,
mínimo, mediana, etc).
5
Estatística I
2º semestre, 1º ano
• Escala intervalar
a) Os números são usados para expressar as distâncias (intervalos) entre os
objetos, consoante a “quantidade” da característica medida.
b) Permite comparar diferenças entre objetos.
c) As unidades de medida são convencionadas.
d) A localização do 0 é convencionada (0 não significa “ausência de”).
e) É possível proceder a somas e diferenças com os valores destas escalas de
medida (média, desvio padrão, etc).
Exemplo: Temperatura
6
Estatística I
2º semestre, 1º ano
• Recomendações gerais
a) Atender aos três níveis de medida: nominal, ordinal e de escala.
b) Escolher, sempre que possível, o nível métrico mais rico e informativo; se
necessário, a informação poderá sempre ser convertida a posteriori para
um dos níveis de medida menos exigentes, ignorando a informação
excessiva.
7
Estatística I
2º semestre, 1º ano
• Erros de medição
A sensibilidade limitada dos instrumentos de medida faz com que um dos algarismos da
medida seja incerto.
8
Estatística I
2º semestre, 1º ano
Considere as seguintes observações: 23,3 22,5 21,7 20,3 22,9 21,5 23,1
A média destes valores é: 22,1857142857143
• Arredondamentos
a) Arredondar: processo que leva à eliminação de informação numérica pouco
relevante
b) Efetuar sempre os cálculos com todas a informação decimal disponível e só
arredondar no fim.
c) Evitar que o resultado final inclua algarismos incertos desnecessários. Qual
a média dos valores 23,6 32,4 28,7? média = 29,1333333333333333333 →
média arredondada = 29,1
d) Aplicar regras de arredondamento que não tragam viés.
e) Importância de apresentar os zeros (à direita). Diferença entre 12 e 12,00
valores
• Regras de arredondamento
a) Existem diversas regras de arredondamento
b) Todas as regras de arredondamento envolvem alguma distorção da
informação (viés), que se pode ir “acumulando” à medida que se vão
fazendo arredondamentos consecutivos
c) A regra “arredondar para o par mais próximo” é uma das que envolve
menor enviesamento
d) É comum usar a regra de arredondamento “para o valor mais próximo”
Arredondar o valor 2,378 às décimas: Como o valor original está mais
próximo de 2,4 do que de 2,3, o valor arredondado será 2,4.
9
Estatística I
2º semestre, 1º ano
10
Estatística I
2º semestre, 1º ano
• Análise univariada
Exemplo:
Estudo sobre as razões que levam os alunos a ingressar em cursos na Universidade do Algarve.
Um questionário com diversas perguntas foi aplicado a uma amostra de 150 estudantes:
a) Região de origem
11
Estatística I
2º semestre, 1º ano
• Que abordagem?
A variável X está medida numa escala nominal, tomando poucos valores.
• Dados
12
Estatística I
2º semestre, 1º ano
• Técnicas descritivas
Como resumir a informação distribucional presente na amostra?
a) Tabelas
b) Gráficos
c) Estatísticas descritivas
a) Tabulação de dados
Tabela de frequências (distribuição de frequências)
Xi ni fi Ni Fi
1 = Sul 77 0.513 77 0.513
2 = Centro 51 0.340 128 0.853
3 = Norte 22 0.147 150 1.000
Total 150 1.000
13
Estatística I
2º semestre, 1º ano
Gráfico circular
c) Estatísticas descritivas
A presente variável expressa-se numa escala nominal → não se podem efetuar
operações aritméticas com os seus valores. Logo, não se podem calcular
estatísticas descritivas.
A única exceção é a “moda” (o valor mais frequente da amostra): Moda = 1 (“Sul”).
Podem ainda ser calculados indicadores da dispersão dos sujeitos pelos valores da
variável nominal:
a) Índices de variação qualitativa (Wilcoxon, 1957) Valores próximos de 1
indicam uma distribuição heterogénea; valores próximos de 0 uma
distribuição homogénea.
b) Entropia (Shannon, 1948)
• Que abordagem?
A variável Y está medida numa escala nominal mas toma muitos valores.
14
Estatística I
2º semestre, 1º ano
• Tabulação de dados
• Agrupar a informação
Se o objetivo da Estatística Descritiva é sumariar a informação, convém que esta seja
apresentada de forma reduzida, sem todavia perder demasiada precisão.
Agrupar a informação
15
Estatística I
2º semestre, 1º ano
Ao agrupar perde-se sempre informação, pelo que o agrupamento deve ser com
cuidado.
Seguir regras para agrupar a informação em categorias/classes
No caso nominal, as categorias não são quantitativas, devendo ser definidas com base
no seu significado. Neste caso, não existem regras para determinar quantas e quais
devem ser usadas.
1: Ciências Humanas
2: Ciências Sociais
Nota: Este é um agrupamento
3: Ciências Exatas-
possível, baseado nos domínios
4: Ciências da S-/aúde científicos e não nos dados em si
5: Engenharias
• Tabulação de dados
Yi ni fi Ni Fi
1 = C. Humanas 19 0.127 19 0.127
2 = C. Sociais 59 0.393 78 0.520
3 = C. Exatas 18 0.120 96 0.640
4 = C. Saúde 21 0.140 117 0.780
5 = Engenharias 33 0.220 150 1.000
Total 150 1.000
16
Estatística I
2º semestre, 1º ano
• Que abordagem?
A variável X é discreta e está medida num formato escalar que toma poucos valores
(entre 0 e 7).
• Tabulação de dados
Xi ni fi Ni Fi
0 23 0.153 23 0.153
1 51 0.340 74 0.493
2 36 0.240 110 0.733
3 19 0.127 129 0.860
4 10 0.067 139 0.927
5 8 0.053 147 0.980
6 2 0.013 149 0.993
7 1 0.007 150 1.000
Total 150 1.000
17
Estatística I
2º semestre, 1º ano
Nota: os
valores que
definem o
gráfico são os
três quartis e
os extremos
(máximo e
mínimo).
18
Estatística I
2º semestre, 1º ano
• Que abordagem?
A variável X está medida num formato escalar e toma muitos valores (entre 101 e
174).
• Como agrupar?
Para proceder ao agrupamento correto de uma variável escalar, é preciso seguir alguns
passos:
a) Quantas classes utilizar?
b) Qual a largura de cada classe?
c) Onde começar a primeira classe?
d) Caracterizar as classes.
a) Quantas classes?
Como determinar o nº de classes a utilizar?
Existem diversas regras que assumem que o nº de classes deve ser adequado à
dimensão da amostra:
a. Regra de Sturges (1926)
b. Regra de Doane (1972)
Regra de Sturges:
Segundo esta regra, o número de classes (k) deve ser o menor inteiro que satisfaz a
desigualdade 2 ̂k > n.
19
Estatística I
2º semestre, 1º ano
Segundo a regra de Sturges, para uma amostra de 150 observações, devemos utilizar
k = 8 classes.
20
Estatística I
2º semestre, 1º ano
Uma opção é distribuir esse excesso de seis valores pelos dois lados do intervalo:
começar em 98 (três valores a abaixo do estritamente necessário) e acabar em 177
(três valores acima do estritamente necessário)...
Classe 1: de 98 a 107 (inclusive)
Classe 2: de 108 a 117 (inclusive) etc.
NOTA: “Distribuir o excesso pelos dois lados do intervalo” é uma opção que
possibilita obter distribuições mais centradas e menos irregulares.
d) Caracterizar as classes
A i-ésima classe possui um limite inferior (li ) e um limite superior (Li ).
Estes limites vão ser utilizados para calcular estatísticas descritivas a partir dos
dados agrupados.
Os pontos médios de cada classe (semi-soma dos limites da classe): mi = (Li + l i )/2
Classe 1: m1 = (108+98)/2 = 103
• Distribuição de frequências
Nota: as ordenadas
tanto podem ser as
frequências
absolutas como as
relativas; as barras
estão pousadas no
intervalo definido
pelos limites das
classes
21
Estatística I
2º semestre, 1º ano
Polígono de
frequências. As Gráfico de
ordenadas tanto quartis. os
podem ser as valores que
frequências definem o
absolutas como gráfico são os
as relativas; os três quartis e
pontos de os extremos
referência do (máximo e
polígono são os mínimo)
pontos médios
das classes
• Características distribucionais
Distribuição das notas a Matemática de rapazes e raparigas do 10º ano:
• Localização
Os índices de localização pretendem situar a distribuição da variável, posicionando-a
na reta numérica.
As medidas de localização de tendência central indicam o “centro” da distribuição; as
medidas de localização não central permitem posicionar a distribuição, “ancorando-a”
na reta numérica.
Medidas de tendência central: Média Mediana Moda (?)
Medidas de localização (não centrais): Quantis (tercis, quartis, decis, percentis)
Extremos (mínimo e máximo).
• Média
Qual o seu significado?
22
Estatística I
2º semestre, 1º ano
• Mediana
Como calcular?
Se a dimensão da amostra for par, a mediana corresponde à média dos dois elementos
centrais da amostra ordenada.
Amostra (n = 150)
23
Estatística I
2º semestre, 1º ano
• Moda
Valor mais frequente na distribuição
• Quantis
Tercis
Quartis
24
Estatística I
2º semestre, 1º ano
Decis
Percentis
...
Mediana = Q2 = D5 = P50
Q1 = P25
Q3 = P75
T1 = P33 (aproximadamente)
T2 = P67 (aproximadamente)
Quartis (n = 17)
26
Estatística I
2º semestre, 1º ano
27
Estatística I
2º semestre, 1º ano
A mediana é como um ponto que divide a amostra ordenada em dois grupos de igual
dimensão.
Que acontece à mediana se movermos qualquer uma das observações (à exceção dos
valores centrais)?
28
Estatística I
2º semestre, 1º ano
• Estatísticas robustas
Há medidas de localização mais sensíveis e outras menos sensíveis a pequenas (ou
grandes) alterações no valor das observações.
As medidas menos sensíveis são consideradas estatísticas robustas.
A média, ao contrário da mediana, é sensível a qualquer modificação dos dados e
também à presença de outliers, sendo por isso menos robusta.
• Outliers
Os outliers (valores marginais) são elementos da amostra que se afastam
excessivamente da parte central da distribuição.
• Exemplo
56
Idades de um grupo de adultos: 18, 18, 19, 20, 20, 22, 23,
Média
a) Medida que melhor representa toda a amostra
b) Leva em conta todos os elementos da amostra
c) Envolvida no cálculo de outras estatísticas descritivas (dispersão, assimetria, etc)
d) Adequada apenas a dados escalares (intervalares)
e) Pode não corresponder a um elemento da amostra
f) Pouco robusta - facilmente influenciada por outliers
29
Estatística I
2º semestre, 1º ano
Mediana
Moda
Mediana
30
Estatística I
2º semestre, 1º ano
Quantis
O cálculo dos quantis envolve a determinação da classe que contém o quantil e depois
a utilização de fórmulas específicas.
31
Estatística I
2º semestre, 1º ano
Moda
O cálculo a moda envolve a determinação da classe modal (classe que agrupa maior
número de observações) e a aplicação da fórmula seguinte.
• Dispersão
Os índices de dispersão pretendem avaliar a dispersão da variável ao longo da reta
numérica (variabilidade).
As medidas de dispersão podem expressar o grau de dispersão da distribuição em torno
de um valor central ou podem indicar a amplitude do intervalo de valores que a variável
toma.
32
Estatística I
2º semestre, 1º ano
• Medidas de dispersão
Amplitude (amostral)
Intervalo de dispersão
Amplitude interquartílica
• Amplitude
Amplitude H (amostral): intervalo que inclui todas as observações da amostra.
H = máximo – mínimo
H = 7 - 0 =7
• Amplitude inter-quartílica
Amplitude inter-quartílica d: intervalo entre o 1º e o 3º quartil
d = Q3 – Q1
Medida robusta!
(depende apenas de dois valores, mas resiste a outliers)
• Interpretar amplitudes
As amplitudes indicam o intervalo em que se situa toda a amostra ou parte dela:
a) Amplitude (amostral): indica o intervalo onde se distribuem todas as observações
sa amostra
b) Amplitude interquartílica: indica o intervalo onde se distribuem as observações
centrais da amostra (50%)
As duas amplitudes não são comparáveis entre si; em conjunto dão uma ideia da
dispersão da amostra.
33
Estatística I
2º semestre, 1º ano
• Variância
Variância: média do quadrado das diferenças entre as observações da amostra e a sua
média.
• Desvio-padrão
Desvio-padrão: raiz positiva da variância
34
Estatística I
2º semestre, 1º ano
Como se expressa nas mesmas unidades que a variável em estudo, é mais utilizado do
que a variância.
A interpretação do desviopadrão
depende da forma da distribuição
e da gama de valores que a
variável toma.
A desigualdade de Chebyschev dá
alguma orientação quanto à
concentração da distribuição em
torna da média em função dos
valores de S (ver figura).
• Medidas de dispersão
Como interpretar a variância (ou o desvio-padrão)?
Distribuições mais
concentradas (A)
apresentam valores de
variância menores do que
distribuições dispersas (C).
35
Estatística I
2º semestre, 1º ano
Amplitude: 11
Amplitude interquartílica: 3
Amplitude: 7
Desvio padrão: 2.005
Amplitude interquartílica: 3
• Assimetria
A assimetria expressa o grau em que a variável se distribui de forma equilibrada à
direita e à esquerda da medida de tendência central.
Existem três tipos de assimetria, que podem variar em grau:
a) Assimetria nula (simetria)
b) Assimetria positiva (à direita)
c) Assimetria negativa (à esquerda)
36
Estatística I
2º semestre, 1º ano
Tabelas ou gráficos
No exemplo em estudo…
37
Estatística I
2º semestre, 1º ano
No exemplo em estudo…
• Curtose
Característica que expressa o peso das “caudas” de uma distribuição e o achatamento
da sua zona central.
a) Distribuições mesocúrticas: distribuições gaussianas
b) Distribuições platicúrticas: distribuições mais achatadas do que a gaussiana
c) Distribuições leptocúrticas: distribuições menos achatadas do que a gaussiana
38
Estatística I
2º semestre, 1º ano
• Medidas de curtose
Coeficiente de Curtose de Fisher Se g3 = 0, a distribuição é mesocúrtica.
(kurtosis no SPSS) Se g3 > 0, a distribuição é leptocúrtica.
Se |g3 / S.E.| < 2, podemos considerar que o valor do coeficiente de curtose não se
afasta significativamente de 0, pelo que a distribuição é mesocúrtica,
independentemente do sinal de g3.
Se |g3 / S.E.| > 2, a distribuição não é mesocúrtica.
No exemplo em estudo…
g3 = 0,698
S.E. = 0,394
g3 / S.E.| = 1,77 curtose não significativa; podemos considerar que a distribuição é
mesocúrtica.
39
Estatística I
2º semestre, 1º ano
40
Estatística I
2º semestre, 1º ano
Desenhar a caixa...
A caixa é delimitada
inferiormente pelo 1º quartil e
superiormente pelo 3º quartil. A
largura da caixa corresponde à
amplitude interquartílica d. O
traço central da caixa
corresponde ao 2º quartil
(mediana). Q3 = 3; Q2 = 2; Q1 = 1
Desenhar os bigodes...
O bigode inferior prolonga-se desde a caixa até ao valor mínimo da amostra (desde
que não seja outlier).
O bigode superior prolonga-se desde a caixa até ao valor máximo da amostra (desde
que não seja outlier).
Como verificar se existem ou não outliers?
• Identificação de outliers
O SPSS assinala os outliers moderados com um círculo:
a) Se X Q3 + 1,5*d, então X é outlier superior
b) Se X Q1 - 1,5*d, então X é outlier inferior
41
Estatística I
2º semestre, 1º ano
• Análise bivariada
a) Análise univariada: analisar uma variável de cada vez (individualmente) → apenas
informa sobre a distribuição da variável.
Exemplo: Como se distribui a idade na amostra? Qual a idade mais frequente?
Qual a idade mais alta? Qual a sua média e desvio padrão? Entre que valores de idade
se situam os participantes?
42
Estatística I
2º semestre, 1º ano
• Técnicas descritivas
Como resumir a informação distribucional presente na amostra?
a) Tabelas (para dados bivariados nominais)
b) Gráficos (para dados bivariados nominais)
c) Estatísticas descritivas (para dados bivariados nominais)
• Distribuição marginal
Distribuição marginal de X (frequências absolutas)
43
Estatística I
2º semestre, 1º ano
Tal como a anterior, esta tabela apresenta também três distribuições: distribuição
conjunta de X e Y, distribuição marginal de X e distribuição marginal de Y.
Nota: estes valores obtém-se dividindo cada célula da tabela anterior pelo total n =
220.
A análise da distribuição conjunta (quer com frequências absolutas quer com relativas)
não permite uma resposta imediata a esta pergunta.
É mais fácil de responder a esta pergunta pela análise das distribuições condicionadas.
44
Estatística I
2º semestre, 1º ano
• Distribuição condicionada
Distribuição de Y condicionada a X
32,3% dos inquiridos que responderam gostar de ser psicólogo eram rapazes e 43,0%
dos que responderam não gostar de ser psicólogo eram rapazes. Os resultados
sugerem, assim, uma associação entre os rapazes e a resposta negativa à pergunta em
45
Estatística I
2º semestre, 1º ano
Em resumo…
a) A análise bivariada de variáveis nominais procura avaliar se existe
associação entre as variáveis X e Y.
b) Para isso, é necessário estudar a distribuição simultânea de X e Y
(distribuições conjuntas e/ou distribuições condicionadas).
c) A forma mais fácil de fazê-lo é através de distribuições de frequências
relativas, nomeadamente as distribuições condicionadas.
46
Estatística I
2º semestre, 1º ano
• Odds
O odds relativo a uma variável (dicotómica) obtém-se pela divisão da frequência de
uma categoria pela frequência da categoria complementar.
Por exemplo, numa turma de 30 crianças, existem 10 meninos e 20 meninas.
a) 10 meninos para 20 menina corresponde a um odds de 10 : 20 = 1 : 2 = 0,5.
b) 20 meninas para 10 meninos corresponde a um odds de 20 : 10 = 2 : 1 = 2.
47
Estatística I
2º semestre, 1º ano
Significa que há 62 respostas “Sim” para 158 respostas “Não”. O valor 0,39
representa a comparação quantitativa entre “Sins” e “Nãos”, indicando a
preponderância de “nãos” na amostra.
• Como usar o odds para avaliar a relação entre duas variáveis dicotómicas?
Como usar o odds para avaliar se as respostas dos estudantes se associam ao sexo?
Se a distribuição do “Sim” e do “Não” for igual nos dois sexos, então os respetivos
odds também serão iguais.
Assim, basta comparar o odds de responder Sim (por exemplo) dos rapazes com o
odds do Sim das raparigas para avaliar se a distribuição é igual nos dois sexos.
Isso faz-se através do odds-ratio (OR)!
• Odds ratio
O odds-ratio (OR) é o quociente de dois odds.
O odds-ratio permite avaliar se o odds de uma categoria de resposta tem igual valor
nas duas categorias da outra variável.
No caso em análise, pode interessar saber se o odds da resposta “Sim” (face à resposta
“Não”) nos rapazes tem igual valor igual ao odds da resposta “Sim” nas raparigas.
Se tal acontecer, então a tendência para responder “Sim” é igual nos dois sexos e não
há associação entre a resposta à pergunta “Gostarias de ser psicólogo?” e o sexo dos
estudantes.
48
Estatística I
2º semestre, 1º ano
Em ambas situações se verifica uma menor tendência para responder “Sim” do que
para responder “Não”, uma vez que o valor do odds calculado foi sempre inferior a 1.
No entanto, o valor do odds nas raparigas é maior que o odds dos rapazes, o que
sugere que a associação à resposta “Sim” é mais intensa neste sexo.
O odds-ratio vai refletir essa diferença.
O odds-ratio é o
quociente entre os dois
Como interpretar este valor? odds que acabámos de
calcular para os rapazes e
para as raparigas.
• O Odds-ratio pode variar entre 0 e + :
a) se tomar o valor 1, significa que as duas variáveis não estão associadas (neste
caso, significaria que a tendência para responder “Sim” seria igual nos rapazes
e nas raparigas);
b) se tomar valor superior a 1, significa que existe associação entre as duas
variáveis e que predomina a tendência colocada no numerador (neste caso
significaria que a tendência para responder “Sim” seria maior nos rapazes do
que nas raparigas);
c) se tomar inferior a 1, significa que existe associação entre as duas variáveis e
que predomina a tendência colocada no denominador (neste caso significaria
que a tendência para responder “Sim” seria maior nas raparigas que nos
rapazes)
NOTAS:
a) Mesmo que se coloque no numerador não o odds dos rapazes mas sim o
das raparigas, a interpretação do valor de OR irá necessariamente levar à
mesma conclusão.
b) Mesmo que se calcule o OR considerando não o odds de dizer “Sim” mas
o odds de dizer “Não”, a interpretação do valor de OR irá
necessariamente levar à mesma conclusão.
c) Se as variáveis não forem dicotómicas, é sempre possível recodificá-las
de forma a criar variáveis dicotómicas e aplicar o odds-ratio (basta
49
Estatística I
2º semestre, 1º ano
50
Estatística I
2º semestre, 1º ano
• Análise do exemplo
Se as duas variáveis forem independentes, a distribuição da resposta “Quer ser
psicólogo?” deverá ser idêntica para rapazes e para raparigas, independentemente do
sexo. Só assim se pode dizer que o facto de “ser rapaz” (ou de “ser rapariga”) não
interfere na probabilidade de “querer ser psicólogo”.
Avaliar a independência de duas variáveis nominais passa por verificar se as
distribuições condicionadas de uma variável para cada um dos níveis da outra variável
são ou não iguais. Assim, devemos ir verificar se a distribuição da resposta
condicionada ao sexo é igual (ou aproximadamente igual) no caso dos rapazes e no
caso das raparigas.
De igual modo, a distribuição do “sexo” condicionada a “querer ser psicólogo” será
igual (ou aproximadamente igual) para os que querem ser psicólogos e para os que
não querem ser.
51
Estatística I
2º semestre, 1º ano
• Técnicas descritivas
Como resumir a informação distribucional presente na amostra?
a) Tabelas
b) Gráficos
c) Estatísticas descritivas
• Tabulação de dados bivariados
Como as duas variáveis têm uma gama alargada de valores, é necessário agrupar os
dados em classes.
Recorre-se aos procedimentos de agrupamento já estudados no caso univariado.
A regra de Sturges recomenda que, para uma amostra 60 observações, se usem 6
classes (2 6 = 64 > n).
52
Estatística I
2º semestre, 1º ano
Resumindo…
A tabulação de dados bivariados para variáveis escalares (sobretudo quando é
necessário agrupar as variáveis em classes) é uma prática pouco frequente.
Histograma bivariado
(estereograma): generalização do
histograma para dados bivariados.
53
Estatística I
2º semestre, 1º ano
Diagrama de dispersão
(scatter plot)
54
Estatística I
2º semestre, 1º ano
Resumindo…
Na representação gráfica de dados bivariados (quando estes são de natureza escalar)
recorre-se sobretudo ao gráfico de dispersão, eventualmente com indicação de uma
linha de tendência (reta de regressão).
• Estatísticas descritivas
A associação entre duas variáveis numéricas é designada “correlação” e é
preferencialmente expressa pelo coeficiente de correlação. Existem diversos
coeficientes de correlação:
a) Coeficiente de correlação linear de Pearson
b) Coeficiente de correlação ordinal de Spearman
c) Coeficiente de correlação ordinal de Kendall.
O coeficiente de correlação linear de Pearson ( r ) expressa a intensidade e o sentido
da relação linear que existe entre duas variáveis numéricas.
• Coeficiente de correlação
No presente caso, o valor do coeficiente de correlação de Pearson é:
55
Estatística I
2º semestre, 1º ano
r XY = + 0,49
O sinal do A magnitude do
coeficiente indica o coeficiente indica a
sentido da relação intensidade da relação
entre as duas linear entre as duas
variáveis. variáveis.
a) se o coeficiente tiver valor 0 (r = 0), não existe relação linear entre as duas variáveis
b) quanto mais próximo de 1 for o valor absoluto do coeficiente, mais intensa é a relação
linear entre as duas variáveis.
Que significa este valor? Que significa dizer que o Vocabulário explica 24% da variância
do Desempenho?
56
Estatística I
2º semestre, 1º ano
também que 76% da variância da nota escolar se deverá a outros factores que não o
nível de vocabulário do sujeito.
Este valor dá-nos uma ideia palpável da força da associação entre as duas variáveis.
Estas ideias serão melhor desenvolvidas ao estudar os métodos de regressão linear
(especialmente útil para explorar os 76% de variância que ficam por explicar).
• Coeficiente de correlação
57
Estatística I
2º semestre, 1º ano
• Coeficientes de correlação
a) O coeficiente de Pearson avalia a intensidade e sentido da relação linear entre
duas variáveis; pode ser aplicado a dados não lineares, mas neste caso o seu
valor não irá refletir corretamente a intensidade da relação que existe entre as
variáveis.
b) O coeficiente de Spearman avalia a intensidade e sentido da relação
monótona entre duas variáveis; pode ser aplicado a dados lineares e não
lineares; no entanto, não leva em conta a natureza escalar das variáveis em
estudo (assume que as variáveis estão medidas numa escala ordinal).
c) Quando a relação entre as variáveis não é monótona, nenhum destes
coeficientes irá refletir corretamente a intensidade da relação.
58
Estatística I
2º semestre, 1º ano
59