Apontamentos Estatistica I

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 59

Estatística I

2º semestre, 1º ano

APONTAMENTOS ESTATISTICA I

Introdução à Estatística
• Definição
A estatística é uma ciência relativa à recolha, análise e interpretação de dados, com o
objetivo de extrair conclusões e tomar decisões.

• Objetivo
a) A Estatística pode ser considerada uma disciplina matemática que aborda o
problema da relação entre amostras e populações através da Teoria das
Probabilidades.
b) Na “ótica do utilizador”, trata-se de um conjunto de técnicas para análise de
dados.

• Divisão clássica da Estatística


a) Estatística descritiva
b) Estatística indutiva (ou inferencial)

• Estatística descritiva
a) Procedimentos organizar, resumir e descrever conjuntos volumosos de dados.
b) Recorre a técnicas aritméticas (ex: médias, equações de regressão) e técnicas
gráficas (ex: histogramas).
c) Conjunto de procedimentos para organizar e sumariar a informação de uma
forma tão breve e precisa quanto possível.

• Estatística indutiva (ou inferencial)


a) Procura fazer generalizações para uma população a partir da informação
parcial observada em amostras.
b) Procura controlar a margem de erro envolvido na generalização.
c) Procura distinguir as variações atribuíveis ao acaso das que se podem atribuir
aos fatores que estão a ser estudados.
d) Conjunto de procedimentos usados para fazer inferências a partir de
informação parcial, avaliando o grau de incerteza envolvido da generalização.

Podemos por isso dizer que a estatística descritiva permite descrever a amostra e a estatística
indutiva permite generalizar adequadamente essa descrição para a população de onde a
amostra foi retirada, recorrendo para isso à Teoria das Probabilidades.

1
Estatística I
2º semestre, 1º ano

• Porquê estudar Estatística em Psicologia?


a) Formação científica: noções básicas de estatística são um elemento formativo
em todos os cursos superiores de base científica e é um instrumento
fundamental na construção do conhecimento científico.
b) Formação profissional: Psicologia profissional como evidence-based practice,
carreira académica e/ou científica e trabalho em equipa (por exemplo, avaliação
de projetos).
c) Formação para a cidadania, uma vez que é um elemento formativo essencial
numa sociedade baseada na informação.
d) Trabalhar sobre uma representação matemática do real.

e) Generalizar as conclusões que se extraem do estudo de amostras.

f) Variabilidade omnipresente nos resultados

Exemplo: Por que razão João e Pedro têm resultados diferentes num teste
psicológico?

Fontes de variação:
- Diferenças individuais na capacidade avaliada
- Oscilações na motivação e na concentração
- Clareza das instruções e sua compreensão
- Erros de medida
-Condições ambientais
g) Compreender melhor alguns aspetos da literatura científica

h) Importância da estatística no mundo moderno

2
Estatística I
2º semestre, 1º ano

Omnipresença de informação
estatística nos mass media:
tabelas, gráficos, quantificações
…Avaliar criticamente essa
informação e pensar
estatisticamente.

• História da Estatística
Antiguidade: recenseamentos

Ex: Registo de realização de recenseamentos com 3000 anos (Babilónia, China, Egipto).
A informação recolhida era utilizada na cobrança de impostos ou para o alistamento
militar (a palavra “censo” deriva do verbo latino censere, que quer dizer “cobrar”)

“Statistik” (1749)

Gottfried Achenwall (1719-72) utiliza pela primeira vez em 1749 o termo


Statistik (no livro “A constituição política dos principais povos e países europeus”). Este
termo correspondia a uma descrição exaustiva das características sociais, políticas e
económicas de um estado.

Jogos de azar
Há provas arqueológicas da existência de hábitos de jogo na China em 2500 aC.

“Geometria ao acaso” (1654)


“Statistik” e a “Geometria ao acaso” acabaram por levar à Estatística Indutiva (séc. XIX),
sendo que houve uma grande divulgação na comunidade científica, nos meios
económicos, nos mass media, etc.

• Relação entre Teoria das Probabilidades e Estatística

3
Estatística I
2º semestre, 1º ano

• Pessoas e seus atributos

• Variáveis
Unidades de análise Atributo (variável) Valor

• Medir
a) Consiste em atribuir números a objetos, segundo determinadas regras.
b) Correspondência um-para-um entre o atributo medido (observação) e os
números que o representam.
c) As regras para atribuir números às observações devem se padronizadas.
d) As regras devem ser estáveis, não se alterando de situação para situação ou de
objeto para objeto.

Que propriedades têm os números para que se possam representar adequadamente os


fenómenos de mundo real?

• Propriedades dos números


a) Estabelecem relações de igualdade e diferença (12 ≠ 7).
b) Estabelecem relações de ordem (12 > 7).
c) Resultam da soma ou da subtração de unidades (12 tem mais 4 unidades que 7).
d) Estabelecem relações de proporcionalidade (12 é o dobro de 6).

4
Estatística I
2º semestre, 1º ano

• Níveis de medida
Podemos usar os números segundo estas quatro propriedades, dando origem a quatro
tipos de níveis de medida:
a) Escala Nominal ou Categorial
b) Escala Ordinal
c) Escala Intervalar
d) Escala de Quociente ou de Razão

• Relação entre níveis de medida

• Escala Nominal ou Categorial


a) Os números são usados como etiquetas (nomes ou categorias) para
identificar os objetos medidos.
b) A atribuição dos números aos objetos medidos é convencionada – não
refletem quantidade da característica observada, mas sim a qualidade.
c) As medições nesta escala apenas nos permitem saber se dois objetos são
iguais ou diferentes no que respeita à aspeto que está a ser medido.
d) A única operação matemática permitida é a contagem (frequências e
moda).

Exemplo:

Sexo (variável): 1- masculino; 2- feminino

Curso que frequenta (variável): 1- ciências; 2- ciências sociais; 3-


humanidades; 4- artes.

• Escala Ordinal
a) Os números são usados para ordenar os objetos consoante a “quantidade”
da característica medida.
b) Informa se um objeto tem mais ou menos quantidade do que outro, mas
não quão mais ou menos.
c) Pode ser usada qualquer série de números, desde que preserve as
relações de ordem entre os objetos medidos.
d) Além da operação de contagem, é possível identificar “posições” (máximo,
mínimo, mediana, etc).

Exemplo: Posições numa competição.

5
Estatística I
2º semestre, 1º ano

• Escala intervalar
a) Os números são usados para expressar as distâncias (intervalos) entre os
objetos, consoante a “quantidade” da característica medida.
b) Permite comparar diferenças entre objetos.
c) As unidades de medida são convencionadas.
d) A localização do 0 é convencionada (0 não significa “ausência de”).
e) É possível proceder a somas e diferenças com os valores destas escalas de
medida (média, desvio padrão, etc).

Exemplo: Temperatura

• Escala de Razão ou de Quociente


a) Possui as mesmas propriedades da escala intervalar, mas inclui um 0 absoluto (0
significa “ausência de”).
b) É possível estabelecer relações de proporcionalidade entre os valores destas
escalas.
c) É possível proceder a multiplicação e divisão com valores de variáveis medidas a
este nível; todos os procedimentos estatísticos são permitidos.

Exemplo: Peso; comprimento; tempo (medidas físicas, em geral).

• Conversão entre escalas

6
Estatística I
2º semestre, 1º ano

• Exemplos de níveis de medida


a) Escala de quociente: medir o peso em gramas com uma balança
b) Escala nominal: medir o estado civil com a seguinte codificação: 1-solteiro,
2- casado, 3- união de facto, 4- divorciado, 5- viúvo.
c) Escala de quociente: medir o desempenho numa prova de velocidade
através do tempo de realização.
d) Escala ordinal: medir o desempenho numa prova de atletismo através da
ordenação (ranking) dos concorrentes.

• O problema das rating scales

Com esta técnica, é possível medir variáveis contínuas, discretizando-as e gerando


intervalos não necessariamente equivalentes. São consideradas ordinais, mas alguns
autores tratam-nas como intervalares!
NOTA: estas escalas são muitas vezes erroneamente como “escalas de Likert” ou
“escalas de tipo Likert”.

• Limitações da tipologia de Stevens


Existem outros níveis de medida:
a) Escalas situadas entre os níveis ordinal e intervalar
Situam-se entre os níveis ordinal e intervalar e são frequentes em Ciências
Humanas (medidas baseadas em rating scales)
b) Escalas nominais hierárquicas

• Prática corrente em Ciências Socias

• Recomendações gerais
a) Atender aos três níveis de medida: nominal, ordinal e de escala.
b) Escolher, sempre que possível, o nível métrico mais rico e informativo; se
necessário, a informação poderá sempre ser convertida a posteriori para
um dos níveis de medida menos exigentes, ignorando a informação
excessiva.

7
Estatística I
2º semestre, 1º ano

c) Se possível, evitar escalas ordinais, pois nem sempre existem técnicas


estatísticas adequadas à análise deste tipo de dados

• Variáveis discretas e contínuas


a) Variáveis discretas: tomam um número finito de valores (ou infinitamente
numerável).
b) Variáveis contínuas: tomam um número infinito de valores (não numerável).
Tipo de Nominal Ordinal Intervalar Quociente
escala
Tipo de Discreta Discreta Discreta ou Discreta ou
variável contínua contínua

• Qualidade métricas e erros de medição

A medida fornecida por um instrumento apresenta sempre uma margem de erro:


Medida = Valor verdadeiro + erro.

Desconhecido Sistemático e/ou aleatório


Uma medida de qualidade deve ter erro seja mínimo e com variação aleatória.

Para avaliar se um instrumento tem boas qualidades métricas é necessário considerar o


grau em que a medida fornecida pelo instrumento se aproxima do valor verdadeiro e a
forma como o erro associado varia de uma medição para outra.
O ramo da Psicologia que trata das qualidades métricas dos instrumentos psicológicos
denomina-se Psicometria.
Qualidades de um instrumento de medida:
a) Validade: o instrumento mede aquilo que pretende medir.
b) Sensibilidade: o instrumento discrimina diferenças.
c) Exatidão: o valor fornecido pelo instrumento de medida corresponde ao
valor verdadeiro; relaciona-se com a validade da medida
d) Fiabilidade: o instrumento fornece medidas com variação reduzida
(medidas consistentes).

• Erros de medição
A sensibilidade limitada dos instrumentos de medida faz com que um dos algarismos da
medida seja incerto.

8
Estatística I
2º semestre, 1º ano

• Erros devidos à sensibilidade do instrumento

a) Numa medição, o último algarismo comporta sempre alguma incerteza


(estimação, arredondamento, etc).
b) A informação expressa por um indicador estatístico não deve apresentar um
grau de certeza superior ao grau de certeza presente nas medidas originais
em que esse indicador se baseia.

• Consequência da presença de erros de medição

Considere as seguintes observações: 23,3 22,5 21,7 20,3 22,9 21,5 23,1
A média destes valores é: 22,1857142857143

esta informação é irrelevante!!!


(se o último dígito das observações individuais é incerto, as diferentes casas decimais
da média também o são e indicá-las transmite uma falsa ideia de precisão)

• Arredondamentos
a) Arredondar: processo que leva à eliminação de informação numérica pouco
relevante
b) Efetuar sempre os cálculos com todas a informação decimal disponível e só
arredondar no fim.
c) Evitar que o resultado final inclua algarismos incertos desnecessários. Qual
a média dos valores 23,6 32,4 28,7? média = 29,1333333333333333333 →
média arredondada = 29,1
d) Aplicar regras de arredondamento que não tragam viés.
e) Importância de apresentar os zeros (à direita). Diferença entre 12 e 12,00
valores
• Regras de arredondamento
a) Existem diversas regras de arredondamento
b) Todas as regras de arredondamento envolvem alguma distorção da
informação (viés), que se pode ir “acumulando” à medida que se vão
fazendo arredondamentos consecutivos
c) A regra “arredondar para o par mais próximo” é uma das que envolve
menor enviesamento
d) É comum usar a regra de arredondamento “para o valor mais próximo”
Arredondar o valor 2,378 às décimas: Como o valor original está mais
próximo de 2,4 do que de 2,3, o valor arredondado será 2,4.

Arredondar o valor 3,628 às décimas: Como o valor original está mais


próximo de 3,6 do que de 3,7, o valor arredondado será 3,6.

9
Estatística I
2º semestre, 1º ano

e) No entanto, este procedimento levanta dúvidas quando o valor a


arredondar termina em 5 (ou 50 ou 500...)
Arredondar o valor 1,25 às décimas
Qual o valor mais próximo? 1,2 ou 1,3?

Arredondar o valor 7,7500 às décimas


Qual o valor mais próximo? 7,7 ou 7,8?

f) A prática de, nestes casos de incerteza, arredondar sempre para cima


(1,25 → 1,3) produz um viés.
g) Alternativa: nos casos de incerteza, arredondar às vezes para cima e outras
vezes para baixo, de forma a não favorecer enviesamentos. Esta alternativa
é garantida pela regra “em situações de incerteza, arredondar para o par
mais próximo”
h) Como aplicar a regra “arredondar para o par mais próximo”?
Arredondar o valor 1,25 às décimas
Qual o valor par mais próximo? 1,2 ou 1,3?
1,25 → 1,2 (aqui o arredondamento foi feito para baixo)

Arredondar o valor 7,75 às décimas


Qual o valor par mais próximo? 7,7 ou 7,8?
7,75 → 7,8 (aqui o arredondamento foi feito para cima)

Conclusão: A segunda regra de


arredondamento conduz
(geralmente) a cálculos mais
próximos dos obtidos a partir dos
valores originais. Será essa regra
que vamos utilizar em Estatística.

Estatística descritiva univariada


Descrever e resumir conjuntos volumosos de dados

a) Procedimentos organizar, resumir e descrever conjuntos volumosos de dados.

10
Estatística I
2º semestre, 1º ano

b) Recorre a tabelas, gráficos (ex.: histogramas) e estatísticas descritivas (técnicas


aritméticas: cálculo da média ou do coeficiente de correlação, etc.).

• Tipos de análise descritiva


a) Análise univariada: caracterizar a distribuição de uma variável de cada vez
b) Análise bivariada: caracterizar a distribuição conjunta de duas variáveis.
c) Análise multivariada: caracterizar a distribuição conjunta de três ou mais
variáveis

• Análise descritiva e tipos de dados


As técnicas de análise descritiva a utilizar vão depender de:
a) Natureza métrica dos dados (vamos centrar-nos na distinção nominal versus
escala)
b) Necessidade de agrupar ou não os valores da variável

• Classificação (simplificada) dos tipos de dados

• Análise univariada

Análise de dados univariados

Explorar a informação distribucional

(saber como se distribuem na amostra os valores que a variável toma)

Exemplo:

Estudo sobre as razões que levam os alunos a ingressar em cursos na Universidade do Algarve.

Um questionário com diversas perguntas foi aplicado a uma amostra de 150 estudantes:

a) Região de origem

b) Licenciatura que frequentam

c) Nº de reprovações durante o percurso escolar anterior

d) Nota de ingresso na Universidade

• Caso 1: Dados nominais


Pergunta do questionário: “Qual a sua região de origem?”
Variável X

11
Estatística I
2º semestre, 1º ano

Região geográfica de origem dos estudantes inquiridos.

Codificação da variável (valores que X pode tomar):


1 – Sul; 2 – Centro; 3 – Norte.

Variável medida numa amostra de 150 estudantes universitários.


NOTA: As variáveis costumam representar-se por uma letra latina maiúscula (X)

• Que abordagem?
A variável X está medida numa escala nominal, tomando poucos valores.

Dados nominais não agrupados

• Dados

• Organização dos dados

• Base de dados em SPSS

12
Estatística I
2º semestre, 1º ano

• Técnicas descritivas
Como resumir a informação distribucional presente na amostra?
a) Tabelas
b) Gráficos
c) Estatísticas descritivas

a) Tabulação de dados
Tabela de frequências (distribuição de frequências)
Xi ni fi Ni Fi
1 = Sul 77 0.513 77 0.513
2 = Centro 51 0.340 128 0.853
3 = Norte 22 0.147 150 1.000
Total 150 1.000

Frequência absoluta (ni): por exemplo, “77 estudantes”


Frequência relativa (fi): por exemplo, “0,513 (51,3% dos estudantes)”
Frequência absoluta acumulada (Ni)
Fazem pouco sentido em variáveis
Frequência relativa acumulada (Fi)
nominais

b) Representação gráfica dos dados


Gráfico de barras: o eixo das ordenadas pode indicar a frequência absoluta ou a
frequência relativa de cada valor de X.

13
Estatística I
2º semestre, 1º ano

Gráfico circular

c) Estatísticas descritivas
A presente variável expressa-se numa escala nominal → não se podem efetuar
operações aritméticas com os seus valores. Logo, não se podem calcular
estatísticas descritivas.
A única exceção é a “moda” (o valor mais frequente da amostra): Moda = 1 (“Sul”).
Podem ainda ser calculados indicadores da dispersão dos sujeitos pelos valores da
variável nominal:
a) Índices de variação qualitativa (Wilcoxon, 1957) Valores próximos de 1
indicam uma distribuição heterogénea; valores próximos de 0 uma
distribuição homogénea.
b) Entropia (Shannon, 1948)

No entanto, o SPSS não calcula estes índices

• Caso 2: Dados nominais agrupados


Variável Y: Licenciatura frequentada pelos inquiridos.

• Que abordagem?
A variável Y está medida numa escala nominal mas toma muitos valores.

Dados nominais agrupados

14
Estatística I
2º semestre, 1º ano

• Tabulação de dados

Apesar de conter a totalidade da


informação sobre a amostra, esta
tabela funciona mal como
resumo.

• Representação gráfica dos dados

• Agrupar a informação
Se o objetivo da Estatística Descritiva é sumariar a informação, convém que esta seja
apresentada de forma reduzida, sem todavia perder demasiada precisão.

Agrupar a informação

15
Estatística I
2º semestre, 1º ano

Ao agrupar perde-se sempre informação, pelo que o agrupamento deve ser com
cuidado.
Seguir regras para agrupar a informação em categorias/classes
No caso nominal, as categorias não são quantitativas, devendo ser definidas com base
no seu significado. Neste caso, não existem regras para determinar quantas e quais
devem ser usadas.

• Recodificar e agrupar os dados


Variável Y (agrupada)
Licenciatura frequentada pelos inquiridos

Codificação da nova variável

1: Ciências Humanas

2: Ciências Sociais
Nota: Este é um agrupamento
3: Ciências Exatas-
possível, baseado nos domínios
4: Ciências da S-/aúde científicos e não nos dados em si

5: Engenharias

• Tabulação de dados
Yi ni fi Ni Fi
1 = C. Humanas 19 0.127 19 0.127
2 = C. Sociais 59 0.393 78 0.520
3 = C. Exatas 18 0.120 96 0.640
4 = C. Saúde 21 0.140 117 0.780
5 = Engenharias 33 0.220 150 1.000
Total 150 1.000

• Representação gráfica dos dados

16
Estatística I
2º semestre, 1º ano

• Caso 3: Dados quantitativos


Variável X
Número de reprovações durante o percurso escolar anterior ao ingresso na
Universidade. /
Valores que X pode tomar: Qualquer valor inteiro positivo (0, 1, 2, 3...)

• Inspeção inicial dos dados

• Que abordagem?
A variável X é discreta e está medida num formato escalar que toma poucos valores
(entre 0 e 7).

Dados quantitativos não agrupados

• Tabulação de dados
Xi ni fi Ni Fi
0 23 0.153 23 0.153
1 51 0.340 74 0.493
2 36 0.240 110 0.733
3 19 0.127 129 0.860
4 10 0.067 139 0.927
5 8 0.053 147 0.980
6 2 0.013 149 0.993
7 1 0.007 150 1.000
Total 150 1.000

No caso de dados numéricos, as frequências acumuladas (Ni e Fi ) fazem sentido.

• Representação gráfica dos dados

17
Estatística I
2º semestre, 1º ano

Gráfico circular: menos adequado do que no caso nominal

Nota: os
valores que
definem o
gráfico são os
três quartis e
os extremos
(máximo e
mínimo).

• Caso 4: Dados quantitativos agrupados


Variável X
Nota de ingresso na Universidade do Algarve.
Valores que X pode tomar: valores inteiros entre 0 e 200.

• Inspecção inicial dos dados

18
Estatística I
2º semestre, 1º ano

• Tabulação e representação gráfica dos dados

• Que abordagem?
A variável X está medida num formato escalar e toma muitos valores (entre 101 e
174).

Dados quantitativos agrupados

• Como agrupar?
Para proceder ao agrupamento correto de uma variável escalar, é preciso seguir alguns
passos:
a) Quantas classes utilizar?
b) Qual a largura de cada classe?
c) Onde começar a primeira classe?
d) Caracterizar as classes.

a) Quantas classes?
Como determinar o nº de classes a utilizar?
Existem diversas regras que assumem que o nº de classes deve ser adequado à
dimensão da amostra:
a. Regra de Sturges (1926)
b. Regra de Doane (1972)

Regra de Sturges:

k = 1 + [log2 n] → [ ] significa “o menor inteiro em…” ou k = 1 + [3.322*log10 n]

Segundo esta regra, o número de classes (k) deve ser o menor inteiro que satisfaz a
desigualdade 2 ̂k > n.

19
Estatística I
2º semestre, 1º ano

Segundo a regra de Sturges, para 150 observações, devem-se utilizar k = 8 classes.

Segundo a regra de Sturges, para 150 observações, devem utilizar-se k = 8 classes.

Aplicação da regra de Sturges por tentativas:

Segundo a regra de Sturges, para uma amostra de 150 observações, devemos utilizar
k = 8 classes.

b) Qual a largura de cada classe?


Amplitude da amostra: H = Máx – Mín = 174 – 101 = 73
Amplitude de cada classe (h): h = (H + 1) / k
Amplitude da classe (para simplificar, convém arredondar), h = (73 + 1) / 8 = 9,25 
10

ATENÇÃO: Arredondar sempre por excesso, para não “ficar a faltar”!

20
Estatística I
2º semestre, 1º ano

c) Onde começar a primeira classe?

Uma opção é distribuir esse excesso de seis valores pelos dois lados do intervalo:
começar em 98 (três valores a abaixo do estritamente necessário) e acabar em 177
(três valores acima do estritamente necessário)...
Classe 1: de 98 a 107 (inclusive)
Classe 2: de 108 a 117 (inclusive) etc.

NOTA: “Distribuir o excesso pelos dois lados do intervalo” é uma opção que
possibilita obter distribuições mais centradas e menos irregulares.

d) Caracterizar as classes
A i-ésima classe possui um limite inferior (li ) e um limite superior (Li ).
Estes limites vão ser utilizados para calcular estatísticas descritivas a partir dos
dados agrupados.

Os limites da classe: Classe 1: [98, 108[; Classe 2: [108, 118[; etc.

A amplitude da classe (diferença entre os limites da classe): hi = Li – li

Amplitude da Classe 1: h1 = 108 – 98 = 10

Em geral, a amplitude é igual para todas as classes.

Os pontos médios de cada classe (semi-soma dos limites da classe): mi = (Li + l i )/2
Classe 1: m1 = (108+98)/2 = 103

Classe 2: m2 = (118+108)/2 = 113 ...

Os pontos médios representam o valor que se assume terem as observações no


interior de cada classe.

• Distribuição de frequências

Nota: as ordenadas
tanto podem ser as
frequências
absolutas como as
relativas; as barras
estão pousadas no
intervalo definido
pelos limites das
classes

21
Estatística I
2º semestre, 1º ano

Polígono de
frequências. As Gráfico de
ordenadas tanto quartis. os
podem ser as valores que
frequências definem o
absolutas como gráfico são os
as relativas; os três quartis e
pontos de os extremos
referência do (máximo e
polígono são os mínimo)
pontos médios
das classes

Estatística Descritiva Univariada: medidas descritivas de localização


• Técnicas descritivas
Técnicas para caracterizar a distribuição de uma variável:
a) Tabelas;
b) Gráficos;
c) Estatísticas descritivas.

• Características distribucionais
Distribuição das notas a Matemática de rapazes e raparigas do 10º ano:

Quatro características fundamentais de uma distribuição univariada:


a) Localização;
b) Dispersão;
c) Assimetria;
d) Curtose.

• Localização
Os índices de localização pretendem situar a distribuição da variável, posicionando-a
na reta numérica.
As medidas de localização de tendência central indicam o “centro” da distribuição; as
medidas de localização não central permitem posicionar a distribuição, “ancorando-a”
na reta numérica.
Medidas de tendência central: Média Mediana Moda (?)
Medidas de localização (não centrais): Quantis (tercis, quartis, decis, percentis)
Extremos (mínimo e máximo).

• Média
Qual o seu significado?

22
Estatística I
2º semestre, 1º ano

• Significado “físico” da média

A média é como um ponto de equilíbrio de uma distribuição.

• Exemplo de cálculo da média


Variável X: número de reprovações no percurso escolar anterior à Universidade.

• Mediana

Valor central da distribuição

Como calcular?

Se a dimensão da amostra for ímpar, a mediana corresponde ao elemento central da


amostra ordenada.

Se a dimensão da amostra for par, a mediana corresponde à média dos dois elementos
centrais da amostra ordenada.

Amostra (n = 150)

Amostra de dimensão par.

Quais os elementos centrais da amostra ordenada?

23
Estatística I
2º semestre, 1º ano

• Moda
Valor mais frequente na distribuição

• Quantis

família de medidas de localização que dividem a amostra em k grupos com igual


número de observações.

Tercis: os 2 valores que dividem a amostra em 3 grupos

Quartis: os 3 valores que dividem a amostra em 4 grupos

Decis: os 9 valores que dividem a amostra em 10 grupos

Percentis: os 99 valores que dividem a amostra em 100 grupos

Tercis

T1: valor que tem atrás de si 33,3% da amostra ordenada

T2: valor que tem atrás de si 66,7% da amostra ordenada

Quartis

Q1: valor que tem atrás de si 25% da amostra ordenada

24
Estatística I
2º semestre, 1º ano

Q2: valor que tem atrás de si 50% da amostra ordenada

Q3: valor que tem atrás de si 75% da amostra ordenada

Decis

D1: valor que tem atrás de si 10% da amostra ordenada

D2: valor que tem atrás de si 20% da amostra ordenada

D9: valor que tem atrás de si 90% da amostra ordenada

Percentis

P01: valor que tem atrás de si 1% da amostra ordenada

P02: valor que tem atrás de si 2% da amostra ordenada

...

P99: valor que tem atrás de si 99% da amostra ordenada

Relações de igualdade entre quantis

Mediana = Q2 = D5 = P50

Q1 = P25

Q3 = P75

T1 = P33 (aproximadamente)

T2 = P67 (aproximadamente)

D1 = P10; D2 = P20; D3 = P30, etc...

• Utilização dos percentis


Dizer que o bebé se situa no percentil 40 para o peso significa que 40% dos bebés do
seu grupo etário têm peso igual ou inferior ao dele.

• Cálculo dos Quantis


O cálculo de quantis apresenta alguns desafios (por exemplo, como dividir uma amostra
de dimensão par em três grupos de igual tamanho?). Por isso, existem diferentes formas
de calcular os quantis de uma amostra.
Podemos fazê-lo “manualmente” quando a amostra é pequena ou recorrendo a um
procedimento geral. Por vezes os resultados são ligeiramente diferentes.
Ilustramos em seguida dois procedimentos que nem sempre resultam em valores
idênticos:
a) Procedimento “manual” e mais intuitivo, semelhante ao descrito para cálculo
da mediana e adequado a amostras pequenas;
b) Procedimento geral, baseado na contagem de posições das observações em
amostras ordenadas, e adequado tanto a amostras pequenas como grandes.

• Exemplo de cálculo dos Quantis em amostras pequenas


25
Estatística I
2º semestre, 1º ano

Quartis (n = 17)

• Primeiro calcula-se a mediana do grupo total (Q2)

• Depois calculam-se as medianas dos dois subgrupos (Q1 e Q3)

• Exemplo de cálculo dos Quantis em amostras grandes


Quartis (n = 150)

• Exemplo de cálculo dos quantis em amostras pequenas

Tercis (n = 17) → dividindo por 3 sobram 2 observações

• Cálculo de quantis: procedimento geral


Apresenta-se em seguida um procedimento genérico baseado na contagem das
posições das observações na amostra ordenada.
Este método não coincide com o(s) método(s) implementado(s) no SPSS, podendo
resultar em valores ligeiramente diferentes.

26
Estatística I
2º semestre, 1º ano

• Exemplo de cálculo dos quartis

1. Ordenar a amostra de dimensão n = 150 (n é par)

• Calcular o 1º quartil (exemplo)

2. Localizar a posição k do primeiro quartil, Q0.25

Para o primeiro quartil, p = 0.25


k = n*p + 0,5 = 37,5 + 0,5 = 38 (porque n é par)

3. Calcular o valor do quantil

Como k é inteiro, o primeiro quartil ocupa a 38ª posição


Q0.25 = X38 = 1

• Calcular o 2º e o 3º quartis (exemplo)

2. Localizar a posição k dos outros dois quartis, Q0.50 e Q0.75


Para p = 0.50, vem k = n*p + 0,5 = 75 + 0,5 = 75,5
Para p = 0.75, vem k = n*p + 0,5 = 112,5 + 0,5 = 113

4. Calcular o valor do quantil


Q0.50 = (X75 + X76)/2 = (2+2)/2 = 2 (porque k não é inteiro)

27
Estatística I
2º semestre, 1º ano

Q0.75 = X113 = 3 (porque k é inteiro)

• Medidas de localização (outras)


Extremos amostrais: mínimo e máximo
Min = 0
Máx = 7

• Reflexão sobre o significado das medidas de tendência central

Que acontece à média se movermos qualquer uma das observações?

O ponto de equilíbrio modifica-se: 6,67 → 6,58.


O valor da média depende de TODOS os valores da amostra.

A mediana é como um ponto que divide a amostra ordenada em dois grupos de igual
dimensão.
Que acontece à mediana se movermos qualquer uma das observações (à exceção dos
valores centrais)?

O ponto central da distribuição não se altera: 7.


A mediana depende apenas dos valores centrais da amostra.

• Significado das medidas de localização

A moda é o valor mais frequente da amostra.


Que acontece se se mover qualquer outro valor da distribuição (desde que não seja a
moda)? A moda não se altera.

28
Estatística I
2º semestre, 1º ano

• Estatísticas robustas
Há medidas de localização mais sensíveis e outras menos sensíveis a pequenas (ou
grandes) alterações no valor das observações.
As medidas menos sensíveis são consideradas estatísticas robustas.
A média, ao contrário da mediana, é sensível a qualquer modificação dos dados e
também à presença de outliers, sendo por isso menos robusta.

• Outliers
Os outliers (valores marginais) são elementos da amostra que se afastam
excessivamente da parte central da distribuição.

• Exemplo
56
Idades de um grupo de adultos: 18, 18, 19, 20, 20, 22, 23,

Média: 24,5 A média é sensível à


Média sem outlier: 20 presença do valor
marginal, dando
Mediana: 20 informação algo
Mediana sem outlier: 20 distorcida.

• Que medidas de localização utilizar?


Um dos critérios principais para decidir sobre as medidas de localização a utilizar refere-
se à natureza métrica da variável:

Média
a) Medida que melhor representa toda a amostra
b) Leva em conta todos os elementos da amostra
c) Envolvida no cálculo de outras estatísticas descritivas (dispersão, assimetria, etc)
d) Adequada apenas a dados escalares (intervalares)
e) Pode não corresponder a um elemento da amostra
f) Pouco robusta - facilmente influenciada por outliers

29
Estatística I
2º semestre, 1º ano

Mediana

a) Representa o ponto central da amostra


b) Robusta - não é influenciada por outliers
c) Adequada a dados escalares e ordinais o Pode não corresponder a um elemento da
amostra
d) Leva apenas em conta um ou dois elementos da amostra

Moda

a) Representa o elemento mais típico da amostra


b) Adequada a todos os tipos de dados (nominais, ordinais e escalares)
c) Pode não existir
d) Pode ser múltipla
e) Pode ser pouco representativa da localização quando a variável toma muitos valores
(neste caso também é pouco robusta)

• Cálculo de medidas de localização a partir de dados tabelados


(dados tabelados não agrupados)
Quando não se tem acesso aos dados originais mas apenas à sua apresentação em
tabelas, ainda assim é possível proceder ao cálculo das medidas de localização.
Se os dados tabelados não envolverem agrupamento em classes, o valor das estatísticas
calculadas a partir da tabelas será igual ao das estatísticas calculadas a partir dos dados
originais; se houve agrupamento, haverá sempre (ligeiras) distorções no valor das
estatísticas descritivas calculadas a partir dos dados tabelados.

Mediana

30
Estatística I
2º semestre, 1º ano

Quantis
O cálculo dos quantis envolve a determinação da classe que contém o quantil e depois
a utilização de fórmulas específicas.

31
Estatística I
2º semestre, 1º ano

Moda
O cálculo a moda envolve a determinação da classe modal (classe que agrupa maior
número de observações) e a aplicação da fórmula seguinte.

Estatística descritiva univariada: dispersão, assimetria, curtose


• Características de uma distribuição
Quatro características fundamentais de uma distribuição:
a) Localização
b) Dispersão
c) Assimetria
d) Curtose

• Dispersão
Os índices de dispersão pretendem avaliar a dispersão da variável ao longo da reta
numérica (variabilidade).
As medidas de dispersão podem expressar o grau de dispersão da distribuição em torno
de um valor central ou podem indicar a amplitude do intervalo de valores que a variável
toma.

32
Estatística I
2º semestre, 1º ano

• Medidas de dispersão
Amplitude (amostral)
Intervalo de dispersão
Amplitude interquartílica

Variância Grau de dispersão em torno de um


Desvio-padrão valor central

• Amplitude
Amplitude H (amostral): intervalo que inclui todas as observações da amostra.

H = máximo – mínimo

Medida muito pouco robusta!


(depende apenas de dois valores e é muito sensível a outliers)

H = 7 - 0 =7

• Amplitude inter-quartílica
Amplitude inter-quartílica d: intervalo entre o 1º e o 3º quartil

d = Q3 – Q1

Medida robusta!
(depende apenas de dois valores, mas resiste a outliers)

• Interpretar amplitudes
As amplitudes indicam o intervalo em que se situa toda a amostra ou parte dela:
a) Amplitude (amostral): indica o intervalo onde se distribuem todas as observações
sa amostra
b) Amplitude interquartílica: indica o intervalo onde se distribuem as observações
centrais da amostra (50%)

As duas amplitudes não são comparáveis entre si; em conjunto dão uma ideia da
dispersão da amostra.

33
Estatística I
2º semestre, 1º ano

• Variância
Variância: média do quadrado das diferenças entre as observações da amostra e a sua
média.

Qual das distribuições tem maior variância?


Na primeira amostra, os desvios das observações face à média são maiores do que na
segunda amostra!

Fórmula de variância mais adequada para cálculos “manuais”

É preciso apenas conhecer o


valor da soma dos quadrados
das observações e o valo da
soma das observações

A interpretação do valor variância é difícil porque se expressa em unidades ao


quadrado.

• Desvio-padrão
Desvio-padrão: raiz positiva da variância

34
Estatística I
2º semestre, 1º ano

Como se expressa nas mesmas unidades que a variável em estudo, é mais utilizado do
que a variância.

• Interpretar o valor do desvio-padrão


S = 1,48
Muita dispersão? Pouca dispersão?
É difícil interpretar o valor do desvio-padrão em termos absolutos (por exemplo, para
saber se a distribuição é muito ou pouco dispersa).

A interpretação do desviopadrão
depende da forma da distribuição
e da gama de valores que a
variável toma.

A desigualdade de Chebyschev dá
alguma orientação quanto à
concentração da distribuição em
torna da média em função dos
valores de S (ver figura).

De uma forma geral, em distribuições “bem-comportadas” (simétricas e unimodais),


uma fração elevada das observações situa-se no intervalo compreendido entre
“média, desvio-padrão” e “média + desvio-padrão”.
O desvio-padrão é sobretudo útil para comparar a dispersão de distribuições
(interpretação o seu valor relativo e não absoluto).

• Medidas de dispersão
Como interpretar a variância (ou o desvio-padrão)?

Distribuições mais
concentradas (A)
apresentam valores de
variância menores do que
distribuições dispersas (C).

35
Estatística I
2º semestre, 1º ano

• Robustez das medidas de dispersão


Efeito dos outliers

Amplitude: 11

Desvio padrão: 2.982

Amplitude interquartílica: 3

Amplitude: 7
Desvio padrão: 2.005
Amplitude interquartílica: 3

Amplitude menos robusta


Desvio padrão moderadamente robusta
Amplitude interquartílica mais robusta

• Assimetria
A assimetria expressa o grau em que a variável se distribui de forma equilibrada à
direita e à esquerda da medida de tendência central.
Existem três tipos de assimetria, que podem variar em grau:
a) Assimetria nula (simetria)
b) Assimetria positiva (à direita)
c) Assimetria negativa (à esquerda)

• Como avaliar a assimetria?


a) Através da análise da distribuição (gráficos ou tabelas)
b) Através de estatísticas descritivas específicas
c) Através da comparação das medidas de localização

36
Estatística I
2º semestre, 1º ano

Tabelas ou gráficos

Estatísticas descritivas específicas (medidas de assimetria)

a) Coeficiente de Assimetria de Fisher


b) Coeficiente de Assimetria de Pearson

• Coeficiente de assimetria de Fisher


Coeficiente de Assimetria de Fisher (Skewness no SPSS)

No exemplo em estudo…

A análise de g1 atendendo apenas ao seu sinal pode levar a erros de interpretação.


Por exemplo, se g1 = + 0,002 devemos considerar a distribuição assimétrica positiva ou
devemos considerá-la simétrica pois o valor de g1 é negligenciável?
É preciso relativizar o valor de g1.
A interpretação do valor de g1 deve atender ao erro-padrão dessa estatística (S.E.).

37
Estatística I
2º semestre, 1º ano

• Coeficiente de Assimetria de Pearson


adequado apenas em
distribuições unimodais
Se g2 = 0, a distribuição é simétrica. Se g2 > 0, a
distribuição é assimétrica positiva. Se g2 < 0, a
distribuição é assimétrica negativa.

No exemplo em estudo…

Nota: a validade do CAP depende essencialmente da confiança que temos no


valor da moda.
Comparação entre medidas de localização

Numa distribuição unimodal...

Se Média = Mediana = Moda, a


distribuição é simétrica.

Se Média < Mediana < Moda, a


distribuição é assimétrica negativa (à
esquerda).

Se Moda < Mediana < Média, a


distribuição é assimétrica positiva (à
direita).

• Curtose
Característica que expressa o peso das “caudas” de uma distribuição e o achatamento
da sua zona central.
a) Distribuições mesocúrticas: distribuições gaussianas
b) Distribuições platicúrticas: distribuições mais achatadas do que a gaussiana
c) Distribuições leptocúrticas: distribuições menos achatadas do que a gaussiana

Tipos de curtose em distribuições simétricas unimodais.

38
Estatística I
2º semestre, 1º ano

• Medidas de curtose
Coeficiente de Curtose de Fisher Se g3 = 0, a distribuição é mesocúrtica.
(kurtosis no SPSS) Se g3 > 0, a distribuição é leptocúrtica.

Se g3 < 0, a distribuição é platicúrtica.

Se |g3 / S.E.| < 2, podemos considerar que o valor do coeficiente de curtose não se
afasta significativamente de 0, pelo que a distribuição é mesocúrtica,
independentemente do sinal de g3.
Se |g3 / S.E.| > 2, a distribuição não é mesocúrtica.

No exemplo em estudo…
g3 = 0,698
S.E. = 0,394
g3 / S.E.| = 1,77  curtose não significativa; podemos considerar que a distribuição é
mesocúrtica.

• Formato de dados e cálculo de estatísticas descritivas


a) Dados não tabelados
b) Dados tabelados
c) Dados tabelados agrupados

O valor das estatísticas descritivas devia ser idêntico independentemente do formato


em que os dados nos são disponibilizados. No entanto, o agrupamento dos dados
pode levar a distorções devido à perda de informação resultante do agrupamento.

• Dados tabelados e dados agrupados


O cálculo de estatísticas descritivas a partir de dados não tabelados ou de dados
tabelados (não agrupados) deverá conduzir sempre a resultados idênticos; quando
calculadas a partir de dados agrupados, os procedimentos indicados para calcular as
estatísticas descritivas garantem que o erro devido ao agrupamento seja mínimo.

As fórmulas utilizadas para calcular as diferentes estatísticas descritivas quando os


dados não estão tabelados (por exemplo, as fórmulas dos coeficientes de assimetria e
de curtose) podem ser facilmente adaptadas para a situação de dados tabelados e
dados agrupados. No caso dos dados tabelados (não agrupados), basta substituir nas
fórmulas o valor Xi por niXi (multiplica-se o valor de X pela sua frequência absoluta
respetiva). No caso dos dados tabelados agrupados, basta substituir Xi por nimi, onde
mi representa o ponto médio da classe i que se vai multiplicar pela frequência absoluta
da classe.

• Comparação das estatísticas descritivas calculadas a partir de dados não


agrupados e agrupados em classes
A tabela seguinte procede à comparação das estatísticas descritivas calculadas a partir
de dados não agrupados (e a partir de dados tabelados agrupados.
Os dados referem-se à amostra das notas de ingresso (n = 150), já analisada como
“Caso 4” da aula T02.

39
Estatística I
2º semestre, 1º ano

• Estatísticas descritivas em dados não agrupados e dados


agrupados Os procedimentos para
calcular as estatísticas
descritivas a partir de dados
agrupados garantem valores
muito próximos dos obtidos
a partir dos dados originais
não agrupados (com
exceção da variância e da
curtose).

• Como se constrói um gráfico de quartis (boxplot)?

O gráfico de quartis informa-


nos sobre a localização, a
dispersão e assimetria da
distribuição da variável, bem
como assinala a presença de
potenciais outliers na amostra.

Relação entre um gráfico de


quartis e umas representações
gráfica mais tradicional da
distribuição

40
Estatística I
2º semestre, 1º ano

A construção do gráfico de quartis baseia-se no que se chama “resumo dos cinco


números”, uma forma robusta de descrever a distribuição de um conjunto de dados:
Mínimo – Quartil 1 – Mediana – Quartil 3 – Máximo
No caso dos dados que temos vindo a analisar, esse resumo é: 0 – 1 – 2 – 3 – 7

Desenhar a caixa...

A caixa é delimitada
inferiormente pelo 1º quartil e
superiormente pelo 3º quartil. A
largura da caixa corresponde à
amplitude interquartílica d. O
traço central da caixa
corresponde ao 2º quartil
(mediana). Q3 = 3; Q2 = 2; Q1 = 1

Desenhar os bigodes...
O bigode inferior prolonga-se desde a caixa até ao valor mínimo da amostra (desde
que não seja outlier).
O bigode superior prolonga-se desde a caixa até ao valor máximo da amostra (desde
que não seja outlier).
Como verificar se existem ou não outliers?

• Identificação de outliers
O SPSS assinala os outliers moderados com um círculo:
a) Se X  Q3 + 1,5*d, então X é outlier superior
b) Se X  Q1 - 1,5*d, então X é outlier inferior

O SPSS assinala os outliers extremos com uma estrela:

a) Se X  Q3 + 3*d, então X é um outlier extremo superior


b) Se X  Q1 - 3*d, então X é um outlier extremo inferior

d = amplitude interquartílica = (Q3 – Q1)

• Como se constrói um gráfico de quartis (boxplot)?


Desenhar os bigodes…

41
Estatística I
2º semestre, 1º ano

Estatística Descritiva Bivariada I: duas variáveis nominais

• Análise bivariada
a) Análise univariada: analisar uma variável de cada vez (individualmente) → apenas
informa sobre a distribuição da variável.
Exemplo: Como se distribui a idade na amostra? Qual a idade mais frequente?
Qual a idade mais alta? Qual a sua média e desvio padrão? Entre que valores de idade
se situam os participantes?

b) Análise bivariada: analisar duas variáveis em conjunto → de que modo se


relacionam duas variáveis, verificando se a distribuição de uma se associa de
alguma forma à distribuição da outra.
Exemplo: A distribuição da idade é diferente nos dois sexos? Diferenças no QI de
alunos do secundário associam-se a diferenças no seu rendimento escolar?

• Tipos de dados bivariados


Ao realizar uma análise bivariada, cada variável pode ter natureza métrica diferente.
Restringindo-nos apenas a dois tipos de escala de medida (N - nominal e S - escalar),
podem definir-se três cenários possíveis, cada um deles exigindo técnicas descritivas
distintas:
1) Ambas as variáveis são nominais (N x N).
2) Ambas as variáveis são de escala (S x S).
3) Uma das variáveis é nominal e a outra de escala (N x S).

• Caso 1: Duas variáveis nominais


Fez-se a pergunta “Gostaria de ser psicólogo?” a uma amostra de 220 estudantes do
final do ensino básico (9º ano), tendo-se simultaneamente registado o sexo do
inquirido.
Variável X – sexo do inquirido (1 - Rapaz, 2 - Rapariga)
Variável Y – resposta (1 - Sim, 2 - Não).
Existirá relação entre estas duas variáveis? A distribuição da resposta (“Sim” ou “Não”)
é diferente para cada sexo?

• Dados recolhidos (n = 220)

42
Estatística I
2º semestre, 1º ano

• Técnicas descritivas
Como resumir a informação distribucional presente na amostra?
a) Tabelas (para dados bivariados nominais)
b) Gráficos (para dados bivariados nominais)
c) Estatísticas descritivas (para dados bivariados nominais)

• Tabulação de dados bivariados


Tabelas de contingência: tabelas cruzadas; cross-tabulation

Tabela de contingência com frequências absolutas (apresenta três distribuições)


X = Rapaz X = Rapariga Total
Y = Sim 20 42 62
Y = Não 68 90 158
Total 88 132 220

• Distribuições em dados bivariados

Distribuição marginal de X Correspondem à distribuição


univariada de X e à
Distribuição marginal de Y distribuição univariada de Y

Distribuição conjunta de X e Y “Novidade” da


(como se distribuem os valores de X em função dos valores de Y). análise bivariada

• Distribuição marginal
Distribuição marginal de X (frequências absolutas)

Distribuição marginal de Y (frequências absolutas)

43
Estatística I
2º semestre, 1º ano

Distribuição conjunta de X e Y (frequências absolutas)

• Distribuições numa tabela de contingência


Distribuição conjunta de X e Y (frequências absolutas)

Distribuição conjunta de X e Y (frequências relativas)

Tal como a anterior, esta tabela apresenta também três distribuições: distribuição
conjunta de X e Y, distribuição marginal de X e distribuição marginal de Y.
Nota: estes valores obtém-se dividindo cada célula da tabela anterior pelo total n =
220.

Como interpretar as frequências relativas de uma distribuição conjunta?


a) 9,1% da amostra são rapazes que querem ser psicólogos e 40,9% são
raparigas que não querem ser psicólogos.

Existe relação entre o sexo do aluno e o seu interesse em ser psicólogo?

A análise da distribuição conjunta (quer com frequências absolutas quer com relativas)
não permite uma resposta imediata a esta pergunta.

É mais fácil de responder a esta pergunta pela análise das distribuições condicionadas.

44
Estatística I
2º semestre, 1º ano

• Distribuição condicionada
Distribuição de Y condicionada a X

Distribuição das respostas condicionada ao sexo: a distribuição das respostas (Y) é


apresentada para cada um dos sexos (X).
O valor da coluna dos rapazes obtém-se dividindo as frequências absolutas dessa
coluna pelo valor do total respectivo (20/88 = 0,227 e 68/88 = 0,773). Os valores
frequência relativa das raparigas obtém-se dividindo as frequências absolutas pelo
total da coluna das raparigas (42/132 = 0,318 e 90/132 = 0,682)

Como interpretar esta distribuição condicionada?


22,7% dos rapazes responderam “Sim” e 31,8% das raparigas responderam “Sim”.
Existe assim indicação de associação entre o sexo do aluno e o seu interesse em ser
psicólogo: no final do ensino básico, as raparigas parecem estar mais interessadas do
que os rapazes em seguir essa carreira.

Distribuição dos sexos condicionada à resposta: a distribuição dos sexos (X) é


apresentada para cada uma das respostas (Y).
O valor da linha do “Sim” obtém-se dividindo as frequências absolutas dessa linha pelo
valor do total respectivo (20/62 = 0,323 e 42/62 = 0,677). Os valores frequências
relativas ao “Não” obtémse dividindo as frequências absolutas pelo total da linha do
“Não” (68/158 = 0,430 e 0/158 = 0,570)

32,3% dos inquiridos que responderam gostar de ser psicólogo eram rapazes e 43,0%
dos que responderam não gostar de ser psicólogo eram rapazes. Os resultados
sugerem, assim, uma associação entre os rapazes e a resposta negativa à pergunta em

45
Estatística I
2º semestre, 1º ano

análise: a percentagem de rapazes que responde negativamente é superior à


percentagem de rapazes que responde positivamente.
A conclusão da análise desta distribuição tem de ser idêntica à da análise da
distribuição de Y condicionada a X.

• Distribuições de duas variáveis


a) A distribuição marginal de X e a distribuição marginal de Y são univariadas e
podem ser expressas através de frequências absolutas ou de frequências
relativas;
b) A distribuição conjunta de X e Y é uma distribuição bivariada e pode ser
expressa através de frequências absolutas ou de frequências relativas;
c) As distribuições condicionadas apenas podem ser expressas através de
frequências relativas; as distribuições condicionadas são as mais relevantes
para descrever a associação entre duas variáveis nominais através de uma
tabela.

Em resumo…
a) A análise bivariada de variáveis nominais procura avaliar se existe
associação entre as variáveis X e Y.
b) Para isso, é necessário estudar a distribuição simultânea de X e Y
(distribuições conjuntas e/ou distribuições condicionadas).
c) A forma mais fácil de fazê-lo é através de distribuições de frequências
relativas, nomeadamente as distribuições condicionadas.

• Gráficos para dados bivariados nominais: representação gráfica

46
Estatística I
2º semestre, 1º ano

• Estatísticas descritivas para dados bivariados nominais


Existem inúmeras estatísticas utilizadas para descrever a associação entre duas
variáveis nominais:
a) odds-ratio
b) log-odds
c) coeficiente de contingência
d) coeficiente phi
e) coeficiente V de Cramer
f) etc.
Quando as variáveis em análise são dicotómicas (tabelas 2 x 2), o valor destes
coeficientes tende a coincidir. No entanto, isso não acontece quando as variáveis
nominais assumem mais do que duas categorias (politómicas).

• Odds ratio (razão de possibilidades)


Odds ratio (“razão de possibilidades”): medida de associação para variáveis
dicotómicas que se calcula facilmente a partir da tabela de contingência

Baseia-se no conceito de ODDS.

• Odds
O odds relativo a uma variável (dicotómica) obtém-se pela divisão da frequência de
uma categoria pela frequência da categoria complementar.
Por exemplo, numa turma de 30 crianças, existem 10 meninos e 20 meninas.
a) 10 meninos para 20 menina corresponde a um odds de 10 : 20 = 1 : 2 = 0,5.
b) 20 meninas para 10 meninos corresponde a um odds de 20 : 10 = 2 : 1 = 2.

X = Rapaz X = Rapariga Total


Y = Sim 20 42 62
Y = Não 68 90 158
Total 88 132 220

Na amostra total de 220 estudantes, o odds da resposta “Sim” face à resposta


“Não” é calculado da seguinte forma (para a amostra total):
Odds sim/não = 62 / 158 = 0,39.

47
Estatística I
2º semestre, 1º ano

Significa que há 62 respostas “Sim” para 158 respostas “Não”. O valor 0,39
representa a comparação quantitativa entre “Sins” e “Nãos”, indicando a
preponderância de “nãos” na amostra.

O odds pode variar entre 0 e + :


a) se tomar o valor 1, as duas categorias da variável ocorrem com igual
frequência;
b) se tomar valor superior a 1, a categoria apresentada em numerador
ocorre mais frequentemente;
c) se tomar valor inferior a 1, é a categoria do denominador a mais
frequente.

Neste exemplo, como o odds da resposta “Sim” face à resposta “Não” é


inferior a 1, concluiu-se que a resposta “Não” (no numerador) é mais
frequente.

NOTA: Podíamos ter calculado o odds da resposta “Não” face à reposta


“Sim” (158/62 = 2,55). O valor é superior a 1, logo predomina a resposta
no denominador, ou seja, a resposta “Não”. Chega-se à mesma conclusão
que calculando o odds da resposta “Sim”

• Como usar o odds para avaliar a relação entre duas variáveis dicotómicas?
Como usar o odds para avaliar se as respostas dos estudantes se associam ao sexo?
Se a distribuição do “Sim” e do “Não” for igual nos dois sexos, então os respetivos
odds também serão iguais.
Assim, basta comparar o odds de responder Sim (por exemplo) dos rapazes com o
odds do Sim das raparigas para avaliar se a distribuição é igual nos dois sexos.
Isso faz-se através do odds-ratio (OR)!

• Odds ratio
O odds-ratio (OR) é o quociente de dois odds.
O odds-ratio permite avaliar se o odds de uma categoria de resposta tem igual valor
nas duas categorias da outra variável.
No caso em análise, pode interessar saber se o odds da resposta “Sim” (face à resposta
“Não”) nos rapazes tem igual valor igual ao odds da resposta “Sim” nas raparigas.
Se tal acontecer, então a tendência para responder “Sim” é igual nos dois sexos e não
há associação entre a resposta à pergunta “Gostarias de ser psicólogo?” e o sexo dos
estudantes.

48
Estatística I
2º semestre, 1º ano

Em ambas situações se verifica uma menor tendência para responder “Sim” do que
para responder “Não”, uma vez que o valor do odds calculado foi sempre inferior a 1.
No entanto, o valor do odds nas raparigas é maior que o odds dos rapazes, o que
sugere que a associação à resposta “Sim” é mais intensa neste sexo.
O odds-ratio vai refletir essa diferença.

X = Rapaz X = Rapariga Total


Y = Sim 20 42 62
Y = Não 68 90 158
Total 88 132 220

O odds-ratio é o
quociente entre os dois
Como interpretar este valor? odds que acabámos de
calcular para os rapazes e
para as raparigas.
• O Odds-ratio pode variar entre 0 e + :
a) se tomar o valor 1, significa que as duas variáveis não estão associadas (neste
caso, significaria que a tendência para responder “Sim” seria igual nos rapazes
e nas raparigas);
b) se tomar valor superior a 1, significa que existe associação entre as duas
variáveis e que predomina a tendência colocada no numerador (neste caso
significaria que a tendência para responder “Sim” seria maior nos rapazes do
que nas raparigas);
c) se tomar inferior a 1, significa que existe associação entre as duas variáveis e
que predomina a tendência colocada no denominador (neste caso significaria
que a tendência para responder “Sim” seria maior nas raparigas que nos
rapazes)

No presente caso, OR é diferente de 1, indicando que existe associação entre o


sexo do estudante e o seu interesse pela Psicologia. Como OR < 1, a tendência
para responder “Sim” é maior no grupo colocado no denominador (raparigas): a
associação entre as variáveis resulta das raparigas terem mais interesse que os
rapazes pela Psicologia.

NOTAS:

a) Mesmo que se coloque no numerador não o odds dos rapazes mas sim o
das raparigas, a interpretação do valor de OR irá necessariamente levar à
mesma conclusão.
b) Mesmo que se calcule o OR considerando não o odds de dizer “Sim” mas
o odds de dizer “Não”, a interpretação do valor de OR irá
necessariamente levar à mesma conclusão.
c) Se as variáveis não forem dicotómicas, é sempre possível recodificá-las
de forma a criar variáveis dicotómicas e aplicar o odds-ratio (basta

49
Estatística I
2º semestre, 1º ano

comparar uma categoria com a categoria resultando da reunião das


restantes).

Por vezes podemos ficar incertos se o valor do OR se afasta de 1 o suficiente


para afirmarmos com segurança que existe associação entre as duas
variáveis. Para facilitar a interpretação do OR, o SPSS apresenta o respectivo
Intervalo de Confiança, que nos permite decidir se o valor de OR calculado se
afasta ou não significativamente de 1.

• Independência entre duas variáveis nominais


Quando se analisa a relação entre duas variáveis nominais, a principal questão é saber
se as duas variáveis são ou não independentes.
A resposta à pergunta “Gostarias de ser psicólogo?” depende do sexo do aluno ou é
independente do sexo
Duas variáveis nominais dizem-se independentes se a
do aluno?
pertença a uma categoria de uma variável não afetar a
É através da análise das
probabilidade de pertencer à categoria de outra variável.
distribuições
condicionadas que
podemos esclarecer se duas variáveis nominais são independentes ou se, pelo
contrário, estão associadas.

• Exemplo de situação de independência: representação gráfica

Distribuição da resposta (“sim” e


“não”) condicionada ao sexo.

A percentagem de “sins” em cada grupo (“rapazes” e “raparigas”) é idêntica, ou seja, a


distribuição condicionada da resposta (“sim” e “não”) é igual nos dois sexos. Assim,
podemos considerar que as variáveis (“sexo” e “querer ser psicólogo”) são
independentes entre si.
A percentagem de “sim, quero ser psicólogo” é diferente em cada grupo: entre os
rapazes há menos respostas “sim” (15%) do que entre as raparigas (40%). Este
resultado significa que as duas variáveis estão associadas: ser rapaz diminui a
probabilidade de responder “sim, quero ser psicólogo”.

50
Estatística I
2º semestre, 1º ano

• Independência ou dependência entre duas variáveis nominais


Se existir independência entre duas variáveis, não é necessário especificar mais nada.
Se não existir independência, é preciso especificar de que forma as duas variáveis se
relacionam (descrever a direção da associação).

• Análise do exemplo
Se as duas variáveis forem independentes, a distribuição da resposta “Quer ser
psicólogo?” deverá ser idêntica para rapazes e para raparigas, independentemente do
sexo. Só assim se pode dizer que o facto de “ser rapaz” (ou de “ser rapariga”) não
interfere na probabilidade de “querer ser psicólogo”.
Avaliar a independência de duas variáveis nominais passa por verificar se as
distribuições condicionadas de uma variável para cada um dos níveis da outra variável
são ou não iguais. Assim, devemos ir verificar se a distribuição da resposta
condicionada ao sexo é igual (ou aproximadamente igual) no caso dos rapazes e no
caso das raparigas.
De igual modo, a distribuição do “sexo” condicionada a “querer ser psicólogo” será
igual (ou aproximadamente igual) para os que querem ser psicólogos e para os que
não querem ser.

• Análise do exemplo: recorrendo à distribuição das repostas condicionada ao


sexo
A análise da distribuição das respostas condicionada
ao sexo do estudante indica que a percentagem de
sins é diferente no caso das raparigas e dos rapazes,
sugerindo que as duas variáveis não são
independentes. Neste caso, a associação resulta das
meninas dizerem mais vezes “sim” (31,8%) do que os
rapazes (22,7%). Independência entre duas variáveis
nominais. No entanto, vimos pela análise do odds-
ratio que esta tendência não é significativa, pelo que
não podemos garantir que a associação seja
realmente fiável. Seria preciso recolher mais dados
• Uma análise fiável da questão da para termos certeza de que existe efetivamente uma
independência associação entre o sexo do estudante e o seu
A análise descritiva da forma como duas interesse em seguir Psicologia.
variáveis nominais se distribuem em
conjunto (recorrendo à distribuição
condicionada) ajuda a esclarecer a questão da independência. Mas é importante
perceber se as diferenças encontradas apontam para uma situação real de associação
ou, se pelo contrário, refletem apenas desvios negligenciáveis face à situação de
independência. Para isso, para além desta análise descritiva, é necessária uma
abordagem indutiva, através de um teste de hipóteses (teste do quiquadrado), que
possibilite avaliar o grau em que as diferenças observadas podem ser explicadas pelo
acaso.

51
Estatística I
2º semestre, 1º ano

Estatística Descritiva Bivariada II: duas variáveis escalares

• Tipos de dados bivariados


1) Ambas as variáveis são nominais (N x N).
2) Ambas as variáveis são de escala (S x S).
3) Uma das variáveis é nominal e a outra de escala (N x S).

• Caso 2: duas variáveis de escala


A extensão do vocabulário dos estudantes universitários afeta o seu desempenho
académico?
O estudo envolveu n = 60 participantes do 2º ano de uma universidade pública.
Operacionalização dos conceitos:
Variável X: nível de vocabulário recetivo avaliado através de uma prova (cotação entre
0 e 40)
Variável : desempenho académico (avaliada pela classificação média das cadeiras
realizadas no 1º ano).
Existirá relação entre estas duas variáveis?

• Dados recolhidos (n = 60)

• Técnicas descritivas
Como resumir a informação distribucional presente na amostra?
a) Tabelas
b) Gráficos
c) Estatísticas descritivas
• Tabulação de dados bivariados
Como as duas variáveis têm uma gama alargada de valores, é necessário agrupar os
dados em classes.
Recorre-se aos procedimentos de agrupamento já estudados no caso univariado.
A regra de Sturges recomenda que, para uma amostra 60 observações, se usem 6
classes (2 6 = 64 > n).

52
Estatística I
2º semestre, 1º ano

Tabelas de contingência para dados agrupados

Distribuição conjunta (frequências absolutas)


A partir desta tabela podem-se calcular as distribuições de frequências relativas
(conjuntas e condicionadas).

Distribuição do Desempenho Académico condicionada ao nível de Vocabulário

Resumindo…
A tabulação de dados bivariados para variáveis escalares (sobretudo quando é
necessário agrupar as variáveis em classes) é uma prática pouco frequente.

• Representação gráfica de dados bivariados

Histograma bivariado
(estereograma): generalização do
histograma para dados bivariados.

53
Estatística I
2º semestre, 1º ano

Polígono de frequências bivariado


(frequency surface plot)
Diagrama de dispersão
(scatter plot) O primeiro
gráfico de dispersão para
dados bivariados foi criado por
Galton (1885), para
representar a relação entre a
altura dos filhos e a altura dos
progenitores.

Diagrama de dispersão
(scatter plot)

Cada ponto corresponde a uma


observação da amostra; ao conjunto
chama-se “nuvem de pontos”. Pode
haver pontos sobrepostos. Neste
gráfico pode ser inserida informação
adicional sobre cada observação.
Nota: Não se deve usar com dados
agrupados.

Pelo facto da nuvem de pontos


ter uma forma grosseiramente
linear, com inclinação positiva,
podemos suspeitar que existe um
relação entre as duas variáveis.

A inexistência de observações nos


quadrantes em que VOCABULÁRIO e
DESEMPENHO têm sentido contrário (por
exemplo, VOCABULÁRIO baixo e
DESEMEPNHO alto) apoia a ideia de que a
relação entre as duas variáveis é positiva
(valores elevados de uma variável
associam-se a valores elevados da outra
variável).

54
Estatística I
2º semestre, 1º ano

A relação entre as duas variáveis


pode ser representada por uma linha
que atravessa a nuvem de pontos
(reta de regressão, desenhada com
recurso do SPSS). A inclinação da reta
reflete a natureza da associação
entre as duas variáveis (positiva).
Nota: a reta de regressão será
explorada em Estatística II

Resumindo…
Na representação gráfica de dados bivariados (quando estes são de natureza escalar)
recorre-se sobretudo ao gráfico de dispersão, eventualmente com indicação de uma
linha de tendência (reta de regressão).

• Estatísticas descritivas
A associação entre duas variáveis numéricas é designada “correlação” e é
preferencialmente expressa pelo coeficiente de correlação. Existem diversos
coeficientes de correlação:
a) Coeficiente de correlação linear de Pearson
b) Coeficiente de correlação ordinal de Spearman
c) Coeficiente de correlação ordinal de Kendall.
O coeficiente de correlação linear de Pearson ( r ) expressa a intensidade e o sentido
da relação linear que existe entre duas variáveis numéricas.

Os seus valores variam entre - 1 e + 1.

• Coeficiente de correlação
No presente caso, o valor do coeficiente de correlação de Pearson é:

Como interpretar o coeficiente de correlação?

55
Estatística I
2º semestre, 1º ano

r XY = + 0,49

O sinal do A magnitude do
coeficiente indica o coeficiente indica a
sentido da relação intensidade da relação
entre as duas linear entre as duas
variáveis. variáveis.

Como interpretar a magnitude do coeficiente de correlação?

a) se o coeficiente tiver valor 0 (r = 0), não existe relação linear entre as duas variáveis
b) quanto mais próximo de 1 for o valor absoluto do coeficiente, mais intensa é a relação
linear entre as duas variáveis.

Classificação possível dos níveis da correlação (Franzblau, 1958):

a) Se | r | < 0,20, a correlação é negligenciável.


b) Se 0,20 < | r | < 0,40, a correlação é fraca.
c) Se 0,40 < | r | < 0,60, a correlação é moderada.
d) Se 0,60 < | r | < 0,80, a correlação é forte.
e) Se | r | > 0,80, a correlação é muito forte.

• Exemplos de valores do coeficiente de correlação


a) Correlação entre o número de faltas dadas por alunos do secundário e o seu
desempenho escolar no final do período: r = -0,43
b) Correlação entre o número de iogurtes consumido por semana por adultos e o
número de km percorridos no carro: r = +0.02
c) Correlação entre o peso de um recém-nascido e o seu comprimento: r = +0.68

• Correlação e percentagem de variância explicada


A magnitude do coeficiente de correlação de Pearson pode ser interpretada em
termos da fração da variação de uma variável que é explicada pela variação da outra
variável.
Assim, o quadrado de r indica em que a percentagem da variância de uma variável
que é explicada pela variância da outra.

Que significa este valor? Que significa dizer que o Vocabulário explica 24% da variância
do Desempenho?

• Uma interpretação do coeficiente de correlação


O valor obtido indica que apenas 24% da variância de uma variável (por exemplo, a
variância da nota escolar) é explicada pela variância da outra variável. Significa

56
Estatística I
2º semestre, 1º ano

também que 76% da variância da nota escolar se deverá a outros factores que não o
nível de vocabulário do sujeito.
Este valor dá-nos uma ideia palpável da força da associação entre as duas variáveis.
Estas ideias serão melhor desenvolvidas ao estudar os métodos de regressão linear
(especialmente útil para explorar os 76% de variância que ficam por explicar).

• Relação linear entre duas variáveis


O coeficiente de correlação de Pearson mede a intensidade da relação linear existente
entre duas variáveis quantitativas.
Mas o que é uma relação linear?

• Relação linear vs. Relação não linear entre duas variáveis

Aumentos iguais em X (de 1 em 1) correspondem a aumentos iguais em Y (de 8 em 8).

Aumentos iguais em X (de 1 em 1) não são acompanhados por aumentos regulares em


Y.

• Coeficiente de correlação de Spearman


O coeficiente de correlação de Spearman ( rs ) expressa a intensidade e o sentido da
relação monótona que existe entre duas variáveis numéricas. Os seus valores variam
entre - 1 e + 1.
Para que o coeficiente de correlação de Spearman tome valor 1 não é necessário que a
relação seja linear: basta que as duas sequências de dados evoluam no mesmo sentido
(relação monótona).

• Coeficiente de correlação

57
Estatística I
2º semestre, 1º ano

• Como se calcula o coeficiente de correlação de Spearman?


O coeficiente de correlação de
Spearman é calculado não a
partir dos dados originais mas
sim das suas ordens (ranks);
por isso, é também conhecido
como coeficiente de correlação
ordinal.

• Coeficientes de correlação
a) O coeficiente de Pearson avalia a intensidade e sentido da relação linear entre
duas variáveis; pode ser aplicado a dados não lineares, mas neste caso o seu
valor não irá refletir corretamente a intensidade da relação que existe entre as
variáveis.
b) O coeficiente de Spearman avalia a intensidade e sentido da relação
monótona entre duas variáveis; pode ser aplicado a dados lineares e não
lineares; no entanto, não leva em conta a natureza escalar das variáveis em
estudo (assume que as variáveis estão medidas numa escala ordinal).
c) Quando a relação entre as variáveis não é monótona, nenhum destes
coeficientes irá refletir corretamente a intensidade da relação.

• Scatter plot e relação linear

58
Estatística I
2º semestre, 1º ano

• Scatter plot e relação mónotona

• Cálculo do coeficiente de correlação no SPSS

59

Você também pode gostar