1.1 Estatistica Descritiva - TImane
1.1 Estatistica Descritiva - TImane
1.1 Estatistica Descritiva - TImane
1 Estatística discritiva
1.1 Introdução
A Estatística é uma ferramenta matemática que nos informa sobre o quanto os nossos erros das nossas obser-
vações apresentam sobre a realidade pesquisada. A estatística baseia-se na medição do erro que existe entre
a estimativa de quanto uma amostra representa adequadamente a população da qual foi extraída. Assim
o conhecimento de teoria de conjuntos, análise combinatória e cálculo são indispensáveis para compreender
como o erro se comporta e a magnitude do mesmo. É o erro (erro amostral) que define a qualidade da
observação e do delineamento experimental. A faceta dessa ferramenta mais palpável é a Estatística Descri-
tiva. A descrição dos dados colectados é comummente apresentado em gráficos ou relatórios e serve tanto
a prospecção de uma ou mais variáveis para posterior aplicação ou não de testes estatísticos bem como a
apresentação de resultados de delineamentos experimentais.
Estatística é a ciência que se preocupa com a colecta, a organização, descrição (apresentação), análise e
interpretação de dados experimentais e tem como objectivo fundamental o estudo de uma população. Este
estudo pode ser feito de duas maneiras:
1. Estatística Descritiva: é aquela que se preocupa com a colecta, organização, classificação, apresen-
tação, interpretação e análise de dados referentes ao fenómeno através de gráficos e tabelas além de
calcular medidas que permita descrever o fenómeno.
2. Estatística Indutiva (Amostral ou Inferêncial): é a aquela que partindo de uma amostra, estabe-
lece hipóteses, tira conclusões sobre a população de origem e que formula previsões fundamentando-se
na teoria das probabilidades. A estatística indutiva cuida da análise e interpretação dos dados.
População ou Universo é o conjunto de todos os elementos que apresentam pelo menos, uma caracte-
rística comum objecto de estudo. Podemos ter:
1. População Finita: apresenta um número limitado de elementos. É possível enumerar todos os ele-
mentos componentes.
1
2. População Infinita: apresenta um número ilimitado de elementos. Não é possível enumerar todos
os elementos componentes. Entretanto, tal definição existe apenas no campo teórico, uma vez que, na
prática, nunca encontraremos populações com infinitos elementos, mas sim, populações com grande
número de componentes; e nessas circunstâncias, tais populações são tratadas como se fossem infinitas.
Amostra é uma parte das unidades estatísticas seleccionadas da população para o estudo, muitas vezes
quando não é possível ou é difícil estudar toda a população. A partir das conclusões tiradas da amostra, faz-
se um juízo ou inferência destas para as características da população. As características obtidas das amos-
tras são chamadas estatísticas (medidas descritivas), enquanto as medidas populacionais são denominadas
de parâmetros populacionais.
Unidade estatística é cada elemento que constitui a população observada, é precisamente sobre este ele-
mento ou unidade que recai a observação estatística.
Variável estatística é o conjunto de resultados possíveis ou variações de um determinado atributo ou fe-
nómeno.
Uma variável estatística é qualitativa quando se classifica em diversas modalidades ou categorias ,po-
dendo ser :
1. Escalas nominais - são aquelas que separam os atributos em categorias diferentes não forçando uma
ordenação em termos de hierarquia. Na utilização destas escalas, é preciso que se obedeçam três
condições:
2. Escalas Ordinais – baseiam - se numa classificação hierárquica. Através desta escala os atributos são
colocados em determinada ordem conforme um critério escolhido.
4. Escalas de razão – são um caso especial das escalas ordinais, as quais são também nominais hierárquicas.
Assim, a escala de razão é também uma escala de intervalo dotada de zero absoluto.
e é quantitativa quando tem uma modalidade com diferentes intensidades. Por outro lado, uma variável
estatística pode ser discreta ou contínua.Podendo ser:
1. Uma variável é discreta ou descontínua - quando seus valores são expressos através de números
inteiros não negativos e resulta normalmente a partir de contagens. Exemplo: número de estudantes
presentes às aulas de Matemática básia no ano de 2019.
2. Uma variável é contínua - quando resulta normalmente de uma medição ou quando a variável pode
tomar qualquer valor dentro do conjunto dos números reais. Ou ainda dado um universo no intervalo
[a; b] ; com a < b , existe um valor x tal que: x > a e x < b , isto é a < x < b .
Por exemplo quando medimos a temperatura de corpo com um termómetro, o mercúrio ao dilatar-se
passará por todas as temperaturas intermediárias até chegar a temperatura actual do corpo.
Apresentação Tabular É uma apresentação numérica dos dados. Consiste em dispor os dados em
linhas e colunas distribuídos de modo ordenado. As tabelas têm a vantagem de conseguir expor, sistemati-
camente em um só local, os resultados sobre determinado assunto, de modo a se obter um visão global mais
2
rápida daquilo que se pretende analisar.
Apresentação Gráfica Constitui uma apresentação geométrica dos dados. Permite ao analista obter
uma visão tão rápida, fácil e clara do fenómeno e sua variação.Os gráficos podem se classificar em Diagramas,
Estereogramas, Pictogramas, Cartogramas, etc.
1. Diagramas: São gráficos geométricos dispostos em duas dimensões. São os mais usados na represen-
tação de séries estatísticas. Eles podem ser de barras horizontais, barras verticais, barras compostas,
colunas superpostas, linhas, sectores circulares, etc.
2. Estereogramas: São gráficos geométricos dispostos em três dimensões, pois, representam o volume.
São usados nas representações gráficas das tabelas de dupla entrada. Em alguns casos este tipo de
gráfico fica difícil de ser interpretado dada a pequena precisão que oferece.
4. Cartogramas: São ilustrações relativas a cartas geográficas (mapas). O objectivo desse tipo de gráficos
é o de apresentar os dados estatísticos directamente relacionados com áreas geográficas ou políticas.
2. Gráficos de análise- Estes gráficos fornecem informações importantes na fase de análise dos dados,
sendo também informativos. Os gráficos de análise, geralmente, vêm acompanhados de uma tabela e
um texto onde se destaca os pontos principais revelados pelo gráfico ou pela tabela.
Gráfios em curvas ou em linhas - São usados para representar séries temporais, principalmente quando
a série cobrir um grande número de períodos de tempo. Considere a tabela seguinte
Anos Parturientes
1984 816
1985 904
1986 1.203
1987 1.147
1988 1.239
1989 1.565
1990 1.620
1991 1.833
1992 1.910
1993 1.890
1994 1.903
3
Gráficos de barras - é a representação de uma série estatística através de rectângulos, dispostos em
colunas. Este tipo de gráfico representa praticamente qualquer série estatística.
As regras para a construção são as mesmas do gráfico em curvas. As bases das colunas são iguais e as alturas
são proporcionais aos respectivos dados.
Gráfico em sectores é a representação gráfica de uma série estatística em um círculo de raio qualquer,
por meio de sectores com ângulos centrais proporcionais às ocorrências. É utilizado quando se pretende
comparar cada valor da série com o total. O total da série corresponde a 2π(total de graus de um arco de
circunferência). O gráfico em sectores representam valores absolutos ou porcentagens complementares. As
4
séries geográficas, específicas e as categorias em nível nominal são mais representadas em gráficos de sectores,
desde que não apresentem muitas parcelas (no máximo sete).
Produtos Quantidade(t)
Chá 400.00
Açucar 200.000
Milho 100.000
Feijão 20.000
Total 720.000
5
dados estão agrupados de acordo com a intensidade ou variação quantitativa gradual do fenómeno.
• Dados brutos: são aqueles que não foram numericamente organizados, ou seja, estão na forma com
que foram colectados.
2 3 0 2 1 1 1 3 2 5
6 1 1 4 0 1 5 6 0 2
1 4 1 3 1 7 6 2 0 1
3 1 3 5 7 1 3 1 1 0
3 0 4 1 2 2 1 2 3 2
• Dados em Rol: é a organização dos dados brutos em ordem de grandeza crescente ou decrescente.
0 0 0 0 0 0 1 1 1 1
1 1 1 1 1 1 1 1 1 1
1 1 2 2 2 2 2 2 2 2
2 3 3 3 3 3 3 3 3 4
4 4 5 5 5 6 6 6 7 7
1. Amplitude Total ou Range (At ) – é a diferença entre o maior e o menor valor da série estatística
ou a diferença positiva entre os extremos do Rol estatístico.
At = xmax − xmin
fi fi fi fi
fr = =P ∨ fr = × 100% = P × 100%
n fi n fi
(c) Frequência absoluta acumulada (Fi ) – é a soma de todas as frequências absolutas desde
a primeira classe até a classe de ordem i ou desde a última classe até a classe de ordem i.
(d) Frequência relativa acumulada (Fr ) – pode ser calculada a partir da definição da frequên-
cia acumulada ou da definição de frequência relativa.
Exemplo 1: Num grupo de 40 alunos que foram reprovados em alguma disciplina do semestre anterior,
perguntados sobre que disciplinas tinham sido reprovados, as suas respostas foram as seguintes.
6
Elabore a tabela de distribuição de frequências e calcule as frequências relativas, relativas percentuais
e acomuladas.
Resolução: Como temos uma variável qualitativa com diferentes categorias, os nomes das disciplinas
constituem os nomes dos nossos valores individuais e as frequências absolutas serão a quantidade de
repetição.
Disciplinas fi fr fr( %) Fi Fr Fr( %)
Matemática 13 0.325 32.5 13 0.325 32.5
Português 7 0.175 17.5 20 0.500 50
.
Álgebra 10 0.250 25 30 0.750 75
Estatística 10 0.250 25 40 1.000 100
Total 40 1.000 100 - - -
Classe: são os intervalos de variação da variável e é simbolizada por i e o número total de classes sim-
bolizado por k.
Limite de classe: são os extremos de cada classe. O menor número é o limite inferior de classe e o
maior número é limite superior de classe.
Amplitude do intervalo de classe: é obtida fazendo a diferença entre o limite superior e o inferior da
classe. Para uma classe definida o intervalo é calculado pela fórmula: i = xmax(i) − xmin(i)
Ponto médio de classe: é o ponto que divide o intervalo de classe em duas partes iguais. Este ponto
representa a classe para efeitos de cálculo, denotando - se por: xi
xmax(i) + xmin(i)
xi =
2
7
Para a elaboração de uma tabela de distribuição de frequências com dados agrupados e necessário no mínimo
seguir algumas regras. Os procedimentos mais comuns têm os seguintes passos.
3. Passo : Determinar ou escolher o número de classes k. Normalmente não existe um método exacto
ou número fixo de classes a escolher. Existem apenas vários métodos ou procedimentos que são usados
segundo a conveniência.
Método 1. Escolher arbitrariamente k entre 5 a 20 segundo a opção do investigador e a extensão dos
dados.
Método 2. Calcular pela fórmula de Sturges. k = 1 + 3.3 log n , onde n è o número das observações.
Deve-se salientar que o número de√ classes deve ser arredondado ao número inteiro mais próximo.
Método 3. Usar a fórmula k = n
At
4. Passo :Determinar o intervalo de classe i = . O valor de i não é necessariamente inteiro, ele
k
pode ser arredondado assegurando que todas observações fiquem até ao limite superior da última classe
Exemplo 2. A partir dos dados correspondentes as alturas de 50 indivíduos construir a tabela de distribui-
ção de frequências absolutas e determinar os pontos médios de cada classe.
Histograma: é um diagrama de áreas, formado por um conjunto de rectângulos justapostos, de tal modo
que seus pontos médios coincidam com os pontos médios dos intervalos de classe. A área de um histograma
é proporcional à soma das frequências simples ou absolutas.
8
Polígono de frequência: é um gráfico em linha, sendo as frequências marcadas sobre perpendiculares
ao eixo horizontal, levantadas pelos pontos médios dos intervalos de classe. De notar que a altura de cada
barra ou linha é proporcional a frequência da classe.
Enquanto o polígono de frequência nos dá a imagem real do fenómeno estudado, a curva de frequên-
cia nos dá a imagem da tendência da distribuição. O polimento de um polígono de frequência nos mostra o
que seria tal polígono com um número maior de dados em amostras mais amplas.
Separatrizes
Mediana (Med )
A mediana de um conjunto de valores, dispostos segundo uma ordem ( crescente ou decrescente), é o valor
situado de tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos.
1. Para dados não agrupados em intervalos de classes temos duas fórmulas para o cálculo da
mediana que são:
(a) Quando o número de observações é impar a Mediana é o elemento que se encontra na posição
central. Isto é, colocando os dados em rol teremos
Med = X n+1
2
9
Resolução: Primeiro vamos colocar os dados em Rol crescente 2, 5, 6, 9, 10, 13, 15
(b) Quando o número de observações é par a Mediana será a semisoma dos dois elementos centrais,
por não existir um elemento central, isto è,
X n2 + X n2 +1
Med =
2
X 10 + X 10 +1 X5 + X6 2+3
2 2
Med = = = = 2, 5
2 2 2
n 50
Resolução: A mediana encontra-se na quarta classe porque = 25 logo a classe mediana é
2 2
[174.9 − 181.2] onde temos li = 174.9, Fi−1 = F3 = 21, fi = 15, hi = 6.3 , logo teremos:
n
2 − Fi−1 25 − 21
Med = li + × hi = 174.9 + × 6.3 = 176.58.
fi 15
• Quando desejamos obter o ponto que divide a distribuição em duas partes iguais.
• Quando há valores extremos que afectam de maneira acentuada a média aritmética.
• Quando a variável em estudo é salário
10
Quartis
Denominamos quartis os valores de uma série que a dividem em quatro partes iguais. Precisamos portanto
de 3 quartis ( Q1 , Q2 e Q3 ) para dividir a série em quatro partes iguais.
Obs: O Q2 sempre será igual a mediana da série.
Resolução: Primeiro vamos colocar os dados em Rol crescente 2, 5, 6, 9, 10, 13, 15 .O valor que
divide a série acima em duas partes iguais é igual a 9, logo a Med = 9 = Q2 .
Temos agora 2, 5, 6 e 10, 13, 15 como sendo os dois grupos de valores iguais proporcionados
pela mediana ( quartil 2). Para o cálculo do quartil 1 e 3 basta calcular as medianas das partes
iguais provenientes da verdadeira Mediana da série (quartil 2).
5+6
Resolução: A série já está ordenada, então calcularemos o Q2 = Med = = 5, 5
2
Temos agora 1, 1, 2, 3, 5, 5 e 6, 7, 9, 9, 10, 13 como sendo os dois grupos de valores iguais pro-
porcionados pela mediana ( quartil 2). Para o cálculo do quartil 1 e 3 basta calcular as medianas
das partes iguais provenientes da verdadeira Mediana da série (quartil 2).
2+3
Logo em 1, 1, 2, 3, 5, 5 a mediana é Q1 = = 2, 5 e em 6, 7, 9, 9, 10, 13 a mediana é
2
9+9
Q3 = = 9.
2
Resolução:
1×50 2×50
4 − 12 4 − 21
Q1 = 168.6 + × 6.3 = 168.95, Q2 = 174.9 + × 6.3 = 176.58
9 15
3×50
4 − 36
Q3 = 181.2 + × 6.3 = 182.775.
6
11
Decis
Os decis são os valores de uma série que a dividem em dez partes iguais. Indicamos os decis : D1 , D2 , ..., D9 .
Deste modo precisamos de 9 decis para dividirmos uma série em 10 partes iguais.
De especial interesse é o quinto decil, que divide o conjunto em duas partes iguais. Assim sendo, o quinto
decil é igual ao segundo quartil, que por sua vez é igual à mediana.
k∗n
− Fi−1
Para dados agrupados em classes usa-se a fórmula: Dk = li + 10 × hi , onde k = 1, 2, 3, ..., 10 .
fi
Exemplo: Determine os Decis
Resolução:
1×50 2×50
10 −0 10 −5
D1 = 156.0 + × 6.3 = 162.3; D2 = 162.3 + × 6.3 = 166.8...
5 7
5×50 10×50
10 − 21 10 − 48
D5 = 174.9 + × 6.3 = 176.58...; D1 0 = 193.8 + × 6.3 = 200.1.
15 2
Percentil ou Centil
Denominamos percentis ou centis como sendo os noventa e nove valores que separam uma série em 100 partes
iguais. Indicamos: P1 , P2 , ..., P99 . É evidente que P50 = Med ; P25 = Q1 e P75 = Q3 .
Para dados agrupados em classes temos a seguinte fórmula:
k∗n
100 − Fi−1
Pk = li + × hi , onde k = 1, 2, 3, ..., 100
fi
.
Exemplo: Determine os Decis
Resolução:
25×50 50×50
100 − 12 100 − 21
P25 = 168.6 + × 6.3 = 168.95; P50 = 174.9 + × 6.3 = 176.58...
9 15
75×50
100 − 36
P75 = 181.2 + × 6.3 = 182.775.
6
Promédias
12
Moda (Mod )
É o valor que ocorre com maior frequência em uma série de valores.
Desse modo, o salário modal dos empregados de uma fábrica é o salário mais comum, isto é, o salário recebido
pelo maior número de empregdos dessa fábrica.
(a) A moda é facilmente reconhecida: basta, de acordo com definição, procurar o valor que mais se
repete.
Exemplo: Na série 7, 8, 9, 10, 10, 10, 11, 12 .
Resolução: a moda é igual a 10 .
(b) Há séries nas quais não exista valor modal, isto é, nas quais nenhum valor apareça mais vezes que
outros.
Exemplo: Na série 3, 5, 8, 10, 12 . não apresenta moda. A série é amodal.
(c) Em outros casos, pode haver dois ou mais valores de concentração. Dizemos, então, que a série
tem dois ou mais valores modais.
Exemplo: 2, 3, 4, 4, 4, 5, 6, 7, 7, 7, 8, 9 apresenta duas modas: 4 e 7. A série é bimodal.
N o de filhos N o de casais
0 6
1 16
2 9
3 8
4 3
5 3
6 3
7 2
13
Exemplo: Determine a moda
Resolução:
fi − fi−1 15 − 9
Mod = li + × hi = 174, 9 + × 6, 3 = 177, 42.
2 × fi − (fi−1 + fi+1 ) 2 × 15 − (9 + 6)
0 li + Li 174, 9 + 181, 2
Mod = = = 178.05 que é a Moda bruta .
2 2
A moda é utilizada quando desejamos obter uma medida rápida e aproximada de posição ou
quando a medida de posição deva ser o valor mais típico da distribuição.
Média aritmética ( µ, x)
A média aritmética é a soma de todos os valores observados da variável dividida pelo número total de
observações.
Sob uma visão geométrica a média de uma distribuição é o centro de gravidade, representa o ponto de
equilíbrio de um conjunto de dados. É a medida de tendência central mais utilizada para representar a
massa de dados.
Seja (x1 , ..., xn ) um conjunto de dados. A média é dada por:
PN Pn
i=1 xi xi
µ= ; x = i=1
N n
para dados populacionais e amostrais, respectivamente.
Observe que no caso de dados agrupados a média é obtida a partir de uma ponderação, onde os pesos
são as frequências simples absolutas de cada classe e xi é o ponto médio da classe i.
Citam-se a seguir, algumas propriedades da média aritmética:
1. A média é um valor calculado facilmente e depende de todas as observações;
2. É única em um conjunto de dados e nem sempre tem existência real, ou seja, nem sempre é igual a um
determinado valor observado;
4. Por depender de todos os valores observados, qualquer modificação nos dados fará com que a média
fique alterada. Isto quer dizer que somando-se, subtraindo-se, multiplicando-se ou dividindo-se uma
constante a cada valor observado, a média ficará acrescida, diminuída, multiplicada ou dividida desse
valor;
14
5. A somaX
da diferença de cada valor observado em relação à média é zero, ou seja, a soma dos desvios é
zero. (xi − x) = 0 .
As quatro medidas de dispersão que serão definidas a seguir são: amplitude total, amplitude interquar-
tílica, desvio padrão e variância. Com exceção à primeira, todas têm como ponto de referência a média.
Ao somar todos os desvios, ou seja, ao somar todas as diferenças de cada valor observado em relação a
média, o resultado é igual a zero (propriedade 5 da média). Isto significa que esta medida não mede a varia-
bilidade dos dados. Para resolver este problema, pode-se desconsiderar o sinal da diferença, considerando-as
em módulo e a média destas diferenças em módulo é denominada desvio médio:
PN Pn
i=1 |xi − µ| i=1 |xi −x |
Dm = ; Dm =
N n
para dados populacionais ou amostrais, respectivamente. Caso os dados estejam apresentados segundo uma
distribuição de frequência, tem-se:
PN Pn
i=1 (|xi− µ| ∗ fi ) i=1 (|xi − x| ∗ fi )
Dm = ; Dm =
N n
15
Variância e desvio padrão
Enquanto não há nada conceitualmente errado em se considerar o desvio médio, segundo Pagano (2004),
esta medida não tem certas propriedades importantes e não é muito utilizada. O mais comum é considerar
o quadrado dos desvios em relação à média e então calcular a média. Obtém-se, assim a variância que é
definida por:
PN 2 Pn
2 i=1 (|xi − µ|) 2 (|xi − x|)2
σ = ; s = i=1
N n−1
se os dados são populacionais ou amostrais, respectivamente. Caso os dados estejam apresentados segundo
uma distribuição de frequência, tem-se:
PN h i Pn h i
i=1 (|xi − µ|)2 ∗ fi i=1 (|xi − x|)2 ∗ fi
σ2 = ; s2 =
N n−1
Entretanto, ao calcular a variância observa-se que o resultado será dado em unidades quadráticas, o que
dificulta a sua interpretação. O problema é resolvido extraindo-se a raiz quadrada da variância, definindo-se,
assim, o desvio padrão:
s s
PN 2 Pn
i=1 (|xi − µ|) − x|)2
i=1 (|xi
σ= ; s=
N n−1
v v
uP h i uP h i
u N (|x − µ|)2 ∗ f u n (|x − x|)2 ∗ f
t i=1 i i t i=1 i i
σ= ; s=
N n−1
É importante destacar que se duas populações apresentam a mesma média, mas os desvios padrão não
são iguais, isto não significa que as populações têm o mesmo comportamento.
A medida de assimetria é um indicador da forma da distribuição dos dados. Ao construir uma distribuição de
frequências e/ou um histograma, está-se buscando, também, identificar visualmente, a forma da distribuição
dos dados que é ou não confirmada pelo coeficiente de assimetria de Pearson (CAP) definido como:
µ − Mod x − Mod
CAP = ; CAP = para dados populacionais e amostrais, respectivamente.
σ s
Uma distribuição é classificada como:
• Assimétrica negativa se x ≤ Med ≤ Mod ou CAP < 0 .O lado mais longo do polígono de
frequência (cauda da distribuição) está à esquerda do centro.
• Assimétrica positiva se Mod ≤ Med ≤ x ou CAP > 0 .. O lado mais longo do polígono de
frequência está à direita do centro.
16
1.6 Medidas de Curtose
A medida de curtose é o grau de achatamento da distribuição, é um indicador da forma desta distribuição.
É definido como:
P75 − P25 Q3 − Q1
CP C = =
2 × (P90 − P10 ) 2 × (D9 − D1 )
Leptocúrtica: quando a distribuição apresenta uma curva de frequência bastante fechada, com os dados
fortemente concentrados em torno de seu centro, CP C < 0.263 .
Mesocúrtica: quando os dados estão razoavelmente concentrados em torno de seu centro, CP C = 0.263
.
Platicúrtica: quando a distribuição apresenta uma curva de frequência mais aberta, com os dados fra-
camente concentrados em torno de seu centro, CP C > 0.263 .
17