1.1 Estatistica Descritiva - TImane

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 17

Ficha teorica I Curso: Engenharia Termotécnica

Disciplina: Estatística e Probabilidade Data: 2020

1 Estatística discritiva
1.1 Introdução
A Estatística é uma ferramenta matemática que nos informa sobre o quanto os nossos erros das nossas obser-
vações apresentam sobre a realidade pesquisada. A estatística baseia-se na medição do erro que existe entre
a estimativa de quanto uma amostra representa adequadamente a população da qual foi extraída. Assim
o conhecimento de teoria de conjuntos, análise combinatória e cálculo são indispensáveis para compreender
como o erro se comporta e a magnitude do mesmo. É o erro (erro amostral) que define a qualidade da
observação e do delineamento experimental. A faceta dessa ferramenta mais palpável é a Estatística Descri-
tiva. A descrição dos dados colectados é comummente apresentado em gráficos ou relatórios e serve tanto
a prospecção de uma ou mais variáveis para posterior aplicação ou não de testes estatísticos bem como a
apresentação de resultados de delineamentos experimentais.

Estatística é a ciência que se preocupa com a colecta, a organização, descrição (apresentação), análise e
interpretação de dados experimentais e tem como objectivo fundamental o estudo de uma população. Este
estudo pode ser feito de duas maneiras:

• Investigando todos os elementos da população ou

• Por amostragem, ou seja, seleccionando alguns elementos da população.

A estatística divide-se em dois ramos que são:

1. Estatística Descritiva: é aquela que se preocupa com a colecta, organização, classificação, apresen-
tação, interpretação e análise de dados referentes ao fenómeno através de gráficos e tabelas além de
calcular medidas que permita descrever o fenómeno.

2. Estatística Indutiva (Amostral ou Inferêncial): é a aquela que partindo de uma amostra, estabe-
lece hipóteses, tira conclusões sobre a população de origem e que formula previsões fundamentando-se
na teoria das probabilidades. A estatística indutiva cuida da análise e interpretação dos dados.

Definições básicas de estatística


Fenómeno estatístico é qualquer evento que se pode analisar aplicando técnicas estatísticas. Os fenómenos
estatísticos podem ser colectivos ou de massa por exemplo a evolução das exportações de uma empresa ou
pais; individuais por exemplo a realização de um casamento; típicos ou regulares como festas de carnaval;
atípicos ou irregulares como calamidades, etc.

População ou Universo é o conjunto de todos os elementos que apresentam pelo menos, uma caracte-
rística comum objecto de estudo. Podemos ter:

1. População Finita: apresenta um número limitado de elementos. É possível enumerar todos os ele-
mentos componentes.

1
2. População Infinita: apresenta um número ilimitado de elementos. Não é possível enumerar todos
os elementos componentes. Entretanto, tal definição existe apenas no campo teórico, uma vez que, na
prática, nunca encontraremos populações com infinitos elementos, mas sim, populações com grande
número de componentes; e nessas circunstâncias, tais populações são tratadas como se fossem infinitas.

Amostra é uma parte das unidades estatísticas seleccionadas da população para o estudo, muitas vezes
quando não é possível ou é difícil estudar toda a população. A partir das conclusões tiradas da amostra, faz-
se um juízo ou inferência destas para as características da população. As características obtidas das amos-
tras são chamadas estatísticas (medidas descritivas), enquanto as medidas populacionais são denominadas
de parâmetros populacionais.
Unidade estatística é cada elemento que constitui a população observada, é precisamente sobre este ele-
mento ou unidade que recai a observação estatística.
Variável estatística é o conjunto de resultados possíveis ou variações de um determinado atributo ou fe-
nómeno.

Uma variável estatística é qualitativa quando se classifica em diversas modalidades ou categorias ,po-
dendo ser :

1. Escalas nominais - são aquelas que separam os atributos em categorias diferentes não forçando uma
ordenação em termos de hierarquia. Na utilização destas escalas, é preciso que se obedeçam três
condições:

• A divisão deve ser coerente de acordo com um único critério;


• A divisão deve ser completa;
• As categorias que participam na divisão devem ser mutuamente exclusivas.

2. Escalas Ordinais – baseiam - se numa classificação hierárquica. Através desta escala os atributos são
colocados em determinada ordem conforme um critério escolhido.

3. Escalas de intervalo – as escalas nominais separam os objectos em categorias distintas, as ordinais


dispõem tais categorias numa certa ordem conforme um critério escolhido, as escalas de intervalo, para
além de distinguirem categorias diferentes e ordenação, colocam as categorias a distâncias iguais. Uma
propriedade importante nesta escala é a possibilidade de ser submetida as quatro operações aritméticas.

4. Escalas de razão – são um caso especial das escalas ordinais, as quais são também nominais hierárquicas.
Assim, a escala de razão é também uma escala de intervalo dotada de zero absoluto.

e é quantitativa quando tem uma modalidade com diferentes intensidades. Por outro lado, uma variável
estatística pode ser discreta ou contínua.Podendo ser:

1. Uma variável é discreta ou descontínua - quando seus valores são expressos através de números
inteiros não negativos e resulta normalmente a partir de contagens. Exemplo: número de estudantes
presentes às aulas de Matemática básia no ano de 2019.

2. Uma variável é contínua - quando resulta normalmente de uma medição ou quando a variável pode
tomar qualquer valor dentro do conjunto dos números reais. Ou ainda dado um universo no intervalo
[a; b] ; com a < b , existe um valor x tal que: x > a e x < b , isto é a < x < b .
Por exemplo quando medimos a temperatura de corpo com um termómetro, o mercúrio ao dilatar-se
passará por todas as temperaturas intermediárias até chegar a temperatura actual do corpo.

Exposição ou apresentação dos dados


Há duas formas de apresentação que não se excluem mutuamente: Tabular e Gráfica .

Apresentação Tabular É uma apresentação numérica dos dados. Consiste em dispor os dados em
linhas e colunas distribuídos de modo ordenado. As tabelas têm a vantagem de conseguir expor, sistemati-
camente em um só local, os resultados sobre determinado assunto, de modo a se obter um visão global mais

2
rápida daquilo que se pretende analisar.

Apresentação Gráfica Constitui uma apresentação geométrica dos dados. Permite ao analista obter
uma visão tão rápida, fácil e clara do fenómeno e sua variação.Os gráficos podem se classificar em Diagramas,
Estereogramas, Pictogramas, Cartogramas, etc.

1. Diagramas: São gráficos geométricos dispostos em duas dimensões. São os mais usados na represen-
tação de séries estatísticas. Eles podem ser de barras horizontais, barras verticais, barras compostas,
colunas superpostas, linhas, sectores circulares, etc.

2. Estereogramas: São gráficos geométricos dispostos em três dimensões, pois, representam o volume.
São usados nas representações gráficas das tabelas de dupla entrada. Em alguns casos este tipo de
gráfico fica difícil de ser interpretado dada a pequena precisão que oferece.

3. Pictogramas: São construídos a partir de figuras representativas da intensidade do fenómeno. Este


tipo de gráfico tem a vantagem de despertar a atenção do público leigo, pois, sua forma é atraente
e sugestiva. Os símbolos devem ser auto-explicativos. A desvantagem dos pictogramas é que apenas
mostram uma visão geral do fenómeno e não os detalhes minuciosos.

4. Cartogramas: São ilustrações relativas a cartas geográficas (mapas). O objectivo desse tipo de gráficos
é o de apresentar os dados estatísticos directamente relacionados com áreas geográficas ou políticas.

Classificação dos gráficos quanto ao objectivo

1. Gráficos de informação - O objectivo é proporcionar uma visualização rápida e clara da intensidade


das categorias ou dos valores relativos ao fenómeno. São gráficos tipicamente expositivos, devendo ser
o mais completo possível, dispensando comentários explicativos.

2. Gráficos de análise- Estes gráficos fornecem informações importantes na fase de análise dos dados,
sendo também informativos. Os gráficos de análise, geralmente, vêm acompanhados de uma tabela e
um texto onde se destaca os pontos principais revelados pelo gráfico ou pela tabela.

Principais tipos de gráficos

Gráfios em curvas ou em linhas - São usados para representar séries temporais, principalmente quando
a série cobrir um grande número de períodos de tempo. Considere a tabela seguinte

Anos Parturientes
1984 816
1985 904
1986 1.203
1987 1.147
1988 1.239
1989 1.565
1990 1.620
1991 1.833
1992 1.910
1993 1.890
1994 1.903

3
Gráficos de barras - é a representação de uma série estatística através de rectângulos, dispostos em
colunas. Este tipo de gráfico representa praticamente qualquer série estatística.
As regras para a construção são as mesmas do gráfico em curvas. As bases das colunas são iguais e as alturas
são proporcionais aos respectivos dados.

Anos Número de crianças


1991 117.579
1992 148.550
1993 175.384
1994 220.272
1995 265.626

Gráfico em sectores é a representação gráfica de uma série estatística em um círculo de raio qualquer,
por meio de sectores com ângulos centrais proporcionais às ocorrências. É utilizado quando se pretende
comparar cada valor da série com o total. O total da série corresponde a 2π(total de graus de um arco de
circunferência). O gráfico em sectores representam valores absolutos ou porcentagens complementares. As

4
séries geográficas, específicas e as categorias em nível nominal são mais representadas em gráficos de sectores,
desde que não apresentem muitas parcelas (no máximo sete).

Produtos Quantidade(t)
Chá 400.00
Açucar 200.000
Milho 100.000
Feijão 20.000
Total 720.000

Outra maneira de representar graficamente

1.2 Distribuição de frequências


Para que uma informação recolhida seja divulgada é necessário que esta seja organizada de modo a ser
percebida pelos leitores ou outros investigadores.
De uma geral uma distribuição de frequência é um tipo de tabela que condensa uma colecção de dados
conforme as repetições de seus valores .

1.2.1 Distribuição de frequência para dados não agrupados


É a série estatística que condensa um conjunto de dados conforme as frequências ou repetições de seus va-
lores. Os dados encontram-se dispostos em classes ou categorias junto com as frequências correspondentes.
Os elementos época, local e fenómeno são fixos. O fenómeno apresenta-se através de gradações, ou seja, os

5
dados estão agrupados de acordo com a intensidade ou variação quantitativa gradual do fenómeno.

Representação dos dados( Amostrais e populacional )

• Dados brutos: são aqueles que não foram numericamente organizados, ou seja, estão na forma com
que foram colectados.

Tabela - Número de filhos de um grupo de 50 casais

2 3 0 2 1 1 1 3 2 5
6 1 1 4 0 1 5 6 0 2
1 4 1 3 1 7 6 2 0 1
3 1 3 5 7 1 3 1 1 0
3 0 4 1 2 2 1 2 3 2

• Dados em Rol: é a organização dos dados brutos em ordem de grandeza crescente ou decrescente.

Tabela - Número de filhos de um grupo de 50 casais

0 0 0 0 0 0 1 1 1 1
1 1 1 1 1 1 1 1 1 1
1 1 2 2 2 2 2 2 2 2
2 3 3 3 3 3 3 3 3 4
4 4 5 5 5 6 6 6 7 7

• Distribuição de frequências: é a disposição dos valores com as respectivas frequências. O número


de observações ou repetições de um valor ou de uma modalidade, em um levantamento qualquer, é
chamado frequência desse valor ou dessa modalidade. Uma tabela de frequências é uma tabela onde se
procura fazer corresponder os valores observados da variável em estudo e as respectivas frequências.

1. Amplitude Total ou Range (At ) – é a diferença entre o maior e o menor valor da série estatística
ou a diferença positiva entre os extremos do Rol estatístico.

At = xmax − xmin

2. As frequências absolutas, relativas e acumuladas


(a) Frequência absoluta (fi ) – é o número de repetições de um valor individual ou o número
de valores pertencentes a uma classe da variável em estudo.
(b) Frequência relativa (fr ) – a proporção de observações de um valor individual ou de valores
pertencentes a uma classe em relaão ao número total de observações.

fi fi fi fi
fr = =P ∨ fr = × 100% = P × 100%
n fi n fi

(c) Frequência absoluta acumulada (Fi ) – é a soma de todas as frequências absolutas desde
a primeira classe até a classe de ordem i ou desde a última classe até a classe de ordem i.
(d) Frequência relativa acumulada (Fr ) – pode ser calculada a partir da definição da frequên-
cia acumulada ou da definição de frequência relativa.

Exemplo 1: Num grupo de 40 alunos que foram reprovados em alguma disciplina do semestre anterior,
perguntados sobre que disciplinas tinham sido reprovados, as suas respostas foram as seguintes.

6
Elabore a tabela de distribuição de frequências e calcule as frequências relativas, relativas percentuais
e acomuladas.

Resolução: Como temos uma variável qualitativa com diferentes categorias, os nomes das disciplinas
constituem os nomes dos nossos valores individuais e as frequências absolutas serão a quantidade de
repetição.
Disciplinas fi fr fr( %) Fi Fr Fr( %)
Matemática 13 0.325 32.5 13 0.325 32.5
Português 7 0.175 17.5 20 0.500 50
.
Álgebra 10 0.250 25 30 0.750 75
Estatística 10 0.250 25 40 1.000 100
Total 40 1.000 100 - - -

1.2.2 Distribuição de frequência para dados agrupados


Consideremos os seguintes dados que representam as alturas de 50 indivíduos medidos até aos centímetros.
162 188 173 168 170 183 186 177 187 174
164 174 159 177 173 163 180 196 171 184
170 190 1181 166 181 182 176 169 172 162
175 192 178 177 200 191 188 168 165 193
175 160 180 187 176 170 156 174 179 167
Da forma como estão apresentadas as alturas e atendendo que o número de observações é muito elevado,
vamos fazer uma tabela de distribuição de frequências com classes. A escolha do número de classes é variável
consoante a conveniência e o número de casos observados.
Antes de apresentar a tabela de distribuição de frequências consideremos os elementos principais associados
a uma tabela de distribuição de frequência com intervalos de classes.

Classe: são os intervalos de variação da variável e é simbolizada por i e o número total de classes sim-
bolizado por k.

Limite de classe: são os extremos de cada classe. O menor número é o limite inferior de classe e o
maior número é limite superior de classe.

Amplitude do intervalo de classe: é obtida fazendo a diferença entre o limite superior e o inferior da
classe. Para uma classe definida o intervalo é calculado pela fórmula: i = xmax(i) − xmin(i)

Ponto médio de classe: é o ponto que divide o intervalo de classe em duas partes iguais. Este ponto
representa a classe para efeitos de cálculo, denotando - se por: xi
xmax(i) + xmin(i)
xi =
2

7
Para a elaboração de uma tabela de distribuição de frequências com dados agrupados e necessário no mínimo
seguir algumas regras. Os procedimentos mais comuns têm os seguintes passos.

1. Passo : Organizar os dados brutos num rol.

2. Passo : Calcular a amplitude total.

3. Passo : Determinar ou escolher o número de classes k. Normalmente não existe um método exacto
ou número fixo de classes a escolher. Existem apenas vários métodos ou procedimentos que são usados
segundo a conveniência.
Método 1. Escolher arbitrariamente k entre 5 a 20 segundo a opção do investigador e a extensão dos
dados.
Método 2. Calcular pela fórmula de Sturges. k = 1 + 3.3 log n , onde n è o número das observações.
Deve-se salientar que o número de√ classes deve ser arredondado ao número inteiro mais próximo.
Método 3. Usar a fórmula k = n

At
4. Passo :Determinar o intervalo de classe i = . O valor de i não é necessariamente inteiro, ele
k
pode ser arredondado assegurando que todas observações fiquem até ao limite superior da última classe

5. Passo : Determinar os limites inferiores e superiores de classe.

Exemplo 2. A partir dos dados correspondentes as alturas de 50 indivíduos construir a tabela de distribui-
ção de frequências absolutas e determinar os pontos médios de cada classe.

Resolução: Usando os passos anteriores temos:

1. Do Rol obtido: xmax = 200, xmin = 156

2. Amplitude total At = xmax − xmin = 200 − 156 = 44

3. Pelo método 2. k = 1 + 3.3 log n = 1 + 3.3 log 50 = 6.6 ≈ 7


At 44
4. Amplitude do intervalo de classe: i= = = 6.28571 ≈ 6.3
k 7
Tabela da Distribuição de frequências das alturas de 50 indivíduos

i Classes (x, cm) xi fi fr fr( %) Fi Fr Fr( %)


1 [ 156.0 - 162.3] 159.15 5 0.10 10 5 0.10 10
2 [ 162.3 - 168.6] 165.45 7 0.14 14 12 0.24 24
3 [ 168.6 - 174.9] 171.75 9 0.18 18 21 0.42 42
4 [ 174.9 - 181.2] 178.05 15 0.30 30 36 0.72 72 .
5 [ 181.2 - 187.5] 184.35 6 0.12 12 42 0.84 84
6 [ 187.5 - 193.8] 190.65 6 0.12 12 48 0.96 96
7 [ 193.8 - 200.1 ] 196.95 2 0.04 4 50 1.00 100
Total - 50 1.00 100 - - -

Representação gráfica de uma distribuição de frequências


Para representar uma informação resumida numa tabela de distribuição de frequências de dados não agrupa-
dos (variável discreta), basta apresentar um diagrama de barras, o polígono de frequências para as frequências
absolutas ou relativas e uma ogiva para as frequências acumuladas.

Histograma: é um diagrama de áreas, formado por um conjunto de rectângulos justapostos, de tal modo
que seus pontos médios coincidam com os pontos médios dos intervalos de classe. A área de um histograma
é proporcional à soma das frequências simples ou absolutas.

8
Polígono de frequência: é um gráfico em linha, sendo as frequências marcadas sobre perpendiculares
ao eixo horizontal, levantadas pelos pontos médios dos intervalos de classe. De notar que a altura de cada
barra ou linha é proporcional a frequência da classe.

Enquanto o polígono de frequência nos dá a imagem real do fenómeno estudado, a curva de frequên-
cia nos dá a imagem da tendência da distribuição. O polimento de um polígono de frequência nos mostra o
que seria tal polígono com um número maior de dados em amostras mais amplas.

1.3 Medidas de posição


São as estatísticas que representam uma série de dados orientando-nos quanto à posição da distribuição em
relação ao eixo horizontal do gráfico da curva de frequência.
Estas medidas dividem-se em: Separatrizes e Promédias
As separatrizes englobam a mediana, os quartis , os decis e os percentis.
As medidas de posições mais importantes são as medidas de tendência central ou promédias.
As medidas de tendência central mais utilizadas são: média aritmética, moda e mediana. Outros promédios
menos usados são as médias: geométrica, harmónica, quadrática, cúbica e biquadrática.

Separatrizes

Mediana (Med )
A mediana de um conjunto de valores, dispostos segundo uma ordem ( crescente ou decrescente), é o valor
situado de tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos.

1. Para dados não agrupados em intervalos de classes temos duas fórmulas para o cálculo da
mediana que são:

(a) Quando o número de observações é impar a Mediana é o elemento que se encontra na posição
central. Isto é, colocando os dados em rol teremos

Med = X n+1
2

Exemplo: Determine a mediana dos valores: 5, 2, 6, 13, 9, 15, 10.

9
Resolução: Primeiro vamos colocar os dados em Rol crescente 2, 5, 6, 9, 10, 13, 15

Med = X 7+1 = X4 = 9.


2

(b) Quando o número de observações é par a Mediana será a semisoma dos dois elementos centrais,
por não existir um elemento central, isto è,

X n2 + X n2 +1
Med =
2

Exemplo: Determine a mediana dos valores: 1, 3, 0, 0, 2, 4, 1, 3, 5, 6.

Resolução: Primeiro vamos colocar os dados em Rol crescente 0, 0, 1, 1, 2, 3, 3, 4, 5, 6

X 10 + X 10 +1 X5 + X6 2+3
2 2
Med = = = = 2, 5
2 2 2

2. Para dados agrupados em classes temos a seguinte fórmula


n
2 − Fi−1
Med = li + × hi
fi

Onde: li é o limite inferior da classe mediana


Fi−1 é a frequência acumulada “abaixo"da classe imediatamente inferior à classe mediana
fi frequência simples absoluta da classe mediana
hi amplitude da classe mediana

Exemplo: Determine a mediana

i Classes (x, cm) xi fi fr fr( %) Fi Fr Fr( %)


1 [ 156.0 - 162.3] 159.15 5 0.10 10 5 0.10 10
2 [ 162.3 - 168.6] 165.45 7 0.14 14 12 0.24 24
3 [ 168.6 - 174.9] 171.75 9 0.18 18 21 0.42 42
4 [ 174.9 - 181.2] 178.05 15 0.30 30 36 0.72 72
5 [ 181.2 - 187.5] 184.35 6 0.12 12 42 0.84 84
6 [ 187.5 - 193.8] 190.65 6 0.12 12 48 0.96 96
7 [ 193.8 - 200.1 ] 196.95 2 0.04 4 50 1.00 100
Total - 50 1.00 100 - - -

n 50
Resolução: A mediana encontra-se na quarta classe porque = 25 logo a classe mediana é
2 2
[174.9 − 181.2] onde temos li = 174.9, Fi−1 = F3 = 21, fi = 15, hi = 6.3 , logo teremos:

n
2 − Fi−1 25 − 21
Med = li + × hi = 174.9 + × 6.3 = 176.58.
fi 15

NB: Emprego da Mediana

• Quando desejamos obter o ponto que divide a distribuição em duas partes iguais.
• Quando há valores extremos que afectam de maneira acentuada a média aritmética.
• Quando a variável em estudo é salário

10
Quartis
Denominamos quartis os valores de uma série que a dividem em quatro partes iguais. Precisamos portanto
de 3 quartis ( Q1 , Q2 e Q3 ) para dividir a série em quatro partes iguais.
Obs: O Q2 sempre será igual a mediana da série.

1. Quartis em dados não agrupados


O método mais prático é utilizar o princípio do cálculo da mediana para os 3 quartis.

(a) Para dados ímpares temos:


Exemplo 1 Calcule os quartis da série: 5, 2, 6, 13, 9, 15, 10.

Resolução: Primeiro vamos colocar os dados em Rol crescente 2, 5, 6, 9, 10, 13, 15 .O valor que
divide a série acima em duas partes iguais é igual a 9, logo a Med = 9 = Q2 .
Temos agora 2, 5, 6 e 10, 13, 15 como sendo os dois grupos de valores iguais proporcionados
pela mediana ( quartil 2). Para o cálculo do quartil 1 e 3 basta calcular as medianas das partes
iguais provenientes da verdadeira Mediana da série (quartil 2).

Logo em 2, 5, 6 a mediana é Q1 = 5 e em 10, 13, 15 a mediana é Q3 = 13.

(b) Para dados pares teremos:


Exemplo 2 Calcule os quartis da série: 1, 1, 2, 3, 5, 5, 6, 7, 9, 9, 10, 13.

5+6
Resolução: A série já está ordenada, então calcularemos o Q2 = Med = = 5, 5
2
Temos agora 1, 1, 2, 3, 5, 5 e 6, 7, 9, 9, 10, 13 como sendo os dois grupos de valores iguais pro-
porcionados pela mediana ( quartil 2). Para o cálculo do quartil 1 e 3 basta calcular as medianas
das partes iguais provenientes da verdadeira Mediana da série (quartil 2).

2+3
Logo em 1, 1, 2, 3, 5, 5 a mediana é Q1 = = 2, 5 e em 6, 7, 9, 9, 10, 13 a mediana é
2
9+9
Q3 = = 9.
2

2. Quartis para dados agrupados em classes


k∗n
4 − Fi−1
Para dados agrupados em classes temos a seguinte fórmula: Qk = li + × hi , onde k = 1, 2, 3 .
fi

Exemplo: Determine os Quartis


i Classes (x, cm) xi fi fr fr( %) Fi Fr Fr( %)
1 [ 156.0 - 162.3] 159.15 5 0.10 10 5 0.10 10
2 [ 162.3 - 168.6] 165.45 7 0.14 14 12 0.24 24
3 [ 168.6 - 174.9] 171.75 9 0.18 18 21 0.42 42
4 [ 174.9 - 181.2] 178.05 15 0.30 30 36 0.72 72
5 [ 181.2 - 187.5] 184.35 6 0.12 12 42 0.84 84
6 [ 187.5 - 193.8] 190.65 6 0.12 12 48 0.96 96
7 [ 193.8 - 200.1 ] 196.95 2 0.04 4 50 1.00 100
Total - 50 1.00 100 - - -

Resolução:
1×50 2×50
4 − 12 4 − 21
Q1 = 168.6 + × 6.3 = 168.95, Q2 = 174.9 + × 6.3 = 176.58
9 15
3×50
4 − 36
Q3 = 181.2 + × 6.3 = 182.775.
6

11
Decis
Os decis são os valores de uma série que a dividem em dez partes iguais. Indicamos os decis : D1 , D2 , ..., D9 .
Deste modo precisamos de 9 decis para dividirmos uma série em 10 partes iguais.
De especial interesse é o quinto decil, que divide o conjunto em duas partes iguais. Assim sendo, o quinto
decil é igual ao segundo quartil, que por sua vez é igual à mediana.
k∗n
− Fi−1
Para dados agrupados em classes usa-se a fórmula: Dk = li + 10 × hi , onde k = 1, 2, 3, ..., 10 .
fi
Exemplo: Determine os Decis

i Classes (x, cm) xi fi fr fr( %) Fi Fr Fr( %)


1 [ 156.0 - 162.3] 159.15 5 0.10 10 5 0.10 10
2 [ 162.3 - 168.6] 165.45 7 0.14 14 12 0.24 24
3 [ 168.6 - 174.9] 171.75 9 0.18 18 21 0.42 42
4 [ 174.9 - 181.2] 178.05 15 0.30 30 36 0.72 72
5 [ 181.2 - 187.5] 184.35 6 0.12 12 42 0.84 84
6 [ 187.5 - 193.8] 190.65 6 0.12 12 48 0.96 96
7 [ 193.8 - 200.1 ] 196.95 2 0.04 4 50 1.00 100
Total - 50 1.00 100 - - -

Resolução:
1×50 2×50
10 −0 10 −5
D1 = 156.0 + × 6.3 = 162.3; D2 = 162.3 + × 6.3 = 166.8...
5 7
5×50 10×50
10 − 21 10 − 48
D5 = 174.9 + × 6.3 = 176.58...; D1 0 = 193.8 + × 6.3 = 200.1.
15 2

Percentil ou Centil
Denominamos percentis ou centis como sendo os noventa e nove valores que separam uma série em 100 partes
iguais. Indicamos: P1 , P2 , ..., P99 . É evidente que P50 = Med ; P25 = Q1 e P75 = Q3 .
Para dados agrupados em classes temos a seguinte fórmula:
k∗n
100 − Fi−1
Pk = li + × hi , onde k = 1, 2, 3, ..., 100
fi
.
Exemplo: Determine os Decis

i Classes (x, cm) xi fi fr fr( %) Fi Fr Fr( %)


1 [ 156.0 - 162.3] 159.15 5 0.10 10 5 0.10 10
2 [ 162.3 - 168.6] 165.45 7 0.14 14 12 0.24 24
3 [ 168.6 - 174.9] 171.75 9 0.18 18 21 0.42 42
4 [ 174.9 - 181.2] 178.05 15 0.30 30 36 0.72 72
5 [ 181.2 - 187.5] 184.35 6 0.12 12 42 0.84 84
6 [ 187.5 - 193.8] 190.65 6 0.12 12 48 0.96 96
7 [ 193.8 - 200.1 ] 196.95 2 0.04 4 50 1.00 100
Total - 50 1.00 100 - - -

Resolução:
25×50 50×50
100 − 12 100 − 21
P25 = 168.6 + × 6.3 = 168.95; P50 = 174.9 + × 6.3 = 176.58...
9 15
75×50
100 − 36
P75 = 181.2 + × 6.3 = 182.775.
6
Promédias

12
Moda (Mod )
É o valor que ocorre com maior frequência em uma série de valores.
Desse modo, o salário modal dos empregados de uma fábrica é o salário mais comum, isto é, o salário recebido
pelo maior número de empregdos dessa fábrica.

1. A Moda quando os dados não estão agrupados

(a) A moda é facilmente reconhecida: basta, de acordo com definição, procurar o valor que mais se
repete.
Exemplo: Na série 7, 8, 9, 10, 10, 10, 11, 12 .
Resolução: a moda é igual a 10 .
(b) Há séries nas quais não exista valor modal, isto é, nas quais nenhum valor apareça mais vezes que
outros.
Exemplo: Na série 3, 5, 8, 10, 12 . não apresenta moda. A série é amodal.
(c) Em outros casos, pode haver dois ou mais valores de concentração. Dizemos, então, que a série
tem dois ou mais valores modais.
Exemplo: 2, 3, 4, 4, 4, 5, 6, 7, 7, 7, 8, 9 apresenta duas modas: 4 e 7. A série é bimodal.

2. A Moda quando os dados estão agrupados

(a) Sem intervalos de classe


Uma vez agrupados os dados, é possível determinar imediatamente a moda: basta fixar o valor
da variável de maior frequência.
Exemplo: Qual o número de filhos mais comum num grupo de 50 casais abaixo:

N o de filhos N o de casais
0 6
1 16
2 9
3 8
4 3
5 3
6 3
7 2

Resolução: 1 (um) filho é número modal, pois é o de maior frequência simples.


(b) Com intervalos de classe
A classe que apresenta a maior frequência é denominada classe modal. Pela definição, podemos
afirmar que a moda, neste caso, é o valor dominante que está compreendido entre os limites da
classe modal. O método mais simples para o cálculo da moda consiste em tomar o ponto médio
da classe modal. Damos a esse valor a denominação de moda bruta.
0 li + Li
Mod =
2
O Método mais elaborado pela fórmula de CZUBER:
fi − fi−1 M1
Mod = li + × hi ou Mod = li + × hi onde:
2 × fi − (fi−1 + fi+1 ) M1 + M2
li é o limite inferior da classe modal
fi é a frequência simples absoluta da classe modal
fi−1 é a frequência simples absoluta da classe anterior (inferior) à modal
fi+1 é a frequência simples absoluta da classe posterior (superior) à modal
hi é a amplitude da classe modal
M1 = fi − fi−1 ; M2 = fi − fi+1

13
Exemplo: Determine a moda

i Classes (x, cm) xi fi fr fr( %) Fi Fr Fr( %)


1 [ 156.0 - 162.3] 159.15 5 0.10 10 5 0.10 10
2 [ 162.3 - 168.6] 165.45 7 0.14 14 12 0.24 24
3 [ 168.6 - 174.9] 171.75 9 0.18 18 21 0.42 42
4 [ 174.9 - 181.2] 178.05 15 0.30 30 36 0.72 72
5 [ 181.2 - 187.5] 184.35 6 0.12 12 42 0.84 84
6 [ 187.5 - 193.8] 190.65 6 0.12 12 48 0.96 96
7 [ 193.8 - 200.1 ] 196.95 2 0.04 4 50 1.00 100
Total - 50 1.00 100 - - -

Resolução:
fi − fi−1 15 − 9
Mod = li + × hi = 174, 9 + × 6, 3 = 177, 42.
2 × fi − (fi−1 + fi+1 ) 2 × 15 − (9 + 6)
0 li + Li 174, 9 + 181, 2
Mod = = = 178.05 que é a Moda bruta .
2 2
A moda é utilizada quando desejamos obter uma medida rápida e aproximada de posição ou
quando a medida de posição deva ser o valor mais típico da distribuição.

Média aritmética ( µ, x)
A média aritmética é a soma de todos os valores observados da variável dividida pelo número total de
observações.
Sob uma visão geométrica a média de uma distribuição é o centro de gravidade, representa o ponto de
equilíbrio de um conjunto de dados. É a medida de tendência central mais utilizada para representar a
massa de dados.
Seja (x1 , ..., xn ) um conjunto de dados. A média é dada por:
PN Pn
i=1 xi xi
µ= ; x = i=1
N n
para dados populacionais e amostrais, respectivamente.

Caso os dados estejam apresentados segundo uma distribuição de frequência, tem-se:


Pk Pk
i=1 xi ∗ fi xi ∗ fi
µ= ; x = i=1
N n
.

Observe que no caso de dados agrupados a média é obtida a partir de uma ponderação, onde os pesos
são as frequências simples absolutas de cada classe e xi é o ponto médio da classe i.
Citam-se a seguir, algumas propriedades da média aritmética:
1. A média é um valor calculado facilmente e depende de todas as observações;

2. É única em um conjunto de dados e nem sempre tem existência real, ou seja, nem sempre é igual a um
determinado valor observado;

3. A média é afectada por valores extremos observados;

4. Por depender de todos os valores observados, qualquer modificação nos dados fará com que a média
fique alterada. Isto quer dizer que somando-se, subtraindo-se, multiplicando-se ou dividindo-se uma
constante a cada valor observado, a média ficará acrescida, diminuída, multiplicada ou dividida desse
valor;

14
5. A somaX
da diferença de cada valor observado em relação à média é zero, ou seja, a soma dos desvios é
zero. (xi − x) = 0 .

A propriedade 5, é de extrema importância para a definição de variância, uma medida de dispersão a


ser definida posteriormente.

1.4 Medidas de disperção


De com Toledo (1985), fenômenos que envolvem análises estatísticas caracterizam-se por suas semelhanças e
variabilidades. As medidas de dispersão auxiliam as medidas de tendência central a descrever o conjunto de
dados adequadamente. Indicam se os dados estão, ou não, próximos uns dos outros .
Desta forma, não há sentido calcular a média de um conjunto onde não há variação dos seus elementos.
Existe ausência de dispersão e a medida de dispersão é igual a zero . Por outro lado, aumentando-se a
dispersão, o valor da medida aumenta e se a variação for muito grande, a média não será uma medida de
tendência central representativa.

As quatro medidas de dispersão que serão definidas a seguir são: amplitude total, amplitude interquar-
tílica, desvio padrão e variância. Com exceção à primeira, todas têm como ponto de referência a média.

Amplitude Total (At )


A amplitude total de um conjunto de dados é a diferença entre o maior e o menor valor observado. A medida
de dispersão não levar em consideração os valores intermediários perdendo a informação de como os dados
estão distribuídos e/ou concentrados. At = xmax − xmin .

Amplitude Interquartílica (Dq )


A amplitude interquartílica é a diferença entre o terceiro e o primeiro quartil. Esta medida é mais estável
que a amplitude total por não considerar os valores mais extremos. Esta medida abrange 50% dos dados e
é útil para detectar valores discrepantes. Dq = Q3 − Q1 .

Desvio -médio (Dm )


A diferença entre cada valor observado e a média é denominado desvio e é dado por (xi − µ) se o conjunto
de dados é populacional, ou por (xi − x) se os dados são amostrais.

Ao somar todos os desvios, ou seja, ao somar todas as diferenças de cada valor observado em relação a
média, o resultado é igual a zero (propriedade 5 da média). Isto significa que esta medida não mede a varia-
bilidade dos dados. Para resolver este problema, pode-se desconsiderar o sinal da diferença, considerando-as
em módulo e a média destas diferenças em módulo é denominada desvio médio:
PN Pn
i=1 |xi − µ| i=1 |xi −x |
Dm = ; Dm =
N n

para dados populacionais ou amostrais, respectivamente. Caso os dados estejam apresentados segundo uma
distribuição de frequência, tem-se:
PN Pn
i=1 (|xi− µ| ∗ fi ) i=1 (|xi − x| ∗ fi )
Dm = ; Dm =
N n

15
Variância e desvio padrão

Enquanto não há nada conceitualmente errado em se considerar o desvio médio, segundo Pagano (2004),
esta medida não tem certas propriedades importantes e não é muito utilizada. O mais comum é considerar
o quadrado dos desvios em relação à média e então calcular a média. Obtém-se, assim a variância que é
definida por:
PN 2 Pn
2 i=1 (|xi − µ|) 2 (|xi − x|)2
σ = ; s = i=1
N n−1

se os dados são populacionais ou amostrais, respectivamente. Caso os dados estejam apresentados segundo
uma distribuição de frequência, tem-se:

PN h i Pn h i
i=1 (|xi − µ|)2 ∗ fi i=1 (|xi − x|)2 ∗ fi
σ2 = ; s2 =
N n−1

Entretanto, ao calcular a variância observa-se que o resultado será dado em unidades quadráticas, o que
dificulta a sua interpretação. O problema é resolvido extraindo-se a raiz quadrada da variância, definindo-se,
assim, o desvio padrão:

s s
PN 2 Pn
i=1 (|xi − µ|) − x|)2
i=1 (|xi
σ= ; s=
N n−1

se os dados são populacionais ou amostrais e, se estiverem em distribuição de frequências:

v v
uP h i uP h i
u N (|x − µ|)2 ∗ f u n (|x − x|)2 ∗ f
t i=1 i i t i=1 i i
σ= ; s=
N n−1

É importante destacar que se duas populações apresentam a mesma média, mas os desvios padrão não
são iguais, isto não significa que as populações têm o mesmo comportamento.

1.5 Medidas de Assimetria

A medida de assimetria é um indicador da forma da distribuição dos dados. Ao construir uma distribuição de
frequências e/ou um histograma, está-se buscando, também, identificar visualmente, a forma da distribuição
dos dados que é ou não confirmada pelo coeficiente de assimetria de Pearson (CAP) definido como:
µ − Mod x − Mod
CAP = ; CAP = para dados populacionais e amostrais, respectivamente.
σ s
Uma distribuição é classificada como:

• Simétrica se x = Med = Mod ou CAP = 0 .

• Assimétrica negativa se x ≤ Med ≤ Mod ou CAP < 0 .O lado mais longo do polígono de
frequência (cauda da distribuição) está à esquerda do centro.

• Assimétrica positiva se Mod ≤ Med ≤ x ou CAP > 0 .. O lado mais longo do polígono de
frequência está à direita do centro.

16
1.6 Medidas de Curtose
A medida de curtose é o grau de achatamento da distribuição, é um indicador da forma desta distribuição.
É definido como:
P75 − P25 Q3 − Q1
CP C = =
2 × (P90 − P10 ) 2 × (D9 − D1 )

A curtose ou achatamento é mais uma medida com a finalidade de complementar a caracterização da


dispersão em uma distribuição. Esta medida quantifica a concentração ou dispersão dos valores de um con-
junto de dados em relação às medidas de tendência central em uma distribuição de frequências.
Uma distribuição é classificada quanto ao grau de achatamento como:

Leptocúrtica: quando a distribuição apresenta uma curva de frequência bastante fechada, com os dados
fortemente concentrados em torno de seu centro, CP C < 0.263 .

Mesocúrtica: quando os dados estão razoavelmente concentrados em torno de seu centro, CP C = 0.263
.

Platicúrtica: quando a distribuição apresenta uma curva de frequência mais aberta, com os dados fra-
camente concentrados em torno de seu centro, CP C > 0.263 .

17

Você também pode gostar