Estatistica - Aplicada - Unidade I
Estatistica - Aplicada - Unidade I
Estatistica - Aplicada - Unidade I
Edwin F. F. Silva
Possui licenciatura em Física pela Universidade Católica de Brasília (2005); especialização em Higiene das radiações
ionizantes (Senacap, 2011); em Metodologia do Ensino e Aprendizagem em Matemática (2009); pós-graduação em
Transporte (em andamento) pela Universidade de Brasília. Atualmente, é professor da Faculdade Fortium, ministrando
aulas de cálculo e estatística nos cursos de Sistema de Informações e Administração, e da Universidade Paulista, no
curso de Engenharia. Atua em pesquisas relacionadas à poluição sonora, na área de polos geradores de viagens e
também como corretor de questões dos cursos de graduação a distância da UNIP e como tutor do curso de RH da
UNIP Interativa.
Possui licenciatura em Física pela Universidade Católica de Brasília (2006); especialização em Matemática
e Estatística pela FACITEC (2008); pós-graduação em Transporte (em andamento) pela Universidade de Brasília.
Atualmente, é professor da Universidade Paulista, ministrando aulas para os cursos de Engenharia, Gestão de RH
e Segurança Privada; da Faculdade JK, nos cursos de Administração e Radiologia. Atua também como corretor de
questões dos cursos de graduação a distância da UNIP e como tutor do curso de RH da UNIP Interativa. É pesquisador
vinculado ao grupo de pesquisa em Poluição sonora com ênfase em Ruídos aeronáuticos no curso de Física da
Universidade Católica de Brasília.
CDU 519.2
© Todos os direitos reservados. Nenhuma parte desta obra pode ser reproduzida ou transmitida por qualquer forma e/ou
quaisquer meios (eletrônico, incluindo fotocópia e gravação) ou arquivada em qualquer sistema ou banco de dados sem
permissão escrita da Universidade Paulista.
Prof. Dr. João Carlos Di Genio
Reitor
Comissão editorial:
Dra. Angélica L. Carlini (UNIP)
Dra. Divane Alves da Silva (UNIP)
Dr. Ivan Dias da Motta (CESUMAR)
Dra. Kátia Mosorov Alonso (UFMT)
Dra. Valéria de Carvalho (UNIP)
Apoio:
Profa. Cláudia Regina Baptista – EaD
Profa. Betisa Malaman – Comissão de Qualificação e Avaliação de Cursos
Projeto gráfico:
Prof. Alexandre Ponzetto
Revisão:
Andréia Gomes
Geraldo Teixeira Jr.
Sumário
Estatística Aplicada
Apresentação.......................................................................................................................................................7
Introdução............................................................................................................................................................7
Unidade I
1 HISTÓRIA DA ESTATÍSTICA...............................................................................................................................9
1.1 Introdução à estatística.........................................................................................................................9
1.2 Importância da estatística..................................................................................................................11
1.3 Elementos fundamentais da estatística....................................................................................... 12
1.3.1 População e amostra.............................................................................................................................. 12
1.4 Fases do método estatístico.............................................................................................................. 13
1.5 Dados estatísticos................................................................................................................................. 13
1.6 Formas iniciais de tratamento dos dados................................................................................... 15
1.7 Notações por índices........................................................................................................................... 16
1.7.1 Notação sigma (∑).................................................................................................................................. 16
1.8 Séries estatísticas – simples e compostas................................................................................... 19
2 Apresentação de dados – gráficos e tabelas......................................................................... 20
2.1 Elementos básicos das tabelas......................................................................................................... 26
3 MEDIDAS DE TENDÊNCIA CENTRAL: MÉDIA, MODA E MEDIANA PARA
DADOS SIMPLES................................................................................................................................................... 26
3.1 A média aritmética simples (x)........................................................................................................ 27
3.2 A média aritmética ponderada xp.................................................................................................. 29
3.3 A mediana (Md)..................................................................................................................................... 31
3.4 A moda...................................................................................................................................................... 34
3.5 Posição relativa da média, moda e mediana.............................................................................. 36
4 MEDIDAS DE DISPERSÃO PARA DADOS SIMPLES............................................................................... 36
4.1 Amplitude total...................................................................................................................................... 38
4.2 Desvio médio absoluto........................................................................................................................ 39
4.3 Variância................................................................................................................................................... 40
4.4 Desvio padrão......................................................................................................................................... 45
4.5 Coeficiente de variação...................................................................................................................... 46
Unidade II
5 DISTRIBUIÇÃO DE FREQUÊNCIAS.............................................................................................................. 52
5.1 A construção de uma distribuição de frequências para dados contínuos..................... 53
5.2 A construção de uma distribuição de frequências para dados discretos....................... 59
5.3 Representações gráficas de dados agrupados.......................................................................... 60
6 AS MEDIDAS DE POSIÇÃO E VARIABILIDADE NUMA DISTRIBUIÇÃO
DE FREQUÊNCIA.................................................................................................................................................... 69
6.1 As medidas de posição........................................................................................................................ 70
6.1.1 A média........................................................................................................................................................ 70
6.1.2 A mediana................................................................................................................................................... 71
6.1.3 A moda......................................................................................................................................................... 72
6.2 As medidas de dispersão numa distribuição de frequência................................................. 73
6.2.1 O desvio médio......................................................................................................................................... 73
6.2.2 Variância...................................................................................................................................................... 74
6.2.3 Desvio padrão............................................................................................................................................ 75
7 INTRODUÇÃO À PROBABILIDADE.............................................................................................................. 80
7.1 Teorias dos conjuntos, espaço amostral e eventos.................................................................. 81
8 PROBABILIDADE: ORIGEM, MÉTODOS E PRINCIPAIS TEOREMAS................................................. 91
8.1 Origens da probabilidade................................................................................................................... 92
8.1.1 Métodos objetivos................................................................................................................................... 92
8.1.2 Método subjetivo..................................................................................................................................... 96
8.2 Principais teoremas de probabilidade........................................................................................... 96
Apresentação
O objetivo deste material é fazer com que o aluno tenha condições de interpretar um conjunto
de observações de forma clara e objetiva, a fim de distinguir as limitações e as vantagens do uso de
amostras, assim como os métodos para sua obtenção; tenha habilidade para descrever e interpretar
dados por meio de figuras (tabelas e gráficos), estimativas pontuais e de variabilidade; calcular o intervalo
de confiança da proporção e média, assim como identificar sua aplicação; coletar e interpretar dados
de forma sistematizada e imprimir credibilidade a análises quantitativas dos fenômenos de realidade
investigada.
Equipe organizadora.
Introdução
Desde a Antiguidade, a estatística faz parte da vida das pessoas, mesmo que de forma indireta, mas o
certo é que essa ciência está presente na vida das pessoas o tempo todo. Quando abrimos um jornal, por
exemplo, lá está uma série de gráficos e tabelas que nos auxiliam no entendimento de determinado tema,
ou quando lemos uma reportagem que traz como tema a probabilidade de o mercado financeiro fechar
em alta ou em baixa, ou, ainda, virando a página desse mesmo jornal, temos a manchete divulgando os
dados do Censo 2010.
Diante desses fatos, nos perguntamos de que forma a estatística pode nos ajudar, seja no levantamento
de dados para uma empresa saber como vão suas vendas, seja para saber os riscos de investir nas ações
de uma empresa, ou, ainda, como o governo pode determinar as características dos vários aspectos,
sociais, econômicos e ambientais dos estados e até mesmo de nosso país.
São perguntas como essas que a estatística nos ajuda a responder, e ainda não podemos pensar
nessa ciência como se ela se limitasse a apenas compilar tabelas de dados e os ilustrar graficamente.
Dessa forma, é de sua importância conhecer as inúmeras variáveis associadas a ela, pois em qualquer
ramo da sociedade contemporânea estão presentes os processos estatísticos. E o estudante que não
souber trabalhar com esses conceitos estará em desvantagem no mercado de trabalho.
Para tirar o máximo proveito da interpretação de um determinado fenômeno, deve-se seguir algumas
etapas, como, por exemplo, planejar a obtenção de dados, interpretar e analisar os dados obtidos e
apresentar os resultados de maneira a facilitar a tomada de decisões razoáveis.
É fundamental que o texto produzido neste material leve o aluno a pensar em situações do seu
cotidiano e que dessa forma ele possa associar a teoria com a prática vivenciada em seu dia a dia.
Pensando nisso, ele foi dividido em duas unidades, nas quais serão abordados, na primeira unidade:
séries estatísticas, gráficos estatísticos, medidas de tendência central, medidas de dispersão, entre outros
7
temas; já na segunda unidade, serão apresentados: dados tabulares, distribuição de frequência, medidas
de posição e variabilidade numa distribuição de frequência, probabilidade, bem como alguns de seus
teoremas, entre outros temas.
8
Estatística Aplicada
Unidade I
Como a União realiza a distribuição de renda para os Estados, Municípios e o Distrito Federal? Como
saber quem deve receber mais ou menos verbas? Como saber se determinado trecho de uma via ou
rodovia é ou não perigoso?
1 HISTÓRIA DA ESTATÍSTICA
No Antigo Egito, aproximadamente 3040 a.C., Heródoto pediu que fosse feito um estudo sobre a
riqueza da população, com o objetivo de saber a quantidade de recursos econômicos e humanos para
realizar a construção das pirâmides. Na China, aproximadamente 2238 a.C., o imperador Yao pediu que
fosse feito um estudo da população, com objetivos industriais e comerciais.
A palavra “estatística” foi sugerida pelo alemão Gottifried Achemmel (1719/1772) e é associada à
palavra latina status (Estado).
Essa ciência teve acelerado desenvolvimento a partir do século XVII, com os estudos de Bernoulli,
Fermat, Laplace, Gauss e outros que estabeleceram suas características atuais.
Saiba mais
A todo instante, nos noticiários, em revistas, jornais, internet, ouvimos falar na palavra “estatística”,
o que é possível perceber o quanto é importante conhecermos a fundo essa ciência. Algumas de
9
Unidade I
suas aplicabilidades podem ser observadas nas pesquisas de opinião pública e nos dados publicados
diariamente na imprensa. Na realidade, a estatística contempla muitos outros aspectos, sendo de vital
importância na interpretação de processos em que exista variabilidade.
De acordo com Dervalmar, é possível distinguir duas concepções para a palavra “estatística”. No
plural, “estatísticas” indica qualquer coleção de dados quantitativos ou, ainda, ramo da matemática que
trata da coleta, da análise, da interpretação e da apresentação de massa de dados numéricos. Assim,
por exemplo, as estatísticas demográficas referem-se aos dados numéricos sobre o quantitativo de
nascimentos, falecimentos, matrimônios, desquites etc. As estatísticas econômicas estão relacionadas
aos dados numéricos como emprego, produção, vendas e com outras atividades ligadas aos vários
setores da vida econômica.
Estatística é um conjunto de métodos e processos quantitativos que serve para estudar e medir os
fenômenos coletivos.
Para fins didáticos, é comum os livros-textos apresentarem a estatística em duas grandes áreas,
embora não se trate de áreas isoladas: estatística descritiva e estatística inferencial.
• estatística descritiva – é aquela que tem por objetivo descrever e analisar determinada população,
utilizando métodos numéricos e gráficos, para se determinarem padrões, em um conjunto de
dados, e assim apresentar a informação em uma forma conveniente.
Exemplo 1: O gráfico a seguir apresenta a participação relativa das bandeiras de cartões de crédito,
no quarto trimestre de 2010.
Master Card
Visa 38,4%
52,2%
Outras
9,4%
Por meio do gráfico, é possível ver claramente que mais da metade das transações são feitas com
a bandeira Visa e que aproximadamente 40% são feitas com a bandeira MasterCard. Como o gráfico
descreve os tipos de bandeiras de cartões utilizadas em todas as transações do quarto trimestre de 2010,
o gráfico é um exemplo de estatística descritiva.
10
Estatística Aplicada
Sua apresentação envolve a sintetização, em um único dado, dos aumentos dos produtos de uma
cesta básica.
Quando uma empresa pretende lançar um produto, precisa conhecer as preferências dos consumidores
no mercado de interesse. Faz-se necessária uma pesquisa de mercado.
O método estatístico lida com informações, associando os dados ao problema, mostrando como e o
que coletar para obter conclusões a partir de todos os dados, de tal forma que essas conclusões possam
ser entendidas por outras pessoas. Assim, esse método auxilia os vários profissionais no planejamento e
na tomada de decisões.
Saiba mais
11
Unidade I
O governo anualmente divulga o censo sobre a dinâmica da população brasileira, apresentando seu
crescimento demográfico, suas características e como vivem os brasileiros.
As grandes empresas fazem levantamentos sobre vendas, produção, inventário, folha de pagamento
e outros dados, a fim de verificar se a empresa está crescendo, como seu crescimento está em relação a
outras empresas e como tomar decisões futuras.
Saiba mais
Para o pesquisador, o estudo de qualquer fenômeno, seja ele natural, econômico, social ou biológico,
necessita da coleta e da análise de dados estatísticos. A coleta de dados é parte inicial de qualquer
pesquisa.
População: é o conjunto de todos os itens (pessoas, coisas e objetos) que interessam ao estudo de
um fenômeno coletivo.
Parâmetro: é a denominação de uma característica numérica estabelecida para toda uma população.
12
Estatística Aplicada
Figura 2
Em uma pesquisa, quando se deseja empreender um estudo estatístico completo, existem fases do
trabalho que devem ser trabalhadas para se chegar aos resultados finais do estudo.
Observe quais são as fases principais do método estatístico – compõem a organização de um projeto,
sua execução e apresentação final.
O dado bruto significa que os dados não estão numericamente organizados e processados.
É o processamento e a organização dos dados que os transformam em informação, enfatizando
13
Unidade I
Para organizar e processar os dados estatísticos, podem-se utilizar resumos visuais e numéricos,
como gráficos, mapas, tabelas e modelos numéricos.
A mensuração ou a observação de itens como índices de preços, renda mensal per capita de um Estado
etc. dão origem aos dados estatísticos. Como esses itens originam valores que tendem a apresentar
certo grau de variabilidade quando são medidos sucessivas vezes, iremos chamá-los, então, de variáveis.
É importante identificar os quatro tipos de variáveis: variáveis contínuas, variáveis discretas, variáveis
nominais e variáveis ordinais.
• Variáveis contínuas: podem assumir qualquer valor num intervalo contínuo (dado contínuo), ou
seja, será um número real. Exemplos: altura, peso, velocidade etc.
• Variáveis discretas: em geral, originam-se da contagem de itens e só podem assumir valores
inteiros. Exemplos: número de alunos em sala de aula, número de professores que trabalham na
escola etc.
• Variáveis nominais: são aquelas que existem com o objetivo de definir categorias, e as observações,
mensurações e análises são feitas levando-se em conta essas mesmas categorias. Exemplos de
categoria seriam: separação por sexo, estado civil, esporte predileto, cor etc.
• Variáveis ordinais: quando existe o desejo de dispor os elementos observados segundo uma
ordem de preferência ou desempenho, atribuem-se valores relativos para indicar essa ordem.
Exemplo: primeiro, segundo, terceiro grau de escolaridade etc.
As variáveis discretas e contínuas são ditas variáveis quantitativas porque envolvem dados numéricos.
Já as variáveis nominais e ordinais precisam ser transformadas em valores numéricos para serem objeto
da análise estatística, e são ditas variáveis qualitativas. Por exemplo: em um departamento da empresa
JJ, que tem 36 funcionários, fez-se uma pesquisa para verificar alguns dados. Classifique as variáveis,
conforme os dados da tabela a seguir.
Tabela 1
Estado civil Grau de instrução Nº filhos Salário (X. min) Idade (anos-meses)
Ensino
Solteiro - 4,00 23 03
Fundamental
14
Estatística Aplicada
Resolução
E ainda:
Em geral, quando nos propomos a buscar ou construir informações a partir de dados, deparamo‑nos,
inicialmente, com um conjunto de dados brutos que pouco nos dizem. É preciso organizá-los
minimamente para que comecem a fazer algum sentido, viabilizando sua análise.
Tabela 2
50 96 75 87 65 45 72 10
32 54 25 69 72 30 81 20
24 45 80 90 64 95 23 90
80 35 96 47 65 70 73 63
60 20 45 89 20 90 80 70
Essa tabela é chamada de tabela primitiva ou dados brutos, pois os dados coletados estão dispostos
conforme a ordem da coleta e não na ordem de numeração.
Observando os dados anteriores, tabela primitiva, fica difícil visualizar em torno de que valor tendem
a se concentrar as notas dos estudantes, qual a maior ou qual menor nota, e ainda quantos alunos se
acham abaixo de uma dada nota.
15
Unidade I
Uma primeira forma de organização dos dados brutos é o chamado rol. Obtemos o rol quando
organizamos os dados brutos em ordem crescente ou decrescente de grandeza.
Ainda com respeito à tabela de nota dos 40 estudantes da disciplina de estatística, vejamos como fica:
Tabela 3
10 20 20 20 23 24 25 30
32 35 45 45 45 47 50 54
60 63 64 65 65 69 70 70
72 72 73 75 80 80 80 81
87 89 90 90 90 95 96 96
Agora, podemos saber, com relativa facilidade, qual a menor nota (10) e qual a maior nota (96). Para
determinar a amplitude do rol, basta realizar a diferença entre o maior e o menor número do rol, ou seja,
para o exemplo, a amplitude de variação foi de 96 – 10 = 86.
Exemplo 2: seja A = {10, 7, 3, 9, 1, 5, 10, 4, 2, 8} o conjunto das notas dos alunos, determine o rol
e a amplitude do rol:
à A = 10 – 1 = 9
Limites de classe: são os números extremos de cada classe; sendo assim, temos um limite inferior
e um superior, que denominamos de amplitude de variação.
A = Lsup. - Linf.
A notação por índices é bastante utilizada na estatística, sendo importante esclarecer seu significado.
O símbolo xi (lê-se “x índice i”) irá representar qualquer um dos n valores assumidos pela variável x, x1, x2,
x3, x4, ..., x. “n” é denominado índice e poderá assumir qualquer dos números entre 1, 2, 3, 4,..., n.
A maioria dos processos estatísticos vai exigir o cálculo da soma de um conjunto de números. A letra
maiúscula grega sigma (∑) é utilizada para representar o somatório.
16
Estatística Aplicada
∑y = 3 + 5 + 7 + 9 + 11
∑y = 35
Por outro lado, se o consumo semanal de arroz por x, durante um mês, foi 2 kg, 4 kg, 3 kg, 5 kg, o
total consumido por x no mês teria sido:
∑x = 2 + 4 + 3 + 5
A notação sigma possui algumas propriedades que precisamos desenvolver para facilitar os conteúdos
que estudaremos nesta disciplina.
n
A) ∑ x1 = ∑ xi = ∑ x , isso significa que devemos somar as n observações de x, começando com
i=1
a primeira.
Por exemplo, num conjunto de dados x = {2, 4, 6, 8, 10, 12}, em que n = 6, temos:
n 6
∑ xi = ∑ xi = 2 + 4 + 6 + 8 + 10 + 12
i=1 i=1
∑ xi = 42
Por outro lado, é possível utilizar essa notação quando se pretende analisar a soma de apenas uma
parte dos dados disponibilizados, podendo-se, portanto, abreviar a soma de um conjunto de dados.
Dessa forma, podemos ter:
3
x1 + x2 + x 3 = ∑ xi
1 4
x8 + x 9 + x10 + x11 = ∑ xi
i=8
B) Se cada valor da variável x é multiplicado ou dividido por uma constante, temos que isso será
igual ao valor da constante multiplicado ou dividido pela somatória de x.
∑ c.x = c.∑ x
17
Unidade I
Assim,
4
∑ 4 xi = 4 x1 + 4 x2 + 4 x3 + 4 x4
i=1
4
= 4( x1 + x2 + x 3 + x 4 ) = 4 ∑ xi
i=1
Por exemplo: se xi = {2, 4, 6, 8, 10, 12}, n = 6, e cada valor de x é multiplicado pela constante
c = 2, temos:
∑ cx = c∑ x
6 6
∑ cxi =c∑ xi =2(2) + 2(4) + 2(8) + 2(10) + 2(12) =
i=1 i=1
= 2(2 + 4 + 6 + 8 + 10 + 12)
6 6
∑ 2xi = 2∑ xi = 2(42) = 84
i=1 i=1
C) O somatório de uma constante c será igual ao produto da constante pelo número de vezes (n) que
ela se repete. Assim, temos:
n
∑ ci = nc
i=i
xi = ci
6 6
∑ xi = ∑ ci = nc = 7 + 7 + 7 + 7 + 7 + 7 = 6(7) = 42
i=1 i=1
D) O somatório de uma soma ou de uma diferença de duas variáveis será igual à soma ou diferença
dos somatórios individuais das duas variáveis. Assim, temos:
n n n
∑ ( xi + yi ) = ∑ xi + ∑ yi
i=1 i=1 i=1
n n n
∑ ( xi − yi ) = ∑ xi − ∑ yi
i=1 i=1 i=1
18
Estatística Aplicada
Por exemplo:
i X Y (X-Y)
1 8 5 3
2 3 2 1
∑ (x − y) = 9
3 4 0 4
4 5 4 1
∑ x − ∑ y = 20 − 11 = 9
- - - -
Σ 20 11 9
Figura 3
Por exemplo, numa dada observação, o conjunto de dados de xi = {2, 4, 6, 8, 10}, n = 5; temos, então:
5
∑ xi2 = 22 + 42 + 62 + 82 + 102 =
i=1
= 4 + 16 + 36 + 64 + 100 = 220
F) O somatório ao quadrado de um conjunto de dados será obtido tomando-se a soma dos valores
de xi e elevando-se ao quadrado. Assim, temos:
n
( ∑ xi )2 = ( x1 + x2 + x 3 + ... + xn )2
i=1
Por exemplo, se temos um mesmo conjunto xi = {2, 4, 6, 8, 10}, n = 5, tal qual no exemplo do item
E, teremos um resultado distinto. Vejamos, neste caso:
5
( ∑ xi )2 = (2 + 4 + 6 + 8 + 10)2 = (30)2 = 900
i=1
2
n n
Não confunda ∑ xi2 com ∑ xi , pois, conforme se observa no exemplo anterior, seus resultados
i
serão diferentes. i
Uma série estatística define-se como qualquer tabela na qual haja distribuição de um conjunto de
dados estatísticos destinados a uma mesma ordem de classificação: quantitativa. Ou, ainda, no sentido
19
Unidade I
mais amplo, série é uma sucessão de números referidos a qualquer variável. Caso os números expressem
dados estatísticos, a série será chamada de série estatística.
As tabelas são utilizadas para apresentar séries estatísticas. Os três caracteres presentes na tabela
que as apresenta são:
- Série temporal
Séries homógradas: - Série geográfica
- Série específica.
A representação gráfica das séries estatísticas tem por finalidade sintetizar os resultados obtidos e,
assim, chegar a conclusões sobre a evolução do fenômeno ou sobre como se relacionam os valores da
série. O gráfico mais apropriado ficará a critério do pesquisador, respeitando os elementos de clareza,
simplicidade e veracidade (NOGUEIRA, 2009).
• o título do gráfico deve ser o mais claro e completo possível, sendo necessário acrescentar subtítulos;
• a orientação geral dos gráficos deve ser da esquerda para a direita;
• as quantidades devem ser representadas por grandezas lineares;
• sempre que possível, a escala vertical há de ser escolhida de modo a aparecer a linha 0 (zero);
• só devem ser incluídas no desenho as coordenadas indispensáveis para guiar a vista na leitura, um
tracejado muito cerrado dificulta o exame do gráfico;
• a escala horizontal deve ser lida da esquerda para a direita e a vertical de baixo para cima;
20
Estatística Aplicada
Gráfico em linha
500
400
300
Série 1
200
Série 2
100
0
1 2 3 4 5 6 7
Figura 4
Gráfico em colunas
População
100
80
60
População
40
20
0
1940 1950 1960 1970
Figura 5
21
Unidade I
Gráfico em barras
População do Brasil
1970
1960
População do
1950 Brasil
1940
0 20 40 60 50 100
Figura 6
Gráfico em setores
Figura 7
É a representação gráfica de uma série estatística, em círculo, por meio de setores. É utilizado
principalmente quando se pretende comparar cada valor da série com o total.
Total __________360º
Parte___________ xº
22
Estatística Aplicada
2008
2009
2010
Figura 8
Gráfico polar
É a representação de uma série por meio de um polígono. Movimento mensal de compras de uma
agência em 1972.
Tabela 4
Jan
Dez 20 Fev
15
Nov Mar
10
5 Série 1
Out 0 Abr
Set Mai
Ago Jun
Jul
Figura 9
23
Unidade I
7,9
14,2
22,6 7,9
América do
Norte
8,4 Ásia-Pacífico
Oriente
Médio
África
6,7
Américas
Central e do Sul
Figura 10
Nota: inclui óleo de xisto, óleo de areias betuminosas – o LGN, exceto para o Brasil.
Para o Brasil, inclui LGN e não inclui óleo de xisto e óleo de areias betuminosas.
Pictograma
É a representação gráfica mais utilizada na atualidade por jornais e revistas, pois é um gráfico de
forma atraente e de fácil interpretação. Mostra o fenômeno estudado inserido com um gráfico de linha,
coluna, barra ou de setor, conforme o exemplo a seguir, em que um outdoor aponta a verba gasta com
publicidade junto com um gráfico de linha para mostrar seu desempenho anual.
24
Estatística Aplicada
Figura 11
Publicidade em alta
Institucional De utilidade
167 pública 532,1
Orçamento prevê 158,1
aumento de 20%
em gastos da 425,1
administração direta
120,2
Valor da 294,7
publicidade
Em R$ Milhões
80,1 152,6
2007 2008 2009 2010 2007 2008 2009 2010
Figura 12
Saiba mais
25
Unidade I
Uma forma de sintetizar os valores que uma ou mais variáveis podem assumir é por meio de uma
tabela.
Quadro 1
Título É o conjunto de informações que precede a tabela e contém a indicação dos fatores: o
quê? Quando? Onde?
Cabeçalho É a parte superior da tabela que especifica o conteúdo das colunas.
Corpo da tabela É o espaço que contém as informações sobre o fenômeno observado.
Fonte É a indicação da entidade responsável pelo levantamento dos dados.
Figura 13
26
Estatística Aplicada
Assim que decidimos extrair informações por meio de um levantamento amostral, temos
imediatamente dois problemas:
Portanto, temos situações profissionais em que nos bastam poucos dados ou estatísticas de dados
simples. Por outro lado, têm-se também situações em que um número maior de elementos deve ser
investigado e tratado como distribuições de frequência.
Quando estamos diante de um conjunto de dados, seja ele pequeno ou grande, em geral buscamos
medidas que possam ser usadas para indicar um valor que tende a representar melhor aquele determinado
conjunto de números. E as medidas mais usadas nesse sentido são as chamadas medidas de tendência
eventual ou central, que são a média, a mediana e a moda.
Sabe-se que esses valores serão medidos de forma distinta conforme um grande conjunto de dados
ou um pequeno conjunto de dados. Também o cálculo desses valores será afetado caso as variáveis
sejam discretas ou contínuas.
Observação
Assim, temos que, para a amostra, se calcula o valor médio utilizando-se os seguintes parâmetros:
27
Unidade I
n
∑ xi 2 + 4 + 6 + 8 + 10 + 12
i=1
x= = =7
n 6
Exemplo 1:
Uma amostra das notas das provas de matemática dos estudantes da 7ª série de uma grande escola
de São Paulo xi, em que:
xi = {87, 42, 64, 58, 90, 90, 85, 63, 47, 74, 100, 94} e n = 12, temos:
n
∑ xi 87 + 42 + 64 + 58 + 90 + 90 + 85 + 63 + 47 + 74 + 100 + 94
i=1
x= = = 74, 5
n 12
A nota média na prova de matemática dos estudantes da 7ª série dessa escola de São Paulo, por
amostragem, é 74,5.
Observação
28
Estatística Aplicada
aritmética ficará aumentada ou diminuída dessa constante c; se, por outro lado, multiplicarmos
cada elemento desse conjunto de dados por uma constante c, a nova média será também
multiplicada por essa constante c; se dividirmos cada elemento do conjunto de dados por essa
mesma constante c, a média será dividida por c.
Assim, se temos um conjunto xi = x1, x2, x2, ..., xn, a média será:
n
∑ x1 , logo:
i=1
x1 =
n
n n
∑ (c + x i ) ∑ xi nc
i=1 i=1
x2 = ⇒ x2 = + ⇒ x2 = x1 + c
n n n
• a soma algébrica dos desvios dos números de um conjunto de dados em torno da média é zero,
isso pode ser representado da seguinte forma:
∑ xi − x = 0
Por exemplo, se temos um conjunto de dados xi = (2, 4, 6, 8, 10), onde n = 5, temos que:
5
∑ xi 2 + 4 + 6 + 8 + 10
i=1
x= = =6
5 5
Se aplicarmos a fórmula acima, temos:
∑ xi − x = ∑ xi − 6 = (2 − 6) + (4 − 6) + (6 − 6) + (8 − 6) + (10 − 6)
∑ xi − x = −4 − 2 + 0 + 2 + 4
∑ xi − x = 0
Observação
Num conjunto de dados em que cada elemento ou cada observação possui a mesma importância,
o cálculo da média aritmética simples mostrará bem a população ou a amostra estudada. No
entanto, se queremos atribuir pesos distintos ou importâncias distintas aos elementos de um
29
Unidade I
conjunto de dados, a estatística a ser adotada é a média aritmética ponderada, em que a cada
valor xi deverá ser atribuído um determinado peso pi. A expressão estatística para o cálculo da
média ponderada é:
n
∑ xipi
i=1
xp = n
∑ pi
i=1
Supondo que um estudante tenha de efetuar uma série de quatro exames para obter sua média
final e passar de ano, cada exame possui um peso diferente na composição dessa média, conforme a
tabela a seguir:
Figura 14
A nota média será, então, 66,2, resultado diferente do que seria obtido se utilizássemos a média
aritmética simples.
Num conjunto de dados, em que cada elemento ou cada observação possui importância diferente,
utilizamos a média aritmética ponderada.
Média aritmética – exemplo: um aluno tirou as notas 5, 8 e 6 em três provas. A sua média aritmética
será (5 + 8 + 6)/3 = 7,25.
Média ponderada – exemplo: um aluno fez um teste (peso 1) e duas provas prova (peso
2), tirando 8 no teste, 5 na primeira prova e 6 na segunda prova. A sua média (ponderada)
será [(1 x 8) + (2 x 5) + (2 x 6) ]/3 = 6. Se o teste e a prova tivessem o mesmo peso (e
não importa qual o valor do peso, importa apenas a relação entre os pesos), a média seria,
aproximadamente, 6,33.
30
Estatística Aplicada
Observação
Exemplo: em uma turma, a nota atribuída a 30 alunos, referente a um teste de estatística, foi
disposta em ordem crescente: 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 8, 8, 9, 9, 10.
Observando que algumas notas se repetem, podemos utilizar o número de observações ou frequência
de cada um deles como o peso ou fator de ponderação.
Assim:
(4x4)+(7x5)+(5x6)+(5x7)+(4x8)+(2x9)+(1x10)
x = ---------------------------------------------------------------------------------------------------- = 6,29
4+7+5+5+4+2+1
Tabela 5
xi fi xi fi
4 4 4x4 = 16
5 7 5 x 7 = 35
6 5 6 x 5 = 30 ∑x f 176
7 5 7 x 5 = 35 x = -----------i----i--- = -------------- = 6,29
n 28
8 4 8 x 4 = 32
9 2 9 x 2 = 18
10 1 10 x 1 = 10
∑ 28 176
Antes de calcular a mediana, é preciso organizar os valores num rol em ordem crescente, para então
contar até a metade dos valores e encontrar a mediana. Em geral, após organizarmos os dados em um
rol, podemos calcular a posição da mediana com a fórmula a seguir:
31
Unidade I
(n+1)
Md = --------------
2
rolxi - {1, 2, 3, 5, 5, 5, 6, 7, 7, 8, 9, 9}
(n+1) 13+1
Md = -------------- = -------------- = 7
2 2
Md = 5
A mediana é outra medida de posição definida como o número do meio, quando as medidas são
organizadas em ordem ascendente ou descendente. Em outras palavras, a mediana de um conjunto de
termos ordenados é o valor situado de tal forma no conjunto que o separa em dois subconjuntos de
mesmo número de elementos.
Observação
rolxi = {1, 2, 3, 4, 6, 7, 8, 9}
(n+1) 8+1
Posição mediana = -------------- = -------------- = 4,5
2 2
A mediana será o valor que está a meio caminho dos dois valores médios; nesse caso, entre 4 e 6.
Como fazer? Deve-se tirar a média entre os dois valores do meio para obter o valor da mediana.
32
Estatística Aplicada
Assim, temos:
4+6
Md = -------------- = 5
2
Observação
n + 1
°
2
5 + 1
°
2
3º posição
33
Unidade I
Exemplo 2
n n + 1
° e °
2 2
6 n + 1
° e °
3 2
3°ee4°4°
3°
3° = 4
4° = 7
4 + 7
Md =
2
Md = 5,5
Md 5, 5
3.4 A moda
Muitas vezes, em um conjunto de dados, existem valores que se repetem com frequência maior.
A moda é justamente esse valor ou esses valores que mais se repetem em um conjunto de dados. É
possível haver estatísticas que não possuam moda ou que possuam mais de uma moda.
No exemplo que demos anteriormente, para um conjunto de dados xi = {1, 2, 3, 4, 6, 7, 8, 9}, não
existe moda, e diz-se que o conjunto ou distribuição é amodal.
A moda é uma estatística muito mais descritiva e sua importância cresce à medida que um valor ou grupo
de valores se repete mais que outros, e nesse sentido a moda indicaria o valor típico daquele conjunto de
dados com maior ocorrência. Por exemplo, o conjunto de dados xi = {2, 2, 7, 9, 9, 9, 10, 10, 11, 12, 18} tem
moda igual a 9, porque o número 9 é aquele com maior frequência, repetindo-se três vezes.
Denominamos moda o valor ou valores de um conjunto de dados que aparecem com maior
frequência em uma série. Por exemplo: o salário modal dos professores de uma escola é o salário mais
comum, isto é, o salário recebido pelo maior número de empregados dessa escola.
Exemplo
Sabendo-se que a produção leiteira diária de uma vaca, durante uma semana, foi de 10, 14, 13, 15,
16, 18 e 12 litros, pede-se que se encontre a média, a moda e a mediana para a produção diária de leite
dessa vaca.
Média
n
∑ xi 10 + 14 + 13 + 15 + 16 + 18 + 12 98
i=1
x= = = = 14
n 7 7
Logo, x = 14 litros de leite em média por dia, o que significa uma produção de 98 litros de leite em
média por semana.
Observação
Moda
Como não possui um valor que aparece com maior frequência que os outros, não há valor de moda
para esse exemplo.
Mediana
n + 1
Md = °
2
7 + 1
Md = °
2
Md = 4°
Mediana será o 4° elemento da série, que é igual a 14 litros de leite por dia.
35
Unidade I
Observação
f1a = f1
f2a = f1a + f2
f3a = f2a + f3
f4a = f3a + f4
...........
fna = f(n-1)a + fn
x = Md = Mo Mo Md x x Md Mo
Observamos que a moda, a mediana, e a média podem ser usadas para condensar, num único número,
aquilo que é “médio” ou “típico” de um conjunto de dados. No entanto, a informação fornecida pelas
medidas de posição necessita, em geral, ser complementada pelas medidas de dispersão. Essas medidas
são usadas para indicar o quanto os dados se apresentam dispersos em torno da região central. Dessa
forma, caracterizam o grau de variação existente no conjunto de valores. As medidas de dispersão mais
utilizadas são:
• amplitude total;
36
Estatística Aplicada
• desvio padrão;
• variância;
• coeficiente de variação.
Note que, quanto maiores forem as medidas de dispersão, mais heterogêneos são os dados e, ao
contrário, quanto menores forem essas medidas, mais homogêneo é o conjunto.
Vejamos a seguir alguns exemplos que mostram a necessidade de conhecermos as medidas de dispersão.
Exemplo 1
Sabe-se que em Honolulu (Havaí) e em Houston (Texas) a temperatura média diária é quase a
mesma, em torno de 23,9 ºC. Pergunta-se: será que, por isso, podemos inferir que a temperatura seja
basicamente a mesma em ambas as localidades? Ou não será possível que, enquanto uma cidade é
melhor para natação, a outra o seja para atividades externas?
A temperatura em Honolulu varia muito pouco ao longo do ano, oscilando, em geral, entre 21,1 ºC
e 26,7 ºC. Por outro lado, a temperatura em Houston pode diferir sazonalmente (nas estações do ano),
isto é, apresentar-se baixa em janeiro (cerca de 4,4 ºC) e alta em julho e agosto (bem perto de 37,8 ºC).
Logo, podemos perceber uma oscilação significativa. Desnecessário dizer que as praias em Houston não
estão cheias de gente o ano todo.
Exemplo 2
Suponha que, numa particular cidade, tanto ladrões quanto professores secundários tenham uma
renda média mensal de R$ 900,00. Será que essa informação indica que as duas distribuições de renda
são, necessariamente, semelhantes? Muito ao contrário, poder-se-ia descobrir que elas diferem, e
muito, num outro aspecto importante, que é o fato de as rendas dos professores concentrarem-se ao
redor de R$ 900,00 (serem constantes, homogêneas), enquanto as dos ladrões espalham-se mais (são
descontínuas, heterogêneas), o que reflete, portanto, maiores oportunidades para prisões, desemprego,
pobreza e, em alguns casos, fortunas excepcionais.
Os fatos mostram que precisamos, além de uma medida de tendência central, de um índice que
sinalize o grau de dispersão dos dados em torno da média. Esse índice é uma medida indicativa do que
costumamos chamar de variabilidade ou dispersão.
Assim, quando se deseja entender, analisar e descrever de forma adequada um determinado conjunto
de dados, faz-se necessário dispor não apenas de informações relativas às medidas de posição. É preciso
37
Unidade I
que se disponha de informações relativas à variabilidade (dispersão) daqueles números que compõem o
referido conjunto de dados. Essas medidas de variabilidade ou dispersão indicam se os dados observados
estão próximos ou separados uns dos outros.
Diferente das medidas de posição, as medidas de dispersão não são autoexplicativas, sua aplicabilidade
depende da comparação de populações ou de amostras do mesmo tamanho e da mesma característica
para que se obtenha alguma informação importante a partir daquela determinada variabilidade.
As principais medidas de dispersão são: a amplitude total (ou intervalo), o desvio médio, a variância
e o desvio padrão. A média serve de referência para todas essas medidas, exceto para o intervalo (ou
amplitude total). À proporção que essas medidas se elevam, isso representa um aumento da dispersão,
o que significa que, se a medida for igual a zero, não existe dispersão.
As medidas de variabilidade, que têm a média aritmética como ponto de referência, são importantes
porque nos permitem avaliar o grau de dispersão das observações em relação a essa mesma média,
isto é, permitem-nos avaliar o quão distante os dados de um determinado grupo de observações estão
da média calculada, dando-nos uma noção mais precisa da situação de determinada população ou
amostra, além de condições de tirar conclusões e informações importantes daqueles dados disponíveis.
Exemplo 3
Um estudante de economia resolve fazer uma pesquisa sobre os salários médios dos funcionários
de determinado setor industrial em São Paulo. Nessa pesquisa, esse estudante conseguiu os seguintes
dados em termos de salários mínimos mensais:
xi = {1.0; 1.5; 2.0; 2.0; 2.0; 2.5; 3.0; 3.0; 80.0; 85.0}
Ao calcular o salário médio desse setor, ele chegou ao valor médio de 18,2 salários mínimos por mês.
Ora, mas esse dado, sem o cálculo de sua dispersão em relação à média aritmética, pouco nos diz sobre
a realidade dessa população, e acabamos por ter uma visão distorcida do padrão de vida da maior parte
dos funcionários desse setor analisado pelo estudante. As medidas de variabilidade ou dispersão nos
permitem perceber essa distorção.
Temos, como principais medidas de dispersão, intervalo, desvio médio, variância e desvio padrão.
As medidas mais comuns de variabilidade para dados quantitativos são a variância; a sua raiz
quadrada e o desvio padrão. A amplitude total, a distância interquartílica e o desvio absoluto são mais
alguns exemplos de medidas de dispersão.
O intervalo ou amplitude total de determinado conjunto de dados é obtido pela diferença entre o
maior e o menor valor nesse conjunto de números. Indica, portanto, a distância entre a maior e a menor
observação de um conjunto de dados. Assim, temos:
38
Estatística Aplicada
Por exemplo, num conjunto de dados xi = {2, 3, 3, 5, 5, 5, 8, 10, 12}, em que n = 9, a amplitude total
será:
Em alguns casos, o intervalo ou amplitude total pode ser expresso simplesmente pela indicação
do menor e do maior número do conjunto de dados. No caso do exemplo anterior, a amplitude total
poderia ser expressa simplesmente pela identificação do menor e do maior número, indicada como
sendo de (2 a 12) ou (2 – 12).
A grande vantagem da amplitude total é que ela apresenta certa facilidade de ser calculada, mesmo
quando o conjunto de dados observados é relativamente grande. No entanto, como a amplitude total
apenas leva em conta os dois extremos do conjunto de números, em alguns casos ela pode ser uma
medida enganosa quanto à indicação da dispersão de um conjunto de números, tendo, portanto, uma
utilidade limitada.
O intervalo de determinado conjunto de dados é obtido pela diferença entre o maior e o menor valor
nesse conjunto de números.
O desvio médio absoluto inaugura o estudo das medidas de variabilidade que têm a média como
ponto de referência.
O chamado desvio nada mais é que a diferença entre cada valor de determinado conjunto de
dados e a média desse mesmo conjunto de números (xi - x). O valor absoluto de um número será
ele próprio, sem o sinal que lhe é associado, e é indicado por meio de duas linhas verticais que o
enquadram.
É preciso calcular primeiro a média aritmética dos dados disponíveis, que em geral se apresentam
como dados amostrais.
O desvio médio absoluto será calculado pela média dos desvios dos valores a contar da média,
ignorando o sinal (+ ou -) do desvio, ou seja, convertendo os valores dos desvios em valores absolutos,
considerando-os todos desvios positivos. Assim, temos:
n
Dmédio = ∑ xi − x
i=1
n
39
Unidade I
Vamos, agora, tomar um exemplo de desvio médio. Num conjunto de dados amostrais xi = {2, 4, 6, 8, 10, 12},
em que n = 6, determine o desvio médio. Temos, então:
Dmédio = ∑ xi − x
n
Precisamos, primeiro, calcular a média, para então passarmos ao cálculo do desvio médio. Relembrando
a fórmula do cálculo da média aritmética, temos:
x=
∑ xi ⇒ x = 2 + 4 + 6 + 8 + 10 + 12 = 7 ⇒ x = 7
n 6
Agora, podemos calcular os desvios para cada valor do conjunto de dados. Assim, temos:
xi - x
2–7 -5 Dmédio = ∑ xi − x =
−5 + −3 + −1 + 1 + 3 + 5
4–7 -3 n 6
6–7 -1
Dmédio = 5 + 3 + 1 + 1 + 3 + 5 = 3
8–7 1 6
10 – 7 3
Dmédio = 3
12 – 7 5
Σ 0
Figura 16
O desvio é que a diferença entre cada valor de determinado conjunto de dados é a média desse
mesmo conjunto de números.
4.3 Variância
Como no cálculo do desvio médio, para o cálculo da variância, precisaremos utilizar o desvio de
cada elemento de um conjunto de dados em relação à média aritmética (xi - x). No entanto, ao invés de
40
Estatística Aplicada
trabalharmos com os valores absolutos (em módulo), agora os desvios são elevados ao quadrado antes
da soma. Para o caso de dados amostrais, ao invés de dividirmos por n, dividimos por n – 1 (que é o total
da amostra menos uma unidade).
A variância irá nos dizer o grau de dispersão de determinado grupo de dados com relação à média
aritmética desses números. Assim, a variância populacional poderá ser calculada da seguinte forma:
Por exemplo, seja determinado conjunto de dados xi = {1, 3, 5, 7, 9, 11, 13}, em que n = 7. Calcule a
variância desse conjunto de dados, supondo:
A) Para calcular a variância desse conjunto de dados, considerando que ele representa toda uma
população, devemos utilizar a seguinte fórmula:
σ 2
=
∑ ( xi − µ )2
n
Devemos passar ao cálculo da média desse conjunto de dados para, então, proceder ao cálculo da
variância. Sendo assim, temos:
µ=
∑ xi ⇒ µ =
n
1 + 3 + 5 + 7 + 9 + 11 + 13
= = 7 (média populacional)
7
µ=7
41
Unidade I
Partindo da média, podemos agora calcular os desvios e partir para o cálculo da variância populacional,
já que supomos que o conjunto de dados representava toda a população. Assim, temos:
µ xi - µ (xi - µ)2
7 7–1=6 62
σ2 =
∑ (xi − µ)2
7 7–3=4 42 N
7 7–5=2 2 2
6 + 42 + 22 + ( −2)2 + ( −4 )2 + ( −6)2
2
σ2 =
7 7–7=0 0 7
7 7–9=-2 (-2)2 2 36 + 16 + 4 + 4 + 16 + 36
σ = = 16
7
7 7 – 11 = - 4 (-4)2
σ2 = 16
7 7 – 13 = - 6 (-6)2
Σ 0 112
Figura 17
Desse modo, a variância populacional desse conjunto de dados seria igual a 16.
B) Se, por outro lado, temos o mesmo conjunto de dados e supondo que ele representa apenas dados
amostrais, devemos calcular a variância amostral de outra forma, partindo do cálculo da média
para, então, calcularmos a variância.
Como vimos no item 2, a expressão para o cálculo da média aritmética em uma amostra é a mesma
do cálculo da média para uma população, mas utilizaremos para as amostras outra notação. Vejamos:
x=
∑ xi ⇒ x = 7 (média amostral).
n
Normalmente, a média amostral aproxima-se da média populacional quanto maior o tamanho da
amostra, mas não se iguala a ela.
s2 =
∑ (xi − x)2
n −1
x xi - x (xi - x)2
7 7–1=6 62
S2
=
∑ ( xi − x )2
7 7–3=4 42 n −1
7 7–5=2 22 62 + 42 + 22 + ( −2)2 + ( −4 )2 + ( −6)2
S2 =
7 7–7=0 0 7 −1
7 7–9=-2 (-2)2 36 + 16 + 4 + 4 + 16 + 36 112
S2 = =
7 −1 6
7 7 – 11 = - 4 (-4)2
S2 = 18,666...
7 7 – 13 = - 6 (-6)2
Σ 0 112
Figura 18
42
Estatística Aplicada
Como a média aritmética, a variância possui algumas propriedades importantes que devemos colocar
em destaque e que facilitam o cálculo de alguns problemas mais complexos.
Por exemplo, um conjunto de dados xi = {2, 4, 6, 8}, em que n = 4, e a média é igual a 5. A variância
desse conjunto será dada como segue:
2
σ =
∑ ( xi − µ )2
⇒ σ2 =
(2 − 5)2 + (4 − 5)2 + (6 − 5)2 + (8 − 5)2
n 4
σ 2
=
( −3) + ( −1) + 12 + 32 9 + 1 + 1 + 9 20
2 2
= = =5
4 4 4
Se somarmos uma constante c = 4 a cada um dos elementos do conjunto de dados, temos um novo
conjunto de dados yi = {6, 8, 10, 12}, em que a média será igual a 9. A variância será, então:
2
σ22 =
∑ ( yi − µ2 ) =
(6 − 9) + (8 − 9) + (10 − 9) + (12 − 9)
2 2 2 2
n 4
σ22 =
( −3) + ( −1) + (1) + (3)
2 2 2 2
=
9 + 1 + 1 + 9 20
= =5
4 4 4
Sendo assim, demonstramos que σ2 = σ22 =, ou seja, ao somarmos uma constante a cada elemento
de um conjunto de dados, a variância permanece a mesma.
B) Ao multiplicarmos uma constante c a cada elemento de um conjunto de dados, temos uma nova
variância ao multiplicarmos a variância do conjunto de dados original por c2.
σ22 = c2 .σ12
C) Ao dividirmos cada elemento de um conjunto de dados por uma constante arbitrária c, obtemos
a nova variância dividindo-se a antiga variância por c2.
43
Unidade I
Existe uma fórmula alternativa e reduzida para o cálculo da variância populacional, deduzida da
fórmula original, que é:
σ 2
=
∑ xi2
− µ2
n
Para a variância amostral, também existe uma fórmula alternativa bastante utilizada que não exige
o cálculo da média e que decorre da fórmula anterior:
s2x =
∑ xi2 − ( ∑ xi )2 n
n −1
Lembrete
Saiba mais
44
Estatística Aplicada
Obtém-se o desvio padrão extraindo-se a raiz quadrada da variância. Assim como a variância e
o desvio médio, o desvio padrão também representa uma medida de variabilidade absoluta, e indica
o desvio de cada um dos números xi de um dado conjunto de observações em relação à média μ. É
também chamado por alguns autores de desvio da raiz média quadrática.
σ=
∑ (xi − µ)2 s=
∑ (xi − x)2
n n −1
Por exemplo, um conjunto de dados amostrais xi = {2, 4, 6}, em que n = 3 e a média é igual a 4.
Vamos, então, calcular o desvio padrão para a amostra:
s=
∑ (xi − x)2 = (2 − 4 )2 + (4 − 4 )2 + (6 − 4 )2
=
n −1 3 −1
( −2)2 + 0 + 22 8
s= = = 4 =2
2 2
As propriedades da variância também são aplicáveis ao desvio padrão. No entanto, existem duas
propriedades que serão distintas no caso do desvio padrão por causa de sua característica de raiz
quadrada média positiva da variância.
Assim, ao multiplicarmos cada elemento de um conjunto de dados por uma constante c, o novo
desvio padrão será igual ao antigo multiplicado pela constante. Temos, então:
σ2 = c . σ1
Por outro lado, se dividirmos cada elemento de um conjunto de dados por uma constante c, o novo
desvio padrão será igual ao anterior dividido pela constante c. Assim, temos:
σ1
σ2 =
c
As demais propriedades da variância serão as mesmas para o desvio padrão.
45
Unidade I
Por exemplo, no item 3.4, foi determinado o desvio padrão de uma série amostral, portanto, vamos
calcular o coeficiente de variação dessa série, que será:
S
Cv =
x
2
Cv =
4
Cv = 0, 5
Cv = 50%
Nesse exemplo, o coeficiente de variação é grande, indica que a variabilidade foi a metade em
relação à média dessa série.
• quando multiplicarmos cada elemento de um conjunto de dados por uma constante c, o novo
desvio padrão será igual ao antigo multiplicado pela constante;
• quando dividirmos cada elemento de um conjunto de dados por uma constante c, o novo desvio
padrão será igual ao anterior dividido pela constante c.
46
Estatística Aplicada
Faz-se uma distinção entre o desvio padrão (sigma) do total de uma população ou de uma variável
aleatória e o desvio padrão s de um subconjunto em amostra.
O termo desvio padrão foi introduzido na estatística por Karl Pearson, em seu livro Sobre a dissecção
de curvas de frequência assimétricas, de 1894.
Exemplo
Utilizando-se o exemplo apresentado anteriormente, temos que a produção leiteira diária de uma
vaca, durante uma semana, foi de 10, 14, 13, 15, 16, 18 e 12 litros, pede-se calcular a amplitude, o desvio
padrão (S), a variância (S2) e 5 o coeficiente de variação (CV).
Solução
Amplitude
R = 18 – 10 = 8 litros de leite, ou seja, a maior variação do número de litros de leite produzido por
dia pela vaca é de 8 litros.
Observação
Sabemos que a média para esses dados é: x = 14 litros de leite por dia.
Desvio padrão
n
∑ ( x1 − x )
2
s= i=1
=
( x1 − x )2 + ( x2 − x )2 + ... + ( xn − x )2 =
n −1 n −1
Variância
Coeficiente de variação
47
Unidade I
S 2, 65
cv = = = 0,1893 ou seja, existe uma variabilidade de 18,93% dos dados em relação à média.
x 14
Saiba mais
Dica de leitura:
Resumo
48
Estatística Aplicada
Exercícios
49
Unidade I
− 13, 5.4 + 14.1 + 15, 5.1 + 16.1 + 18.2 + 18, 5.2 + 19, 5.1 + 20.3 + 21, 5.1 255
X= = = 17
4 + 1+ 1+ 1+ 2 + 1+ 3 + 1 15
A média é 17oC.
3) A moda é 13,5oC.
Sendo assim,
A) Alternativa incorreta.
B) Alternativa correta.
C) Alternativa incorreta.
D) Alternativa incorreta.
E) Alternativa incorreta.
50
Estatística Aplicada
Em relação às edições de 2005 a 2009 da OBMEP, qual o percentual médio de medalhistas de ouro
da região Nordeste?
A) 14,6%.
B) 18,2%.
C) 18,4%.
D) 19,0%.
E) 21,0%.
51