Estatística para Ciência de Dados - Vol 1 - FMU
Estatística para Ciência de Dados - Vol 1 - FMU
Estatística para Ciência de Dados - Vol 1 - FMU
br
INICIAR
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 1/44
29/11/2023, 20:22 Ead.br
introdução
Introdução
Nesta unidade, aprenderemos as “Predições com Modelos de Regressão
Linear”. Modelos de regressão linear são um dos principais métodos
preditivos da estatística e da ciência dos dados ( data science ). São muito
usados em praticamente todos os campos de conhecimento humano (saúde,
engenharia, economia, geologia etc.), onde se quer estimar o valor de uma
variável quantitativa em função de outras variáveis, chamadas de variáveis de
entrada ou preditoras.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 2/44
29/11/2023, 20:22 Ead.br
Estatística, Machine
Learning e Ciência dos
Dados
Breve Histórico
O nome dessa disciplina é “Estatística Aplicada ao Data Science”. Temos, aqui,
a fusão de duas áreas, a estatística e a ciência dos dados, a primeira aplicada
à segunda. A estatística é uma área de conhecimento humano mais antigo
que a ciência dos dados. Sua estrutura atual começou a tomar forma há
aproximadamente 130 anos. Verdadeiramente, sua origem se estende por
muitos séculos atrás, mas foram os trabalhos de grandes nomes, tais como os
famosos Karl Pearson e Ronald Fisher, que começaram a dar, à estatística, a
forma como a conhecemos hoje. Uma ciência forte, com brilho próprio e
enorme relevância para a sociedade humana.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 3/44
29/11/2023, 20:22 Ead.br
Mas por que falamos aqui de machine learning ? Porque entre ciências não há
fronteiras rígidas, e tanto os cientistas da computação tomaram emprestados
os modelos já desenvolvidos pela estatística, quanto os estatísticos tomaram
emprestados os algoritmos de machine learning desenvolvidos pela ciência da
computação. Essa fusão mostrou-se ser muito rica, vigorosa, e pavimentou o
caminho para o surgimento de uma nova área chamada de ciência dos dados.
É por esse motivo que a estatística está intimamente ligada à ciência dos
dados e ao mundo dos algoritmos de machine learning da ciência da
computação. Enfim, todos, de alguma forma, entrelaçados. Cada um desses
mundos com suas especialidades, mas usufruindo mutuamente dos
conhecimentos gerados pelos outros três mundos: 1) a estatística, com seus
métodos tão cuidadosamente construídos e aplicados; 2) a ciência da
computação, com seus algoritmos de machine learning ; e 3) a ciência dos
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 4/44
29/11/2023, 20:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 5/44
29/11/2023, 20:22 Ead.br
praticar
Vamos Praticar
Campo em crescimento exponencial, a Ciência dos Dados tem se tornado uma área
apaixonante para entusiastas das mais diversas áreas. Estatísticos contribuem com
sólida teoria de análise de dados enquanto cientistas e engenheiros da computação
contribuem com novas capacidades e possibilidades computacionais. Assim,
pesquisadores(as) da biologia, psicologia, direito, economia, comunicação,
sociologia e diversas outras áreas podem usufruir desse conjunto de técnicas
(algumas nem tão novas) para aprimorar e desenvolver suas pesquisas. E a
linguagem R é uma das principais linguagens de programação utilizadas para isso.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 6/44
29/11/2023, 20:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 7/44
29/11/2023, 20:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 8/44
29/11/2023, 20:22 Ead.br
Como, neste material, pretendemos dar apenas uma visão inicial, e também
como não podemos nos estender com mais profundidade em aspectos mais
técnicos, não daremos atenção a todas essas etapas. Concentraremo-nos em
mostrar, de uma forma mais direta e simples possível, o poder de predição de
modelos de regressão linear, em situações típicas onde podem ser
empregados. Se você tiver interesse em se aprofundar nesses temas, há uma
vasta literatura disponível para sua consulta e leitura como, por exemplo, o
livro Ciência dos Dados - Introdução (OLIVEIRA; GUERRA; MCDONNEL, 2018).
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 9/44
29/11/2023, 20:22 Ead.br
Como tinha um amigo estatístico, decidiu conversar com ele. Seu amigo
estatístico lhe pediu para trazer alguns dados de mercado. Passados alguns
dias, a corretora voltou a procurar seu amigo estatístico e lhe mostrou os
seguintes dados, observados de 100 imóveis residenciais – todos
apartamentos, sua especialidade – vendidos nos últimos meses pela
imobiliária. No Quadro 1.1 exibimos algumas do total das 100 observações
que ela coletou:
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 10/44
29/11/2023, 20:22 Ead.br
praticar
Vamos Praticar
Workflow da Ciência dos Dados: não existe apenas uma forma de estruturar e
aplicar os conhecimentos da Ciência dos Dados. A forma de aplicação varia bastante
conforme a necessidade do projeto ou do objetivo que se busca alcançar. Neste
curso, usaremos um modelo de workflow bastante utilizado. Esse workflow propõe
basicamente os seguintes passos: Carregar os dados; Limpar os dados;
Transformar, visualizar e modelar; Comunicar o resultado.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 11/44
29/11/2023, 20:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 12/44
29/11/2023, 20:22 Ead.br
Por vezes, referimo-nos a dados que podem ser organizados em uma tabela
desse jeito, ou seja, as variáveis dispostas nas colunas e as observações
dispostas nas linhas, como dados retangulares, ou dados estruturados. No
software estatístico R, essa forma de organização de dados é referida como
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 13/44
29/11/2023, 20:22 Ead.br
“data-frame”. Esse conceito foi copiado, alguns anos depois (em 2012), pelo
Python, por meio de sua famosa biblioteca “Pandas”.
Voltando ao estatístico, ele também viu que sua amostra tinha tamanho
n = 100, ou seja, lá havia dados relativos a 100 diferentes apartamentos.
Para simplificar a sua análise, ele decidiu adotar uma notação compacta para
as variáveis observadas:
2
X1 = área do imó vel (m )
~
X3 = localizaao do imó vel (Bairro ou Centro)
Ele viu, então, que para esses 100 apartamentos vendidos, a área variou
entre um mínimo de 41, 9 m e um máximo de 86, 9 m , com área média de
2 2
gráfica hist() do R:
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 14/44
29/11/2023, 20:22 Ead.br
Ele viu, então, que para esses 100 apartamentos vendidos, o andar do imóvel
variou entre um mínimo de 1 (primeiro andar), uma mediana de 4 (50% dos
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 15/44
29/11/2023, 20:22 Ead.br
saiba mais
Saiba mais
Ao longo da unidade, falamos diversas vezes
sobre o R. Primeiro na seção em que
discutimos sobre linguagens de programação
e, ao longo do caso estudado, quando o
estatístico recorreu ao R inúmeras vezes, ou
para produzir sumários estatísticos, ou
estimar os coeficientes dos modelos, ou
mesmo para a visualização dos dados, com
as funções gráficas do R. Se você quiser
conhecer mais sobre o R, você pode instalá-lo
e usá-lo livremente, em casa ou no trabalho,
pois é público e gratuito.
Fonte: Adaptado de Ritter e They (2019).
ACESSAR
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 16/44
29/11/2023, 20:22 Ead.br
Bairro = 0 Centro = 1
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 17/44
29/11/2023, 20:22 Ead.br
Após isso, como esses dados são qualitativos, uma das formas mais práticas
para sumarizá-los é contando a frequência de aparição de cada nível (0 ou 1)
na amostra coletada. Para isso usou de uma interessante função do R,
denominada de table(), obtendo os seguintes resultados:
table(x3) 0 1
32 68
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 18/44
29/11/2023, 20:22 Ead.br
Como você pode observar, o diagrama de barras oferece uma simples, porém
bastante efetiva, visualização da frequência de observações de cada nível
(classe) da variável qualitativa. Vale notar aqui que podemos usar a frequência
relativa no lugar da frequência absoluta, com o mesmo resultado visual.
Também vale notar que gráficos de pizza são uma alternativa aos diagramas
de barras.
Vemos que, para esses 100 apartamentos, o valor de venda variou entre um
mínimo de 129 kR$ e um máximo de 556 kR$, com valor médio de 366,5 kR$ e
um desvio padrão de 85,9 kR$.
Assim como fez para as outras variáveis, também aqui resolveu visualizar os
dados coletados quanto ao valor de venda. Sendo esses dados quantitativos,
construiu um histograma de Y (valor de venda do imóvel) usando a função
gráfica hist() do R:
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 19/44
29/11/2023, 20:22 Ead.br
Percebeu serem dos dados relativos aos valores de venda dos imóveis
distribuídos de forma ligeiramente assimétrica, com uma maior frequência de
observações se concentrando à direita.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 20/44
29/11/2023, 20:22 Ead.br
59,4 398
62,7 340
80,6 544
65,7 283
... ...
62,6 304
54,7 347
Quadro 1.2 - Tabela área e valor
Fonte: Elaborado pelo autor.
cor(y, x1) = 0, 55
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 21/44
29/11/2023, 20:22 Ead.br
segunda e a última coluna da tabela com os dados dos imóveis, linha a linha
(aos pares). Novamente o estatístico recorreu à função plot() do R e obteve o
resultado exibido na Figura 1.6.
porém mais sutil. Talvez você não consiga ver isso muito bem, mas não se
preocupe. O estatístico tem já uma grande experiência, e mesmo ele pode ter
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 22/44
29/11/2023, 20:22 Ead.br
cor(y, x2) = 0, 24
Também nesse caso a correlação é positiva, porém aqui com uma força mais
fraca do que a correlação entre Y e X . A dispersão dos dados se dá porque
1
apartamento vendido.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 23/44
29/11/2023, 20:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 24/44
29/11/2023, 20:22 Ead.br
Esse gráfico permite ver como se dispersam os valores de venda dos imóveis
da amostra, exibidos ao longo do eixo vertical, em função da sua localização,
exibida no eixo horizontal. Veja que imóveis no centro têm valor inferior a
imóveis no bairro. Nas palavras de um especialista: “Boxplots são muito úteis
na visualização gráfica entre diferentes conjuntos de dados, porque têm um
alto impacto visual e são fáceis de entender” (MONTGOMERY, 2013, p. 139).
São muito usados nas situações em que queremos visualizar a relação de
dados quantitativos com dados qualitativos.
praticar
Vamos Praticar
Dados Estruturados: talvez seja o formato mais fácil de se trabalhar no R. São
conjuntos de informações organizadas em colunas (atributos, variáveis, features etc.)
e linhas (registros, itens, observações etc.). São dados mais comumente
encontrados diretamente em bancos de dados, arquivos com algum tipo de
separação entre as colunas, Excel, arquivos com campos de tamanhos fixo etc.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 25/44
29/11/2023, 20:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 26/44
29/11/2023, 20:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 27/44
29/11/2023, 20:22 Ead.br
Y = variável de sa´
i da, de resposta, dependente, target variable
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 28/44
29/11/2023, 20:22 Ead.br
variável resposta (aqui, neste nosso caso, Y , o valor do imóvel), com base nos
dados amostrados.
y = b 0 + b 1 x1
y = 27, 22 + 5, 15 x1
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 29/44
29/11/2023, 20:22 Ead.br
Vemos que a plotagem do modelo ajustado fornece uma reta, com interseção
com o eixo vertical em x = 0 igual a b = 27, 22 m e inclinação igual a
1 0
2
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 30/44
29/11/2023, 20:22 Ead.br
Apenas quando faz sentido a variável preditora assumir um valor igual a zero,
é que também faz sentido interpretar o coeficiente b0 não só como um
coeficiente de ajuste do modelo, mas efetivamente como o valor esperado
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 31/44
29/11/2023, 20:22 Ead.br
para y quando x é igual a zero. Espero que você tenha entendido esse
1
uma interpretação bastante útil. O valor calculado pelo estatístico para esse
coeficiente foi:
b1 = kR$5, 15/m2
resultado será
y = 27, 22 + 5, 15 × 65 = 362
Aqui, arredondamos o valor 361,97 mil para 362 mil reais, pois estamos
estimando em mil reais, e não temos interesse em frações de mil reais.
y . Ela ficou muito admirada e curiosa em saber como seria esse resultado se,
modelo preditivo.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 32/44
29/11/2023, 20:22 Ead.br
y = b 0 + b 2 x2
b0 = kR6, 55/andar
y = 333, 71 + 6, 55 x2
(1, 2, 3, …):
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 33/44
29/11/2023, 20:22 Ead.br
y = 333, 71 + 6, 55 × 0 = 333, 71
posição x = 0 do gráfico.
2
y = 333, 71 + 6, 55 × 10 = 399
Aqui, arredondamos o valor 399,21 para 399 mil reais, pois estamos
estimando em mil reais, e não temos interesse em frações de mil reais.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 34/44
29/11/2023, 20:22 Ead.br
fica assim:
y = b 0 + b 1 x1 + b 2 x2
y = − 2, 59 + 5, 12 x1 + 6, 34 x2
Essa expressão pode ser usada para fazermos predições do valor esperado de
y à área desejada e o andar desejado para o apartamento. A corretora já
aproveitou para fazer um teste, pois uma cliente gostaria de saber qual valor
esperado de um apartamento com uma área de 50 metros quadrados,
situado no 10º andar. Esse apartamento seria para ela, o seu marido e um
filhinho. De posse do modelo, foi simples fazer a predição:
y = − 2, 59 + 5, 12 × 50 + 6, 34 × 10 = 317
Aqui, novamente, arredondamos 316,81 para 317 mil reais, pois queremos
avaliar o valor do imóvel sem nos preocuparmos com frações de mil reais.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 35/44
29/11/2023, 20:22 Ead.br
Bairro = 0 Centro = 1
y = b 0 + b 1 x1 + b 2 x2 + b 3 x3
b0 = kR 4,87 / m2
b2 = kR 27,43 / localização
y = 32, 67 + 4, 87 x1 + 6, 36 x2 − 27, 43 x3
modelo nos informa que, quando o imóvel está localizado no centro, ele
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 36/44
29/11/2023, 20:22 Ead.br
e viu que:
x3 = 0 (bairro) ⇒ y = 339, 77
x3 = 1 (centro) ⇒ y = 312, 34
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 37/44
29/11/2023, 20:22 Ead.br
reflita
Reflita
Será que você sabia que a estatística e a ciência dos dados são
muito usadas nas ciências dos esportes, tanto amadores
quanto profissionais? E você? Consegue se imaginar
trabalhando para um grande clube como especialista em
análise estatística esportiva? Reflita sobre isso, enquanto lê,
analisa e pensa sobre o que lhe propomos aqui.
praticar
Vamos Praticar
Exemplo didático para regressão linear: como exemplo didático para a regressão
linear, considere o proprietário de um restaurante que deseja aumentar as vendas
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 38/44
29/11/2023, 20:22 Ead.br
y = 117, 38 + 9, 62x
onde:
~
^s
x = número de insero es de anúncios durante o me
^s
y = número de pratos de F ilé a P armegiana vendidos no me
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 39/44
29/11/2023, 20:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 40/44
29/11/2023, 20:22 Ead.br
indicações
Material
Complementar
LIVRO
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 41/44
29/11/2023, 20:22 Ead.br
WEB
ACESSAR
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 42/44
29/11/2023, 20:22 Ead.br
conclusão
Conclusão
Nessa unidade, contamos com a ajuda de dois personagens, uma corretora
de imóveis e um estatístico, e pudemos ver – com essa valiosa ajuda – como é
possível desenvolvermos uma capacidade preditiva se tivermos dados onde
nos basear e modelos que “aprendem com os dados”. Especificamente,
iniciamos a nossa jornada por este mundo, o da “Estatística Aplicada à Ciência
dos Dados”, com os modelos preditivos chamados de regressão linear,
simples e múltipla. Nas próximas unidades aprofundaremos nossa jornada
por esse incrível e poderoso mundo. Vamos lá?
referências
Referências
Bibliográficas
MONTGOMERY, D. C.; RUNGER, G. C. Estatística Aplicada e Probabilidade
para Engenheiros . Rio de Janeiro: LTC, 2013.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 43/44
29/11/2023, 20:22 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/ENG_ESTDAS_20/unidade_1/ebook/index.html 44/44