Aprendendo Ciência De Dados
()
Sobre este e-book
Leia mais títulos de Jideon Francisco Marques
Hoodoo Para Iniciantes Nota: 5 de 5 estrelas5/5Karma Do Signo Solar Nota: 5 de 5 estrelas5/5Hiit De 15 Minutos Para Mulheres Nota: 4 de 5 estrelas4/5Habilidades De Atenção Plena Para Trauma E Tept Práticas Para Recuperação E Resiliência Nota: 0 de 5 estrelas0 notasProgramação Python Ilustrada Para Iniciantes E Intermediários: Abordagem “aprenda Fazendo” – Passo A Passo Nota: 0 de 5 estrelas0 notasMudras Para A Vida Moderna Nota: 5 de 5 estrelas5/5Desenho Fácil Nota: 5 de 5 estrelas5/5Um Livro Completo De Cura Reiki Nota: 0 de 5 estrelas0 notasNervo Vago 2 Livros Em 1 Nota: 0 de 5 estrelas0 notasExercício De Lifting Facial Nota: 0 de 5 estrelas0 notasReceitas Fáceis De Ayurveda Nota: 0 de 5 estrelas0 notasSambo Nota: 5 de 5 estrelas5/5Alquimia Da Beleza Natural Nota: 0 de 5 estrelas0 notasFerramentas De Eft Nota: 0 de 5 estrelas0 notasBolos E Biscoitos Artesanais Receitas Selecionadas Nota: 1 de 5 estrelas1/5365 Dias Com Autodisciplina Nota: 0 de 5 estrelas0 notasBruxaria Cotidiana Nota: 5 de 5 estrelas5/5Tui Na Manual De Massagem Chinesa Nota: 0 de 5 estrelas0 notasO Livro Completo De Molhos Para Massas Nota: 5 de 5 estrelas5/5Como Fazer Animais Amigurumi Nota: 0 de 5 estrelas0 notasAprenda Hackear Como Uma Lenda Nota: 0 de 5 estrelas0 notasFitoterapia Faça Você Mesmo Nota: 0 de 5 estrelas0 notasEletrônica Básica Nota: 0 de 5 estrelas0 notasTricotar Em Pouco Tempo Nota: 0 de 5 estrelas0 notasLivro De Receitas De Bolos Europeus Nota: 0 de 5 estrelas0 notas100 Receitas De Bolos E Assados Nota: 0 de 5 estrelas0 notasTreinamento De Força Acima Dos 40 Nota: 0 de 5 estrelas0 notasAntibióticos À Base De Plantas Nota: 0 de 5 estrelas0 notasFibromialgia Seu Guia De Tratamento Nota: 0 de 5 estrelas0 notas
Relacionado a Aprendendo Ciência De Dados
Ebooks relacionados
Uso de Técnicas de Data Science na Previsão: de Febre Amarela Utilizando o Twitter Nota: 0 de 5 estrelas0 notasData Visualization: Transforme dados em conhecimento Nota: 0 de 5 estrelas0 notasModelagem Matemática de Doenças Infecciosas: com aplicação em Python para COVID-19 Nota: 0 de 5 estrelas0 notasA Tomada De Decisão Em Tempos De Big Data Nota: 0 de 5 estrelas0 notasPandas Python: Data Wrangling para Ciência de Dados Nota: 0 de 5 estrelas0 notasBíblia De Programação Python Para Iniciantes Nota: 0 de 5 estrelas0 notasBig Data: Técnicas e tecnologias para extração de valor dos dados Nota: 4 de 5 estrelas4/5Introdução a Data Science: Algoritmos de Machine Learning e métodos de análise Nota: 0 de 5 estrelas0 notasBig Data Nota: 5 de 5 estrelas5/5Dados Abertos: O que o Cidadão mais Busca das Instituições Públicas Nota: 0 de 5 estrelas0 notasBig Data para Executivos e Profissionais de Mercado - Terceira Edição: Big Data Nota: 0 de 5 estrelas0 notasGovernança de TI para as instituições federais de ensino Nota: 0 de 5 estrelas0 notasInvestigação Digital E Rastreamento De Dados Nota: 0 de 5 estrelas0 notasMachine Learning E Python: Um Guia Prático À Ciência De Dados Nota: 0 de 5 estrelas0 notasLinguagens De Programação Em Inteligência Artificial Nota: 0 de 5 estrelas0 notasPython Em Poucas Palavras Nota: 0 de 5 estrelas0 notasProgramação em C# Para Iniciantes Nota: 5 de 5 estrelas5/5PostgreSQL: Banco de dados para aplicações web modernas Nota: 5 de 5 estrelas5/5Séries temporais com Prophet: Análise e previsão de dados com Python Nota: 0 de 5 estrelas0 notasCurso Intensivo Em Golang Nota: 0 de 5 estrelas0 notasModelagem De Banco De Dados Nota: 0 de 5 estrelas0 notasSistemas Orientados a Objetos: Conceitos e Práticas Nota: 0 de 5 estrelas0 notasNoSQL: Como armazenar os dados de uma aplicação moderna Nota: 0 de 5 estrelas0 notasAprenda a programar com Python: Descomplicando o desenvolvimento de software Nota: 5 de 5 estrelas5/5Fundamentos De Programação Python Nota: 0 de 5 estrelas0 notasConceitos Gerais De Business Intelligence Nota: 0 de 5 estrelas0 notasPython - 20% Que Eu Preciso Saber Para Ter 80% De Resultados Nota: 0 de 5 estrelas0 notas
Aplicativos e Software para você
Ganhe Dinheiro Criando Um Jogo Para Celular Nota: 0 de 5 estrelas0 notasLaboratório Técnico - Autocad Nota: 0 de 5 estrelas0 notasGuia De Estilo E Cores Nota: 0 de 5 estrelas0 notasPacote Microsoft Office Capacitação Nota: 0 de 5 estrelas0 notasComo Criar Um Ebook De Alta Conversão Nota: 4 de 5 estrelas4/5Apostila Noções De Informática Nota: 0 de 5 estrelas0 notasExcel 2022 O Tutorial Completo Para Iniciantes E Especialistas Nota: 0 de 5 estrelas0 notasCódigo Limpo Em Php Nota: 0 de 5 estrelas0 notasChatgpt O Roteiro Do Milionário Nota: 0 de 5 estrelas0 notasExcel De Zero Para Especialista Nota: 0 de 5 estrelas0 notasEletrônica Básica Nota: 0 de 5 estrelas0 notasDescomplicado Passo A Passo | Tutoial Anime Studio Nota: 0 de 5 estrelas0 notasSeo Na Prática Nota: 0 de 5 estrelas0 notasCurso De Edição De Vídeo + Adobe Premiere Pro Nota: 0 de 5 estrelas0 notasAprendendo Vue Nota: 0 de 5 estrelas0 notasJava O Guia Completo Nota: 0 de 5 estrelas0 notasDesign Gráfico E Criação De Logotipos Nota: 0 de 5 estrelas0 notasRevit passo a passo volume I Nota: 4 de 5 estrelas4/5Scratch: Um jeito divertido de aprender programação Nota: 0 de 5 estrelas0 notasLógica De Programação: Pseudocódigo Nota: 0 de 5 estrelas0 notasDesenvolvendo Aplicativos Com Gpt-4 E Chatgpt Nota: 0 de 5 estrelas0 notasMicrosoft Office 365 Nota: 0 de 5 estrelas0 notasCurso Intensivo De Python Nota: 0 de 5 estrelas0 notasExcel 2013 Técnicas Avançadas Nota: 5 de 5 estrelas5/5Desenvolvedor De Back-end Em 30 Dias Nota: 0 de 5 estrelas0 notasMicrosoft Word Nota: 5 de 5 estrelas5/5Videogames e arte: Discussões sobre paradigmas e complexidades possíveis Nota: 0 de 5 estrelas0 notasExcel Para Professores De Matemática Nota: 1 de 5 estrelas1/5Raspberry Pi 4 Manual Completo Nota: 0 de 5 estrelas0 notasLinguagens De Programação Em Inteligência Artificial Nota: 0 de 5 estrelas0 notas
Avaliações de Aprendendo Ciência De Dados
0 avaliação0 avaliação
Pré-visualização do livro
Aprendendo Ciência De Dados - Jideon Francisco Marques
Aprendendo ciência de dados
Aprendendo ciência de dados
Fundamentos de programação e estatística usando python
Por Jideon F. Marques
© Copyright 2022 Jideon Marques - Todos os direitos reservados.
O conteúdo deste ebook não pode ser reproduzido, duplicado ou transmitido sem permissão direta por escrito do autor ou do editor.
Sob nenhuma circunstância qualquer culpa ou responsabilidade legal será imputada ao editor, ou autor, por quaisquer danos, reparações ou perdas monetárias devido às informações contidas neste ebook, direta ou indiretamente.
Notícia legal:
Este ebook é protegido por direitos autorais. É apenas para uso pessoal. Você não pode alterar, distribuir, vender, usar, citar ou parafrasear qualquer parte ou o conteúdo deste ebook sem o consentimento do autor ou editor.
Aviso de isenção de responsabilidade:
Observe que as informações contidas neste documento são apenas para fins educacionais e de entretenimento. Todo esforço foi feito para apresentar informações precisas, atualizadas, confiáveis e completas. Nenhuma garantia de qualquer tipo é declarada ou implícita. Os leitores reconhecem que o autor não está envolvido na prestação de aconselhamento jurídico, financeiro, médico ou profissional. O conteúdo deste ebook foi derivado de várias fontes. Consulte um profissional médico licenciado antes de tentar este programa ou qualquer técnica descrita neste ebook.
Ao ler este documento, o leitor concorda que em nenhuma circunstância o autor é responsável por quaisquer lesões, morte, perdas, diretas ou indiretas, que sejam incorridas como resultado do uso das informações contidas neste documento, incluindo, mas não limitado a a, erros, omissões ou imprecisões.
Índice
1. Perguntas e Escopo dos Dados
Big Data e novas oportunidades
Exemplo: Google Tendências da Gripe
População Alvo, Quadro de Acesso, Amostra
Instrumentos e Protocolos
Medindo o Fenômeno Natural
Precisão
Tipos de preconceito
Tipos de Variação
Resumo
Exercícios
2. Simulação e Design de Dados
O modelo da urna
Projetos de Amostragem
Distribuição de amostragem de uma estatística
Simulando a Distribuição de Amostragem
O Hipergeométrico
Exemplo: Simulação de Viés e Variação de Pesquisa Eleitoral
O modelo de urna da Pensilvânia
Um modelo de urna com viés
Conduzindo enquetes maiores
Exemplo: Simulando um teste randomizado para uma vacina
Alcance
O modelo de urna para atribuição aleatória
Exemplo: Erro de Medição na Qualidade do Ar
Resumo
Exercícios
3. Modelagem com Estatísticas Resumidas
O modelo constante
Funções de perda
Erro absoluto médio
Erro quadrático médio
Escolhendo funções de perda
Resumo
Exercícios
4. Trabalhando com dataframes usando pandas
Subconjunto
Sobre os dados
DataFrames e Índices
Fatiamento
Filtrando Linhas
Exemplo: Há quanto tempo Luna se tornou um nome popular?
Aprendizado
Agregando
Grupo básico-agregado
Agrupamento em várias colunas
Funções de agregação personalizadas
Exemplo: as pessoas se tornaram mais criativas com nomes de bebês?
Pivotante
Aprendizado
Juntando-se
Junções internas
Junções Esquerda, Direita e Externa
Exemplo: popularidade das categorias de nomes do NYT
Aprendizado
Transformando
Aplicar
Exemplo: popularidade de nomes L
O preço de aplicação
Aprendizado
Como os Dataframes são Diferentes de Outras Representações de Dados?
Dataframes e planilhas
Dataframes e matrizes
Dataframes e Relações
Resumo
Exercícios
5. Trabalhando com relações usando SQL
Subconjunto
Sobre os dados
O que é uma Relação?
Fatiamento
Filtrando Linhas
Exemplo: Há quanto tempo Luna se tornou um nome popular?
Aprendizado
Agregando
Grupo básico-agregado
Agrupamento em várias colunas
Outras funções de agregação
Exemplo: as pessoas se tornaram mais criativas com nomes de bebês?
Aprendizado
Juntando-se
Junções internas
Junções Esquerda, Direita e Externa
Exemplo: popularidade das categorias de nomes do NYT
Aprendizado
Transformando
Funções SQL
Consultas de várias etapas usando uma cláusula WITH
Exemplo: popularidade de nomes L
Aprendizado
Como as relações são diferentes de outras representações de dados?
Relações e planilhas
Relações e Matrizes
Relações e Dataframes
Conclusão
Exercícios
6. Disputando Arquivos
Exemplos de fonte de dados
Pesquisa da Rede de Alerta de Abuso de Drogas (DAWN)
Segurança Alimentar do Restaurante San Francisco
Formatos de arquivo
Formato delimitado
Formato de largura fixa
Formatos hierárquicos
Formatos pouco estruturados
Codificação de arquivo
Tamanho do arquivo
Trabalhando com grandes conjuntos de dados
As ferramentas de shell e linha de comando
Forma e Granularidade da Mesa
Granularidade das Inspeções e Violações de Restaurantes
Forma e granularidade do levantamento DAWN
Resumo
Capítulo 1. Perguntas e Escopo dos Dados
Como cientistas de dados, usamos dados para responder a perguntas, e a qualidade do processo de coleta de dados pode afetar significativamente a validade e a precisão dos dados, a força das conclusões que tiramos de uma análise e as decisões que tomamos. Neste capítulo, descrevemos uma abordagem geral para entender a coleta de dados e avaliar a utilidade dos dados para abordar a questão de interesse. Idealmente, buscamos que os dados sejam representativos do fenômeno que estamos estudando, seja esse fenômeno uma característica populacional, um modelo físico ou algum tipo de comportamento social. Normalmente, nossos dados não contêm informações completas (o escopo é restrito de alguma forma), mas queremos usar os dados para descrever com precisão uma população, estimar uma quantidade científica, inferir a forma de uma relação entre características, ou prever resultados futuros. Em todas essas situações, se nossos dados não forem representativos do objeto de nosso estudo, nossas conclusões podem ser limitadas, possivelmente enganosas ou até erradas.
Para motivar a necessidade de pensar sobre essas questões, começamos com um exemplo do poder do big data e o que pode dar errado [big datas]. Em seguida, fornecemos uma estrutura que pode ajudá-lo a conectar o objetivo do seu estudo (sua pergunta) com o processo de coleta de dados. Nós nos referimos a isso como o escopo de dados1, e fornecem terminologia para ajudar a descrever o escopo dos dados, juntamente com exemplos de pesquisas, dados governamentais, instrumentos científicos e recursos online. Mais adiante neste capítulo, consideraremos o que significa que os dados sejam precisos. Lá, apresentamos diferentes formas de viés e variação e descrevemos as condições em que elas podem surgir. Por toda parte, os exemplos cobrem o espectro dos tipos de dados que você pode estar usando como cientista de dados; esses exemplos são da ciência, eleições políticas, saúde pública e comunidades online.
Big Data e novas oportunidades
O tremendo aumento de dados disponíveis abertamente criou novos papéis e oportunidades na ciência de dados. Por exemplo, os jornalistas de dados procuram histórias interessantes nos dados, da mesma forma que os repórteres tradicionais procuram notícias. O ciclo de vida de dados para o jornalista de dados começa com a busca de dados existentes que possam ter uma história interessante, em vez de começar com uma questão de pesquisa e procurar como coletar dados novos ou usar dados existentes para abordar a questão.
Projetos de ciência cidadã são outro exemplo. Eles envolvem muitas pessoas (e instrumentos) na coleta de dados. Coletivamente, esses dados são frequentemente disponibilizados aos pesquisadores que organizam o projeto e muitas vezes são disponibilizados em repositórios para que o público em geral possa investigar melhor.
A disponibilidade de dados administrativos/organizacionais cria outras oportunidades. Os pesquisadores podem vincular dados coletados de estudos científicos com, digamos, dados médicos coletados para fins de saúde; em outras palavras, dados administrativos coletados por motivos que não decorrem diretamente da questão de interesse podem ser úteis em outros contextos. Essas ligações podem ajudar os cientistas de dados a expandir as possibilidades de suas análises e verificar a qualidade de seus dados. Além disso, os dados encontrados podem incluir rastros digitais, como sua atividade de navegação na web, postagens em mídias sociais e rede online de amigos e conhecidos, e podem ser bastante complexos.
Quando temos grandes quantidades de dados administrativos ou rastros digitais expansivos, pode ser tentador tratá-los como mais definitivos do que os dados coletados de pesquisas tradicionais menores. Podemos até considerar esses grandes conjuntos de dados como um substituto para estudos científicos ou essencialmente um censo. Esse excesso de alcance é chamado de hubris do big data
(Lazer et al. 2014). Dados com um escopo grande não significam que podemos ignorar questões fundamentais de quão representativos são os dados, nem podemos ignorar questões de medição, dependência e confiabilidade. Um exemplo bem conhecido é o sistema de rastreamento Google Flu Trends.
Exemplo: Google Tendências da Gripe
A epidemiologia digital, um novo subcampo da epidemiologia, aproveita dados gerados fora do sistema público de saúde para estudar padrões de doenças e dinâmicas de saúde em populações2O sistema de rastreamento Google Flu Trends (GFT) foi um dos primeiros exemplos de epidemiologia digital. Em 2007, os pesquisadores descobriram que contar as pesquisas que as pessoas faziam por termos relacionados à gripe poderia estimar com precisão o número de casos de gripe. Ele ganhou as manchetes e ajudou a deixar os pesquisadores empolgados com as possibilidades do big data. No entanto, a GFT não correspondeu às expectativas e foi abandonada em 2015.
O que deu errado com a GFT? Afinal, ele usou milhões de rastros digitais de consultas on-line para termos relacionados à gripe para prever a atividade da gripe. Apesar do sucesso inicial, na temporada de gripe de 2011-2012, os cientistas de dados do Google descobriram que a GFT não era um substituto para dados mais tradicionalmente coletados dos relatórios de vigilância dos Centros de Controle de Doenças (CDC), coletados de laboratórios nos Estados Unidos. Em comparação, a GFT superestimou os números do CDC em 100 das 108 semanas (verFigura 1-1). Semana após semana, a GFT ficou muito alta para os casos de gripe, embora fosse baseada em big data.
Images/GFTseries.pngFigura 1-1. Estimativas semanais do Google Flu Trend (GFT) para doenças semelhantes à gripe. Por 108 semanas, a GFT (linha contínua) estimou os relatórios reais do CDC (linha tracejada) 100 vezes. Também são plotadas as previsões de um modelo baseado em dados do CDC de 3 semanas e tendências sazonais (linha pontilhada).
Os cientistas de dados descobriram que a GFT não era um substituto para dados mais tradicionalmente coletados do CDC. Um modelo simples construído a partir de relatórios anteriores do CDC que usaram dados do CDC de 3 semanas e tendências sazonais fez um trabalho melhor de prever a prevalência da gripe do que a GFT. Ou seja, a GFT ignora informações consideráveis que poderiam ser extraídas por métodos estatísticos básicos. Isso não significa que o big data capturado da atividade online seja inútil. De fato, os pesquisadores mostraram que a combinação de dados de GFT com dados de CDC pode melhorar substancialmente tanto nas previsões de GFT quanto no modelo baseado em CDC (Lazer 2015). Muitas vezes, a combinação de diferentes abordagens leva a melhorias em relação aos métodos individuais.
O exemplo da GFT nos mostra que, mesmo quando temos enormes quantidades de informações, as conexões entre os dados, o tópico da investigação e a pergunta que está sendo feita são primordiais. Compreender essa estrutura pode nos ajudar a evitar responder à pergunta errada, aplicar métodos inadequados aos dados e exagerar nossas descobertas.
Na era do big data, somos tentados a coletar cada vez mais dados. Afinal, um censo nos dá informações perfeitas, então o big data não deveria ser quase perfeito? Um fator-chave a ter em mente é o escopo dos dados. Que população queremos estudar? Como podemos acessar informações sobre essa população? Quem ou o que estamos realmente estudando? As respostas a essas perguntas nos ajudam a ver possíveis lacunas em nossa abordagem. Este é o tema da próxima seção.
População Alvo, Quadro de Acesso, Amostra
Um passo inicial importante no ciclo de vida dos dados é expressar a pergunta de interesse no contexto da área de assunto e considerar