Encontre milhões de e-books, audiobooks e muito mais com um período de teste gratuito

Apenas $9.99/mês após o término do seu período de teste gratuito. Cancele a qualquer momento.

Aprendendo Ciência De Dados
Aprendendo Ciência De Dados
Aprendendo Ciência De Dados
E-book295 páginas1 hora

Aprendendo Ciência De Dados

Nota: 0 de 5 estrelas

()

Ler a amostra

Sobre este e-book

Descrição do livro Como aspirante a cientista de dados, você entende por que as organizações confiam nos dados para decisões importantes, seja para empresas projetando sites, cidades decidindo como melhorar serviços ou cientistas descobrindo como impedir a propagação de doenças. E você quer as habilidades necessárias para destilar uma pilha confusa de dados em insights acionáveis. Chamamos isso de ciclo de vida da ciência de dados: o processo de coletar, discutir, analisar e tirar conclusões dos dados. Learning Data Science é o primeiro livro a abordar habilidades fundamentais em programação e estatística que abrangem todo esse ciclo de vida. É voltado para aqueles que desejam se tornar cientistas de dados ou que já trabalham com cientistas de dados e para analistas de dados que desejam cruzar a divisão técnico/não técnico . Se você tiver um conhecimento básico de programação Python, aprenderá a trabalhar com dados usando ferramentas padrão do setor, como pandas. Refinar uma questão de interesse para uma que possa ser estudada com dados Buscar a coleta de dados que pode envolver processamento de texto, web scraping, etc. Obtenha informações valiosas sobre dados por meio de limpeza, exploração e visualização de dados Aprenda a usar a modelagem para descrever os dados Generalizar descobertas além dos dados
IdiomaPortuguês
Data de lançamento13 de nov. de 2022
Aprendendo Ciência De Dados

Leia mais títulos de Jideon Francisco Marques

Relacionado a Aprendendo Ciência De Dados

Ebooks relacionados

Aplicativos e Software para você

Visualizar mais

Artigos relacionados

Avaliações de Aprendendo Ciência De Dados

Nota: 0 de 5 estrelas
0 notas

0 avaliação0 avaliação

O que você achou?

Toque para dar uma nota

A avaliação deve ter pelo menos 10 palavras

    Pré-visualização do livro

    Aprendendo Ciência De Dados - Jideon Francisco Marques

    Aprendendo ciência de dados

    Aprendendo ciência de dados

    Fundamentos de programação e estatística usando python

    Por Jideon F. Marques

    © Copyright 2022 Jideon Marques - Todos os direitos reservados.

    O conteúdo deste ebook não pode ser reproduzido, duplicado ou transmitido sem permissão direta por escrito do autor ou do editor.

    Sob nenhuma circunstância qualquer culpa ou responsabilidade legal será imputada ao editor, ou autor, por quaisquer danos, reparações ou perdas monetárias devido às informações contidas neste ebook, direta ou indiretamente.

    Notícia legal:

    Este ebook é protegido por direitos autorais. É apenas para uso pessoal. Você não pode alterar, distribuir, vender, usar, citar ou parafrasear qualquer parte ou o conteúdo deste ebook sem o consentimento do autor ou editor.

    Aviso de isenção de responsabilidade:

    Observe que as informações contidas neste documento são apenas para fins educacionais e de entretenimento. Todo esforço foi feito para apresentar informações precisas, atualizadas, confiáveis e completas. Nenhuma garantia de qualquer tipo é declarada ou implícita. Os leitores reconhecem que o autor não está envolvido na prestação de aconselhamento jurídico, financeiro, médico ou profissional. O conteúdo deste ebook foi derivado de várias fontes. Consulte um profissional médico licenciado antes de tentar este programa ou qualquer técnica descrita neste ebook.

    Ao ler este documento, o leitor concorda que em nenhuma circunstância o autor é responsável por quaisquer lesões, morte, perdas, diretas ou indiretas, que sejam incorridas como resultado do uso das informações contidas neste documento, incluindo, mas não limitado a a, erros, omissões ou imprecisões.

    Índice

    1. Perguntas e Escopo dos Dados

    Big Data e novas oportunidades

    Exemplo: Google Tendências da Gripe

    População Alvo, Quadro de Acesso, Amostra

    Instrumentos e Protocolos

    Medindo o Fenômeno Natural

    Precisão

    Tipos de preconceito

    Tipos de Variação

    Resumo

    Exercícios

    2. Simulação e Design de Dados

    O modelo da urna

    Projetos de Amostragem

    Distribuição de amostragem de uma estatística

    Simulando a Distribuição de Amostragem

    O Hipergeométrico

    Exemplo: Simulação de Viés e Variação de Pesquisa Eleitoral

    O modelo de urna da Pensilvânia

    Um modelo de urna com viés

    Conduzindo enquetes maiores

    Exemplo: Simulando um teste randomizado para uma vacina

    Alcance

    O modelo de urna para atribuição aleatória

    Exemplo: Erro de Medição na Qualidade do Ar

    Resumo

    Exercícios

    3. Modelagem com Estatísticas Resumidas

    O modelo constante

    Funções de perda

    Erro absoluto médio

    Erro quadrático médio

    Escolhendo funções de perda

    Resumo

    Exercícios

    4. Trabalhando com dataframes usando pandas

    Subconjunto

    Sobre os dados

    DataFrames e Índices

    Fatiamento

    Filtrando Linhas

    Exemplo: Há quanto tempo Luna se tornou um nome popular?

    Aprendizado

    Agregando

    Grupo básico-agregado

    Agrupamento em várias colunas

    Funções de agregação personalizadas

    Exemplo: as pessoas se tornaram mais criativas com nomes de bebês?

    Pivotante

    Aprendizado

    Juntando-se

    Junções internas

    Junções Esquerda, Direita e Externa

    Exemplo: popularidade das categorias de nomes do NYT

    Aprendizado

    Transformando

    Aplicar

    Exemplo: popularidade de nomes L

    O preço de aplicação

    Aprendizado

    Como os Dataframes são Diferentes de Outras Representações de Dados?

    Dataframes e planilhas

    Dataframes e matrizes

    Dataframes e Relações

    Resumo

    Exercícios

    5. Trabalhando com relações usando SQL

    Subconjunto

    Sobre os dados

    O que é uma Relação?

    Fatiamento

    Filtrando Linhas

    Exemplo: Há quanto tempo Luna se tornou um nome popular?

    Aprendizado

    Agregando

    Grupo básico-agregado

    Agrupamento em várias colunas

    Outras funções de agregação

    Exemplo: as pessoas se tornaram mais criativas com nomes de bebês?

    Aprendizado

    Juntando-se

    Junções internas

    Junções Esquerda, Direita e Externa

    Exemplo: popularidade das categorias de nomes do NYT

    Aprendizado

    Transformando

    Funções SQL

    Consultas de várias etapas usando uma cláusula WITH

    Exemplo: popularidade de nomes L

    Aprendizado

    Como as relações são diferentes de outras representações de dados?

    Relações e planilhas

    Relações e Matrizes

    Relações e Dataframes

    Conclusão

    Exercícios

    6. Disputando Arquivos

    Exemplos de fonte de dados

    Pesquisa da Rede de Alerta de Abuso de Drogas (DAWN)

    Segurança Alimentar do Restaurante San Francisco

    Formatos de arquivo

    Formato delimitado

    Formato de largura fixa

    Formatos hierárquicos

    Formatos pouco estruturados

    Codificação de arquivo

    Tamanho do arquivo

    Trabalhando com grandes conjuntos de dados

    As ferramentas de shell e linha de comando

    Forma e Granularidade da Mesa

    Granularidade das Inspeções e Violações de Restaurantes

    Forma e granularidade do levantamento DAWN

    Resumo

    Capítulo 1. Perguntas e Escopo dos Dados

    Como cientistas de dados, usamos dados para responder a perguntas, e a qualidade do processo de coleta de dados pode afetar significativamente a validade e a precisão dos dados, a força das conclusões que tiramos de uma análise e as decisões que tomamos. Neste capítulo, descrevemos uma abordagem geral para entender a coleta de dados e avaliar a utilidade dos dados para abordar a questão de interesse. Idealmente, buscamos que os dados sejam representativos do fenômeno que estamos estudando, seja esse fenômeno uma característica populacional, um modelo físico ou algum tipo de comportamento social. Normalmente, nossos dados não contêm informações completas (o escopo é restrito de alguma forma), mas queremos usar os dados para descrever com precisão uma população, estimar uma quantidade científica, inferir a forma de uma relação entre características, ou prever resultados futuros. Em todas essas situações, se nossos dados não forem representativos do objeto de nosso estudo, nossas conclusões podem ser limitadas, possivelmente enganosas ou até erradas.

    Para motivar a necessidade de pensar sobre essas questões, começamos com um exemplo do poder do big data e o que pode dar errado [big datas]. Em seguida, fornecemos uma estrutura que pode ajudá-lo a conectar o objetivo do seu estudo (sua pergunta) com o processo de coleta de dados. Nós nos referimos a isso como o escopo de dados1, e fornecem terminologia para ajudar a descrever o escopo dos dados, juntamente com exemplos de pesquisas, dados governamentais, instrumentos científicos e recursos online. Mais adiante neste capítulo, consideraremos o que significa que os dados sejam precisos. Lá, apresentamos diferentes formas de viés e variação e descrevemos as condições em que elas podem surgir. Por toda parte, os exemplos cobrem o espectro dos tipos de dados que você pode estar usando como cientista de dados; esses exemplos são da ciência, eleições políticas, saúde pública e comunidades online.

    Big Data e novas oportunidades

    O tremendo aumento de dados disponíveis abertamente criou novos papéis e oportunidades na ciência de dados. Por exemplo, os jornalistas de dados procuram histórias interessantes nos dados, da mesma forma que os repórteres tradicionais procuram notícias. O ciclo de vida de dados para o jornalista de dados começa com a busca de dados existentes que possam ter uma história interessante, em vez de começar com uma questão de pesquisa e procurar como coletar dados novos ou usar dados existentes para abordar a questão.

    Projetos de ciência cidadã são outro exemplo. Eles envolvem muitas pessoas (e instrumentos) na coleta de dados. Coletivamente, esses dados são frequentemente disponibilizados aos pesquisadores que organizam o projeto e muitas vezes são disponibilizados em repositórios para que o público em geral possa investigar melhor.

    A disponibilidade de dados administrativos/organizacionais cria outras oportunidades. Os pesquisadores podem vincular dados coletados de estudos científicos com, digamos, dados médicos coletados para fins de saúde; em outras palavras, dados administrativos coletados por motivos que não decorrem diretamente da questão de interesse podem ser úteis em outros contextos. Essas ligações podem ajudar os cientistas de dados a expandir as possibilidades de suas análises e verificar a qualidade de seus dados. Além disso, os dados encontrados podem incluir rastros digitais, como sua atividade de navegação na web, postagens em mídias sociais e rede online de amigos e conhecidos, e podem ser bastante complexos.

    Quando temos grandes quantidades de dados administrativos ou rastros digitais expansivos, pode ser tentador tratá-los como mais definitivos do que os dados coletados de pesquisas tradicionais menores. Podemos até considerar esses grandes conjuntos de dados como um substituto para estudos científicos ou essencialmente um censo. Esse excesso de alcance é chamado de hubris do big data (Lazer et al. 2014). Dados com um escopo grande não significam que podemos ignorar questões fundamentais de quão representativos são os dados, nem podemos ignorar questões de medição, dependência e confiabilidade. Um exemplo bem conhecido é o sistema de rastreamento Google Flu Trends.

    Exemplo: Google Tendências da Gripe

    A epidemiologia digital, um novo subcampo da epidemiologia, aproveita dados gerados fora do sistema público de saúde para estudar padrões de doenças e dinâmicas de saúde em populações2O sistema de rastreamento Google Flu Trends (GFT) foi um dos primeiros exemplos de epidemiologia digital. Em 2007, os pesquisadores descobriram que contar as pesquisas que as pessoas faziam por termos relacionados à gripe poderia estimar com precisão o número de casos de gripe. Ele ganhou as manchetes e ajudou a deixar os pesquisadores empolgados com as possibilidades do big data. No entanto, a GFT não correspondeu às expectativas e foi abandonada em 2015.

    O que deu errado com a GFT? Afinal, ele usou milhões de rastros digitais de consultas on-line para termos relacionados à gripe para prever a atividade da gripe. Apesar do sucesso inicial, na temporada de gripe de 2011-2012, os cientistas de dados do Google descobriram que a GFT não era um substituto para dados mais tradicionalmente coletados dos relatórios de vigilância dos Centros de Controle de Doenças (CDC), coletados de laboratórios nos Estados Unidos. Em comparação, a GFT superestimou os números do CDC em 100 das 108 semanas (verFigura 1-1). Semana após semana, a GFT ficou muito alta para os casos de gripe, embora fosse baseada em big data.

    Images/GFTseries.png

    Figura 1-1. Estimativas semanais do Google Flu Trend (GFT) para doenças semelhantes à gripe. Por 108 semanas, a GFT (linha contínua) estimou os relatórios reais do CDC (linha tracejada) 100 vezes. Também são plotadas as previsões de um modelo baseado em dados do CDC de 3 semanas e tendências sazonais (linha pontilhada).

    Os cientistas de dados descobriram que a GFT não era um substituto para dados mais tradicionalmente coletados do CDC. Um modelo simples construído a partir de relatórios anteriores do CDC que usaram dados do CDC de 3 semanas e tendências sazonais fez um trabalho melhor de prever a prevalência da gripe do que a GFT. Ou seja, a GFT ignora informações consideráveis que poderiam ser extraídas por métodos estatísticos básicos. Isso não significa que o big data capturado da atividade online seja inútil. De fato, os pesquisadores mostraram que a combinação de dados de GFT com dados de CDC pode melhorar substancialmente tanto nas previsões de GFT quanto no modelo baseado em CDC (Lazer 2015). Muitas vezes, a combinação de diferentes abordagens leva a melhorias em relação aos métodos individuais.

    O exemplo da GFT nos mostra que, mesmo quando temos enormes quantidades de informações, as conexões entre os dados, o tópico da investigação e a pergunta que está sendo feita são primordiais. Compreender essa estrutura pode nos ajudar a evitar responder à pergunta errada, aplicar métodos inadequados aos dados e exagerar nossas descobertas.

    Na era do big data, somos tentados a coletar cada vez mais dados. Afinal, um censo nos dá informações perfeitas, então o big data não deveria ser quase perfeito? Um fator-chave a ter em mente é o escopo dos dados. Que população queremos estudar? Como podemos acessar informações sobre essa população? Quem ou o que estamos realmente estudando? As respostas a essas perguntas nos ajudam a ver possíveis lacunas em nossa abordagem. Este é o tema da próxima seção.

    População Alvo, Quadro de Acesso, Amostra

    Um passo inicial importante no ciclo de vida dos dados é expressar a pergunta de interesse no contexto da área de assunto e considerar

    Está gostando da amostra?
    Página 1 de 1