Aula 02
Aula 02
Aula 02
SUMÁRIO PÁGINA
1.Business Intelligence 2
2. Data Warehouse 4
2.1 Conceitos Básicos 4
2.2 Características do Data Warehouse 5
2.3 Data Marts 7
2.4 ETL 10
3. Ferramentas OLAP 14
3.1 Definição 14
3.2 Tabelas de fato e tabelas de dimensão 15
3.3 Modelagem (multi)dimensional: star e snow flake 17
3.4 Arquiteturas OLAP 20
3.5 Operações em OLAP 21
4. Data Mining (Mineração de Dados) 24
4.1 O Processo de Descoberta do Conhecimento em BDs(KDD) 24
4.2 Data Mining 26
4.3 CRISP-DM 32
Exercícios Comentados 41
Considerações Finais 93
Exercícios 94
Gabarito 125
Continuando nosso curso, vamos atacar mais alguns tópicos do edital. Para
estudar a modelagem dimensional, veremos sobre o DataWarehouse e as
ferramenas OLAP; e veremos também o Data Mining (mineração de dados),
entendendo suas principais caracterísiticas e o modelo CRISP-DM.
Aos estudos!
26072658512
26072658512
26072658512
26072658512
Abordagem Bottom Up
26072658512
26072658512
Transformação
Carga
Correto. São muitas as fontes de dados que podem ser trabalhadas com
26072658512
ferramentas ETL.
3.1 Definição
26072658512
Qual a margem de lucro para bicicletas em fevereiro? Esse é o tipo de pergunta que o OLAP vai
responder, em uma busca multidimensional no banco de dados (tempo, produto, margem de lucro)
26072658512
26072658512
26072658512
Considerações
Correto.
26072658512
Seleção
Processo que define quais serão os dados a serem trabalhados. Os
dados podem ser selecionados das mais diversas fontes de dados, tais
como: banco de dados relacional, arquivo texto legado, dentre outros.
Ainda, dentro do universo de dados selecionados, outras restrições podem
ser aplicadas.
Pré-processamento
Estágio de “limpeza dos dados”, por meio de remoção de
inconsistências, ajustes de formatos de dados, análise de outliers
(remover do universo dos dados ou considerá-los?).
Análise de outliers;
Remoção de ruídos ou dados espúrios;
Estimativa de dados faltantes por modelagem;
Formatação dos dados para a ferramenta específica;
Criação de atributos derivados e de novos registros;
Integração de tabelas;
Discretização de dados numéricos;
Transformação
Transformam-se os dados em formatos utilizáveis. Esta dependerá
da técnica data mining usada.
26072658512
Data mining
É a verdadeira extração dos padrões de comportamento dos dados.
Estudaremos à parte.
Interpretação e Avaliação
Identificados os padrões pelo sistema, estes serão interpretados em
conhecimentos, os quais darão suporte à tomada de decisões humanas.
26072658512
26072658512
Resposta: Certa.
Mineração de texto
Mineração de texto.
mesmas características;
3. Agrupar documentos usando temas em comum; por exemplo,
encontrar todos os clientes de uma companhia de seguro com
reclamações parecidas.
4.3 CRISP-DM
26072658512
Ciclo CRISP-DM.
26072658512
aos dados disponíveis para o Data Mining. Tal fase é crucial para evitar
problemas insperados na fase seguinte, a preparação dos dados.
2) Descrever os dados
3) Explorar os dados
26072658512
2) Limpar os dados
3) Construir os dados
4) Integrar os dados
4.3.4 Modeling
3) Executar o modelo
4) Avaliar o modelo
1) Avaliar resultados
2) Rever o processo
26072658512
1) Planejar a entrega
4) Rever o projeto
Avaliar o que “deu certo” e o que “deu errado”, o que foi bem feito e
o que precisa melhorar.
ftp://public.dhe.ibm.com/software/analytics/spss/documentation/mo
deler/14.2/en/CRISP_DM.pdf
http://www.sv-europe.com/crisp-dm-methodology/
Analisando as alternativas:
Correta!
26072658512
normalização originais.
Correto.
26072658512
Correto.
26072658512
Correto.
Correto.
Correto.
26072658512
Correto.
26072658512
Correto.
Errado! Não é possível aplicar o Data Mining em arquivos físicos, sem que
estes sejam carregados para o sistema.
Alternativa e).
d) a implantação de Governança em TI
a) I e II.
b) II e III.
c) I, III e IV.
d) I, II e III.
e) I e IV.
II. Errada. O Data Mining tem por objetivo encontrar padrões úteis em
bases de dados, não se relacionando com comparações de dados informados
pelo usuário.
IV. Correta.
(http://www.devmedia.com.br/mineracao-de-dados-data-warehouse-data-
mining-bi-e-olap-atraves-do-fastcube-revista-clubedelphi-146/26537)
26072658512
Alternativa d).
26072658512
A alternativa e), por fim, poderia até colocar uma dúvida na sua cabeça,
mas ela possui, na “ponta da linha”, um banco de dados multidimensional. Mas
um banco de dados multidimensional por si só não oferece análise e utilização
estratégica da informações. Quem possibilita isso é um Sistema OLAP.
Relembrando:
Alternativa a).
26072658512
Analisando as alternativas:
a) descrição.
b) agrupamento. 26072658512
c) visualização.
d) análise de outliers.
e) análise de associações.
a) Associação.
b) Classificação.
c) Avaliação.
d) Agregação.
e) Padrões sequenciais
Alternativa c).
26072658512
a) I e II
b) II e III
c) I e III
d) III e IV 26072658512
e) II e IV
a) I, apenas.
b) I e II, apenas.
c) I e III, apenas.
d) I, II e III.
e) II e III, apenas. 26072658512
da visão consolidada que a alta direção consegue ter da empresa, o gerente destaca que
a produtividade das equipes aumentou consideravelmente após a implementação da
solução de BI. “Em breve todos os funcionários − cada um com seu nível de permissão –
terão acesso à interface de dados de todo o grupo empresarial."
Abordagem Bottom Up
Assinale:
26072658512
26072658512
Qual a margem de lucro para bicicletas em fevereiro? Esse é o tipo de pergunta que o OLAP vai responder, em
uma busca multidimensional no banco de dados (tempo, produto, margem de lucro)
a) drill-across.
Alternativa e).
e) Outra frase que começa certa e termina falando nada com nada. As
dimensões são apenas atributos cujo enfoque é relevante para a análise
em questão.
26072658512
a) I e II, apenas.
b) III e IV, apenas.
c) I, II e III, apenas.
d) II, III e IV, apenas.
e) I, II, III e IV.
Analisando:
26072658512
a) matriz de dados.
b) lista ligada.
c) matriz hash.
d) milestone.
e) cubo de dados.
26072658512
Alternativa a).
no ambiente de DW.
Alternativa b).
Alternativa d).
a) um gráfico multidimensional.
b) uma esfera.
c) uma planilha.
d) um cubo.
26072658512
b) sua existência é incompatível com o uso dos sistemas legados, pois sua
tecnologia antiquada impede que estes sejam integrados em um sistema de data
warehousing.
a) ROLLUP. 26072658512
b) GROUP BY.
c) OLAPUP.
d) HAVING.
e) SELECT.
Alternativa a).
c) São voláteis.
e) Seus dados não podem ser alterados, mas podem ser excluídos.
26072658512
Não é bem assim! Ele é não volátil no sentido de não poderem ser
excluídos ou alterados dados válidos. Observou que o DW é variante no
tempo? Ora, se um DW guarda apenas informações dos últimos 10 anos de uma
empresa, o que acontece com os dados que ultrapassam esse período de
longevidade? Naturalmente, eles serão excluídos do DW, preferencialmente, com
o armazenamento de uma cópia de backup.
III. as categorias são definidas antes da análise dos dados. Pode ser
utilizada para identificar os atributos de um determinado grupo que fazem a
III. as categorias são definidas antes da análise dos dados. Pode ser
utilizada para identificar os atributos de um determinado grupo que fazem a
discriminação entre 3 tipos diferentes, por exemplo, os tipos de processos
judiciais podem ser categorizados como infrequentes, ocasionais e frequentes –
Eu pararia na frase sublinhada para marcar Classificação. Sua grande diferença
26072658512
26072658512
(C) volátil, em que os dados, após serem filtrados e limpos, podem sofrer
alterações, consulta e exclusão de cadastro que refletem nas bases de dados
originais.
(D) integrado, que visa padronizar os dados dos diversos sistemas em uma
única representação, para serem transferidos para a base de dados única do
DW.
atendida. Considere:
Analisando as alternativas:
Victor Dalton
26072658512
26072658512
26072658512
d) a implantação de Governança em TI
a) I e II.
b) II e III.
c) I, III e IV.
d) I, II e III.
e) I e IV.
26072658512
a) descrição.
b) agrupamento.
c) visualização.
d) análise de outliers.
e) análise de associações.
a) Associação.
b) Classificação.
c) Avaliação.
d) Agregação.
e) Padrões sequenciais
a) I e II
b) II e III
c) I e III
d) III e IV
e) II e IV
26072658512
a) I, apenas.
b) I e II, apenas.
c) I e III, apenas.
d) I, II e III.
e) II e III, apenas.
Assinale: 26072658512
a) I e II, apenas.
b) III e IV, apenas.
c) I, II e III, apenas.
d) II, III e IV, apenas.
e) I, II, III e IV.
a) matriz de dados.
b) lista ligada.
d) milestone.
e) cubo de dados.
a) um gráfico multidimensional.
b) uma esfera.
c) uma planilha.
d) um cubo.
b) sua existência é incompatível com o uso dos sistemas legados, pois sua
26072658512
a) ROLLUP.
b) GROUP BY.
c) OLAPUP.
d) HAVING.
e) SELECT.
alternativa correta.
c) São voláteis.
e) Seus dados não podem ser alterados, mas podem ser excluídos.
III. as categorias são definidas antes da análise dos dados. Pode ser
utilizada para identificar os atributos de um determinado grupo que fazem a
discriminação entre 3 tipos diferentes, por exemplo, os tipos de processos
judiciais podem ser categorizados como infrequentes, ocasionais e frequentes.
26072658512
(C) volátil, em que os dados, após serem filtrados e limpos, podem sofrer
alterações, consulta e exclusão de cadastro que refletem nas bases de dados
originais.
(D) integrado, que visa padronizar os dados dos diversos sistemas em uma
única representação, para serem transferidos para a base de dados única do
DW.
GABARITO CESPE
1.c 2.e 3.e 4.c 5.e 6.c 7.a 8.e 9.c 10.e
11.e 12.e 13.c 14.c 15.c 16.e 17.e 18.c 19.e 20.c
21.e 22.c 23.c 24.e 25.c 26.c 27.e 28.e 29.e 30.e
31.e 32.c 33.e 34.e 35.c 36.c 37.e 38.c 39.c 40.e
41.c 42.c 43.e 44.e 45.c 46.e 47.c 48.e 49.c 50.e
26072658512
1.e 2.e 3.b 4.e 5.d 6.d 7.a 8.e 9.e 10.d
11.c 12.c 13.b 14.e 15.c 16.b 17.b 18.b 19.a 20.a
21.d 22.a 23.e 24.a 25.a 26.e 27.a 28.e 29.b 30.d
31.d 32.d 33.a 34.a 35.e 36.b 37.a 38.d 39.d 40.c
41.c