Aula 02

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 126

Aula 02

Análise de Informações p/ TCE-SC - Auditor Fiscal de Controle Externo - Cargo 6 -


Informática

Professor: Victor Dalton


Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
AULA 02: Business Intelligence

SUMÁRIO PÁGINA
1.Business Intelligence 2
2. Data Warehouse 4
2.1 Conceitos Básicos 4
2.2 Características do Data Warehouse 5
2.3 Data Marts 7
2.4 ETL 10
3. Ferramentas OLAP 14
3.1 Definição 14
3.2 Tabelas de fato e tabelas de dimensão 15
3.3 Modelagem (multi)dimensional: star e snow flake 17
3.4 Arquiteturas OLAP 20
3.5 Operações em OLAP 21
4. Data Mining (Mineração de Dados) 24
4.1 O Processo de Descoberta do Conhecimento em BDs(KDD) 24
4.2 Data Mining 26
4.3 CRISP-DM 32
Exercícios Comentados 41
Considerações Finais 93
Exercícios 94
Gabarito 125

Olá amigos e amigas!

Continuando nosso curso, vamos atacar mais alguns tópicos do edital. Para
estudar a modelagem dimensional, veremos sobre o DataWarehouse e as
ferramenas OLAP; e veremos também o Data Mining (mineração de dados),
entendendo suas principais caracterísiticas e o modelo CRISP-DM.

Aos estudos!

26072658512

Observação importante: este curso é protegido por direitos


autorais (copyright), nos termos da Lei 9.610/98, que altera,
atualiza e consolida a legislação sobre direitos autorais e dá
outras providências.

Grupos de rateio e pirataria são clandestinos, violam a lei e


prejudicam os professores que elaboram os cursos. Valorize o
trabalho de nossa equipe adquirindo os cursos honestamente
através do site Estratégia Concursos ;-)

Prof. Victor Dalton


www.estrategiaconcursos.com.br 1 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
BUSINESS INTELLIGENCE

1. BUSINESS INTELLIGENCE (INTELIGÊNCIA DE NEGÓCIO)

Quando estudamos bancos de dados, nossa primeira preocupação é


conceituar dado, informação, conhecimento e inteligência.

O Banco de dados, como o próprio nome diz, é populado com dados,


que estão relacionados com alguma finalidade. As informações, em um
segundo momento, são depreendidas dos próprios dados, com certa
facilidade. Às vezes, a própria modelagem dos dados em um formato
apresentável já extrai informação.

Obter conhecimento, todavia, não é uma tarefa simples. Encontrar


padrões relevantes dentre milhares (ou mesmo milhões) de registros em
bases de dados distintas, de modo a subsidiar decisões de negócio
(inteligência) é um verdadeiro desafio empresarial. Nesse contexto,
surge a Business Intelligence.

Business Intelligence (BI) pode ser traduzido como inteligência de


negócios, ou inteligência empresarial. Isto significa que é um método que
visa ajudar as empresas a tomar decisões inteligentes, por meio de dados
e informações recolhidas por diversos sistemas de informação.

26072658512

Prof. Victor Dalton


www.estrategiaconcursos.com.br 2 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

Sendo assim, BI é uma tecnologia que permite às empresas


transformar dados guardados nos seus sistemas em Informação
qualitativa e importante para a tomada de decisão. Há uma forte
tendência de que os produtos que compõem o sistema de BI de uma
empresa passem provenham funções extras que auxiliem na tomada de
decisões, como, por exemplo, ferramentas de Data Mining.

Ou seja, BI é um conjunto de técnicas, métodos e ferramentas


que subsidiam o processo de decisão de uma empresa.

26072658512

Sistemas de apoio à Decisão (ou suporte à Decisão) costumam


combinar diversas dessas técnicas, métodos e ferramentas para suportar
a Inteligência do Negócio.

Estudaremos, a seguir, uma ferramenta (repositório de dados)


chamada DataWarehouse, e uma técnica de descoberta de padrões
úteis, o Data Mining.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 3 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
2. DATA WAREHOUSE

2.1 Conceitos Básicos

Um Data Warehouse, ou armazém de dados, ou ainda depósito


de dados, é um repositório de informações colhidas de várias
origens, armazenadas sob um esquema unificado, em um único
local. Quando reunidos, os dados são armazenados por muito tempo,
permitindo o acesso a dados históricos. Ainda, o desenho da base de
dados favorece os relatórios, a análise de grandes volumes de dados e a
obtenção de informações estratégicas que podem facilitar a tomada de
decisão.

O Data Warehouse possibilita a análise de grandes volumes de


dados, coletados dos sistemas transacionais (OLTP). São as chamadas
26072658512

séries históricas que possibilitam uma melhor análise de eventos


passados, oferecendo suporte às tomadas de decisões presentes e a
previsão de eventos futuros. Por definição, os dados em um data
warehouse não são voláteis, ou seja, eles não mudam, salvo quando é
necessário fazer correções de dados previamente carregados. Os dados
estão disponíveis somente para leitura e não podem ser alterados.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 4 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

A ferramenta mais popular para exploração de um data warehouse é


a Online Analytical Processing OLAP ou Processo Analítico em Tempo
Real, mas muitas outras podem ser usadas, como o Data Mining.

Atualmente, por sua capacidade de sumarizar e analisar grandes


volumes de dados, o data warehouse é o núcleo dos sistemas de
informações gerenciais e apoio à decisão das principais soluções
de business intelligence do mercado.

2.2 Características do Data Warehouse

O Datawarehouse possui 4 características marcantes. São elas:

Não-volátil: Diferentemente de um Banco de Dados operacional, o


Datawarehouse apenas recebe informações. Exclusões ou alterações
26072658512

ocorrem apenas para a correção de dados inseridos com erro.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 5 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

Integrado: Um Datawarehouse deve ser integrado, ou seja,


trabalha de forma a globalizar e aproveitar os termos e as estruturas
técnicas que são utilizados nos sistemas de informações tradicionais. Por
exemplo, na representação de sexo, um Datawarehouse manipula todas
as formas seguintes: “m” ou “f”, “0” ou “1”, “x” ou “y”, “macho” ou
“fêmea”, “homem” ou “mulher”, “dama” ou “cavalheiro”.

26072658512

Prof. Victor Dalton


www.estrategiaconcursos.com.br 6 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

Orientado por assuntos: Um DW sempre armazena dados


importantes sobre temas específicos da empresa e conforme o interesse
das pessoas que irão utilizá-lo. Bancos de dados operacionais tratam de
estoques, entradas e saídas de materiais. DW trata de clientes, vendas e
produtos.
Por exemplo, uma empresa pode trabalhar com vendas de produtos
alimentícios no varejo e ter o seu maior interesse ser o perfil de seus
compradores. Portanto, o DW será voltado para as pessoas que compram
seus produtos e não para os produtos que ela vende.

Variante no tempo: A variação em relação ao tempo consiste na


manutenção de um histórico de dados em relação ao período de tempo
maior que dos sistemas comuns. Ao analisarmos um dado de um DW, o
mesmo sempre estará relacionado a um período determinado de tempo,
pois terá uma chave de tempo que irá indicar o dia no qual esses dados
foram extraídos.

1) (CESPE – TJ/SE – Programação de Sistemas – 2014) Os dados


armazenados em um DataWarehouse devem estar integrados,
temporalmente identificados, orientados ao assunto e devem ser
protegidos, de modo a se evitar o acesso do usuário.

Errado! As três primeiras características estão corretas, mas a última


26072658512

seria não-volatilidade, que implica em não mudar os dados depois de


inseridos. Proibição de acesso não faz sentido, pois, sem visualizar os
dados, pra quê eles servem? 

2.3 Data Marts

Um Data Mart pode ser considerado um “mini DataWarehouse”.


Entretanto, ao invés de englobar uma empresa, um data mart envolverá
apenas um determinado setor (Administração, Marketing, RH),
possibilitando uma especialização maior por ocasião da extração do

Prof. Victor Dalton


www.estrategiaconcursos.com.br 7 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
conhecimento. Ainda, Date (Introdução a Sistemas de Bancos de Dados)
diz que os Data Marts podem ser voláteis. Segundo o autor:

“Por especializado entende-se que o Data Mart (ferramenta OLTP)


possui uma estrutura baseada em um ambiente, tema, situação, área,
setor ou aplicação específica, enquanto o DW (ferramenta OLAP) se
baseia em várias fontes de diversas aplicações, fontes e situações para
facilitar um suporte a decisão gerencial.

Por volátil, entende-se que os dados do Data Mart são alterados


frequentemente, enquanto os do DW, por guardarem histórico, só são
alterados quando uma carga foi feita de forma errada, mas não
frequentemente como em um data mart (que é baseado em aplicações).”

Existem duas abordagens para os relacionamentos Data Mart/Data


Warehouse: a topdown e a bottom up.

Abordagem Bottom Up

26072658512

Na abordagem bottom up, a organização prefere iniciar seu


repositório de dados pela criação dos Data Marts, para posteriormente
criar o Data Warehouse. Os Data Marts são menos complexos e custos, e
a integração acontece posteriormente.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 8 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

Abordagem Top Down

Na abordagem top down, a organização cria inicialmente o Data


Warehouse, para depois criar seus Data Marts, mais especializados.
Solução típica de organizações mais maduras, e que podem arcar com os
elevados custos inicais da implantação de um DW.

2) (CESPE – ANATEL – Analista – Tecnologia da Informação e


Comunicação – 2014) Um data mart é uma reunião de vários data
warehouses, a fim de fornecer visão mais ampla dos dados.

Errado! Um Data Warehouse até pode ser a reunião de vários Data


26072658512

Marts, mas afirmar o contrário é absurdo.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 9 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
2.4 Extração, Transformação e Carga

Se você prestou atenção nas imagens sobre sistemas de apoio à


decisão, deve ter percebido que a alimentação de um DataWarehouse
envolve, antes, o trabalho de ETL (extração, transformação e carga dos
dados).

ETL, na prática, são ferramentas de software cuja função é a


extração de dados de diversos sistemas, transformação desses
dados conforme regras de negócios e, por fim, a carga dos dados
em um Data Mart ou um Data Warehouse. A extração e carga são
26072658512

obrigatórias para o processo, sendo a transformação/limpeza opcional. É


considerada uma das fases mais críticas do Data Warehouse e/ou Data
Mart.

Os projetos de data warehouse consolidam dados de diferentes


fontes. A maioria dessas fontes tendem a ser bancos de dados relacionais
ou arquivo de texto (texto plano), mas podem existir outras fontes.

Tais fontes podem possuir dados estruturados, como os dados


relacionados a um SGBD. Estes dados possuem marcações que definem o
seu tipo e sua descrição. São dados organizados logicamente em uma

Prof. Victor Dalton


www.estrategiaconcursos.com.br 10 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
estrutura previamente projetada, tal como um esquema de banco de
dados.

Por outro lado, os dados não-estruturados são dados sem uma


estrutura definida. São caracterizados por textos, imagens, vídeos, e a
maioria das dos dados na Web e nas empresas encontram-se neste
formato.

Por fim, uma corrente não consolidada entende que cabe a


classificação de dados semiestruturados para as informações que
possuem algum esquema de representação, mesmo que não estejam
ligados a um SGBD. Sua descrição estaria implícita nos próprios dados, o
que os caracteriza como autodescritivos. São exemplos deste tipo de
dados os arquivos RDF (Resource Description Framework), OWL (Web
Ontology Language) e XML (eXtensible MArkup Language), estes últimos
mais conhecidos.

Dica do professor: se, em sua questão de prova, não houver margem


para classificar um dado como semiestruturado, classifique-o como não
estruturado. Dados estruturados foram montados sob uma
estrutura de SGBD, o que não é o caso dos arquivos XML, OWL e RDF.

Um sistema ETL tem que ser capaz de se comunicar com as bases de


dados e ler diversos formatos de arquivos utilizados por toda a
organização. Essa pode ser uma tarefa não trivial, e muitas fontes de
dados podem não ser acessadas com facilidade.

26072658512

Prof. Victor Dalton


www.estrategiaconcursos.com.br 11 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
Extração

A primeira parte do processo de ETL é a extração de dados dos


sistemas de origem. Esses sistemas de origem podem ser: sistemas
legados, bancos de daods em diferentes formatos (Oracle, DB2, Sql
Server), outros sistemas corporativos, informações públicas
disponíveis em sites web, dentre outros.
Cada sistema pode também utilizar um formato ou organização de
dados diferente. Formatos de dados comuns são bases de dados
relacionais e flat files (também conhecidos como arquivos planos), mas
podem incluir estruturas de bases de dados não relacionais, como o IMS
ou outras estruturas de dados, como VSAM ou ISAM. A extração converte
para um determinado formato para a entrada no processamento da
transformação.

Transformação

O estágio de transformação aplica uma série de regras ou funções


aos dados extraídos para derivar os dados a serem carregados. Algumas
fontes de dados necessitarão de muito pouca manipulação de dados. Em
outros casos, podem ser necessários um ou mais de um dos seguintes
tipos de transformação:

 Seleção de apenas determinadas colunas para carregar (ou a


seleção de nenhuma coluna para não carregar);
 Tradução de valores codificados (se o sistema de origem
armazena 1 para sexo masculino e 2 para feminino, mas o data
warehouse armazena M para masculino e F para feminino, por
exemplo);
 Codificação de valores de
26072658512

forma livre (mapeando


“Masculino”,“1” e “Sr.” para M, por exemplo);
 Derivação de um novo valor calculado (montante_vendas =
qtde * preço_unitário, por exemplo);
 Junção de dados provenientes de diversas fontes;
 Resumo de várias linhas de dados (total de vendas para cada
loja e para cada região, por exemplo);
 Geração de valores de chaves substitutas (surrogate keys);
 Transposição ou rotação (transformando múltiplas colunas em
múltiplas linhas ou vice-versa);
 Limpeza dos dados, ajustando valores não permitidos, erros de
ortografia, dentre outros;

Prof. Victor Dalton


www.estrategiaconcursos.com.br 12 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
 Quebra de uma coluna em diversas colunas (como por
exemplo, colocando uma lista separada por vírgulas e
especificada como uma cadeia em uma coluna com valores
individuais em diferentes colunas).

Carga

A fase de carga carrega os dados no Data Warehouse. Dependendo


das necessidades da organização, este processo varia amplamente.
Alguns data warehouses podem substituir as informações existentes
semanalmente, com dados cumulativos e atualizados, ao passo que outro
DW (ou até mesmo outras partes do mesmo DW, conhecidos como Data
Marts) podem adicionar dados a cada hora. A temporização e o alcance de
reposição ou acréscimo constituem opções de projeto estratégicas que
dependem do tempo disponível e das necessidades de negócios. Sistemas
mais complexos podem manter um histórico e uma pista de auditoria de
todas as mudanças sofridas pelos dados.

3) (CESPE – ANTAQ – Analista - Infraestrutura de TI – 2014) O


Módulo de ETL (extract transform load), dedicado à extração, carga e
transformação de dados, coleta informações em fontes como sistemas
ERP, arquivos com extensão TXT e planilhas Excel.

Correto. São muitas as fontes de dados que podem ser trabalhadas com
26072658512

ferramentas ETL.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 13 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
3. FERRAMENTAS OLAP

3.1 Definição

OLAP é um termo utilizado para descrever a análise de dados


complexos a partir do Data Warehouse. Esta tecnologia permite aos
analistas de negócios, gerentes e executivos analisar e visualizar dados
corporativos de forma rápida, consistente e interativa.

A funcionalidade OLAP é inicialmente caracterizada pela análise


dinâmica e multidimensional dos dados consolidados de uma
organização, permitindo que as atividades do usuário final sejam tanto
analíticas quanto navegacionais. Esta tecnologia geralmente é
implementada em ambiente multiusuário e cliente/servidor, oferecendo
assim respostas rápidas às consultas adhoc (construção de listagens,
interligando a informação disponível na base de dados conforme as
necessidades especificas da empresa, assim como a sua exportação,
possibilitando várias simulações), não importando o tamanho do banco de
dados nem sua complexidade. Essa tecnologia auxilia o usuário a
sintetizar informações corporativas por meio de visões comparativas e
personalizadas, análises históricas, projeções e elaborações de cenários.

26072658512

Qual a margem de lucro para bicicletas em fevereiro? Esse é o tipo de pergunta que o OLAP vai
responder, em uma busca multidimensional no banco de dados (tempo, produto, margem de lucro)

Prof. Victor Dalton


www.estrategiaconcursos.com.br 14 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

3.2 Tabelas de fato e tabelas de dimensão

Na modelagem multidimensional temos 2 tipos principais de tabelas:


tabelas de fato e tabelas de dimensão.

As tabelas contendo dados multidimensionais são denominadas


tabelas de fatos, e normalmente, são muito grandes.

Fatos são normalmente cercados por um grande contexto textual


(dimensões). Fatos são muito específicos, tem atributos numéricos muito
bem definidos. Em contraste, o contexto textual que cerca as tabelas de
fatos é mais aberto. Não é raro para o modelador adicionar contextos
(dimensões) para um conjunto de fatos durante o trabalho de
implementação. A palavra "fato" representa uma medida dos processos
que estamos modelando, como quantidades, valores e indicadores. A
tabela de fatos registra os fatos que serão analisados. É composta por
uma chave primária (formada por uma combinação única de valores de
chaves de dimensão, todas chaves estrangeiras) e pelas métricas de
interesse para o negócio.

Embora o modelador possa amarrar todo o contexto dentro de uma


grande lógica associada com cada fato, ele normalmente achará mais
conveniente (e intuitivo) dividir o contexto em grupos independentes.
Quando você grava fatos (ex.: vendas de um determinado produto em
um mês), você naturalmente divide o contexto em grupos: produtos,
loja, tempo, cliente, caixa e diversos outros. Nós chamamos essa
divisão de grupos de dimensões e assumimos informalmente que essas
dimensões são independentes, ligadas a um fato (no nosso exemplo, fato
26072658512

VENDA). A figura abaixo dá um exemplo grosseiro de modelo dimensional


para um fato venda.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 15 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

Portanto, fica mais adequado (e reduz os espaços de


armazenamento), modelar a tabela de fatos com estas dimensões sendo
tratadas à parte. Para tal, os atributos dimensionais da tabela de fatos
serão chaves estrangeiras para as chamadas tabelas de dimensão.

As tabelas de dimensão delimitam o universo de cada dimensão. Na


tabela Cliente (Customer), por exemplo, ficarão registrados todos os
clientes da base de dados. Na tabela Produto, guardam-se todas as
informações acerca da base de produtos. A tabela de fatos “apenas” faz o
registro, de uma compra, realizada, por um cliente, em uma loja, de um
produto, em um dado momento.

26072658512

3.2.1 Atributos na tabela de fatos

Os atributos mais comuns em uma tabela de fatos são valores


numéricos. Estes valores são, em sua maioria, aditivos. As métricas
aditivas são as que permitem operações como adição, subtração e média
de valores por todas as dimensões, em quaisquer combinações de
registros, como "total de itens vendidos" por combinação de data, produto
e loja. Métricas aditivas são importantes porque normalmente as
aplicações de data warehouse não retornam uma linha da tabela de fatos,
mas sim centenas, milhares e até milhões.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 16 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
Existem também métricas não-aditivas e métricas semi-aditivas. As
métricas não-aditivas são valores que não podem ser manipulados
livremente, como valores percentuais ou relativos. Para esses valores, os
cálculos devem ser realizados nos dados absolutos nos quais se baseiam.
Exemplos de métricas não-aditivas são preço de custo e preço de venda
de um produto em uma venda. Por fim, as métricas semi-aditivas são
valores que não podem ser somados em todas as dimensões. Por
exemplo: numa tabela com o registro diário do saldo bancário dos clientes
de uma agência, não faz sentido somar os saldos bancários diários de um
cliente durante um mês, mas pode-se somar os saldos de todos os
clientes de uma agência em determinada data.

4) (CESPE – ANTAQ – Analista – Sistemas e Negócios – 2014) Em


uma modelagem multidimensional, as métricas são armazenadas na
tabela fato, independentemente de estarem em um modelo Estrela ou
Star Schema, podendo ser aditiva, correspondente a valores que podem
ser aplicados às operações de soma, subtração e média, ou não aditiva,
correspondente a valores percentuais, ou relativos, que não podem ser
manipulados livremente.

Correto. Definição apropriadas das métricas aditivas e não-aditivas.

26072658512

3.3 Duas formas de modelagem multidimensional: esquemas


Estrela e Floco de Neve

O Modelo Estrela (Star Schema)

No modelo estrela todas as tabelas relacionam-se diretamente com a


tabela de fatos. Sendo assim, as tabelas dimensionais devem conter
todas as descrições que são necessárias para definir uma classe como
Produto, Tempo ou Loja nela mesma (veja exemplo na figura abaixo). Em
suma, as tabelas de dimensões são desnormalizadas no modelo estrela.
Por consequência, deteminados campos como Categoria, Departamento,

Prof. Victor Dalton


www.estrategiaconcursos.com.br 17 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
Marca conterão suas descrições repetidas em cada registro, assim,
aumentando o tamanho das tabelas de dimensão por repetirem estas
descrições de forma textual em todos os registros.

Este modelo é chamado de estrela porque a tabela de fatos fica ao


centro cercada das tabelas dimensionais assemelhado a uma estrela. Mas
o ponto forte a fixar é que as dimensões não são normalizadas.

O Modelo Floco de Neve (Snow Flake)

No modelo Floco as tabelas dimensionais relacionam-se com a tabela


de fatos, mas algumas dimensões relacionam-se apenas entre elas. Isto
ocorre para fins de normalização das tabelas dimensionais, visando
diminuir o espaço ocupado por estas tabelas. Informações como
Categoria, Departamento e Marca tornar-se-ão, no exemplo, tabelas de
dimensões auxiliares.

26072658512

Prof. Victor Dalton


www.estrategiaconcursos.com.br 18 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
No modelo Floco existem tabelas de dimensões auxiliares que
normalizam as tabelas de dimensões principais. Na figura anterior, Ano,
Mês e Dia são tabelas que normalizam a Dimensão Tempo, ao passo que
Categoria, Departamento e Marca normalizam a Dimensão Produto e
a tabela Meio normaliza a Dimensão Promoção.

Construindo a base de dados desta forma, passamos a utilizar mais


tabelas para representar as mesmas dimensões, mas ocupando um
espaço em disco menor do que o modelo estrela. Este modelo chama-se
floco de neve, pois cada dimensão se divide em vaias outras tabelas,
onde organizadas de certa forma lembra um floco de neve.

Considerações

O Modelo Floco (Snow Flake) reduz o espaço de armazenamento dos


dados dimensionais mas acrescenta várias tabelas ao modelo, deixando-o
mais complexo, tornando mais difícil a navegação pelos softwares que
utilizarão o banco de dados. Um outro fator é que mais tabelas serão
utilizadas para executar uma consulta, então mais JOINS de instrução
SQL serão feitos, tornando o acesso aos dados mais lento do que no
modelo estrela.

O Modelo Estrela (Star Schema) é mais simples e mais fácil de


navegação pelos softwares, porém desperdiça espaço repetindo as
mesmas descrições ao longo de toda a tabela. Porém, análises mostram
que o ganho de espaço normalizando este esquema resulta em um ganho
inferior a 1% do espaço total no banco de dados. Isto posto, cabe analisar
outros fatores mais importantes para serem avaliados para redução do
espaço em disco, como a adição de agregados e alteração na
granularidade dos dados, por exemplo.
26072658512

Dica do professor: Se você sentir muita insegurança para definir a


tabela de fatos e as tabelas de dimensão, procure identificar a tabela com
mais chaves estrangeiras. QUASE SEMPRE esta será a tabela de fatos.
A tabela de fatos, por conter conteúdos de dimensões diferentes, precisa
ter de chaves estrangeiras que se relacionem com as chaves primárias
das tabelas de dimensão, que, via de regra, apenas discriminam o
“conteúdo” de uma dimensão. Além disso, a cardinalidade da tabela de
fatos normalmente é o “n” da relação (1:n).

Prof. Victor Dalton


www.estrategiaconcursos.com.br 19 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

5) (CESPE – SUFRAMA – Analista – Tecnologia da Informação –


2014) Na modelagem, o esquema estrela é um refinamento em que
parte da hierarquia dimensional é normalizada em um conjunto de tabelas
dimensão menores, de forma similar a um floco de neve.

Errado! Esse é o próprio esquema floco de neve, ou snowflake.

3.4 Arquiteturas OLAP

A análise multidimensional é uma das grandes utilidades da


tecnologia OLAP, consistindo em ver determinados cubos de informações
de diferentes ângulos e de vários níveis de agregação. Os “cubos” são
massas de dados que retornam das consultas feitas ao banco de dados e
podem ser manipulados e visualizados por inúmeros ângulos e diferentes
níveis de agregação.

Conforme o método de armazenamento de dados utilizado para uma


aplicação OLAP, será elaborada a arquitetura da aplicação. Os métodos de
armazenamento de dados, são MOLAP, ROLAP, DOLAP e HOLAP. Cada um
deles tem uma função específica e deve ser utilizada quando melhor
26072658512

atender às necessidades de análise pela ferramenta de OLAP.

No MOLAP (Multidimensional On-Line Analytical Processing)


os dados são armazenados de forma multidimensional (como se fosse um
cubo de dados). Sua implementação varia de acordo com a sua
ferramenta de OLAP, mas é frequentemente implementado em um banco
de dados relacional, porém não na terceira forma normal. Além disto o
acesso aos dados ocorre diretamente no banco de dados do servidor
multidimensional. Os gerenciadores de banco de dados têm um limite
prático quanto ao tamanho físico de dados que eles podem manipular. As
restrições de armazenamento e desempenho limitarão o tamanho do

Prof. Victor Dalton


www.estrategiaconcursos.com.br 20 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
banco de dados, não esquecendo o limite das dimensões que também
restringem sua manipulação. A complexidade que existe no processo de
carga de um banco de dados multidimensional, pode acarretar a demora
no processo. O processo de carga é complexo devido a série de cálculos
que devem ser realizados para agregar os dados às dimensões e
preencher as estruturas do banco. Depois do processo concluído, ainda é
realizado uma série de mecanismos para melhorar a capacidade de
pesquisa.

Já no ROLAP (Relational On-Line Analytical Processing) os


dados são armazenados no modelo relacional como também suas
consultas são processadas pelo gerenciador do banco relacional.

Por outro lado, o DOLAP (Desktop On-Line Analytical


Processing) é uma variação que existe para fornecer portabilidade dos
dados, uma vez que o conjunto de dados multidimensional é criado no
servidor e transferido para o desktop. A vantagem que oferece esta
arquitetura é a redução do tráfico na rede.

Existem também arquiteturas híbridas como a HOLAP (Hybrid On-


Line Analytical Processing), na qual ocorre uma combinação entre
ROLAP e MOLAP. A vantagem é que com a mistura de tecnologias pode-se
extrair o que há de melhor de cada uma, a alta performance do MOLAP e
a escalabilidade do ROLAP.

Dentre as arquiteturas mais recentes, podemos citar a WOLAP


(Web On-Line Analytical Processing), que dispara suas consultas via
navegador web para o servidor, que por sua vez retorna enviando o cubo
processado de volta, para que possa ser analisado pelo usuário.
26072658512

3.5 Operações em OLAP

Ao navegar-se pelos cubos OLAP, diversas são as operações possíveis


para a visualização da informação que se busca. Essas operações
recebem diversos nomes, a saber:

Drill Down: O Drill Down ocorre quando o usuário aumenta o nível


de detalhe da informação, diminuindo o grau de granularidade, como
passar de semestre para trimestre.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 21 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

Drill Up (ou Roll Up): O Drill Up é o contrário do Drill Down. Ele


ocorre quando o usuário aumenta o grau de granularidade, diminuindo o
nível de detalhamento da informação, como passar de mês para
trimestre.

Drill Across: O Drill Across ocorre quando o usuário visualiza


informações oriundas de múltiplos esquemas (ou seja, mais de uma
tabela fato), por meio de dimensões comuns. Por exemplo: imagine dois
esquemas, VENDASONLINE e VENDASNALOJA, e você fazendo uma
pesquisa para saber quais foram os clientes que mais compraram na
empresa. O Drill Across conseguiria extrair essa informação em um JOIN
dimensional, extraindo a dimensão cliente e seus atributos, comuns a
ambos os esquemas.

Drill Throught: O Drill Throught é conceitualmente similar a um drill


down, mas, para buscar a informação com mais detalhes, ele precisa
adentrar em outra estrutura, além do cubo. Por exemplo: a tabela de
fatos possui apenas informações genéricas sobre produtos, e então a
ferramenta consegue entrar em outra estrutura, além do cubo
dimensional, e acessar diretamente as notas fiscais de venda, trazendo
informações mais detalhadas.

Slice And Dice: São duas operações distintas. A operação slice


(fatiar) seleciona dados de uma única dimensão de um cubo ao passo que
a operação dice (do inglês “dado”) extrai um subcubo do cubo, efetuando
uma operação de seleção sobre duas ou mais dimensões do mesmo.

Cross-join: O Cross-join é um recurso no qual dados são unidos e


colunas e linhas são invertidas, permitindo uma melhor visualização sob a
26072658512

ótica do negócio. Por exemplo:

Cross-join. Modificou-se o foco do Cliente para o Produto.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 22 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
Pivot: O Pivot é similar ao cross-join, mas envolve somente a
rotação do cubo, sem a junção dos dados.

Alertas: Os Alertas são utilizados para indicar situações de destaque


em elementos dos relatórios, baseados em condições envolvendo objetos
e variáveis. Servem para indicar valores mediante condições mas não
para isolar dados pelas mesmas.

Ranking: A opção de ranking permite agrupar resultados por ordem


de maiores / menores, baseado em objetos numéricos (Measures). Esta
opção impacta somente uma tabela direcionada (relatório) não afetando a
pesquisa (Query).

Filtros: Os dados selecionados por uma Query podem ser


submetidos a condições para a leitura na fonte de dados. Os dados já
recuperados pelo Usuário podem ser novamente “filtrados” para facilitar
análises diretamente no documento.

Sorts: Os sorts servem para ordenar uma informação. Esta


ordenação pode ser customizada, crescente ou decrescente.

Breaks: Os Breaks servem para separar o relatório em grupos de


informações (blocos). Por exemplo: O usuário tem a necessidade de
visualizar a informação por cidades, então ele deve solicitar um Break.
Após esta ação ter sido executada, automaticamente o relatório será
agrupado por cidades, somando os valores mensuráveis por cidades.

Consultas Ad-Hoc: São consultas com acesso casual único e


tratamento dos dados segundo parâmetros nunca antes utilizados,
geralmente executado de forma iterativa e heurística.
26072658512

6) (CESPE – ANTAQ – Analista – Sistemas e Negócios – 2014) Na


recuperação e visualização de dados em um Data Warehouse, o drill
trought ocorre quando o usuário visualiza a informação contida de uma
dimensão para outra dimensão.

Correto.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 23 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
4. DATA MINING (MINERAÇÃO DE DADOS)

4.1 O Processo de Descoberta do Conhecimento em BDs


(KDD)

O Data Mining pode fazer parte de um processo maior, chamado


Processo de Descoberta do Conhecimento em Bancos de Dados (KDD).
Como o próprio nome diz, e, dentro do nosso contexto, este processo está
diretamente relacionado à Inteligência de Negócios, pois compreende a
descoberta de padrões úteis em Bases de Dados.

Fayyad et al (1996) afirmam que o KDD é composto por cinco fases,


a saber:

26072658512

Seleção
Processo que define quais serão os dados a serem trabalhados. Os
dados podem ser selecionados das mais diversas fontes de dados, tais
como: banco de dados relacional, arquivo texto legado, dentre outros.
Ainda, dentro do universo de dados selecionados, outras restrições podem
ser aplicadas.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 24 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

Pré-processamento
Estágio de “limpeza dos dados”, por meio de remoção de
inconsistências, ajustes de formatos de dados, análise de outliers
(remover do universo dos dados ou considerá-los?).

Exs: O sexo de um paciente gestante (informação desnecessária)


Reconfiguração dos dados para assegurar formatos consistentes
(dados que distinguem sexo por “F” ou “M”, e dados que distinguem por
“M” ou “H”)

Algumas técnicas de pré-processamento conhecidas são:

 Análise de outliers;
 Remoção de ruídos ou dados espúrios;
 Estimativa de dados faltantes por modelagem;
 Formatação dos dados para a ferramenta específica;
 Criação de atributos derivados e de novos registros;
 Integração de tabelas;
 Discretização de dados numéricos;

Transformação
Transformam-se os dados em formatos utilizáveis. Esta dependerá
da técnica data mining usada.

Exs: Rede neural, que converte valor literal em valor numérico


Disponibilização os dados de maneira usável e navegável.

26072658512

Data mining
É a verdadeira extração dos padrões de comportamento dos dados.
Estudaremos à parte.

Interpretação e Avaliação
Identificados os padrões pelo sistema, estes serão interpretados em
conhecimentos, os quais darão suporte à tomada de decisões humanas.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 25 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

4.2 Data Mining

Data Mining, como o nome indica, se refere à mineração ou a


descoberta de informações em função de padrões ou regras em grande
quantidade de dados, sejam elas bases de dados convencionais ou não.

O DM utiliza técnicas de inteligência artificial que procuram relações


de similaridade ou discordância entre dados.

Seu objetivo é encontrar, automaticamente, padrões, anomalias e


regras com o propósito de transformar dados, aparentemente ocultos, em
informações úteis para a tomada de decisão e/ou avaliação de resultados.

26072658512

Esta mineração pode utilizar várias técnicas para a descoberta de


conhecimento. Vejamos algumas:

Associação: Explicando de forma bem simples, é enxergar alguma


forma de relação entre variáveis (do tipo X influencia Y). Ex: Idade
influencia valor do carro comprado.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 26 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
Descrição de classes: provê um resumo conciso e sucinto de uma
coleção de dados e a distingue de outras. O resumo de uma coleção de
dados é chamado de caracterização de classe; enquanto a comparação
entre duas ou mais coleções de dados é chamada comparação ou
discriminação de classe. A descrição de classe não só deveria cobrir suas
propriedades de resumo tal como a contagem, somas, e cálculos de
médias, mas também suas propriedades sobre a dispersão dos dados, tais
como a variância, desvio padrão, quartis, dentre outros;

Classificação: É o processo de encontrar um modelo que descreve


classes diferentes de dados (por exemplo, “ensinar” ao sistema quais
clientes bancários são de risco alto, médio e baixo, por meio de alguns
registros, e, a partir deste ponto, a mineração por si só será capaz de
classificar o restante da base de dados).

26072658512

Agrupamento(clustering): Similar à classificação, porém sem


supervisão (o sistema por si só sendo capaz de criar grupos).

Descoberta de padrões sequenciais: Envolve a descoberta de


informações relevantes com base na sequência dos registros. Exemplo, o

Prof. Victor Dalton


www.estrategiaconcursos.com.br 27 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
sistema descobrir que se o cliente compra pão, é provável que também
compre leite;

Descoberta de padrões em séries temporais: Descoberta de


informações relevantes com base na época dos registros. Exemplo, o
sistema descobrir que as vendas de guarda-chuva caem em determinados
meses do ano, “coincidentemente” na época da seca;

Regressão: a análise de diversas variáveis para prever uma


próxima. Por exemplo, ver os exames de um paciente e calcular a
probabilidade de sobrevivência a uma cirurgia, com base no histórico de
pacientes operados.

Redes neurais: é uma extensão da regressão (regressão


generalizada), utilizando princípios da inteligência artificial;
26072658512

Algoritmos genéticos: são técnicas de busca utilizadas na ciência


da computação para achar soluções aproximadas em problemas de
otimização e busca, sendo uma classe particular de algoritmos evolutivos
que usam técnicas inspiradas pela biologia evolutiva como
hereditariedade, mutação, seleção natural e recombinação.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 28 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
EXEMPLO CLÁSSICO DA APLICAÇÃO DE DATA MINING!

Todo professor conta essa historinha ao falar de Data Mining, rs.


O Walmart, na década de 90, descobriu que homens casados, entre
25 e 30 anos, compravam fraldas e/ou cervejas às sextas-feiras à
tarde no caminho do trabalho para casa. Assim sendo, a rede otimizou às
gôndolas nos pontos de vendas, colocando as fraldas ao lado das
cervejas, e o consumo de ambos os produtos cresceu 30%. Cá entre
nós, uma associação entre fraldas e cervejas não é intuitiva. É o tipo de
coisa que o Data Mining pode revelar!

Ainda, as Lojas Brasileiras, antes de encerrarem suas operações, em


1999, aplicaram 1 milhão de dólares em técnicas de data mining,
reduzindo de 51000 produtos para 14000 produtos oferecidos em suas
lojas. Como exemplo de anomalias detectadas, encontraram roupas de
inverno e guarda chuvas encalhados no Nordeste, bem como
batedeiras 110v à venda em SC, onde a corrente é 220v. Se tivessem
aplicado o DM antes, provavelmente não teriam falido....

7) (CESPE – TCDF – Analista de Administração Pública – Sistemas


de TI – 2014) Com o uso da classificação como técnica de Data Mining,
busca-se a identificação de uma classe por meio de múltiplos atributos.
Essa técnica também pode ser usada em conjunto com outras técnicas de
mineração de dados.
26072658512

A classificação é a separação por classes de um determinado conjunto


de dados, cujos atributos de seleção foram previamente definidos. E nada
impede que outras técnicas sejam utilizadas em conjunto, para otimizar a
descoberta de conhecimento.

Resposta: Certa.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 29 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
COMPARAÇÃO – DATA MINING x DATA WAREHOUSE

Data Mining Data Warehouse

Técnica de BI que extrai padrões Repositório histórico de dados,


úteis em bancos de dados montado de forma a facilitar a
extração de conhecimento

Pode ser aplicado em bancos de Diversas ferramentas podem ser


dados comuns, sistemas legados, e utilizadas sobre um Data
também em Data Warehouse Warehouse, como ferramenas
(onde, provavelmente, melhores OLAP, geradores de relatórios e
resultados serão obtidos) Data Mining

Ambas estão inseridas no contexto de Business Intelligence, com


o objetivo de extrair conhecimento útil para a tomada de decisões
empresariais!

8) (CESPE – TJ/SE – Programação de Sistemas – 2014) Um


DataWarehouse provê uma excelente base para a realização de
DataMining, pois os algoritmos de DataMining demandam grandes
quantidades de dados em nível detalhado; o DataMining tira vantagem de
bases de dados que estejam integradas e limpas; e a infraestrutura
necessária para a criação de um DataWarehouse atende às necessidades
das operações de DataMining.

Correto. O “melhor dos mundos” é fazer o Data Mining sobre um Data


Warehouse. 26072658512

Prof. Victor Dalton


www.estrategiaconcursos.com.br 30 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

Mineração de texto

A mineração de texto é realizada sobre documentos, que


raramente estão estruturados, exceto aqueles que possuem templates e
formulários.

Mineração de texto.

A mineração de texto ajuda na realização das seguintes tarefas:

1. Encontrar importantes conteúdos de documentos, incluindo


relacionamentos úteis adicionais;
2. Relacionar documentos em setores ainda não analisados; por
exemplo, descobrir se clientes de dois setores diferentes têm as
26072658512

mesmas características;
3. Agrupar documentos usando temas em comum; por exemplo,
encontrar todos os clientes de uma companhia de seguro com
reclamações parecidas.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 31 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

4.3 CRISP-DM

Cross Industry Standard Process for Data Mining, ou Processo


Padrão Inter-Indústrias para Mineração de Dados é um modelo de
processo de Mineração de Dados, tarimbado pela indústria (não-
proprietário), para guiar os esforços de Data Mining nas organizações.

Como uma metodologia, inclui descrições de fases típicas de um


projeto, as tarefas envolvidas em cada fase, e uma explicação dos
relacionamentos entre essas tarefas;

Como um modelo de processos, provê uma visão do ciclo de vida


do Data Mining.

O ciclo de vida consiste em seus fases com setas indicando as


dependências mais importantes e frequentes entre fases. A sequência
entre as fases não é restrita. Na verdade, a maioria dos projetos andam
“para trás e para frente” entre fases, à medida que é necessário fazê-lo.

O CRISP-DM, essencialmente, é um modelo de quatro níveis,


movendo-se do mais genérico (as fases), passando por tarefas genéricas,
realizando o mapeamento em tarefas especializadas e instâncias de
processo.

26072658512

Prof. Victor Dalton


www.estrategiaconcursos.com.br 32 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
Vejamos, agora, as fases do CRISP-DM, e o que há de mais
importante em cada uma delas.

Ciclo CRISP-DM.

4.3.1 Business Understanding

A primeira fase do CRISP-DM é o entendimento do negócio. Tal


fase divide-se em quatro tarefas genéricas:

26072658512

1) Determinar os objetivos do negócio

Afinal, é necessário entender o que o cliente quer alcançar, em uma


perspectiva de negócio. Os clientes podem ter objetivos conflitantes e
restrições que dever ser balanceadas adequadamente.

Saídas: objetivos definidos, definição de um plano de projeto e


definição dos critérios de sucesso do negócio.

2) Avaliando a situação (atual)

Prof. Victor Dalton


www.estrategiaconcursos.com.br 33 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
Uma vez que os objetivos estão definidos, é necessário avaliar em
que pé se encontra a organização. Perguntas como “que dados estão
disponíveis para análise”, “temos a equipe para tocar esse projeto”,
“quais são os riscos envolvidos” e “temos um plano de contingência para
cada risco” são apropriadas neste momento.

Saídas: inventário de recursos, requisitos, premissas e restrições,


riscos e contingências, terminologia, custos e benefícios.

3) Determinar os objetivos do Data Mining

Projeção dos objetivos do negócio nos termos técnicos do Data


Mining.

Saídas: critérios de sucesso do projeto, critérios de sucesso do Data


Mining.

4) Produzir o Plano de Projeto

Nesse ponto, escreve-se o plano para o projeto de Data Mining.

Saídas: plano de projeto, avaliação inicial das ferramentas e


técnicas.

4.3.2 Data Understanding

O entendimento dos dados envolve uma observação mais atenta


26072658512

aos dados disponíveis para o Data Mining. Tal fase é crucial para evitar
problemas insperados na fase seguinte, a preparação dos dados.

Novamente, veremos quatro tarefas genéricas:

1) Coletar dados iniciais

Será necessário adquirir os dados (ou acessar os dados) listados nos


recursos do projeto. Caso seja necessária uma ferramenta específica para
a compreensão dos dados, essa etapa pode envolver a carga inicial dos
dados nesta ferramenta.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 34 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
Saídas: relatório da coleta de dados inicial.

2) Descrever os dados

Descrição dos dados, focada na quantidade e na qualidade dos dados


– o quanto está disponível e a condição inicial dos dados. Algo do tipo:
“foram coletados 30000 registros de 200 tabelas contendo os seguintes
campos:...”

Saídas: relatório de descrição dos dados.

3) Explorar os dados

Navegação inicial pelos dados, já utilizando técnicas de visualização,


pesquisa e relatórios. Essa análise pode estar direcionada aos objetivos
do Data Mining, bem como podem contribuir para o refinamento da
descrição dos dados, ou mesmo alimentar a transformação e/ou outros
passos necessários em análises posteriores.

Saídas: relatório da exploração dos dados.

4) Verificar a qualidade dos dados

Examinar a qualidade dos dados. Eles estão completos? Possuem


erros?

Saídas: relatório da qualidade dos dados.

26072658512

4.3.3 Data Preparation

A preparação dos dados é a etapa mais importante e a que mais


consome tempo no Data Mining. Estima-se que 50 a 70% de todo o
esforço do projeto seja empreendido nesta fase. Cabe ressaltar, ainda,
que o êxito das etapas anteriores evita o retrabalho neste momento
crítico do processo.

Também são quatro as tarefas genéricas desta etapa:

Prof. Victor Dalton


www.estrategiaconcursos.com.br 35 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
1) Selecionar os Dados

Decidir quais serão os dados utilizados na análise, com base nos


objetivos do DM, qualidade dos dados e restrições técnicas (como, por
exemplo, volume ou tipo dos dados). Tal seleção pode envolver colunas e
linhas das tabelas.

Saídas: lista de inclusão/exclusão.

2) Limpar os dados

Aumentar a qualidade dos dados para o nível exigido pelas técnicas


de análises de dados. Pode envolver a seleção de subconjunto dos dados,
ou até mesmo técnicas mais ambiciosas como a estimativa de dados
ausentes por modelagem.

Saídas: relatório de limpeza dos dados.

3) Construir os dados

Produzir os atributos derivados ou os novos registros ou os valores


transformados de atributos existentes.

Saídas: atributos derivados, registros criados.

4) Integrar os dados

Utilizar os métodos que combinam múltiplas bases de dados, tabelas


ou registros para criar novos valores ou registros.
26072658512

Saídas: dados integrados, agregações.

4.3.4 Modeling

Na modelagem é que todo o trabalho das etapas anteriores começa


a “ser pago”. Normalmente, é conduzida em múltiplas etapas.
Tipicamente, “data miners” executam vários modelos utilizando
parâmetros default, para então refiná-los até encontrar o modelo favorito.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 36 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
Dificilmente uma pergunta de Data Mining poderá ser respondida com um
único modelo em uma única execução.

As quatro tarefas genéricas desta etapa são:

1) Selecionar a técnica de modelagem

Selecionar a técnica a ser utilizada (naquela iteração). Se múltiplas


técnicas foram selecionadas, realizar essa tarefa de forma separada para
cada técnica

Saídas: técnica de modelagem, premissas do modelo.

2) Gerar caso de teste

Antes de executar o modelo, é necessário criar um procedimento


para testar a validade e qualidade do modelo.

Saídas: caso de teste.

3) Executar o modelo

Executar o modelo escolhido sobre a base de dados (realização do


Data Mining propriamente dito).

Saídas: configurações de parâmetro, modelos, descrições de


modelo.
26072658512

4) Avaliar o modelo

Interpretar os modelos conforme o conhecimento, os critérios de


sucesso do Data Mining e o caso de teste. Julgar o sucesso (ou falha) da
aplicação tecnicamente, e discutir o resultado no contexto do negócio.
Comparar os resultados produzidos pelas diferentes técnicas.

Saídas: avaliação do modelo, configurações de parâmetro revisadas.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 37 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
4.3.5 Evaluation

Na avaliação, a maior parte do projeto de Data Mining está


concluída. Já se sabe quais modelos são tecnicamente corretos e efetivos
de acordo com os critérios de sucesso do Data Mining.

Agora, é o momento de avaliar os resultados conforme os critérios


de sucesso do negócio, estabelecidos no início do projeto.

As três tarefas genéricas desta etapa são:

1) Avaliar resultados

Avaliar o(s) modelo(s) quanto à precisão e abrangência. Verificar se


o(s) modelo(s) atende aos objetivos do negócio e se há alguma razão no
negócio para o modelo ser eficiente.

Saídas: avaliação dos resultados do Data Mining, modelos


aprovados.

2) Rever o processo

Mesmo que os modelos sejam satisfatórios e atendam às


necessidades do negócio, cabe uma avaliação mais profunda, em busca
de fatores ou tarefas que passaram desapercebidos.

Saídas: revisão do processo.

26072658512

3) Determinar próximos passos

A depender das etapas anteriores, a equipe do projeto pode decidir


se vai partir para a entrega, para mais iterações ou realizar outros
projetos de Data Mining. Claro, tal tarefa envolve a análise dos recursos
remanescentes e orçamento, que pode pesar na decisão.

Saídas: lista de ações possíveis, decisão.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 38 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
4.3.6 Deployment

A entrega é o processo de utilização das descobertas do Data Mining


para fazer melhorias na organização. De forma alternativa, a entrega
pode servir para levantar requisitos de mudanças na organização.

As quatro tarefas genéricas desta etapa são:

1) Planejar a entrega

Determinar a estratégia de entrega, com base na avaliação dos


resultados.

Saídas: plano de entrega.

2) Planejar monitoramento e manutenção

Definir o monitoramento e a manutenção, uma vez que as entregas


do DM incorporarão o dia-a-dia da empresa organização.

Saídas: plano de monitoramento e manutenção.

3) Produzir relatório final

Sumário do projeto e suas experiências, ou mesmo uma


apresentação final dos resultados.

Saídas: relatório final, apresentação final.


26072658512

4) Rever o projeto

Avaliar o que “deu certo” e o que “deu errado”, o que foi bem feito e
o que precisa melhorar.

Saídas: lições aprendidas (documentação de experiência).

Prof. Victor Dalton


www.estrategiaconcursos.com.br 39 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
COMPARAÇÃO KDD e CRISP-DM

Já pensou em comparar processo de Descoberta de Conhecimento


(KDD) de Fayyad com o CRISP-DM? Acredito que teríamos algo do tipo:

Esta comparação não tem intenção nenhuma de ser um “gabarito”


para você. Apenas serve para mostrar que, seja no KDD ou no CRISP-DM,
o Data Mining exige preparação e organização para ser bem executado, e
passos que são lógicos.
26072658512

Como fontes complementares de seu estudo sobre CRISP-DM,


sugiro:

ftp://public.dhe.ibm.com/software/analytics/spss/documentation/mo
deler/14.2/en/CRISP_DM.pdf

http://www.sv-europe.com/crisp-dm-methodology/

Enfim, finalizamos a parte de BI. Não deixe de ver os exercícios!

Prof. Victor Dalton


www.estrategiaconcursos.com.br 40 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
EXERCÍCIOS CESPE

1ª Questão) (CESPE – Banco Central – Analista – Análise e


Desenvolvimento de Sistemas – 2013) Inteligência de negócios
(business intelligence) refere-se aos processos de obtenção de
informações válidas a partir de dados oriundos de fontes diversas (ERPs,
CRMs, sistemas legados etc.), que serão utilizados para apoiar decisões
de negócios.

Correto. Sistemas Integrados de Gestão Empresarial (ERPs),


Sistemas de Gestão de Relacionamento com o Consumidor (CRMs),
sistemas legados, bancos de dados, a Internet, Data Warehouses, dentre
outros, podem ser fontes para a obtenção de dados para fundamentar
decisões de negócios.

2ª Questão) (CESPE – SERPRO – Analista – Negócios em


Tecnologia da Informação – 2013) Clusterização é a tarefa preditiva
relativa à identificação de um conjunto finito de categorias empregadas
para descrever uma informação. Essas categorias nunca poderão ser
mutuamente exclusivas.

Errado! A clusterização, embora descrita de maneira excessivamente


técnica, está correta. Entretanto, nada impede que as categorias
levantadas sejam mutuamente exclusivas. Pelo contrário. Quando isso
ocorre, os grupos são melhores definidos, concorda?
26072658512

3ª Questão) (CESPE – Banco Central – Analista – Análise e


Desenvolvimento de Sistemas – 2013) Data warehouse (DW) e data
mart (DM) são componentes importantes em um ambiente de business
intelligence, visto que eles representam repositórios de múltiplos bancos
de dados operacionais da empresa. Um DM agrega informações de
diversos DWs distribuídos pelos departamentos da empresa.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 41 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
Errado! Apenas porque, na sentença final, a banca troca DM e DW,
colocando uma pegadinha pro candidato.

4ª Questão) (CESPE – MPOG – Categoria Profissional 2 –


Tecnologia da Informação - 2013) Em ETL, frequentemente, é
necessário limpar, ajustar e consolidar os dados antes de realizar sua
carga. Nesse estágio de transformação, aplicam-se regras ou funções aos
dados extraídos para ajustar os dados a serem carregados. A limpeza
trata de vários tipos de erros, como, por exemplo, valores ilegais, ou que
não obedeçam às regras de integridade da base, e erros de ortografia.

Correto. A limpeza pode ser realizada durante a transformação,


antes da carga dos dados.

5ª Questão) (CESPE – ANTT – Analista Administrativo –


Desenvolvimento de Sistemas da Informação - 2013) Ferramentas
ETL são utilizadas na extração, transformação e remoção de dados.

Errado! E – extração; T – transformação; L – carga!

6ª Questão) (CESPE – TCDF – Analista de Administração Pública


– Sistemas de TI – 2014) Com o uso da classificação como técnica de
Data Mining, busca-se a identificação de uma classe por meio de múltiplos
atributos. Essa técnica também pode ser usada em conjunto com outras
26072658512

técnicas de mineração de dados.

Correto. A classificação é a separação por classes de um


determinado conjunto de dados, cujos atributos de seleção foram
previamente definidos. E nada impede que outras técnicas sejam
utilizadas em conjunto, para otimizar a descoberta de conhecimento.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 42 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
7ª Questão) (CESPE – TRE/MS – Analista Judiciário – Análise de
Sistemas – 2013) No que se refere a arquiteturas e aplicações de data
warehousing, ETL, Olap e data mining, assinale a opção correta.

a) As ferramentas Olap agregam recursos de armazenamento,


gerenciamento e pesquisa de dados, os quais são primordialmente
voltados para a tomada de decisões e BI (business intelligence).

b) Um sistema ETL, que faz parte do processo de construção de um


data warehouse, por ser voltado para a tomada de decisões, utiliza
unicamente a DSL (decision support language), não suportando a SQL
(structured query language).

c) Em uma modelagem multidimensional do tipo snow flake, as


métricas ficam inseridas nas dimensões.

d) Em comparação com o ambiente transacional, o ambiente de data


warehouse, devido à carga de dados com o ETL, deve estar mais voltado
para inserção e atualização de dados do que para consultas.

e) Data mining é um conjunto de técnicas e ferramentas que


permitem obter valores futuros a partir de dados passados processados
estaticamente. Data mining substitui o data warehouse em relação à
tomada de decisão, pois ambos possuem os mesmos recursos.

Analisando as alternativas:

a) As ferramentas Olap agregam recursos de armazenamento,


gerenciamento e pesquisa de dados, os quais são primordialmente
voltados para a tomada de decisões e BI (business intelligence). –
26072658512

Correta!

b) Um sistema ETL, que faz parte do processo de construção de um


data warehouse, por ser voltado para a tomada de decisões, utiliza
unicamente a DSL (decision support language), não suportando a SQL
(structured query language). – Errado. O SQL pode ser utilizado para a
montagem de Bases de Dados também orientadas à decisão.

c) Em uma modelagem multidimensional do tipo snow flake, as


métricas ficam inseridas nas dimensões. – Errado. As métricas ficam na
tabela de fatos, enquanto as tabela de dimensões explicam as métricas.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 43 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
d) Em comparação com o ambiente transacional, o ambiente de data
warehouse, devido à carga de dados com o ETL, deve estar mais voltado
para inserção e atualização de dados do que para consultas. – Errado. Os
Data Warehouses são orientados à consultas apenas, enquanto os bancos
relacionais são otimizados para inserção e atualização dos dados.

e) Data mining é um conjunto de técnicas e ferramentas que


permitem obter valores futuros a partir de dados passados processados
estaticamente. Data mining substitui o data warehouse em relação à
tomada de decisão, pois ambos possuem os mesmos recursos. – Errado.
Data Mining é um conjunto de técnicas e ferramentas para encontrar
padrões úteis em bases de dados, possibilitando a descoberta de
conhecimento. Data Minings não substituem Data Warehouses. Este é
um repositório de dados, enquanto aquele é um conjunto de ferramentas
e técnicas.

8ª Questão) (CESPE – INPI – Analista – Gestão de


TI/Desenvolvimento e Manutenção de Sistemas – 2013) Um Data
Mart pode ser considerado, na visão bottom-up, uma reunião de vários
Data Mining, desde que estes sejam desenvolvidos em modelos
multidimensionais (MDM).

Errado! Confusão total de conceitos. Em uma visão bottm-up, um


Data Warehouse pode ser considerado uma reunião de vários Data
Marts. Data Mining é um conjunto de ferramentas e técnicas, não
participa dessa abordagem.

26072658512

9ª Questão) (CESPE – CRPM – Analista em Geociências –


Sistemas – 2013) A fase de modelagem de um data mining agrega a
seleção e aplicação das técnicas sobre os dados selecionados. Inúmeras
técnicas podem ser empregadas para obtenção de padrões úteis, como
por exemplo, a PMML (predictive model mark-up language), que objetiva,
via schemas XML, a definição para modelos encontrados em associações,
modelos de regressão e clustering.

Correto. PMML é uma linguagem baseada em XML para a descrição


de modelos encontrados em Data Mining.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 44 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

10ª Questão) (CESPE – MPE/PI – Analista Ministerial –


Informática: cargo 6 – 2012) Na construção de um data warehouse, o
processo extract, transform and load (ETL), normalmente, é o menos
crítico e o mais rápido. Esse processo envolve a extração dos dados, na
sua transformação, e, eventualmente, influencia na limpeza desses
dados.

Errado! Dizer que o ETL é o processo mais rápido da construção de


um DW é uma brincadeira de mal gosto. Alimentar um DW com fontes
heterogêneas sem dúvidas é muito custoso e trabalhoso.

11ª Questão) (CESPE – Banco da Amazônia – Técnico Científico


– Redes e Telecomunicações – 2012) A exploração de dados com
OLAP requer a extração da informação original para um data warehouse e
não pode ser realizada diretamente em bases de dados relacionais.

Errado! Embora a utilização de ferramentas OLAP tenha seu melhor


resultado sobre Data Marts e Data Warehouses, é possível sua utilização
sobre bancos de dados relacionais.

12ª Questão) (CESPE – Banco da Amazônia – Técnico Científico


– Redes e Telecomunicações – 2012) O processo de extração,
transformação e carga (ETL) permite extrair dados de diversas fontes de
dados e migrá-los para o data warehouse, mantendo sua estrutura e
26072658512

normalização originais.

Errado! O objetivo do ETL justamente é modificar a estrutura e


normalização, para otimizar a orientação da base de dados ao processo
decisório.

13ª Questão) (CESPE – Banco da Amazônia – Técnico Científico


– Redes e Telecomunicações – 2012) Os modelos de dados usados no
data warehouse são frequentemente constituídos por modelos
Prof. Victor Dalton
www.estrategiaconcursos.com.br 45 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
dimensionais, em que um mesmo dado pode ser fisicamente gravado
mais de uma vez. Entre as razões de esses modelos serem utilizados,
destaca-se o aumento do desempenho em consultas a grandes volumes
de dados associados a realizações de uma dimensão do modelo.

Correto. Quando a questão cita o fato de um mesmo dado poder ser


gravado mais de uma vez, ele aborda a questão da desnormalização dos
dados, o que pode implicar na repetição de conteúdo gravado. Como
consequência positiva, aumenta-se o desempenho em consultas, já que a
desnormalização evita a busca em múltiplas tabelas.

14ª Questão) (CESPE – Correios – Analista de Correios –


Desenvolvimento de Sistemas – 2011) As ferramentas de software
ETL (extract transform load) têm como função a extração de dados de
diversos sistemas, a transformação desses dados de acordo com as
regras de negócio e a carga dos dados em um data mart ou um DW.

Correto.

15ª Questão) (CESPE – Correios – Analista de Correios –


Desenvolvimento de Sistemas – 2011) Toda estrutura de dados no
DW tem um elemento de tempo – como dia, mês ou ano – como
referência.

26072658512

Correto. O Data Warehouse é variante no tempo. Como


consequência, toda sua estrutura deve ser dimensionada de modo a
guardar dados temporais, uma vez que a variável tempo é de
fundamental importância para a extração de informações relevantes para
a tomada de decisão.

16ª Questão) (CESPE – Correios – Analista de Correios –


Desenvolvimento de Sistemas – 2011) Em um ambiente data
warehouse (DW), é possível a análise de grandes volumes de dados, os
quais ficam disponíveis para serem alterados e manipulados pelo usuário.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 46 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

Errado! O DW é não-volátil, e não deve permitir a atualização e


modificação dos dados pelo usuário.

17ª Questão) (CESPE – Correios – Analista de Correios –


Desenvolvimento de Sistemas – 2011) Ferramentas OLAP (online
analytical processing) permitem a navegação pelos dados de um DW, o
que possibilita a realização de pesquisas e apresentação de informações.
Por meio de um processo drill down, por exemplo, um relatório
consolidado de vendas mensal poderá ser preparado de forma que as
informações sejam dispostas por trimestre, por semestre, por ano, e
assim sucessivamente.

Errado! Um drill down deveria permitir a visualização por semana,


ou diária, tomando como referência o mês. A operação ilustrada foi o roll
up.

18ª Questão) (CESPE – Correios – Analista de Correios –


Desenvolvimento de Sistemas – 2011) Inteligência empresarial, ou
business inteligence, é um termo utilizado para descrever as habilidades
das corporações para coletar dados e explorar informações, analisá-las e
desenvolver entendimentos para tomada de melhores decisões.

Correto.
26072658512

19ª Questão) (CESPE – Correios – Analista de Correios –


Desenvolvimento de Sistemas – 2011) Na modelagem dimensional,
que pode ser usada para a construção de um DW, forma-se, basicamente,
uma tabela central e tabelas dimensões diretamente ligadas a essa tabela
central. O star schema, que atua nesse contexto, tem a característica de
ser normalizado, exigindo excessivo espaço em disco, já que são
necessárias diversas informações em cada linha das tabelas.

Errado! Sentença 95% correta. O único equívoco é dizer que o


modelo Star é normalizado. Por não permitir que tabelas de dimensão se

Prof. Victor Dalton


www.estrategiaconcursos.com.br 47 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
relacionem com tabelas de dimensão, o Star schema é bastante
desnormalizado. Todo o restante está correto.

20ª Questão) (CESPE – TRT/21ª Região – Analista Judiciário –


Tecnologia da Informação – 2010) O data mining é um processo
automático de descoberta de padrões, de conhecimento em bases de
dados, que utiliza, entre outros, árvores de decisão e métodos bayesianos
como técnicas para classificação de dados.

Correto. O Data Mining também pode ser semiautomático, o que


não torna a assertiva incorreta.

21ª Questão) (CESPE – TRE/BA – Técnico Judiciário –


Programação de Sistemas – 2010) A ferramenta OLAP (on-line
analytical processing) permite realizar as operações slice, dice e pivot
sobre uma estrutura multidimensional. A operação slice fixa o valor de
uma dimensão e recupera os valores das demais dimensões; a operação
dice intercambia dimensões permitindo diferentes visualizações dos
dados; e a operação pivot fixa o valor de duas ou mais dimensões e
recupera os valores das demais.

Errado! Mistura de conceitos. Na operação slice, são selecionadas as


dimensões; na dice,são amarrados valores para algumas dimensões; no
pivot, linhas e colunas são invertidas.
26072658512

22ª Questão) (CESPE – TRE/BA – Técnico Judiciário –


Programação de Sistemas – 2010) Diferentemente de datamining,
que não possibilita a interação do usuário na busca por informações úteis,
o OLAP permite ao usuário extrair informações de um data warehouse ou
de um datamart, de forma customizada e interativa.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 48 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
Correto. Por isso o Data Mining e o OLAP não são ferramentas
excludentes, ambas possuem finalidades e formas de interação do usuário
bem distintas.

23ª Questão) (CESPE – MPU – Analista de Informática – Perito


– 2010) Em um sistema OLAP, as estratégias de desnormalização de
tabelas e a redundância de dados são requerimentos para a otimização de
consultas. A estratégia star schema relaciona uma tabela-fato a diversas
tabelas-dimensões.

Correto.

24ª Questão) (CESPE – MPU – Analista de Informática – Banco


de Dados – 2010) A tecnologia Data Mining, que, atualmente, está
totalmente integrada aos SGBD, permite a descoberta de informações,
por meio de padrões ou regras existentes em banco de dados de grande
volume, quando não se conhece o esquema do banco de dados.

Errado! Navathe afirma em seu livro Sistemas de Bancos de Dados


que “embora alguns recursos de mineração de dados estejam sendo
fornecidos em SGBD, ela não é bem integrada aos sistemas de
gerenciamento de banco de dados”. Além disso, é necessário que a
ferramenta de DM conheça o esquema do banco de dados para operar
sobre ele.
26072658512

25ª Questão) (CESPE – MPU – Analista de Informática – Banco


de Dados – 2010) A tecnologia de DW tem como objetivos a extração
eficiente, o processamento e a apresentação analítica de dados para
suporte à decisão gerencial. Essa tecnologia utiliza o online analytical
processing (OLAP) para a análise de dados complexos.

Correto.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 49 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

26ª Questão) (CESPE – EMBASA – Analista de Saneamento –


Tecnologia da Informação/Desenvolvimento – 2010) Data mining é
o processo de extração de conhecimento de grandes bases de dados,
sendo estas convencionais ou não, e que faz uso de técnicas de
inteligência artificial.

Correto.

27ª Questão) (CESPE – EMBASA – Analista de Saneamento –


Tecnologia da Informação/Desenvolvimento – 2010) Denomina-se
OLAP (on-line analytical processing) o processo de busca e coleta,
organização e análise, compartilhamento e monitoramento de
informações que oferecem suporte à gestão de negócios. – pegadinha

Errado! Pegadinha da banca! Essa é definição literal de Business


Intelligence. Tudo bem que o OLAP, por estar inserido no contexto de BI,
também tenha por objetivo os mesmos objetivos do BI, mas, para essa
prova, o CESPE quis aprontar. Na literalidade, OLAP é o software cuja
tecnologia de construção permite aos analistas de negócios, gerentes e
executivos analisar e visualizar dados corporativos de forma rápida,
consistente e interativa.

28ª Questão) (CESPE – Banco da Amazônia – Técnico Científico


– Análise de Sistemas – 2010) Um data mart é uma reunião de vários
26072658512

data warehouses, a fim de fornecer visão mais ampla dos dados.

Errado! É o contrário! Um DW pode ser a reunião de vários Data


Marts.

29ª Questão) (CESPE – ANATEL – Analista – Suporte e


Infraestrutura de TI – 2014) No processo de Data Mining (mineração
de dados), é indispensável o uso de técnica conhecida como Data

Prof. Victor Dalton


www.estrategiaconcursos.com.br 50 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
Warehousing, uma vez que a mineração de dados deve ocorrer
necessariamente em estruturas não normalizadas (FN0).

Errado! O DataWarehouse é bem-vindo, pois os melhores resultados


de um Data Mining são obtidos sobre uma base limpa e bem organizada.
Porém, o Data Mining pode ser aplicado em outras bases de dados.

30ª Questão) (CESPE – ANATEL – Analista – Tecnologia da


Informação e Comunicação – 2014) O processamento analítico online
(OLAP) é adequado para a descoberta de padrões e relacionamentos em
dados corporativos e para a inferência de regras que prevejam o efeito de
decisões gerenciais.

Errado! Quando se fala de descoberta de padrões, a primeira coisa


que deve vir à sua cabeça é Data Mining.

31ª Questão) (CESPE – ANATEL – Analista – Tecnologia da


Informação e Comunicação – 2014) Para viabilizar o processo de
inteligência de negócio, é necessário o uso de um Data Warehouse.

Errado! Não existe obrigação de se usar um Data Warehouse para


viabilizar a Inteligência do Negócio. Existem ferramentas de BI até
26072658512

mesmo no Microsoft Excel.

32ª Questão) (CESPE – ANATEL – Analista – Tecnologia da


Informação e Comunicação – 2014) Em um Data Warehouse
(armazém de dados) que apresente a característica de ser não volátil, os
dados não são atualizados após a inserção inicial.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 51 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
Correto. No mundo ideal, o DW é não-volátil, e, como tal, os dados
não devem ser atualizados, a não ser que seja para corrigir erros.

33ª Questão) (CESPE – ANATEL – Analista – Tecnologia da


Informação e Comunicação – 2014) Um data mart é uma reunião de
vários data warehouses, a fim de fornecer visão mais ampla dos dados.

Errado! Um Data Warehouse até pode ser a reunião de vários Data


Marts, mas afirmar o contrário é absurdo.

34ª Questão) (CESPE – ANATEL – Técnico em Regulação –


2014) As ferramentas de business inteligence são consideradas
ferramentas do tipo OLTP (online transaction processing).

Errado! Ferramentas de BI são ferramentas OLAP, que fazem


processamento analítico online.

35ª Questão) (CESPE – ANTAQ – Analista - Infraestrutura de TI


– 2014) O Módulo de ETL (extract transform load), dedicado à extração,
carga e transformação de dados, coleta informações em fontes como
sistemas ERP, arquivos com extensão TXT e planilhas Excel.
26072658512

Correto. São muitas as fontes de dados que podem ser trabalhadas


com ferramentas ETL.

36ª Questão) (CESPE – ANTAQ – Analista - Infraestrutura de TI


– 2014) Em um processo de descoberta do conhecimento, um Data
Prof. Victor Dalton
www.estrategiaconcursos.com.br 52 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
Mining executado para atingir uma meta pode falhar nas classes de
predição, de identificação, de classificação e de otimização.

Correto. O Data Mining não é garantia de descobrir padrões úteis de


dados sempre. Ele pode falhar.

37ª Questão) (CESPE – ANTAQ – Analista - Infraestrutura de TI


– 2014) Na modelagem de dados de um Data Warehouse, a mudança de
uma hierarquia dimensional para outra é facilmente realizada em cubos
de dados, por meio da técnica de roteamento.

Errado! Para se navegar na hierarquia das dimensões, ou seja,


aumentar ou diminuir o nível de detalhe da informação, deve-se utilizar
as técnicas de drill down ou roll up.

38ª Questão) (CESPE – ANTAQ – Analista – Sistemas e


Negócios – 2014) Em uma modelagem multidimensional, as métricas
são armazenadas na tabela fato, independentemente de estarem em um
modelo Estrela ou Star Schema, podendo ser aditiva, correspondente a
valores que podem ser aplicados às operações de soma, subtração e
média, ou não aditiva, correspondente a valores percentuais, ou relativos,
que não podem ser manipulados livremente.

26072658512

Correto. Definição apropriadas das métricas aditivas e não-aditivas.

39ª Questão) (CESPE – ANTAQ – Analista – Sistemas e


Negócios – 2014) Na recuperação e visualização de dados em um Data
Warehouse, o drill trought ocorre quando o usuário visualiza a informação
contida de uma dimensão para outra dimensão.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 53 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
Correto.

40ª Questão) (CESPE – SUFRAMA – Analista – Tecnologia da


Informação – 2014) Na modelagem, o esquema estrela é um
refinamento em que parte da hierarquia dimensional é normalizada em
um conjunto de tabelas dimensão menores, de forma similar a um floco
de neve.

Errado! Esse é o próprio esquema floco de neve, ou snowflake.

41ª Questão) (CESPE – SUFRAMA – Analista – Tecnologia da


Informação – 2014) As estruturas e os atributos das tabelas, a
especificação do modelo de dados, as rotinas comuns de acesso a dados e
o logging de extrações compõem os metadados de um datawarehouse.

Correto.

42ª Questão) (CESPE – TJ/SE – Programação de Sistemas –


2014) Um DataWarehouse provê uma excelente base para a realização
de DataMining, pois os algoritmos de DataMining demandam grandes
quantidades de dados em nível detalhado; o DataMining tira vantagem de
bases de dados que estejam integradas e limpas; e a infraestrutura
necessária para a criação de um DataWarehouse atende às necessidades
das operações de DataMining. 26072658512

Correto. O “melhor dos mundos” é fazer o Data Mining sobre um


Data Warehouse.

43ª Questão) (CESPE – TJ/SE – Programação de Sistemas –


2014) Os principais processos de DataMining são a identificação de

Prof. Victor Dalton


www.estrategiaconcursos.com.br 54 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
variações embasado em normas, a detecção e análise de
relacionamentos, a paginação de memória e o controle de periféricos.

Errado! Processos de Data Mining são classificação, agrupamento,


padrões sequenciais...

44ª Questão) (CESPE – TJ/SE – Programação de Sistemas –


2014) Os dados armazenados em um DataWarehouse devem estar
integrados, temporalmente identificados, orientados ao assunto e devem
ser protegidos, de modo a se evitar o acesso do usuário.

Errado! As três primeiras características estão corretas, mas a


última seria não-volatilidade, que implica em não mudar os dados
depois de inseridos. Proibição de acesso não faz sentido, pois, sem
visualizar os dados, pra quê eles servem? 

45ª Questão) (CESPE – TCU – Auditor Federal de Controle Externo –


Auditoria Governamental – 2015) O uso prático de data mining envolve o
emprego de processos, ferramentas, técnicas e métodos oriundos da
matemática, da estatística e da computação, inclusive de inteligência artificial.

26072658512

Correto.

46ª Questão) (CESPE – TCU – Auditor Federal de Controle Externo –


Auditoria Governamental – 2015) Quem utiliza o data mining tem como
objetivo descobrir, explorar ou minerar relacionamentos, padrões e vínculos
significativos presentes em grandes massas documentais registradas em
arquivos físicos (analógicos) e arquivos lógicos (digitais).

Errado! Não é possível aplicar o Data Mining em arquivos físicos, sem que
estes sejam carregados para o sistema.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 55 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

47ª Questão) (CESPE – TCU – Auditor Federal de Controle Externo –


Auditoria Governamental – 2015) A finalidade do uso do data mining em
uma organização é subsidiar a produção de afirmações conclusivas acerca do
padrão de comportamento exibido por agentes de interesse dessa organização.

Correto. Com a finalidade de continuar o aperfeiçoamento da organização,


aumento da vantagem competitiva, dentre outros.

48ª Questão) (CESPE – TCU – Auditor Federal de Controle Externo –


Auditoria Governamental – 2015) No ambiente organizacional, devido à
grande quantidade de dados, não é recomendado o emprego de data mining
para atividades ligadas a marketing.

Errado! A história (e o presente) estão recheados de exemplos de


aplicação de data mining ao marketing. Basta visualizar o Google e Facebook
direcionando propagandas para os usuários com base no seu comportamento
online.

49ª Questão) (CESPE – TCU – Auditor Federal de Controle Externo –


Tecnologia da Informação – 2015) Na análise dos dados de um sistema com
o apoio de uma ferramenta OLAP, quando uma informação passa de uma
dimensão para outra, inexistindo hierarquia entre elas, ocorre uma operação drill
through.

Correto. Alertamos que existem duas visões distintas para o conceito


de Drill Through, e o CESPE parece simpatizar com a segunda versão, na qual a
26072658512

operação se resume a modificar a dimensão, sem hierarquia entre elas.

50ª Questão) (CESPE – TCU – Auditor Federal de Controle Externo –


Tecnologia da Informação – 2015) Em uma modelagem dimensional que
utilize o esquema estrela, a chave primária de uma tabela de fatos será a chave
estrangeira na tabela de dimensões.

Errado! No esquema estrela, a tabela de fatos é “recheada” de chaves


estrangeiras, cujas chaves primárias estão na tabela de dimensões. Houve
inversão de conceitos na sentença.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 56 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
EXERCÍCIOS OUTRAS BANCAS

1ª Questão) (ESAF – Analista de Planejamento e Orçamento –


Tecnologia da Informação – 2010) BI – Business Inteligence

a) é uma técnica de otimização da árvore de decisão.


b) é um método de formação avançada de gestores.
c) compreende ferramentas de análise de dados para otimizar os processos
produtivos de uma empresa.
d) são técnicas, métodos e ferramentas para mineração de dados na área
de negócios de uma empresa.
e) são técnicas, métodos e ferramentas de análise de dados para subsidiar
processos de decisão de uma empresa.

Business Intelligence (BI) pode ser traduzido como inteligência de


negócios, ou inteligência empresarial. Na prática, configura-se como um
conjunto de técnicas, métodos e ferramentas que subsidiam o processo
de decisão de uma empresa.

Resposta, letra e). As demais alternativas servem para confundi-lo.

2ª Questão) (ESAF – Comissão de Valores Mobiliários – Analista de


Sistemas – 2010) O sistema de apoio a decisão

a) visa obter informações de todos os níveis a partir de informações


detalhadas armazenadas nos sistemas de processamento de ações.
b) analisa dados on-line coletados por sistemas de processamento de
transição, para ajudar as pessoas a executar ações operacionais.
c) visa obter informações de alto nível a partir de informações gerenciais
armazenadas nos sistemas de processamento de documentos.
26072658512

d) analisa dados coletados por sistemas de processamento de inovação,


para ajudar as pessoas a viabilizarem ações de transcrições.
e) analisa dados on-line coletados por sistemas de processamento de
transação, para ajudar as pessoas a tomarem decisões de negócios.

É particularmente fácil acertar esta questão porque somente uma


alternativa fala o óbvio sobre a atividade fim destes sistemas, que é dar suporte
à decisão. Mas formalizemos um pouco mais.
Os sistemas de apoio à decisão servem para dar apoio aos tomadores de
decisão, líderes de uma organização com dados de mais alto nível para decisões
complexas e importantes (logo, decisões de negócio). Estas ferramentas podem
trabalhar com descoberta de conhecimento e processamento online de

Prof. Victor Dalton


www.estrategiaconcursos.com.br 57 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
transações, para permitir que tomador de decisão tenha a sua própria
percepção.

Alternativa e).

3ª Questão) (UEPA – SEFA/PA – Auditor Fiscal de Receitas Estaduais


– 2013) Leia o texto para responder à questão abaixo.

A solução de TI que está relacionado ao texto é:

a) a construção de um portal corporativo

b) a utilização de uma ferramenta de Business Inteligence

c) a construção de um portal colaborativo


26072658512

d) a implantação de Governança em TI

e) a aquisição de novos ativos de rede

Pela descrição do texto, é notável que a solução é a utilização de uma


ferramenta de Business Intelligence. Mais especificamente, a questão parece
citar Ferramentas OLAP, pois, de maneira online, vai processar informações de
notas fiscais dos estados de origem, cruzando com dados de outras bases, como
a RFB. Além disso, parece também ter um pouco de Data Mining, pois vai
analisar os dados com dados anteriores, para analisar riscos potenciais. Na
prática, não é “uma ferramenta de BI”, pois envolve mais de uma ferramenta.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 58 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
Mesmo assim, alternativa b).

4ª Questão) (FCC – TST – Analista Judiciário – Análise de Sistemas -


2012) Leia as afirmações a seguir:

I. Um Data Warehouse é um repositório de dados atuais e históricos de


uma organização que possibilita a análise de grande volume de dados para
suportar a tomada de decisões estratégicas, possuindo registros permanentes.

II. O processo de Data Mining, ou mineração de dados, tem por objetivo


localizar possíveis informações em um banco de dados através de comparações
com dados informados pelo usuário e registros de tabelas.

III. Um ERP, ou Sistema Integrado de Gestão Empresarial, é conhecido por


integrar os dados de diferentes departamentos de uma organização,
aumentando o uso de interfaces manuais nos processos.

IV. As ferramentas OLAP (On-line Analytical Processing) são capazes de


analisar grandes volumes de dados, fornecendo diferentes perspectivas de visão
e auxiliando usuários na sintetização de informações.

Está correto o que se afirma APENAS em

a) I e II.
b) II e III.
c) I, III e IV.
d) I, II e III.
e) I e IV.

Analisando as alternativas: 26072658512

I. Correta. O Data Warehouse é um repositório de dados orientado à


tomada de decisões.

II. Errada. O Data Mining tem por objetivo encontrar padrões úteis em
bases de dados, não se relacionando com comparações de dados informados
pelo usuário.

III. Errada. Um ERP procura eliminar as interfaces manuais nos processos,


não aumentá-las.

IV. Correta.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 59 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
Portanto, a resposta a ser marcada é a alternativa e).

5ª Questão) (FCC – TRT/9ª Região – Técnico Judiciário – Tecnologia


da Informação - 2013) Com o crescente aumento do volume de dados, surge
a necessidade de ferramentas e mecanismos que permitam que eles possam ser
analisados de forma otimizada, uma vez que armazenam toda a trajetória da
empresa. Uma solução é a utilização de ...I... que, em síntese, é utilizado para
armazenar conjuntos de dados organizados por assuntos, mantendo todo um
histórico corporativo. Outro recurso muito utilizado e dos mais importantes
quando o objetivo é a busca de conhecimento, é o ...II... , que é um processo
que consiste na identificação de informações relevantes que estão presentes em
grandes bancos de dados ou repositórios, geralmente realizado em três etapas:
a exploração, a definição dos padrões e a validação dos dados. Estas
ferramentas e técnicas fazem parte do ...III... , definido como um conjunto de
métodos e conceitos que podem ser implementados através de softwares com o
intuito de utilizar os dados importantes da organização para auxiliar no processo
de tomada de decisões, proporcionando melhorias para a alta administração.
Outra tecnologia que pode prover uma melhor e mais flexível análise das
informações, é o ...IV... que permite uma visão conceitual de forma
multidimensional das informações da organização, de maneira que as
informações possam ser visualizadas e analisadas de diferentes perspectivas
pelo usuário.

(http://www.devmedia.com.br/mineracao-de-dados-data-warehouse-data-
mining-bi-e-olap-atraves-do-fastcube-revista-clubedelphi-146/26537)

As lacunas que completam corretamente o texto estão expressas em

26072658512

E então, achou tranquila a questão? Espero que sua associação mental


tenha sido veloz!

I – armazenar conjuntos de dados orientados por assunto, mantendo


um histórico corporativo – Data Warehouse;

II – identificação de informações relevantes em bancos de dados –


Data Mining;

III – conjunto de métodos e conceitos para a tomada de decisões –


Business Intelligence;

Prof. Victor Dalton


www.estrategiaconcursos.com.br 60 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
IV – visão multidimensional das informações da organização – OLAP.

Alternativa d).

6ª Questão) (FCC – SEFAZ/RJ – Auditor Fiscal da Receita Estadual –


3ª Categoria - 2014) Sistemas de BI − Business Intelligence reúnem um
conjunto de tecnologias orientadas a disponibilizar informação e conhecimento
em uma organização, dentre as quais está o DW. Um ambiente que utiliza DW
reúne processos e ferramentas, está sempre em evolução e pode ser visualizado
como na figura abaixo.

Os componentes I, II, III e IV estão corretamente identificados em:

26072658512

Mais um diagrama ilustrativo de processos de Business Intelligence. Como


não existe uma única solução para tal, esta questão obriga que você utilize as

Prof. Victor Dalton


www.estrategiaconcursos.com.br 61 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
informações já existentes no diagrama, e trabalhe por eliminação para encontrar
a alternativa correta.

Inicialmente, aquelas alternativas que possuem sistemas de análise antes


da ponta final do processo estão equivocadas. Alternativa a) e b), com Sistemas
OLAP no início do processo, podem ser sumariamente eliminadas.

A alternativa c) inicia por um Data Warehouse e , após o processo de ETL,


monta sua base inteligente em um Banco de Dados Transacional. Também
incorreta.

A alternativa e), por fim, poderia até colocar uma dúvida na sua cabeça,
mas ela possui, na “ponta da linha”, um banco de dados multidimensional. Mas
um banco de dados multidimensional por si só não oferece análise e utilização
estratégica da informações. Quem possibilita isso é um Sistema OLAP.

Portanto, a alternativa correta é a letra d). Os Sistemas OLTP são fontes


de dados, que são tratados e compilados em um Data Warehouse, que pode
ser replicado e especializado em Data Marts, cujos dados podem ser utilizados
por Sistemas OLAP para acesso, análise e tomada de decisões.

7ª Questão) (FCC – INFRAERO – Analista Superior III – Analista de


Sistemas/Administrador de Banco de Dados – 2011) No âmbito da
descoberta do conhecimento (KDD), a visão geral das etapas que constituem o
processo KDD (Fayyad) e que são executadas de forma interativa e iterativa
apresenta a seguinte sequência de etapas:

a) seleção, pré-processamento, transformação, data mining e


interpretação/avaliação.
b) seleção, transformação, pré-processamento, interpretação/avaliação e
data mining.
c) data warehousing, star modeling, ETL, OLAP e data mining.
26072658512

d) ETL, data warehousing, pré-processamento, transformação e star


modeling.
e) OLAP, ETL, star modeling, data mining e interpretação/avaliação.

Relembrando:

Prof. Victor Dalton


www.estrategiaconcursos.com.br 62 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

Alternativa a).

8ª Questão) (ESAF – Analista de Planejamento e Orçamento –


Tecnologia da Informação – 2010) Mineração de Dados

a) é uma forma de busca sequencial de dados em arquivos.


b) é o processo de programação de todos os relacionamentos e algoritmos
existentes nas bases de dados.
c) por ser feita com métodos compiladores, método das redes neurais e
método dos algoritmos gerativos.
d) engloba as tarefas de mapeamento, inicialização e clusterização.
e) engloba as tarefas de classificação, regressão e clusterização.

Data Mining, como o nome indica, se refere à mineração ou a descoberta


26072658512

de informações em função de padrões ou regras em grande quantidade de


dados.

Esta mineração pode utilizar várias técnicas para a descoberta de


conhecimento. Vejamos algumas, de forma bem resumida:

 Associação: Explicando de forma bem simples, é enxergar alguma


forma de relação entre variáveis (do tipo X influencia Y);
 Descrição de classes: provê um resumo conciso e sucinto de uma
coleção de dados e a distingue de outras. O resumo de uma coleção
de dados é chamado de caracterização de classe; enquanto a
comparação entre duas ou mais coleções de dados é chamada

Prof. Victor Dalton


www.estrategiaconcursos.com.br 63 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
comparação ou discriminação de classe. A descrição de classe não só
deveria cobrir suas propriedades de resumo tal como a contagem,
somas, e cálculos de médias, mas também suas propriedades sobre
a dispersão dos dados, tais como a variância, desvio padrão, quartis,
dentre outros;
 Classificação: É o processo de encontrar um modelo que descreve
classes diferentes de dados (por exemplo, “ensinar” ao sistema quais
clientes bancários são de risco alto, médio e baixo, por meio de
alguns registros, e, a partir deste ponto, a mineração por si só será
capaz de classificar o restante da base de dados).
 Agrupamento(clustering): Similar à classificação, porém sem
supervisão (o sistema por si só sendo capaz de criar grupos).
 Descoberta de padrões sequenciais: Exemplo, o sistema
descobrir que se o cliente compra pão, é provável que compre pão e
leite;
 Descoberta de padrões em séries temporais: Exemplo, o
sistema descobrir que as vendas de guarda-chuva caem na época da
seca;
 Regressão: a análise de diversas variáveis para prever uma
próxima (exemplo, ver os exames de um paciente e calcular a
probabilidade de sobrevivência a uma cirurgia, com base no histórico
de pacientes operados);
 Redes neurais: é uma extensão da regressão (regressão
generalizada), utilizando princípios da inteligência artificial;
 Algoritmos genéticos: são técnicas de busca utilizadas na ciência
da computação para achar soluções aproximadas em problemas de
otimização e busca, sendo uma classe particular de algoritmos
evolutivos que usam técnicas inspiradas pela biologia evolutiva como
hereditariedade, mutação, seleção natural e recombinação.

Já dá pra marcar a resposta correta, não? Alternativa e).

26072658512

9ª Questão) (FCC –TRF4 – Analista Judiciário – Apoio Especializado -


Especialidade Informática- 2010) Sobre data mining, é correto afirmar:
a) Não requer interação com analistas humanos, pois os algoritmos
utilizados conseguem determinar de forma completa e eficiente o valor dos
padrões encontrados.

b) Na mineração de dados, encontrar padrões requer que os dados brutos


sejam sistematicamente "simplificados", de forma a desconsiderar aquilo que é
genérico e privilegiar aquilo que é específico.

c) É um grande banco de dados voltado para dar suporte necessário nas


decisões de usuários finais, geralmente gerentes e analistas de negócios.
Prof. Victor Dalton
www.estrategiaconcursos.com.br 64 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
d) O processo de descobrimento realizado pelo data mining só pode ser
utilizado a partir de um data warehouse, onde os dados já estão sem erros, sem
duplicidade, são consistentes e habilitam descobertas abrangentes e precisas.

e) É o processo de descoberta de novas correlações, padrões e tendências


entre as informações de uma empresa, por meio da análise de grandes
quantidades de dados armazenados em bancos de dados usando técnicas de
reconhecimento de padrões, estatísticas e matemáticas.

Analisando as alternativas:

a) Errada, pois, mesmo que seja somente para analisar e validar o


resultado do Data Mining, é necessária a participação humana no
processo!
b) Errada. A mineração de dados valoriza a informação a mais específica
possível. A simplificação dos dados brutos pode descartar informação
valiosa para a criação de conhecimento.
c) Definição de Data Warehouse! Errada.
d) Errada! E IMPORTANTE! O Data Mining não precisa ser utilizado
somente em DataWarehouse, também pode-se aplicar DM em bancos de
dados comuns, arquivos legados, na web, etc;
e) Correta, e definição bastante completa.

10ª Questão) (FCC – INFRAERO – Analista Superior III –


Administrador de Banco de Dados – 2012) Funcionalidade cujo objetivo é
encontrar conjuntos de dados que não obedecem ao comportamento ou modelo
dos dados. Uma vez encontrados, podem ser tratados ou descartados para
utilização em mining. Trata-se de

a) descrição.
b) agrupamento. 26072658512

c) visualização.
d) análise de outliers.
e) análise de associações.

Se você já estudou estatística provavelmente já ouviu falar dos outliers.


São dados isolados, cujos valores apresentam um grande afastamento dos
demais de uma série.
A análise de outliers, por consequência, faz o que o enunciado apresenta,
ou seja, trata ou descarta dos dados, de acordo com o objetivo da análise.
Ocorre durante a etapa de pré-processamento dos dados.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 65 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
Resposta certa, alternativa d).

11ª Questão) (FCC – TCE/SP – Agente da Fiscalização Financeira -


2008) NÃO é uma técnica no processo de garimpagem de dados utilizada em
Data Mining:

a) Associação.
b) Classificação.
c) Avaliação.
d) Agregação.
e) Padrões sequenciais

Avaliação não existe em Mining. Agregação é sinônimo de agrupamento


(clustering), e os demais já conhecemos.

Alternativa c).

12ª Questão) (FCC – Prefeitura de São Paulo – Auditor Fiscal


Tributário Municipal I – Tecnologia da Informação - 2012) Em aplicações
de data mining uma operação comum é o aprendizado ou mineração de regras
de associação entre itens. Uma papelaria aplica o algoritmo Apriori para minerar
regras de associação entre as seguintes compras:

26072658512

Supondo um suporte mínimo de 50%, os conjuntos de itens frequentes de


dois elementos são:
a) {caneta, borracha}, {caneta, régua} e {lápis, borracha}
b) {lápis, caneta}
c) {lápis, borracha}
d) {caneta, régua} e {compasso, transferidor}
e) {lápis, régua} e {caneta, borracha}

O algoritmo Apriori, que é um algoritmo de associação, procura, em um


universo, encontrar um itemset (conjunto de itens) que aparece com uma certa
frequência. Como o suporte escolhido pela questão é de 50%, deve-se procurar

Prof. Victor Dalton


www.estrategiaconcursos.com.br 66 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
os conjuntos de produtos que aparecam ao menos na metade do universo de
compras para que ele seja um itemset válido.

Desta forma, apenas os itens {lápis, régua} e {caneta, borracha} atendem


ao suporte mínimo, pois aparecem em 50% das compras realizadas.
Alternativa e).

13ª Questão) (ESAF – Técnico da Receita Federal do Brasil –


Tecnologia da Informação – 2006 - adaptada) Analise as seguintes
afirmações relacionadas a Datawarehouse.

I. Um Datawarehouse deve ser volátil, ou seja, os dados sofrem as


alterações necessárias, como: incluir, alterar ou excluir dados.
II. Um Datawarehouse deve ser integrado, ou seja, trabalha de forma a
globalizar e aproveitar os termos e as estruturas técnicas que são utilizados nos
sistemas de informações tradicionais. Por exemplo, na representação de sexo,
um Datawarehouse utiliza todas as formas seguintes: “m” ou “f”, “0” ou “1”, “x”
ou “y”, “macho” ou “fêmea”, “homem” ou “mulher”, “dama” ou “cavalheiro”.
III. Um Datawarehouse deve ser orientado aos principais assuntos ou
negócios da empresa como, por exemplo, clientes, vendas e produtos. Já os
sistemas de informações tradicionais são orientados a processos como, por
exemplo, estoques, entradas e saídas de materiais.
IV. Um Datawarehouse deve ser invariável no tempo, ou seja, sua
estrutura dos dados dispensa elementos temporais, sendo importante apenas a
retenção da chave primária.

Indique a opção que contenha todas as afirmações verdadeiras.

a) I e II
b) II e III
c) I e III
d) III e IV 26072658512

e) II e IV

O Datawarehouse possui 4 características marcantes, que repetidamente


são questões de concursos. Então nos cabe discutir estas características:

 Não-volátil: o Datawarehouse apenas recebe informações.


Exclusões ou alterações ocorrem apenas para a correção de dados
inseridos com erro.
 Integrado: de acordo com o item II da questão;
 Orientado por assuntos: conforme o item III da questão;
 Variante no tempo: A variação em relação ao tempo consiste na
manutenção de um histórico de dados em relação ao período de

Prof. Victor Dalton


www.estrategiaconcursos.com.br 67 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
tempo maior que dos sistemas comuns, isto significa que as técnicas
de mineração de dados não são aplicadas em tempo real, de forma a
não comprometer o desempenho dos bancos transacionais OLTP. Ao
analisarmos um dado de um DW, o mesmo sempre estará
relacionado a um período determinado de tempo, pois terá uma
chave de tempo que irá indicar o dia no qual esses dados foram
extraídos.

Estas são as 4 características do Datawarehouse. Lembre-se delas! Nossa


resposta certa, portanto, é a alternativa b).

14ª Questão) (FCC – SEFAZ/RJ – Auditor Fiscal da Receita Estadual –


3ª Categoria - 2014) Com o advento da tecnologia de Data Warehousing, os
ambientes de apoio à decisão passaram a ser denominados ambientes de Data
Warehouse (DW).

Em relação à tecnologia DW, é correto afirmar:

a) Em um DW as convenções de nomes, valores de variáveis e outros


atributos físicos de dados como data types são bastante flexíveis. Para facilitar a
tomada de decisões, as informações são apresentadas de diferentes formas, da
mesma maneira que foram carregadas dos sistemas legados.

b) Um projetista de DW deve ter seu foco na modelagem dos dados e no


projeto de banco de dados. Um sistema transacional armazena as informações
agrupadas por assuntos de interesse da empresa que são mais importantes,
enquanto um DW é orientado a processos e deve ser desenvolvido para manter
disponíveis as transações realizadas diariamente.

c) Os dados de um DW são um conjunto dinâmico de registros de uma ou


mais tabelas, capturados em um momento de tempo predeterminado, por isso
têm que ser sempre atualizados.
26072658512

d) Um sistema multidimensional, como o DW, deve atualizar o valor


corrente das informações e sua exatidão é válida por um tempo curto, por
exemplo, o valor total das notas fiscais processadas pela Receita às 12:00 de um
dia pode ser diferente às 18:00 do mesmo dia.

e) Um DW tem duas operações básicas: a carga dos dados (inicial e


incremental) e o acesso a estes dados em modo leitura. Depois de carregado,
um DW não necessita de operações de bloqueio por concorrência de usuários no
acesso aos seus dados.

Outra questão que trabalha em cima da quatro características fundamentais


do Data Warehouse. Analisemos as alternativas:

Prof. Victor Dalton


www.estrategiaconcursos.com.br 68 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

a) Um Data Warerouse deve ser integrado, ou seja, deverá ser capaz de


lidar com as informações nos seus mais deferentes formatos. Contudo,
as informações deverão ser apresentadas de maneira padronizada, e
não da mesma forma como apresentada nos sistemas legados. Errada;
b) Um sistema transacional é orientado a processos. Um DW é orientado
por assuntos. Errada;
c) Um DW é não-volátil. Seus dados não devem ser atualizados. Errada;
d) Mesma argumentação da assertiva anterior;
e) Correta, também de acordo com a não-volatilidade.

15ª Questão) (FGV – SEFAZ/RJ – Agente Fiscal de Rendas –2007)


DataWarehouse e DataMining são recursos utilizados por muitas organizações
para facilitar e agilizar o processamento, a análise e a consulta de dados. Sobre
esses recursos, é correto afirmar que:

a) um DataMining armazena dados extraídos de bancos de dados de


diferentes organizações.
b) um DataWarehouse armazena dados por períodos não superiores a três
meses, o que dificulta previsões e análises de tendência.
c) um DataWarehouse é repositório de dados históricos orientados a
assunto, organizados para serem acessíveis para atividades de processamento
analítico.
d) DataMining é uma técnica de análise de dados exclusiva para aplicação
em um DataWarehouse.
e) num DataWarehouse, os usuários finais necessitam conhecer linguagem
de programação para acessar dados.

Questão boa para analisar alternativa a alternativa, não é mesmo?

a) Errada; poderia ser até uma característica de DataWarehouse, caso as


26072658512

diferentes organizações pertençam a um mesmo conglomerado. Quem


poderia montar um DW com dados de diferentes empresas?
b) Errado! Quanto mais longo o período de armazenamento, melhor para
um Data Warehouse, que tem caráter histórico;
c) Correta! Atividades de processamento analítico são realizadas pelas
ferramentas OLAP;
d) Errada! O Data Mining não precisa ser utilizado somente em
DataWarehouse, também pode-se aplicar DM em bancos de dados
comuns, arquivos legados, na web, etc;
e) Errada! Os usuários finais apenas obtêm informações do DW.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 69 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
16ª Questão) (FCC – TCE/SP – Agente da Fiscalização Financeira -
2008) Os depósitos de dados voltados para o processo decisório gerencial e que
podem ser definidos como espécies de mesmo tipo e estrutura são

a) business intelligence e data mining.


b) data warehouse e data mart.
c) data warehouse e data mining.
d) data mining e data mart.
e) data mining, data warehouse e data mart.

Data Marts são pequenos Datawarehouses, setoriais. Alternativa b).

17ª Questão) (FCC – SEFAZ/SP – Agente Fiscal de Rendas – 2009 –


Tecnologia da Informação) Se uma empresa de grande porte, com alto
volume de transações e informações, resolver iniciar um projeto usando o
conceito de Data Mart (DM) em vez de Data Warehouse (DW),
independentemente disso ser ou não a melhor opção, os fatores que a levam a
tal decisão podem ser justificados por:
I. Possibilidade de extrair e preparar os dados diretamente de fontes de
interesse específicas, fornecendo acesso mais rápido pela não necessidade de
sincronia com dados de outras fontes.
II. Menor risco quanto ao sucesso do projeto.
III. Necessidade imediata de informações organizacionais integradas.

Está correto o que consta em

a) I, apenas.
b) I e II, apenas.
c) I e III, apenas.
d) I, II e III.
e) II e III, apenas. 26072658512

Ora, sendo setorizados, os Data Marts são fontes de dados específicas,


que não precisam de sincronia com fontes de outros setores da organização.
Naturalmente, sua adoção implica em menos custo e riscos por parte da
organização. Como contrapartida, as informações organizacionais não estarão
integradas.

Resposta certa, alternativa b).

(FCC – SEFAZ/SP – Agente Fiscal de Rendas – Tecnologia da


Informação - 2013) Considere o texto a seguir (baseado em uma notícia real):

Prof. Victor Dalton


www.estrategiaconcursos.com.br 70 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

O Grupo Montanhês implantou uma solução de BI para unificar as informações de


todos os segmentos em que atua e disponibilizá-las de acordo com a necessidade e
permissão de acesso de cada colaborador. Antes da implementação do sistema, os
relatórios departamentais eram elaborados manualmente, o que demandava muito
tempo. “Desde os dados contábeis até as informações de marketing e de RH eram
compiladas de forma mecânica pelas equipes”, lembra o gerente de planejamento do
grupo, que foi um dos líderes do projeto.
Ele explica que, observando os processos da empresa, percebeu que o método
utilizado era ultrapassado e, além de moroso, não permitia a integração de dados entre
as unidades de negócios. “Da forma como atuávamos não conseguíamos aproveitar as
informações que detínhamos para otimizar nossos processos, projetar cenários futuros e
desenvolver ofertas especiais para o perfil dos clientes”. Assim, o gerente desenvolveu
um projeto-piloto para mostrar como a solução poderia facilitar o dia-a-dia das áreas de
negócio. “Nesse primeiro momento, foram integrados apenas os dados financeiros e
contábeis de nossas unidades de negócio vindas de sistemas legados para os Data
Marts”, afirma ele.
Após demonstrações para os gerentes e diretores, a alta diretoria deu o aval para
implementar a iniciativa em todo o grupo “Trabalhamos com a previsão de obter um ROI
em 3 anos”, calcula o executivo. “Buscávamos uma ferramenta que gerasse análises
detalhadas a partir de um grande volume de informações, até porque tínhamos a
necessidade de sermos mais competitivos frente ao dinâmico mercado varejista”. O que,
segundo o executivo, exigia decisões rápidas e acertadas.
Uma das fases essenciais do projeto foi a criação de uma central de
armazenamento de dados, desenvolvida pela equipe interna de TI. Nesse repositório
estão todas as principais informações corporativas, que incluem dados financeiros,
contábeis, de vendas, RH e marketing. “Essa fase do projeto durou cerca de 6 meses e
foi uma das mais desafiadoras, visto que previu a padronização − em uma base única −
dos dados que antes eram gerenciados por diversos sistemas”, diz.
Antes da implementação da solução de BI, o acesso às informações acontecia por
meio da extração de arquivos diretamente dos sistemas. Em seguida, esses dados eram
processados em planilha Excel ou por meio do Access, que geravam os relatórios
departamentais não padronizados. Hoje esses processos foram substituídos por
relatórios e paineis (dashboards). “As informações passaram a ser consolidadas em um
Data Warehouse de 1TB, administrado pela área de TI”.
Uma vez implantado, o sistema integrado começou a ser acessado pelos diretores
e gerentes das áreas de negócios. “Por meio de ferramentas OLAP com interface web,
hoje os funcionários de alto escalão já podem acessar as informações de sua área, bem
como cruzá-las com outros dados", explica o gerente, ao informar que isso permite
mapear o perfil dos clientes, projetar cenários futuros e facilitar a criação de
apresentações setoriais. Além dos benefícios de agilidade na elaboração de relatórios e
26072658512

da visão consolidada que a alta direção consegue ter da empresa, o gerente destaca que
a produtividade das equipes aumentou consideravelmente após a implementação da
solução de BI. “Em breve todos os funcionários − cada um com seu nível de permissão –
terão acesso à interface de dados de todo o grupo empresarial."

18ª Questão) Ao grupo Montanhês foi apresentada uma solução de BI que


trouxe diversas vantagens para o grupo empresarial. O resultado dessa solução
permitiu:

1 − Informação disponível para gestão


2 − Visão de curvas de comportamento
3 − Agilidade de ferramentas para apoio à gestão
4 − Segurança de informações para decisão
5 − Maior abrangência de visão de indicadores

Prof. Victor Dalton


www.estrategiaconcursos.com.br 71 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
6 − Recursos mais abrangentes para análise de negócios
7 − Necessidades e expectativas atendidas por ferramentas de TI

A solução apresentada foi


a) uma modelagem de banco de dados multidimensional.
b) um projeto de Data Warehouse.
c) um query & report de uma ferramenta OLAP.
d) uma operação ETL.
e) um projeto de banco de dados transacional.

Todas essas características são conseguidas com a implantação de um


DataWarehouse, já suportado por ferramentas OLAP. Deste modo, a
alternativa mais adequada a ser marcada é a alternativa b).

19ª Questão) Considerando o contexto da solução de BI do Grupo


Montanhês, no segundo parágrafo, a integração inicial apenas dos dados
financeiros e contábeis vindas de sistemas legados indica que

a) foi utilizada uma implementação bottom up, que permite que o


planejamento e desenho dos Data Marts possam ser realizados sem esperar pela
infraestrutura corporativa do DW, permitindo um ROI mais rápido.

b) foi utilizada uma implementação combinada que tem o propósito de


integrar a arquitetura top down com a bottom up, usando diversos modelos de
Data Marts, gerados de uma só vez.

c) foi utilizada uma implementação top down. Nesta implementação há um


grande trabalho inicial, envolvendo todas as pessoas da empresa que irão
participar do projeto, o que força a empresa a definir regras de negócio de forma
corporativa antes de se iniciar o projeto do DW.

d) não foi utilizada a implementação top down, porque o processo se iniciou


com a extração, transformação e integração das informações dos sistemas
internos, dados externos e das fontes operacionais para um ODS.
26072658512

e) foi utilizada uma implementação bottom up, porque a partir do DW


foram extraídos os dados e metadados para os Data Marts departamentais do
grupo empresarial.

Nem é preciso voltar ao texto para responder, pois o conteúdo relevante


para a questão foi abordado no enunciado. Essa criação de um DataWarehouse
pela integração gradativa dos setores indica que a abordagem foi bottom up,
típica das empresas que criam suas soluções BI de maneira gradativa.

Abordagem Bottom Up

Prof. Victor Dalton


www.estrategiaconcursos.com.br 72 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

Resposta certa, alternativa a).

20ª Questão) (FGV – MPE/MS – Analista – Análise de Sistemas –


2013 - adaptada) Com relação ao tema “Arquitetura e aplicações de data
warehousing”, analise as afirmativas a seguir.

I. As quatro características principais dos datawarehouses são: orientação


por assunto, não volatilidade, integração com outras fontes de dados e variação
em relação ao tempo.

II. Datawarehouses auxiliam diretores e gestores no processamento de


transações do dia a dia da empresa e, por esse motivo, armazenam dados e
metadados altamente normalizados e de baixa granularidade.

Assinale:

a) se somente a afirmativa I estiver correta.

b) se somente a afirmativa II estiver correta.

c) se nenhuma estiver correta.

d) ambas estiverem corretas.

26072658512

Quanto ao item I, já sabemos que está correto. O equívoco no item II está


em dizer que as informações em DataWarehouses é altamente normalizada. Na
verdade, as informações em um DW são altamente desnomalizadas, para
facilitar a realização de consultas as mais variadas possíveis, e de baixa
granularidade (granularidade é nível de detalhe: as informações em um DW
devem ser bastante detalhadas, possibilitando consultas tanto pouco como
muito detalhadas).

Resposta certa, alternativa a).

Prof. Victor Dalton


www.estrategiaconcursos.com.br 73 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
21ª Questão) (UEL – CELEPAR – Analista Júnior de Desenvolvimento
de Sistemas – 2009) Sobre DataWarehouse, é correto afirmar:

I. É uma coleção de dados orientada por assuntos, integrada, variante no


tempo, que tem por objetivo dar suporte aos processos de tomada de decisão.

II. É implementado por meio de um banco de dados contendo dados


extraídos do ambiente de produção da empresa, que foram selecionados e
depurados, tendo sido otimizados para processamento de consulta e não para
processamento de transações.
III. Seu objetivo é fornecer uma “imagem única da realidade do negócio”.
De uma forma geral, são sistemas que compreendem um conjunto de programas
que extraem dados do ambiente de dados operacionais da empresa, um banco
de dados que os mantém, e sistemas que fornecem estes dados aos seus
usuários.

IV. As ferramentas ROLAP surgiram juntamente com os Sistemas de Apoio


à Decisão para fazerem a consulta e a análise dos dados contidos nos Data
Warehouses e Data Marts.

Assinale a alternativa correta.

a) Somente as afirmativas I e III são corretas.


b) Somente as afirmativas I e IV são corretas.
c) Somente as afirmativas II e IV são corretas.
d) Somente as afirmativas I, II e III são corretas.
e) Somente as afirmativas II, III e IV são corretas.

A questão é muito saudável para explicar características do DW. A


pegadinha está em escrever ROLAP ao invés de OLAP. Logo, a alternativa
correta é a letra d).
26072658512

22ª Questão) (ESAF – Comissão de Valores Mobiliários – Analista de


Sistemas – 2010) Ferramentas de processamento analítico on-line (OLAP)

a) funcionam sobre dados multidimensionais, caracterizados por atributos


de dimensão e atributos de medida.
b) funcionam sobre dados unidirecionais, caracterizados por atributos de
medida e atributos de qualidade.
c) funcionam sobre dados multidimensionais, caracterizados por atributos
de dispersão e atributos de mediação.
d) desconsideram dados multidimensionais.
e) transformam dados unidimensionais em dados analíticos, caracterizando
dimensão e medidas por atributos equivalentes.
Prof. Victor Dalton
www.estrategiaconcursos.com.br 74 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

OLAP é uma tecnologia de construção permite aos analistas de negócios,


gerentes e executivos analisar e visualizar dados corporativos de forma rápida,
consistente e principalmente interativa.

A funcionalidade OLAP é inicialmente caracterizada pela análise dinâmica e


multidimensional dos dados consolidados de uma organização permitindo que as
atividades do usuário final sejam tanto analíticas quanto navegacionais. Esta
tecnologia geralmente é implementada em ambiente multiusuário e
cliente/servidor, oferecendo assim respostas rápidas às consultas adhoc
(construção de listagens, interligando a informação disponível na base de dados
conforme as necessidades especificas da empresa, assim como a sua
exportação, possibilitando várias simulações), não importando o tamanho do
banco de dados nem sua complexidade. Essa tecnologia auxilia o usuário a
sintetizar informações corporativas por meio de visões comparativas e
personalizadas, análises históricas, projeções e elaborações de cenários.

26072658512

Qual a margem de lucro para bicicletas em fevereiro? Esse é o tipo de pergunta que o OLAP vai responder, em
uma busca multidimensional no banco de dados (tempo, produto, margem de lucro)

Após este leve embasamento, podemos responder à questão com


tranquilidade. Alternativa a).

23ª Questão) (FCC – TRT/11ª Região – Analista Judiciário –


Tecnologia da Informação – 2012) No âmbito dos DWs e OLAP, o processo
onde se faz a junção dos dados e transforma-se as colunas em linhas e as linhas
em colunas, gerando dados cruzados, é chamado de

a) drill-across.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 75 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
b) star.
c) cube.
d) pivot.
e) cross-join.

Espero que você lembre dessa!

Junção de dados e rotação do cubo é o cross-join. É feita para procurar


enxergar os dados sob outra perspectiva.

Alternativa e).

24ª Questão) (Cesgranrio – Petrobrás – Analista de Sistemas Júnior


– Engenharia de Software – 2010 - adaptada) A modelagem
multidimensional é uma técnica de concepção e visualização de um modelo de
dados de um conjunto de medidas que descrevem aspectos comuns de negócios.
Ela é especialmente utilizada para sumarizar e reestruturar dados, de forma a
apresentá-los em visões que ajudem ao usuário analisá-los para tomar decisões
relevantes e bem informadas para o processo de negócio sujacente. Qual das
seguintes descrições refere-se corretamente a uma propriedade da modelagem
multidimensional?

a) Quando o usuário realiza uma operação de drill down ou uma operação


de roll up ou drill up, ele está navegando em uma ou mais hierarquias da tabela
de dimensões, respectivamente aumentando e diminuindo a precisão usada para
visualização dos dados.

b) No modelo dimensional, a tabela de fatos representa uma hierarquia dos


dados, transações ou eventos de negócio, sendo sempre implementada de forma
completamente desnormalizada.

c) O uso do modelo dimensional aproxima o armazenamento da forma de


pensar do usuário final e, por isto, faz com que este aprenda a usar SQL de
26072658512

forma mais eficaz e eficiente.

d) A tabela de dimensões apresenta vários membros que representam


valores diferentes dos fatos e que necessariamente estão organizados em uma
hierarquia única armazenada como uma árvore.

e) A visualização mais popular dos dados em modelos dimensionais é feita


através do desenho de um hipercubo de informação, cujas dimensões são
normalizações dos índices das tabelas transacionais.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 76 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
É estilo da Cesgranrio “questões para pensar”. Vamos responde-las com o
conhecimento adquirido, exercitando um pouco a mente.

a) Explicação perfeita. Certa!

b) Desnormalizar a base de dados para facilitar a modelagem


multidimensional é um procedimento relativamente comum, para
auxiliar a redução dos tempos de busca de informação na base de
dados. Agora, dizer que isso ocorre sempre é errado;

c) O começo da sentença é válido, mas dizer que o usuário final vai


aprender a usar SQL por causa disso chega a ser nonsense;

d) Mais um começo correto que termina totalmente errado;

e) Outra frase que começa certa e termina falando nada com nada. As
dimensões são apenas atributos cujo enfoque é relevante para a análise
em questão.

26072658512

Exemplificando para descomplicar: no cubo acima, componentes, vestuário,


bicicletas, total de vendas, custo de vendas, quantidade de vendas , margem de
lucro e tempo são atributos de dimensão. O Tempo, por sua vez, pode ser
escalonado em atributos de medida, conforme o drill up e drill down(mês,
trimestre, semestre, dia, ano...). Em cada caso, existirão atributos de dimensão
que poderão conter diversos atributos de medida, ou não.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 77 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
25ª Questão) (FCC – INFRAERO – Analista de Sistema – Banco de
Dados e Administrador de Dados - 2011) Considere:

I. No Data Warehouse, o dado tem um valor histórico, por referir-se a


algum momento específico do tempo, portanto, ele não é atualizável; a cada
ocorrência de uma mudança, uma nova entrada é criada para sinalizar esta
mudança.

II. O estágio de transformação no processo ETL deve ser capaz de


selecionar determinadas colunas (ou nenhuma) para carregar; transformar
múltiplas colunas em múltiplas linhas; traduzir e unificar códigos heterogêneos
de um mesmo atributo, oriundos de diversas fontes de dados (tabelas).

III. No Snow Flake as subdimensões, por não serem normalizadas, geram


aumento significativo no número de registros e, como consequência, aumentam
também a quantidade de joins necessários à exibição de uma consulta.

IV. Data Mining é uma ferramenta de mineração de dados que executa a


varredura nos dados históricos com o objetivo de desconsiderar o que é genérico
sobre algum assunto e valorizar tudo que o for específico dentro do sistema.

Está correto o que consta em

a) I e II, apenas.
b) III e IV, apenas.
c) I, II e III, apenas.
d) II, III e IV, apenas.
e) I, II, III e IV.

Analisando:
26072658512

I. Correta, uma vez que o DW é não-voltátil;

II. Definição correta acerca de ETL;

III. No snow flake as subdimensões são normalizadas. Errada;

IV. Definição também equivocada de DM.

Resposta certa, alternativa a).

Prof. Victor Dalton


www.estrategiaconcursos.com.br 78 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
26ª Questão) (FCC – MPE/MA – Analista Ministerial – Banco de
Dados e Administrador de Dados - 2013) Considerando um data warehouse,
podem ser utilizadas, para sua consulta, as ferramentas MOLAP
(Multidimensional OLAP), cuja característica principal é fazer o acesso a um
conjunto de dados previamente calculados, denominado

a) matriz de dados.

b) lista ligada.

c) matriz hash.

d) milestone.

e) cubo de dados.

O nosso famoso cubo de dados. Alternativa e).

27ª Questão) (FCC – TRT/9ª Região – Analista Judiciário –


Tecnologia da Informação - 2013) As ferramentas OLAP são as aplicações às
quais os usuários finais têm acesso para extrair os dados de suas bases e
construir os relatórios capazes de responder às suas questões gerenciais. As
operações realizadas abaixo navegam nos dados, modificando o nível de
granularidade da consulta.

26072658512

Prof. Victor Dalton


www.estrategiaconcursos.com.br 79 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
A primeira e a segunda operações são, respectivamente,

a) roll up e drill down.

b) drill across e slice and dice.

c) slice and dice e dill throught.

d) dill throught e roll up.

e) drill down e roll up.

Na operação 1, houve uma diminuição no nível de detalhe da informação,


saindo de uma análise do Trimestre 1 para uma análise anual. Na operação 2,
houve um aumento no detalhe da informação, “entrando” no Estado do Rio
Grande do Sul, passando a analisar por municípios. Portanto, ocorreram,
respectivamente, um roll up e um drill down.

Alternativa a).

28ª Questão) (FCC – TRT/12ª Região – Analista Judiciário –


Tecnologia da Informação - 2013) Dentre as diferenças cruciais entre o
modelo tradicional de uso de bancos de dados OLTP (Online Transaction
Processing) e o modelo voltado para Data Warehousing (DW) está

a) o nível de armazenamento de dados, muito mais sumarizado no caso de


DW.

b) a quantidade de cláusulas JOIN, utilizadas em maior número para DW.

c) a necessidade de normalização para as bases OLAP, o que não é


necessário em OLTP.

d) a utilização de dados derivados e agregados em OLTP, o que não ocorre


26072658512

no ambiente de DW.

e) o número de índices necessários, muito maior no caso de DW.

Todas as afirmativas estão erradas, com exceção da alternativa e). Um


DW, por servir de base para ferramentas OLAP, precisa de muitos índices, para
diminuir o custo operacional das pesquisas, que podem ser as mais variadas
possíveis.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 80 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
29ª Questão) (FCC – TRT/12ª Região – Técnico Judiciário –
Tecnologia da Informação - 2013) Em uma comparação entre bancos de
dados OLTP (Online Transaction Processing), com bancos de dados OLAP (Online
Analytical Processing), para os bancos OLAP

a) não é necessário um grande espaço de armazenamento, pois as


informações são buscadas em tempo real.

b) as operações podem levar horas para serem executadas para certas


queries.

c) as operações de INSERT e UPDATE são efetuadas somente pelos


usuários finais.

d) o principal objetivo é rodar e controlar tarefas básicas de regras de


negócio.

e) os dados são obtidos ad hoc, ou seja, sempre que um relatório é


requisitado, os bancos OLTP são acessados dinamicamente para a obtenção
imediata desta informação.

Esta questão está diretamente relacionada com a anterior. Um dos motivos


pelos quais um DW possui muitos índices é justamente porque as consultas
OLAP podem ser demasiadamente complexas e, mesmo em um banco indexado,
as operações podem levar horas para serem executadas.

Alternativa b).

30ª Questão) (FCC – Prefeitura de São Paulo – Auditor Fiscal


Tributário Municipal I – Tecnologia da Informação - 2012) Sobre os
esquemas estrela e floco de neve para modelagem de dados multidimensionais
voltados para OLAP é correto afirmar que
26072658512

a) ambos os esquemas possuem várias tabelas de fato hierárquicas por


meio de normalização, sendo que apenas no esquema estrela as tabelas de
dimensão também são hierárquicas por meio de normalização.

b) o esquema estrela possui uma única tabela de fato, enquanto no


esquema floco de neve existem várias tabelas de fato hierárquicas por meio de
normalização.

c) o esquema floco de neve possui uma única tabela de fato, enquanto no


esquema estrela existem várias tabelas de fato hierárquicas por meio de
normalização.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 81 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
d) ambos os esquemas possuem uma tabela de fato e várias tabelas de
dimensão, sendo que apenas no esquema floco de neve as tabelas de dimensão
são hierárquicas por meio de normalização.

e) ambos os esquemas possuem uma tabela de fato e várias tabelas de


dimensão, sendo que apenas no esquema estrela as tabelas de dimensão são
hierárquicas por meio de normalização.

Já sabemos que ambos os esquemas possuem uma única tabela de fato, o


que torna as assertivas de a) a c) erradas. Ainda, sabemos que é o esquema
floco de neve que hierarquiza as tabelas de dimensão por meio da normalização
dos dados.

Alternativa d).

31ª Questão) (FCC – TCE/AM – Analista Técnico de Controle Externo


– Tecnologia da Informação - 2012) Em ferramentas OLAP, a estrutura de
dados que agrega as medidas por níveis e hierarquias de cada uma das
dimensões a serem analisadas, combinando várias dimensões, tais como tempo,
geografia e linhas de produtos, com dados resumidos, tais como números de
vendas ou de inventário, é visualizada na forma de

a) um gráfico multidimensional.

b) uma esfera.

c) uma planilha.

d) um cubo.

e) uma pirâmide tridimensional.

26072658512

Alguma dúvida? Alternativa d).

32ª Questão) (Cesgranrio – Petrobrás – Analista de Sistemas Júnior


– Engenharia de Software - 2010) Em um ambiente de data warehousing,
uma das fases mais importantes é a ETL (Extract, Transformation and Load), em
que se definem as estratégias de conversão, transformação e consistência dos
dados dos sistemas de origem para realizar a carga dos dados no sistema de
data warehouse. Uma característica relacionada a essa fase de ETL é que

Prof. Victor Dalton


www.estrategiaconcursos.com.br 82 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
a) a garantia da consistência dos dados é especialmente necessária nos
sistemas que incluem SGBDs relacionais, pois estes são incapazes de garantir as
consistências das transações e as integridades referenciais.

b) sua existência é incompatível com o uso dos sistemas legados, pois sua
tecnologia antiquada impede que estes sejam integrados em um sistema de data
warehousing.

c) pode ser eliminada, se o próprio SGBD relacional transacional for usado


como o banco do sistema de data warehousing, o que permite obter uma grande
economia de recursos.

d) é necessária para se obter os dados das múltiplas fontes, de forma a


transformá-los nas variáveis que interessam ao processo de decisão.

e) visa a garantir que cada registro do data warehouse corresponda a


exatamente um registro do SGBD transacional, para assegurar a correção das
variáveis de decisão.

Vamos analisar as alternativas uma a uma:

a) a garantia da consistência dos dados é especialmente necessária


nos sistemas que incluem SGBDs relacionais, pois estes são incapazes
de garantir as consistências das transações e as integridades
referenciais. – Amigo, se um SGBD não conseguisse manter a consistência das
transações e as integridades referenciais, eles não custariam milhares de
dólares. Você sabe quanto custa uma licença empresarial de um Oracle?

b) sua existência é incompatível com o uso dos sistemas legados,


pois sua tecnologia antiquada impede que estes sejam integrados em
um sistema de data warehousing. – Sem comentários. O ETL é uma
ferramenta útil justamente por extrair informações de sistemas legados;
26072658512

c) pode ser eliminada, se o próprio SGBD relacional transacional for


usado como o banco do sistema de data warehousing, o que permite
obter uma grande economia de recursos. – Comparação de bananas com
maças. Uma coisa é usar e administrar um banco de dados, outra coisa é
preenche-lo com informações que precisarão vir de diversas fontes diferentes.

d) é necessária para se obter os dados das múltiplas fontes, de


forma a transformá-los nas variáveis que interessam ao processo de
decisão. – Simples e correto!

e) visa a garantir que cada registro do data warehouse corresponda


a exatamente um registro do SGBD transacional, para assegurar a
correção das variáveis de decisão. – Outra alternativa que não fala nada com
nada. O SGBD não tem registros, quem tem registro é banco de dados.
Prof. Victor Dalton
www.estrategiaconcursos.com.br 83 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
33ª Questão) (CETRO – ANVISA – Analista Administrativo – Área 5 –
2013 – prova anulada) Quanto aos bancos de dados de suporte à decisão,
assinale a alternativa correta.

a) São, principalmente (embora não totalmente), apenas de leitura (read-


only).

b) São, principalmente, livres de qualquer tipo de redundância.

c) Sua principal preocupação é a integridade.

d) Por questões de eficiência no armazenamento, não são indexados.

e) Não devem ser muito grandes devido à constante manutenção exigida e


às transações comerciais que não devem ser acumuladas com o tempo.

Os bancos de dados de suporte à decisão, como um Data Warehouse, via


de regra, são apenas para leitura (alternativa a)), uma vez que as aplicações
que os manipulam visam apenas extrair conhecimento, e não modificar os seus
dados.

Estes bancos costumam conter redundâncias, inclusive sendo


desnormalizados, para facilitar as pesquisas multidimensionais. Isto posto, é
comum a indexação da maioria das tabelas.

Por fim, dependendo do intervalo de tempo que o DW retiver informações,


ele pode ser enorme, e sua manutenção custosa.

34ª Questão) (CETRO – ANVISA – Analista Administrativo – Área 5 –


2013 – prova anulada) Assinale a alternativa que apresenta um recurso
essencialmente OLAP.

a) ROLLUP. 26072658512

b) GROUP BY.

c) OLAPUP.

d) HAVING.

e) SELECT.

Roll up (ou Drill uP) e Drill Down são aumentos ou diminuições na


granularidade de uma consulta, para a visualização de informações com
diferentes níveis de detalhamento.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 84 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

Olap UP não existe, e as demais alternativas tratam de cláusulas para


consultas SQL.

Alternativa a).

35ª Questão) (CETRO – ANVISA – Analista Administrativo – Área 5 –


2013 – prova anulada) Em relação aos DWs (Data warehouses), assinale a
alternativa correta.

a) São orientados a objetos.

b) Não variam com o tempo.

c) São voláteis.

d) Evitam o uso de gerenciadores de bancos de dados tradicionais,


reduzindo custos, mas podem causar impactos significativos nos sistemas
operacionais.

e) Seus dados não podem ser alterados, mas podem ser excluídos.

Os Data Warehouses são:

Não-volátil: Diferentemente de um Banco de Dados operacional, o


Datawarehouse apenas recebe informações. Exclusões ou alterações ocorrem
apenas para a correção de dados inseridos com erro.

26072658512

Integrado: Um Datawarehouse deve ser integrado, ou seja, trabalha de


forma a globalizar e aproveitar os termos e as estruturas técnicas que são
utilizados nos sistemas de informações tradicionais. Por exemplo, na
representação de sexo, um Datawarehouse manipula todas as formas seguintes:
“m” ou “f”, “0” ou “1”, “x” ou “y”, “macho” ou “fêmea”, “homem” ou “mulher”,
“dama” ou “cavalheiro”.

Orientado por assuntos: Um DW sempre armazena dados importantes


sobre temas específicos da empresa e conforme o interesse das pessoas que irão
utilizá-lo. Bancos de dados operacionais tratam de estoques, entradas e saídas
de materiais. DW trata de clientes, vendas e produtos.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 85 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
Variante no tempo: A variação em relação ao tempo consiste na
manutenção de um histórico de dados em relação ao período de tempo maior
que dos sistemas comuns. Ao analisarmos um dado de um DW, o mesmo
sempre estará relacionado a um período determinado de tempo, pois terá uma
chave de tempo que irá indicar o dia no qual esses dados foram extraídos.

Essa questão vem para exigir o seu raciocínio. Postos os comentários


acima, percebe-se com facilidade que as alternativas de a) a c) estão erradas. A
alternativa d) também é incorreta porque, apesar de evitar a utilização de
SGBDs tradicionais, um DW não impacta significativamente sistemas
operacionais. Eles se envolvem com as aplicações que os manipulam, apenas.

Aí você chega na alternativa e) e pensa: “os dados no DW não podem ser


excluídos ou alterados, pois ele é não volátil”.

Não é bem assim! Ele é não volátil no sentido de não poderem ser
excluídos ou alterados dados válidos. Observou que o DW é variante no
tempo? Ora, se um DW guarda apenas informações dos últimos 10 anos de uma
empresa, o que acontece com os dados que ultrapassam esse período de
longevidade? Naturalmente, eles serão excluídos do DW, preferencialmente, com
o armazenamento de uma cópia de backup.

Resposta certa, alternativa e).

36ª Questão) (FCC – TRF 3ª Região – Analista Judiciário – Banco de


Dados – 2014) Mineração de dados é a investigação de relações e padrões
globais que existem em grandes bancos de dados, mas que estão ocultos no
grande volume de dados. Com base nas funções que executam, há diferentes
técnicas para a mineração de dados, dentre as quais estão:

I. identificar afinidades existentes entre um conjunto de itens em um dado


26072658512

grupo de registros. Por exemplo: 75% dos envolvidos em processos judiciais


ligados a ataques maliciosos a servidores de dados também estão envolvidos em
processos ligados a roubo de dados sigilosos.

II. identificar sequências que ocorrem em determinados registros. Por


exemplo: 32% de pessoas do sexo feminino após ajuizarem uma causa contra o
INSS solicitando nova perícia médica ajuízam uma causa contra o INSS
solicitando ressarcimento monetário.

III. as categorias são definidas antes da análise dos dados. Pode ser
utilizada para identificar os atributos de um determinado grupo que fazem a

Prof. Victor Dalton


www.estrategiaconcursos.com.br 86 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
discriminação entre 3 tipos diferentes, por exemplo, os tipos de processos
judiciais podem ser categorizados como infrequentes, ocasionais e frequentes.

Os tipos de técnicas referenciados em I, II e III, respectivamente, são:

Questão clássica cobrando o entendimento de técnicas de Mining! Vamos


analisar as assertivas:

I. identificar afinidades existentes entre um conjunto de itens em um dado


grupo de registros. Por exemplo: 75% dos envolvidos em processos judiciais
ligados a ataques maliciosos a servidores de dados também estão envolvidos em
processos ligados a roubo de dados sigilosos. – ou seja, estamos dizendo que X
está associado a Y. Exemplo de Associação!

II. identificar sequências que ocorrem em determinados registros. Por


exemplo: 32% de pessoas do sexo feminino após ajuizarem uma causa contra o
INSS solicitando nova perícia médica ajuízam uma causa contra o INSS
solicitando ressarcimento monetário – Se A aconteceu, B acontece em
sequência. Padrões sequenciais!

III. as categorias são definidas antes da análise dos dados. Pode ser
utilizada para identificar os atributos de um determinado grupo que fazem a
discriminação entre 3 tipos diferentes, por exemplo, os tipos de processos
judiciais podem ser categorizados como infrequentes, ocasionais e frequentes –
Eu pararia na frase sublinhada para marcar Classificação. Sua grande diferença
26072658512

para o Agrupamento é justamente a definição de categorias que é realizada


pelo homem, antes da análise dos dados. No agrupamento a categorização
ocorre depois da análise, realizada pelo próprio Mining.

Resposta: alternativa b).

37ª Questão) (FCC – TRF 3ª Região – Analista Judiciário – Banco de


Dados – 2014) A tecnologia de Data Warehouse oferece suporte às
ferramentas OLAP, que apresentam visões multidimensionais de dados
permitindo a análise das operações de negócio para facilitar a tomada de
decisões. Estas ferramentas suportam algumas operações de maneira a dar aos

Prof. Victor Dalton


www.estrategiaconcursos.com.br 87 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
analistas o poder de observar os dados de várias maneiras em níveis diferentes.
Considere duas destas operações mostradas nas figuras abaixo.

26072658512

As operações mostradas na Figura 1 e na Figura 2, respectivamente, são

(A) rotação e drill-down.


(B) ROLAP e drill-through.
(C) rotação e roll-up.
Prof. Victor Dalton
www.estrategiaconcursos.com.br 88 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
(D) roll-up e rotação.
(E) drill-down e ROLAP.

Na operação I ocorre uma “rotação”, trocando linhas com colunas, sem


aglutinação dos dados. Exemplo típico de pivot, chamado pela banca de
rotação.

Na operação II é dado um zoom na Região Ásia, mostrando-a por países. É


o famoso drill-down.

Resposta: alternativa a).

38ª Questão) (FCC – TCE/RS – Auditor Público Externo – Técnico em


Processamento de Dados – 2014) A revista da CGU − Controladoria Geral da
União, em sua 8a edição, publicou um artigo que relata que foram aplicadas
técnicas de exploração de dados, visando a descoberta de conhecimento útil
para auditoria, em uma base de licitações extraída do sistema ComprasNet, em
que são realizados os pregões eletrônicos do Governo Federal. Dentre as
técnicas preditivas e descritivas utilizadas, estão a classificação, clusterização e
regras de associação. Como resultado, grupos de empresas foram detectados
em que a média de participações juntas e as vitórias em licitações levavam a
indícios de conluio.
As técnicas aplicadas referem-se a

(A) Extraction, Transformation and Load.


(B) Customer Churn Trend Analysis.
(C) On-Line Analytical Processing.
(D) Data Mining.
(E) Business Process Management.
26072658512

A questão define e ilustra técnicas de Data Mining.

Resposta certa, alternativa d).

39ª Questão) (FCC – SEFAZ/PE – Auditor Fiscal – 2014) O grande


crescimento do ambiente de negócios faz com que as empresas armazenem um
alto volume de informações, tornando a sua correta extração um fator chave
para que consigam espaço no mercado competitivo. Nesse contexto, o Data
Warehouse (DW) é um depósito de dados

Prof. Victor Dalton


www.estrategiaconcursos.com.br 89 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
(A) redundante, pois como os dados são provenientes de várias fontes,
podem aparecer repetidos dezenas de vezes.

(B) orientado por departamentos, e sua modelagem é norteada a partir de


todos os assuntos da empresa, fornecendo uma visão geral dos processos de
negócio que permite a tomada de decisões estratégicas.

(C) volátil, em que os dados, após serem filtrados e limpos, podem sofrer
alterações, consulta e exclusão de cadastro que refletem nas bases de dados
originais.

(D) integrado, que visa padronizar os dados dos diversos sistemas em uma
única representação, para serem transferidos para a base de dados única do
DW.

(E) invariável com o tempo, que consiste na manutenção de um histórico


de dados em relação ao período de tempo maior que dos sistemas comuns o que
compromete, de certa forma, o desempenho dos bancos transacionais.

O DW é não-volátil, integrado, orientado por assuntos e variante no


tempo. Tem por finalidade ser um repositório de dados da organização,
voltado para a tomada de decisões. Por eliminação, a única assertiva que
não possui incorreções é a alternativa d). A alternativa b) confunde um pouco,
mas orientação por departamentos não é característica de um DW.

40ª Questão) (FCC – TCE/RS – Auditor Público Externo – Técnico em


Processamento de Dados – 2014) A granularidade de dados é uma questão
crítica no projeto de um Data Warehouse (DW), pois afeta o volume de dados
que reside no DW e, ao mesmo tempo, afeta o tipo de consulta que pode ser
26072658512

atendida. Considere:

I. Quanto mais detalhe existir, mais baixo será o nível de granularidade.


Quanto menos detalhe existir, mais alto será o nível de granularidade.

II. Quando há um nível de granularidade muito alto, o espaço em disco e o


número de índices necessários se tornam bem menores, mas há uma
correspondente diminuição da possibilidade de utilização dos dados para atender
a consultas detalhadas.

É correto afirmar que a afirmativa I

(A) está incorreta. A afirmativa II está correta, pois é coerente em relação


ao nível de granularidade, espaço em disco e tipos de consultas em um DW.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 90 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
(B) é equivalente a: quanto menos detalhes há nos dados, menor é a
granularidade, consequentemente, quanto mais detalhes existem, maior é a
granularidade.

(C) e a afirmativa II estão corretas e coerentes em relação ao nível de


granularidade, espaço em disco e tipos de consultas em um DW.

(D) está correta. A afirmativa II está incorreta, pois apresenta incoerência


em relação ao nível de granularidade, espaço em disco e tipos de consultas em
um DW.

(E) e a afirmativa II estão incorretas. Ambas apresentam incoerência em


relação ao nível de granularidade, espaço em disco e tipos de consultas em um
DW.

Eu gosto de associar granularidade ao grão de areia: quando o nível de


granularidade é baixo, o grão é pequeno. Isto significa que a informação está
bem detalhada.

Quando o nível de granularidade é alto, o grão é muito grosso, e poucos


detalhes são extraídos.

Portanto, os itens I e II estão corretos. Alternativa c).

41ª Questão) (FCC – TCE/RS – Auditor Público Externo – Técnico em


Processamento de Dados – 2014) Os cubos de dados que armazenam os
dados multidimensionais, podem ter modelos de armazenamento que variam
conforme a solução OLAP − On-Line Analytical Processing utilizada. Nesse
sentido considere os seguintes modelos:

I. Armazena os dados de detalhe (fatos) e as agregações em um modelo


multidimensional. Não faz uso da base de dados relacional para acessar os
26072658512

dados dos cubos. Necessita de um processamento constante do cubo, embora


apresente melhor desempenho.

II. Lê os dados de detalhe (fatos) diretamente de fonte de dados relacional.


Caso existam agregações, estas serão geradas no modelo relacional. Pode ser
usado quando há problemas para armazenamento de uma estrutura
multidimensional.

III. Lê os dados de detalhe (fatos) diretamente da fonte de dados


relacional. Grava as agregações em formato multidimensional. Os dados que não
possuem agregações são consultados no modelo relacional. Mantém os
benefícios do modelo multidimensional sem ocupar tanto espaço em disco.

I, II e III referem-se, respectivamente, aos modelos


Prof. Victor Dalton
www.estrategiaconcursos.com.br 91 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
(A) ROLAP − HOLAP − DOLAP.

(B) HOLAP − MOLAP − ROLAP.

(C) MOLAP − ROLAP − HOLAP.

(D) HOLAP − DOLAP − ROLAP.

(E) DOLAP − HOLAP − MOLAP.

Analisando as alternativas:

I. Armazena os dados de detalhe (fatos) e as agregações em um modelo


multidimensional. Não faz uso da base de dados relacional para acessar os
dados dos cubos. Necessita de um processamento constante do cubo, embora
apresente melhor desempenho. – MOLAP. No Multidimensional On-Line
Analytical Processing, os dados são armazenados de forma multidimensional
(como se fosse um cubo de dados).

II. Lê os dados de detalhe (fatos) diretamente de fonte de dados


relacional. Caso existam agregações, estas serão geradas no modelo relacional.
Pode ser usado quando há problemas para armazenamento de uma estrutura
multidimensional. – ROLAP. No Relational On-Line Analytical Processing, os
dados são armazenados no modelo relacional, como também suas consultas são
processadas pelo gerenciador do banco relacional.

III. Lê os dados de detalhe (fatos) diretamente da fonte de dados


relacional. Grava as agregações em formato multidimensional. Os dados que
não possuem agregações são consultados no modelo relacional. Mantém os
benefícios do modelo multidimensional sem ocupar tanto espaço em disco. –
HOLAP. No Hybrid On-Line Analytical Processing, ocorre uma combinação entre
ROLAP e MOLAP. A vantagem é que com a mistura de tecnologias pode-se
extrair o que há de melhor de cada uma, a alta performance do MOLAP e a
escalabilidade do ROLAP. 26072658512

Resposta certa, alternativa c).

Prof. Victor Dalton


www.estrategiaconcursos.com.br 92 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
CONSIDERAÇÕES FINAIS

E encerramos a parte de BI!

BI é uma coisa sensacional. Quando bem feita, dá muito $$$$$,rs.

Para esta prova, o CRISP-DM é uma verdadeira novidade em


concursos públicos. Aposto em uma questãozinha perguntando uma ideia
básica sobre o nome de uma das fases do ciclo. Acho legal ter isso em
mente.

Até a última aula, sobre Big Data.

Victor Dalton

26072658512

Prof. Victor Dalton


www.estrategiaconcursos.com.br 93 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
LISTA DE EXERCÍCIOS CESPE

1ª Questão) (CESPE – Banco Central – Analista – Análise e


Desenvolvimento de Sistemas – 2013) Inteligência de negócios
(business intelligence) refere-se aos processos de obtenção de
informações válidas a partir de dados oriundos de fontes diversas (ERPs,
CRMs, sistemas legados etc.), que serão utilizados para apoiar decisões
de negócios.

2ª Questão) (CESPE – SERPRO – Analista – Negócios em


Tecnologia da Informação – 2013) Clusterização é a tarefa preditiva
relativa à identificação de um conjunto finito de categorias empregadas
para descrever uma informação. Essas categorias nunca poderão ser
mutuamente exclusivas.

3ª Questão) (CESPE – Banco Central – Analista – Análise e


Desenvolvimento de Sistemas – 2013) Data warehouse (DW) e data
mart (DM) são componentes importantes em um ambiente de business
intelligence, visto que eles representam repositórios de múltiplos bancos
de dados operacionais da empresa. Um DM agrega informações de
diversos DWs distribuídos pelos departamentos da empresa.

4ª Questão) (CESPE – MPOG – Categoria Profissional 2 –


Tecnologia da Informação - 2013) Em ETL, frequentemente, é
necessário limpar, ajustar e consolidar os dados antes de realizar sua
26072658512

carga. Nesse estágio de transformação, aplicam-se regras ou funções aos


dados extraídos para ajustar os dados a serem carregados. A limpeza
trata de vários tipos de erros, como, por exemplo, valores ilegais, ou que
não obedeçam às regras de integridade da base, e erros de ortografia.

5ª Questão) (CESPE – ANTT – Analista Administrativo –


Desenvolvimento de Sistemas da Informação - 2013) Ferramentas
ETL são utilizadas na extração, transformação e remoção de dados.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 94 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
6ª Questão) (CESPE – TCDF – Analista de Administração Pública
– Sistemas de TI – 2014) Com o uso da classificação como técnica de
Data Mining, busca-se a identificação de uma classe por meio de múltiplos
atributos. Essa técnica também pode ser usada em conjunto com outras
técnicas de mineração de dados.

7ª Questão) (CESPE – TRE/MS – Analista Judiciário – Análise de


Sistemas – 2013) No que se refere a arquiteturas e aplicações de data
warehousing, ETL, Olap e data mining, assinale a opção correta.

a) As ferramentas Olap agregam recursos de armazenamento,


gerenciamento e pesquisa de dados, os quais são primordialmente
voltados para a tomada de decisões e BI (business intelligence).

b) Um sistema ETL, que faz parte do processo de construção de um


data warehouse, por ser voltado para a tomada de decisões, utiliza
unicamente a DSL (decision support language), não suportando a SQL
(structured query language).

c) Em uma modelagem multidimensional do tipo snow flake, as


métricas ficam inseridas nas dimensões.

d) Em comparação com o ambiente transacional, o ambiente de data


warehouse, devido à carga de dados com o ETL, deve estar mais voltado
para inserção e atualização de dados do que para consultas.

e) Data mining é um conjunto de técnicas e ferramentas que


permitem obter valores futuros a partir de dados passados processados
estaticamente. Data mining substitui o data warehouse em relação à
tomada de decisão, pois ambos possuem os mesmos recursos.
26072658512

8ª Questão) (CESPE – INPI – Analista – Gestão de


TI/Desenvolvimento e Manutenção de Sistemas – 2013) Um Data
Mart pode ser considerado, na visão bottom-up, uma reunião de vários
Data Mining, desde que estes sejam desenvolvidos em modelos
multidimensionais (MDM).

9ª Questão) (CESPE – CRPM – Analista em Geociências –


Sistemas – 2013) A fase de modelagem de um data mining agrega a
seleção e aplicação das técnicas sobre os dados selecionados. Inúmeras
Prof. Victor Dalton
www.estrategiaconcursos.com.br 95 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
técnicas podem ser empregadas para obtenção de padrões úteis, como
por exemplo, a PMML (predictive model mark-up language), que objetiva,
via schemas XML, a definição para modelos encontrados em associações,
modelos de regressão e clustering.

10ª Questão) (CESPE – MPE/PI – Analista Ministerial –


Informática: cargo 6 – 2012) Na construção de um data warehouse, o
processo extract, transform and load (ETL), normalmente, é o menos
crítico e o mais rápido. Esse processo envolve a extração dos dados, na
sua transformação, e, eventualmente, influencia na limpeza desses
dados.

11ª Questão) (CESPE – Banco da Amazônia – Técnico Científico


– Redes e Telecomunicações – 2012) A exploração de dados com
OLAP requer a extração da informação original para um data warehouse e
não pode ser realizada diretamente em bases de dados relacionais.

12ª Questão) (CESPE – Banco da Amazônia – Técnico Científico


– Redes e Telecomunicações – 2012) O processo de extração,
transformação e carga (ETL) permite extrair dados de diversas fontes de
dados e migrá-los para o data warehouse, mantendo sua estrutura e
normalização originais.

13ª Questão) (CESPE – Banco da Amazônia – Técnico Científico


– Redes e Telecomunicações – 2012) Os modelos de dados usados no
data warehouse são frequentemente constituídos por modelos
dimensionais, em que um mesmo dado pode ser fisicamente gravado
26072658512

mais de uma vez. Entre as razões de esses modelos serem utilizados,


destaca-se o aumento do desempenho em consultas a grandes volumes
de dados associados a realizações de uma dimensão do modelo.

14ª Questão) (CESPE – Correios – Analista de Correios –


Desenvolvimento de Sistemas – 2011) As ferramentas de software
ETL (extract transform load) têm como função a extração de dados de
diversos sistemas, a transformação desses dados de acordo com as
regras de negócio e a carga dos dados em um data mart ou um DW.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 96 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

15ª Questão) (CESPE – Correios – Analista de Correios –


Desenvolvimento de Sistemas – 2011) Toda estrutura de dados no
DW tem um elemento de tempo – como dia, mês ou ano – como
referência.

16ª Questão) (CESPE – Correios – Analista de Correios –


Desenvolvimento de Sistemas – 2011) Em um ambiente data
warehouse (DW), é possível a análise de grandes volumes de dados, os
quais ficam disponíveis para serem alterados e manipulados pelo usuário.

17ª Questão) (CESPE – Correios – Analista de Correios –


Desenvolvimento de Sistemas – 2011) Ferramentas OLAP (online
analytical processing) permitem a navegação pelos dados de um DW, o
que possibilita a realização de pesquisas e apresentação de informações.
Por meio de um processo drill down, por exemplo, um relatório
consolidado de vendas mensal poderá ser preparado de forma que as
informações sejam dispostas por trimestre, por semestre, por ano, e
assim sucessivamente.

18ª Questão) (CESPE – Correios – Analista de Correios –


Desenvolvimento de Sistemas – 2011) Inteligência empresarial, ou
business inteligence, é um termo utilizado para descrever as habilidades
das corporações para coletar dados e explorar informações, analisá-las e
desenvolver entendimentos para tomada de melhores decisões.
26072658512

19ª Questão) (CESPE – Correios – Analista de Correios –


Desenvolvimento de Sistemas – 2011) Na modelagem dimensional,
que pode ser usada para a construção de um DW, forma-se, basicamente,
uma tabela central e tabelas dimensões diretamente ligadas a essa tabela
central. O star schema, que atua nesse contexto, tem a característica de
ser normalizado, exigindo excessivo espaço em disco, já que são
necessárias diversas informações em cada linha das tabelas.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 97 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
20ª Questão) (CESPE – TRT/21ª Região – Analista Judiciário –
Tecnologia da Informação – 2010) O data mining é um processo
automático de descoberta de padrões, de conhecimento em bases de
dados, que utiliza, entre outros, árvores de decisão e métodos bayesianos
como técnicas para classificação de dados.

21ª Questão) (CESPE – TRE/BA – Técnico Judiciário –


Programação de Sistemas – 2010) A ferramenta OLAP (on-line
analytical processing) permite realizar as operações slice, dice e pivot
sobre uma estrutura multidimensional. A operação slice fixa o valor de
uma dimensão e recupera os valores das demais dimensões; a operação
dice intercambia dimensões permitindo diferentes visualizações dos
dados; e a operação pivot fixa o valor de duas ou mais dimensões e
recupera os valores das demais.

22ª Questão) (CESPE – TRE/BA – Técnico Judiciário –


Programação de Sistemas – 2010) Diferentemente de datamining,
que não possibilita a interação do usuário na busca por informações úteis,
o OLAP permite ao usuário extrair informações de um data warehouse ou
de um datamart, de forma customizada e interativa.

23ª Questão) (CESPE – MPU – Analista de Informática – Perito


– 2010) Em um sistema OLAP, as estratégias de desnormalização de
tabelas e a redundância de dados são requerimentos para a otimização de
consultas. A estratégia star schema relaciona uma tabela-fato a diversas
tabelas-dimensões.
26072658512

24ª Questão) (CESPE – MPU – Analista de Informática – Banco


de Dados – 2010) A tecnologia Data Mining, que, atualmente, está
totalmente integrada aos SGBD, permite a descoberta de informações,
por meio de padrões ou regras existentes em banco de dados de grande
volume, quando não se conhece o esquema do banco de dados.

25ª Questão) (CESPE – MPU – Analista de Informática – Banco


de Dados – 2010) A tecnologia de DW tem como objetivos a extração

Prof. Victor Dalton


www.estrategiaconcursos.com.br 98 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
eficiente, o processamento e a apresentação analítica de dados para
suporte à decisão gerencial. Essa tecnologia utiliza o online analytical
processing (OLAP) para a análise de dados complexos.

26ª Questão) (CESPE – EMBASA – Analista de Saneamento –


Tecnologia da Informação/Desenvolvimento – 2010) Data mining é
o processo de extração de conhecimento de grandes bases de dados,
sendo estas convencionais ou não, e que faz uso de técnicas de
inteligência artificial.

27ª Questão) (CESPE – EMBASA – Analista de Saneamento –


Tecnologia da Informação/Desenvolvimento – 2010) Denomina-se
OLAP (on-line analytical processing) o processo de busca e coleta,
organização e análise, compartilhamento e monitoramento de
informações que oferecem suporte à gestão de negócios. – pegadinha

28ª Questão) (CESPE – Banco da Amazônia – Técnico Científico


– Análise de Sistemas – 2010) Um data mart é uma reunião de vários
data warehouses, a fim de fornecer visão mais ampla dos dados.

29ª Questão) (CESPE – ANATEL – Analista – Suporte e


Infraestrutura de TI – 2014) No processo de Data Mining (mineração
de dados), é indispensável o uso de técnica conhecida como Data
Warehousing, uma vez que a mineração de dados deve ocorrer
necessariamente em estruturas não normalizadas (FN0).
26072658512

30ª Questão) (CESPE – ANATEL – Analista – Tecnologia da


Informação e Comunicação – 2014) O processamento analítico online
(OLAP) é adequado para a descoberta de padrões e relacionamentos em
dados corporativos e para a inferência de regras que prevejam o efeito de
decisões gerenciais.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 99 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
31ª Questão) (CESPE – ANATEL – Analista – Tecnologia da
Informação e Comunicação – 2014) Para viabilizar o processo de
inteligência de negócio, é necessário o uso de um Data Warehouse.

32ª Questão) (CESPE – ANATEL – Analista – Tecnologia da


Informação e Comunicação – 2014) Em um Data Warehouse
(armazém de dados) que apresente a característica de ser não volátil, os
dados não são atualizados após a inserção inicial.

33ª Questão) (CESPE – ANATEL – Analista – Tecnologia da


Informação e Comunicação – 2014) Um data mart é uma reunião de
vários data warehouses, a fim de fornecer visão mais ampla dos dados.

34ª Questão) (CESPE – ANATEL – Técnico em Regulação –


2014) As ferramentas de business inteligence são consideradas
ferramentas do tipo OLTP (online transaction processing).

35ª Questão) (CESPE – ANTAQ – Analista - Infraestrutura de TI


– 2014) O Módulo de ETL (extract transform load), dedicado à extração,
carga e transformação de dados, coleta informações em fontes como
sistemas ERP, arquivos com extensão TXT e planilhas Excel.

26072658512

36ª Questão) (CESPE – ANTAQ – Analista - Infraestrutura de TI


– 2014) Em um processo de descoberta do conhecimento, um Data
Mining executado para atingir uma meta pode falhar nas classes de
predição, de identificação, de classificação e de otimização.

37ª Questão) (CESPE – ANTAQ – Analista - Infraestrutura de TI


– 2014) Na modelagem de dados de um Data Warehouse, a mudança de

Prof. Victor Dalton


www.estrategiaconcursos.com.br 100 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
uma hierarquia dimensional para outra é facilmente realizada em cubos
de dados, por meio da técnica de roteamento.

38ª Questão) (CESPE – ANTAQ – Analista – Sistemas e


Negócios – 2014) Em uma modelagem multidimensional, as métricas
são armazenadas na tabela fato, independentemente de estarem em um
modelo Estrela ou Star Schema, podendo ser aditiva, correspondente a
valores que podem ser aplicados às operações de soma, subtração e
média, ou não aditiva, correspondente a valores percentuais, ou relativos,
que não podem ser manipulados livremente.

39ª Questão) (CESPE – ANTAQ – Analista – Sistemas e


Negócios – 2014) Na recuperação e visualização de dados em um Data
Warehouse, o drill trought ocorre quando o usuário visualiza a informação
contida de uma dimensão para outra dimensão.

40ª Questão) (CESPE – SUFRAMA – Analista – Tecnologia da


Informação – 2014) Na modelagem, o esquema estrela é um
refinamento em que parte da hierarquia dimensional é normalizada em
um conjunto de tabelas dimensão menores, de forma similar a um floco
de neve.

26072658512

41ª Questão) (CESPE – SUFRAMA – Analista – Tecnologia da


Informação – 2014) As estruturas e os atributos das tabelas, a
especificação do modelo de dados, as rotinas comuns de acesso a dados e
o logging de extrações compõem os metadados de um datawarehouse.

42ª Questão) (CESPE – TJ/SE – Programação de Sistemas –


2014) Um DataWarehouse provê uma excelente base para a realização
de DataMining, pois os algoritmos de DataMining demandam grandes
quantidades de dados em nível detalhado; o DataMining tira vantagem de
bases de dados que estejam integradas e limpas; e a infraestrutura

Prof. Victor Dalton


www.estrategiaconcursos.com.br 101 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
necessária para a criação de um DataWarehouse atende às necessidades
das operações de DataMining.

43ª Questão) (CESPE – TJ/SE – Programação de Sistemas –


2014) Os principais processos de DataMining são a identificação de
variações embasado em normas, a detecção e análise de
relacionamentos, a paginação de memória e o controle de periféricos.

44ª Questão) (CESPE – TJ/SE – Programação de Sistemas –


2014) Os dados armazenados em um DataWarehouse devem estar
integrados, temporalmente identificados, orientados ao assunto e devem
ser protegidos, de modo a se evitar o acesso do usuário.

45ª Questão) (CESPE – TCU – Auditor Federal de Controle Externo –


Auditoria Governamental – 2015) O uso prático de data mining envolve o
emprego de processos, ferramentas, técnicas e métodos oriundos da
matemática, da estatística e da computação, inclusive de inteligência artificial.

46ª Questão) (CESPE – TCU – Auditor Federal de Controle Externo –


Auditoria Governamental – 2015) Quem utiliza o data mining tem como
objetivo descobrir, explorar ou minerar relacionamentos, padrões e vínculos
significativos presentes em grandes massas documentais registradas em
arquivos físicos (analógicos) e arquivos lógicos (digitais).
26072658512

47ª Questão) (CESPE – TCU – Auditor Federal de Controle Externo –


Auditoria Governamental – 2015) A finalidade do uso do data mining em
uma organização é subsidiar a produção de afirmações conclusivas acerca do
padrão de comportamento exibido por agentes de interesse dessa organização.

48ª Questão) (CESPE – TCU – Auditor Federal de Controle Externo –


Auditoria Governamental – 2015) No ambiente organizacional, devido à
grande quantidade de dados, não é recomendado o emprego de data mining
para atividades ligadas a marketing.
Prof. Victor Dalton
www.estrategiaconcursos.com.br 102 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

49ª Questão) (CESPE – TCU – Auditor Federal de Controle Externo –


Tecnologia da Informação – 2015) Na análise dos dados de um sistema com
o apoio de uma ferramenta OLAP, quando uma informação passa de uma
dimensão para outra, inexistindo hierarquia entre elas, ocorre uma operação drill
through.

50ª Questão) (CESPE – TCU – Auditor Federal de Controle Externo –


Tecnologia da Informação – 2015) Em uma modelagem dimensional que
utilize o esquema estrela, a chave primária de uma tabela de fatos será a chave
estrangeira na tabela de dimensões.

LISTA DE EXERCÍCIOS OUTRAS BANCAS

1ª Questão) (ESAF – Analista de Planejamento e Orçamento –


Tecnologia da Informação – 2010) BI – Business Inteligence

a) é uma técnica de otimização da árvore de decisão.


b) é um método de formação avançada de gestores.
c) compreende ferramentas de análise de dados para otimizar os processos
produtivos de uma empresa.
d) são técnicas, métodos e ferramentas para mineração de dados na área
de negócios de uma empresa. 26072658512

e) são técnicas, métodos e ferramentas de análise de dados para subsidiar


processos de decisão de uma empresa.

2ª Questão) (ESAF – Comissão de Valores Mobiliários – Analista de


Sistemas – 2010) O sistema de apoio a decisão

a) visa obter informações de todos os níveis a partir de informações


detalhadas armazenadas nos sistemas de processamento de ações.
b) analisa dados on-line coletados por sistemas de processamento de
transição, para ajudar as pessoas a executar ações operacionais.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 103 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
c) visa obter informações de alto nível a partir de informações gerenciais
armazenadas nos sistemas de processamento de documentos.
d) analisa dados coletados por sistemas de processamento de inovação,
para ajudar as pessoas a viabilizarem ações de transcrições.
e) analisa dados on-line coletados por sistemas de processamento de
transação, para ajudar as pessoas a tomarem decisões de negócios.

3ª Questão) (UEPA – SEFA/PA – Auditor Fiscal de Receitas Estaduais


– 2013) Leia o texto para responder à questão abaixo.

A solução de TI que está relacionado ao texto é:

a) a construção de um portal corporativo


26072658512

b) a utilização de uma ferramenta de Business Inteligence

c) a construção de um portal colaborativo

d) a implantação de Governança em TI

e) a aquisição de novos ativos de rede

4ª Questão) (FCC – TST – Analista Judiciário – Análise de Sistemas -


2012) Leia as afirmações a seguir:

Prof. Victor Dalton


www.estrategiaconcursos.com.br 104 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
I. Um Data Warehouse é um repositório de dados atuais e históricos de
uma organização que possibilita a análise de grande volume de dados para
suportar a tomada de decisões estratégicas, possuindo registros permanentes.

II. O processo de Data Mining, ou mineração de dados, tem por objetivo


localizar possíveis informações em um banco de dados através de comparações
com dados informados pelo usuário e registros de tabelas.

III. Um ERP, ou Sistema Integrado de Gestão Empresarial, é conhecido por


integrar os dados de diferentes departamentos de uma organização,
aumentando o uso de interfaces manuais nos processos.

IV. As ferramentas OLAP (On-line Analytical Processing) são capazes de


analisar grandes volumes de dados, fornecendo diferentes perspectivas de visão
e auxiliando usuários na sintetização de informações.

Está correto o que se afirma APENAS em

a) I e II.
b) II e III.
c) I, III e IV.
d) I, II e III.
e) I e IV.

5ª Questão) (FCC – TRT/9ª Região – Técnico Judiciário – Tecnologia


da Informação - 2013) Com o crescente aumento do volume de dados, surge
a necessidade de ferramentas e mecanismos que permitam que eles possam ser
analisados de forma otimizada, uma vez que armazenam toda a trajetória da
empresa. Uma solução é a utilização de ...I... que, em síntese, é utilizado para
armazenar conjuntos de dados organizados por assuntos, mantendo todo um
histórico corporativo. Outro recurso muito utilizado e dos mais importantes
quando o objetivo é a busca de conhecimento, é o ...II... , que é um processo
26072658512

que consiste na identificação de informações relevantes que estão presentes em


grandes bancos de dados ou repositórios, geralmente realizado em três etapas:
a exploração, a definição dos padrões e a validação dos dados. Estas
ferramentas e técnicas fazem parte do ...III... , definido como um conjunto de
métodos e conceitos que podem ser implementados através de softwares com o
intuito de utilizar os dados importantes da organização para auxiliar no processo
de tomada de decisões, proporcionando melhorias para a alta administração.
Outra tecnologia que pode prover uma melhor e mais flexível análise das
informações, é o ...IV... que permite uma visão conceitual de forma
multidimensional das informações da organização, de maneira que as
informações possam ser visualizadas e analisadas de diferentes perspectivas
pelo usuário.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 105 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
(http://www.devmedia.com.br/mineracao-de-dados-data-warehouse-data-
mining-bi-e-olap-atraves-do-fastcube-revista-clubedelphi-146/26537)

As lacunas que completam corretamente o texto estão expressas em

6ª Questão) (FCC – SEFAZ/RJ – Auditor Fiscal da Receita Estadual –


3ª Categoria - 2014) Sistemas de BI − Business Intelligence reúnem um
conjunto de tecnologias orientadas a disponibilizar informação e conhecimento
em uma organização, dentre as quais está o DW. Um ambiente que utiliza DW
reúne processos e ferramentas, está sempre em evolução e pode ser visualizado
como na figura abaixo.

26072658512

Os componentes I, II, III e IV estão corretamente identificados em:

Prof. Victor Dalton


www.estrategiaconcursos.com.br 106 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

7ª Questão) (FCC – INFRAERO – Analista Superior III – Analista de


Sistemas/Administrador de Banco de Dados – 2011) No âmbito da
descoberta do conhecimento (KDD), a visão geral das etapas que constituem o
processo KDD (Fayyad) e que são executadas de forma interativa e iterativa
apresenta a seguinte sequência de etapas:

a) seleção, pré-processamento, transformação, data mining e


interpretação/avaliação.
b) seleção, transformação, pré-processamento, interpretação/avaliação e
data mining.
c) data warehousing, star modeling, ETL, OLAP e data mining.
d) ETL, data warehousing, pré-processamento, transformação e star
modeling.
e) OLAP, ETL, star modeling, data mining e interpretação/avaliação.

8ª Questão) (ESAF – Analista de Planejamento e Orçamento –


Tecnologia da Informação – 2010) Mineração de Dados

a) é uma forma de busca sequencial de dados em arquivos.


b) é o processo de programação de todos os relacionamentos e algoritmos
existentes nas bases de dados.
c) por ser feita com métodos compiladores, método das redes neurais e
método dos algoritmos gerativos.
d) engloba as tarefas de mapeamento, inicialização e clusterização.
e) engloba as tarefas de classificação, regressão e clusterização.

9ª Questão) (FCC –TRF4 – Analista Judiciário – Apoio Especializado -


Especialidade Informática- 2010) Sobre data mining, é correto afirmar:
a) Não requer interação com analistas humanos, pois os algoritmos
26072658512

utilizados conseguem determinar de forma completa e eficiente o valor dos


padrões encontrados.

b) Na mineração de dados, encontrar padrões requer que os dados brutos


sejam sistematicamente "simplificados", de forma a desconsiderar aquilo que é
genérico e privilegiar aquilo que é específico.

c) É um grande banco de dados voltado para dar suporte necessário nas


decisões de usuários finais, geralmente gerentes e analistas de negócios.
d) O processo de descobrimento realizado pelo data mining só pode ser
utilizado a partir de um data warehouse, onde os dados já estão sem erros, sem
duplicidade, são consistentes e habilitam descobertas abrangentes e precisas.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 107 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

e) É o processo de descoberta de novas correlações, padrões e tendências


entre as informações de uma empresa, por meio da análise de grandes
quantidades de dados armazenados em bancos de dados usando técnicas de
reconhecimento de padrões, estatísticas e matemáticas.

10ª Questão) (FCC – INFRAERO – Analista Superior III –


Administrador de Banco de Dados – 2012) Funcionalidade cujo objetivo é
encontrar conjuntos de dados que não obedecem ao comportamento ou modelo
dos dados. Uma vez encontrados, podem ser tratados ou descartados para
utilização em mining. Trata-se de

a) descrição.
b) agrupamento.
c) visualização.
d) análise de outliers.
e) análise de associações.

11ª Questão) (FCC – TCE/SP – Agente da Fiscalização Financeira -


2008) NÃO é uma técnica no processo de garimpagem de dados utilizada em
Data Mining:

a) Associação.
b) Classificação.
c) Avaliação.
d) Agregação.
e) Padrões sequenciais

12ª Questão) (FCC – Prefeitura de São Paulo – Auditor Fiscal


Tributário Municipal I – Tecnologia da Informação - 2012) Em aplicações
26072658512

de data mining uma operação comum é o aprendizado ou mineração de regras


de associação entre itens. Uma papelaria aplica o algoritmo Apriori para minerar
regras de associação entre as seguintes compras:

Supondo um suporte mínimo de 50%, os conjuntos de itens frequentes de


dois elementos são:
a) {caneta, borracha}, {caneta, régua} e {lápis, borracha}
Prof. Victor Dalton
www.estrategiaconcursos.com.br 108 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
b) {lápis, caneta}
c) {lápis, borracha}
d) {caneta, régua} e {compasso, transferidor}
e) {lápis, régua} e {caneta, borracha}

13ª Questão) (ESAF – Técnico da Receita Federal do Brasil –


Tecnologia da Informação – 2006 - adaptada) Analise as seguintes
afirmações relacionadas a Datawarehouse.

I. Um Datawarehouse deve ser volátil, ou seja, os dados sofrem as


alterações necessárias, como: incluir, alterar ou excluir dados.
II. Um Datawarehouse deve ser integrado, ou seja, trabalha de forma a
globalizar e aproveitar os termos e as estruturas técnicas que são utilizados nos
sistemas de informações tradicionais. Por exemplo, na representação de sexo,
um Datawarehouse utiliza todas as formas seguintes: “m” ou “f”, “0” ou “1”, “x”
ou “y”, “macho” ou “fêmea”, “homem” ou “mulher”, “dama” ou “cavalheiro”.
III. Um Datawarehouse deve ser orientado aos principais assuntos ou
negócios da empresa como, por exemplo, clientes, vendas e produtos. Já os
sistemas de informações tradicionais são orientados a processos como, por
exemplo, estoques, entradas e saídas de materiais.
IV. Um Datawarehouse deve ser invariável no tempo, ou seja, sua
estrutura dos dados dispensa elementos temporais, sendo importante apenas a
retenção da chave primária.

Indique a opção que contenha todas as afirmações verdadeiras.

a) I e II
b) II e III
c) I e III
d) III e IV
e) II e IV

26072658512

14ª Questão) (FCC – SEFAZ/RJ – Auditor Fiscal da Receita Estadual –


3ª Categoria - 2014) Com o advento da tecnologia de Data Warehousing, os
ambientes de apoio à decisão passaram a ser denominados ambientes de Data
Warehouse (DW).

Em relação à tecnologia DW, é correto afirmar:

a) Em um DW as convenções de nomes, valores de variáveis e outros


atributos físicos de dados como data types são bastante flexíveis. Para facilitar a
tomada de decisões, as informações são apresentadas de diferentes formas, da
mesma maneira que foram carregadas dos sistemas legados.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 109 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
b) Um projetista de DW deve ter seu foco na modelagem dos dados e no
projeto de banco de dados. Um sistema transacional armazena as informações
agrupadas por assuntos de interesse da empresa que são mais importantes,
enquanto um DW é orientado a processos e deve ser desenvolvido para manter
disponíveis as transações realizadas diariamente.

c) Os dados de um DW são um conjunto dinâmico de registros de uma ou


mais tabelas, capturados em um momento de tempo predeterminado, por isso
têm que ser sempre atualizados.

d) Um sistema multidimensional, como o DW, deve atualizar o valor


corrente das informações e sua exatidão é válida por um tempo curto, por
exemplo, o valor total das notas fiscais processadas pela Receita às 12:00 de um
dia pode ser diferente às 18:00 do mesmo dia.

e) Um DW tem duas operações básicas: a carga dos dados (inicial e


incremental) e o acesso a estes dados em modo leitura. Depois de carregado,
um DW não necessita de operações de bloqueio por concorrência de usuários no
acesso aos seus dados.

15ª Questão) (FGV – SEFAZ/RJ – Agente Fiscal de Rendas –2007)


DataWarehouse e DataMining são recursos utilizados por muitas organizações
para facilitar e agilizar o processamento, a análise e a consulta de dados. Sobre
esses recursos, é correto afirmar que:

a) um DataMining armazena dados extraídos de bancos de dados de


diferentes organizações.
b) um DataWarehouse armazena dados por períodos não superiores a três
meses, o que dificulta previsões e análises de tendência.
c) um DataWarehouse é repositório de dados históricos orientados a
assunto, organizados para serem acessíveis para atividades de processamento
analítico. 26072658512

d) DataMining é uma técnica de análise de dados exclusiva para aplicação


em um DataWarehouse.
e) num DataWarehouse, os usuários finais necessitam conhecer linguagem
de programação para acessar dados.

16ª Questão) (FCC – TCE/SP – Agente da Fiscalização Financeira -


2008) Os depósitos de dados voltados para o processo decisório gerencial e que
podem ser definidos como espécies de mesmo tipo e estrutura são

a) business intelligence e data mining.


b) data warehouse e data mart.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 110 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
c) data warehouse e data mining.
d) data mining e data mart.
e) data mining, data warehouse e data mart.

17ª Questão) (FCC – SEFAZ/SP – Agente Fiscal de Rendas – 2009 –


Tecnologia da Informação) Se uma empresa de grande porte, com alto
volume de transações e informações, resolver iniciar um projeto usando o
conceito de Data Mart (DM) em vez de Data Warehouse (DW),
independentemente disso ser ou não a melhor opção, os fatores que a levam a
tal decisão podem ser justificados por:
I. Possibilidade de extrair e preparar os dados diretamente de fontes de
interesse específicas, fornecendo acesso mais rápido pela não necessidade de
sincronia com dados de outras fontes.
II. Menor risco quanto ao sucesso do projeto.
III. Necessidade imediata de informações organizacionais integradas.

Está correto o que consta em

a) I, apenas.
b) I e II, apenas.
c) I e III, apenas.
d) I, II e III.
e) II e III, apenas.

(FCC – SEFAZ/SP – Agente Fiscal de Rendas – Tecnologia da


Informação - 2013) Considere o texto a seguir (baseado em uma notícia real):

O Grupo Montanhês implantou uma solução de BI para unificar as informações de


todos os segmentos em que atua e disponibilizá-las de acordo com a necessidade e
permissão de acesso de cada colaborador. Antes da implementação do sistema, os
relatórios departamentais eram elaborados manualmente, o que demandava muito
tempo. “Desde os dados contábeis até as informações de marketing e de RH eram
26072658512

compiladas de forma mecânica pelas equipes”, lembra o gerente de planejamento do


grupo, que foi um dos líderes do projeto.
Ele explica que, observando os processos da empresa, percebeu que o método
utilizado era ultrapassado e, além de moroso, não permitia a integração de dados entre
as unidades de negócios. “Da forma como atuávamos não conseguíamos aproveitar as
informações que detínhamos para otimizar nossos processos, projetar cenários futuros e
desenvolver ofertas especiais para o perfil dos clientes”. Assim, o gerente desenvolveu
um projeto-piloto para mostrar como a solução poderia facilitar o dia-a-dia das áreas de
negócio. “Nesse primeiro momento, foram integrados apenas os dados financeiros e
contábeis de nossas unidades de negócio vindas de sistemas legados para os Data
Marts”, afirma ele.
Após demonstrações para os gerentes e diretores, a alta diretoria deu o aval para
implementar a iniciativa em todo o grupo “Trabalhamos com a previsão de obter um ROI
em 3 anos”, calcula o executivo. “Buscávamos uma ferramenta que gerasse análises
detalhadas a partir de um grande volume de informações, até porque tínhamos a

Prof. Victor Dalton


www.estrategiaconcursos.com.br 111 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
necessidade de sermos mais competitivos frente ao dinâmico mercado varejista”. O que,
segundo o executivo, exigia decisões rápidas e acertadas.
Uma das fases essenciais do projeto foi a criação de uma central de
armazenamento de dados, desenvolvida pela equipe interna de TI. Nesse repositório
estão todas as principais informações corporativas, que incluem dados financeiros,
contábeis, de vendas, RH e marketing. “Essa fase do projeto durou cerca de 6 meses e
foi uma das mais desafiadoras, visto que previu a padronização − em uma base única −
dos dados que antes eram gerenciados por diversos sistemas”, diz.
Antes da implementação da solução de BI, o acesso às informações acontecia por
meio da extração de arquivos diretamente dos sistemas. Em seguida, esses dados eram
processados em planilha Excel ou por meio do Access, que geravam os relatórios
departamentais não padronizados. Hoje esses processos foram substituídos por
relatórios e paineis (dashboards). “As informações passaram a ser consolidadas em um
Data Warehouse de 1TB, administrado pela área de TI”.
Uma vez implantado, o sistema integrado começou a ser acessado pelos diretores
e gerentes das áreas de negócios. “Por meio de ferramentas OLAP com interface web,
hoje os funcionários de alto escalão já podem acessar as informações de sua área, bem
como cruzá-las com outros dados", explica o gerente, ao informar que isso permite
mapear o perfil dos clientes, projetar cenários futuros e facilitar a criação de
apresentações setoriais. Além dos benefícios de agilidade na elaboração de relatórios e
da visão consolidada que a alta direção consegue ter da empresa, o gerente destaca que
a produtividade das equipes aumentou consideravelmente após a implementação da
solução de BI. “Em breve todos os funcionários − cada um com seu nível de permissão –
terão acesso à interface de dados de todo o grupo empresarial."

18ª Questão) Ao grupo Montanhês foi apresentada uma solução de BI que


trouxe diversas vantagens para o grupo empresarial. O resultado dessa solução
permitiu:

1 − Informação disponível para gestão


2 − Visão de curvas de comportamento
3 − Agilidade de ferramentas para apoio à gestão
4 − Segurança de informações para decisão
5 − Maior abrangência de visão de indicadores
6 − Recursos mais abrangentes para análise de negócios
7 − Necessidades e expectativas atendidas por ferramentas de TI

A solução apresentada foi 26072658512

a) uma modelagem de banco de dados multidimensional.


b) um projeto de Data Warehouse.
c) um query & report de uma ferramenta OLAP.
d) uma operação ETL.
e) um projeto de banco de dados transacional.

19ª Questão) Considerando o contexto da solução de BI do Grupo


Montanhês, no segundo parágrafo, a integração inicial apenas dos dados
financeiros e contábeis vindas de sistemas legados indica que

Prof. Victor Dalton


www.estrategiaconcursos.com.br 112 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
a) foi utilizada uma implementação bottom up, que permite que o
planejamento e desenho dos Data Marts possam ser realizados sem esperar pela
infraestrutura corporativa do DW, permitindo um ROI mais rápido.

b) foi utilizada uma implementação combinada que tem o propósito de


integrar a arquitetura top down com a bottom up, usando diversos modelos de
Data Marts, gerados de uma só vez.

c) foi utilizada uma implementação top down. Nesta implementação há um


grande trabalho inicial, envolvendo todas as pessoas da empresa que irão
participar do projeto, o que força a empresa a definir regras de negócio de forma
corporativa antes de se iniciar o projeto do DW.

d) não foi utilizada a implementação top down, porque o processo se iniciou


com a extração, transformação e integração das informações dos sistemas
internos, dados externos e das fontes operacionais para um ODS.

e) foi utilizada uma implementação bottom up, porque a partir do DW


foram extraídos os dados e metadados para os Data Marts departamentais do
grupo empresarial.

20ª Questão) (FGV – MPE/MS – Analista – Análise de Sistemas –


2013 - adaptada) Com relação ao tema “Arquitetura e aplicações de data
warehousing”, analise as afirmativas a seguir.

I. As quatro características principais dos datawarehouses são: orientação


por assunto, não volatilidade, integração com outras fontes de dados e variação
em relação ao tempo.

II. Datawarehouses auxiliam diretores e gestores no processamento de


transações do dia a dia da empresa e, por esse motivo, armazenam dados e
metadados altamente normalizados e de baixa granularidade.

Assinale: 26072658512

a) se somente a afirmativa I estiver correta.

b) se somente a afirmativa II estiver correta.

c) se nenhuma estiver correta.

d) ambas estiverem corretas.

21ª Questão) (UEL – CELEPAR – Analista Júnior de Desenvolvimento


de Sistemas – 2009) Sobre DataWarehouse, é correto afirmar:

Prof. Victor Dalton


www.estrategiaconcursos.com.br 113 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
I. É uma coleção de dados orientada por assuntos, integrada, variante no
tempo, que tem por objetivo dar suporte aos processos de tomada de decisão.

II. É implementado por meio de um banco de dados contendo dados


extraídos do ambiente de produção da empresa, que foram selecionados e
depurados, tendo sido otimizados para processamento de consulta e não para
processamento de transações.
III. Seu objetivo é fornecer uma “imagem única da realidade do negócio”.
De uma forma geral, são sistemas que compreendem um conjunto de programas
que extraem dados do ambiente de dados operacionais da empresa, um banco
de dados que os mantém, e sistemas que fornecem estes dados aos seus
usuários.

IV. As ferramentas ROLAP surgiram juntamente com os Sistemas de Apoio


à Decisão para fazerem a consulta e a análise dos dados contidos nos Data
Warehouses e Data Marts.

Assinale a alternativa correta.

a) Somente as afirmativas I e III são corretas.


b) Somente as afirmativas I e IV são corretas.
c) Somente as afirmativas II e IV são corretas.
d) Somente as afirmativas I, II e III são corretas.
e) Somente as afirmativas II, III e IV são corretas.

22ª Questão) (ESAF – Comissão de Valores Mobiliários – Analista de


Sistemas – 2010) Ferramentas de processamento analítico on-line (OLAP)

a) funcionam sobre dados multidimensionais, caracterizados por atributos


de dimensão e atributos de medida.
b) funcionam sobre dados unidirecionais, caracterizados por atributos de
medida e atributos de qualidade. 26072658512

c) funcionam sobre dados multidimensionais, caracterizados por atributos


de dispersão e atributos de mediação.
d) desconsideram dados multidimensionais.
e) transformam dados unidimensionais em dados analíticos, caracterizando
dimensão e medidas por atributos equivalentes.

23ª Questão) (FCC – TRT/11ª Região – Analista Judiciário –


Tecnologia da Informação – 2012) No âmbito dos DWs e OLAP, o processo
onde se faz a junção dos dados e transforma-se as colunas em linhas e as linhas
em colunas, gerando dados cruzados, é chamado de

Prof. Victor Dalton


www.estrategiaconcursos.com.br 114 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
a) drill-across.
b) star.
c) cube.
d) pivot.
e) cross-join.

24ª Questão) (Cesgranrio – Petrobrás – Analista de Sistemas Júnior


– Engenharia de Software – 2010 - adaptada) A modelagem
multidimensional é uma técnica de concepção e visualização de um modelo de
dados de um conjunto de medidas que descrevem aspectos comuns de negócios.
Ela é especialmente utilizada para sumarizar e reestruturar dados, de forma a
apresentá-los em visões que ajudem ao usuário analisá-los para tomar decisões
relevantes e bem informadas para o processo de negócio sujacente. Qual das
seguintes descrições refere-se corretamente a uma propriedade da modelagem
multidimensional?

a) Quando o usuário realiza uma operação de drill down ou uma operação


de roll up ou drill up, ele está navegando em uma ou mais hierarquias da tabela
de dimensões, respectivamente aumentando e diminuindo a precisão usada para
visualização dos dados.

b) No modelo dimensional, a tabela de fatos representa uma hierarquia dos


dados, transações ou eventos de negócio, sendo sempre implementada de forma
completamente desnormalizada.

c) O uso do modelo dimensional aproxima o armazenamento da forma de


pensar do usuário final e, por isto, faz com que este aprenda a usar SQL de
forma mais eficaz e eficiente.

d) A tabela de dimensões apresenta vários membros que representam


valores diferentes dos fatos e que necessariamente estão organizados em uma
hierarquia única armazenada como uma árvore.

e) A visualização mais popular dos dados em modelos dimensionais é feita


26072658512

através do desenho de um hipercubo de informação, cujas dimensões são


normalizações dos índices das tabelas transacionais.

25ª Questão) (FCC – INFRAERO – Analista de Sistema – Banco de


Dados e Administrador de Dados - 2011) Considere:

I. No Data Warehouse, o dado tem um valor histórico, por referir-se a


algum momento específico do tempo, portanto, ele não é atualizável; a cada
ocorrência de uma mudança, uma nova entrada é criada para sinalizar esta
mudança.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 115 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
II. O estágio de transformação no processo ETL deve ser capaz de
selecionar determinadas colunas (ou nenhuma) para carregar; transformar
múltiplas colunas em múltiplas linhas; traduzir e unificar códigos heterogêneos
de um mesmo atributo, oriundos de diversas fontes de dados (tabelas).

III. No Snow Flake as subdimensões, por não serem normalizadas, geram


aumento significativo no número de registros e, como consequência, aumentam
também a quantidade de joins necessários à exibição de uma consulta.

IV. Data Mining é uma ferramenta de mineração de dados que executa a


varredura nos dados históricos com o objetivo de desconsiderar o que é genérico
sobre algum assunto e valorizar tudo que o for específico dentro do sistema.

Está correto o que consta em

a) I e II, apenas.
b) III e IV, apenas.
c) I, II e III, apenas.
d) II, III e IV, apenas.
e) I, II, III e IV.

26ª Questão) (FCC – MPE/MA – Analista Ministerial – Banco de


Dados e Administrador de Dados - 2013) Considerando um data warehouse,
podem ser utilizadas, para sua consulta, as ferramentas MOLAP
(Multidimensional OLAP), cuja característica principal é fazer o acesso a um
conjunto de dados previamente calculados, denominado

a) matriz de dados.

b) lista ligada.

c) matriz hash. 26072658512

d) milestone.

e) cubo de dados.

27ª Questão) (FCC – TRT/9ª Região – Analista Judiciário –


Tecnologia da Informação - 2013) As ferramentas OLAP são as aplicações às
quais os usuários finais têm acesso para extrair os dados de suas bases e
construir os relatórios capazes de responder às suas questões gerenciais. As
operações realizadas abaixo navegam nos dados, modificando o nível de
granularidade da consulta.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 116 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

A primeira e a segunda operações são, respectivamente,

a) roll up e drill down.

b) drill across e slice and dice.

c) slice and dice e dill throught.

d) dill throught e roll up.

e) drill down e roll up.


26072658512

28ª Questão) (FCC – TRT/12ª Região – Analista Judiciário –


Tecnologia da Informação - 2013) Dentre as diferenças cruciais entre o
modelo tradicional de uso de bancos de dados OLTP (Online Transaction
Processing) e o modelo voltado para Data Warehousing (DW) está

a) o nível de armazenamento de dados, muito mais sumarizado no caso de


DW.

b) a quantidade de cláusulas JOIN, utilizadas em maior número para DW.

c) a necessidade de normalização para as bases OLAP, o que não é


necessário em OLTP.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 117 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
d) a utilização de dados derivados e agregados em OLTP, o que não ocorre
no ambiente de DW.

e) o número de índices necessários, muito maior no caso de DW.

29ª Questão) (FCC – TRT/12ª Região – Técnico Judiciário –


Tecnologia da Informação - 2013) Em uma comparação entre bancos de
dados OLTP (Online Transaction Processing), com bancos de dados OLAP (Online
Analytical Processing), para os bancos OLAP

a) não é necessário um grande espaço de armazenamento, pois as


informações são buscadas em tempo real.

b) as operações podem levar horas para serem executadas para certas


queries.

c) as operações de INSERT e UPDATE são efetuadas somente pelos


usuários finais.

d) o principal objetivo é rodar e controlar tarefas básicas de regras de


negócio.

e) os dados são obtidos ad hoc, ou seja, sempre que um relatório é


requisitado, os bancos OLTP são acessados dinamicamente para a obtenção
imediata desta informação.

30ª Questão) (FCC – Prefeitura de São Paulo – Auditor Fiscal


Tributário Municipal I – Tecnologia da Informação - 2012) Sobre os
esquemas estrela e floco de neve para modelagem de dados multidimensionais
voltados para OLAP é correto afirmar que

a) ambos os esquemas possuem várias tabelas de fato hierárquicas por


meio de normalização, sendo que apenas no esquema estrela as tabelas de
26072658512

dimensão também são hierárquicas por meio de normalização.

b) o esquema estrela possui uma única tabela de fato, enquanto no


esquema floco de neve existem várias tabelas de fato hierárquicas por meio de
normalização.

c) o esquema floco de neve possui uma única tabela de fato, enquanto no


esquema estrela existem várias tabelas de fato hierárquicas por meio de
normalização.

d) ambos os esquemas possuem uma tabela de fato e várias tabelas de


dimensão, sendo que apenas no esquema floco de neve as tabelas de dimensão
são hierárquicas por meio de normalização.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 118 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
e) ambos os esquemas possuem uma tabela de fato e várias tabelas de
dimensão, sendo que apenas no esquema estrela as tabelas de dimensão são
hierárquicas por meio de normalização.

31ª Questão) (FCC – TCE/AM – Analista Técnico de Controle Externo


– Tecnologia da Informação - 2012) Em ferramentas OLAP, a estrutura de
dados que agrega as medidas por níveis e hierarquias de cada uma das
dimensões a serem analisadas, combinando várias dimensões, tais como tempo,
geografia e linhas de produtos, com dados resumidos, tais como números de
vendas ou de inventário, é visualizada na forma de

a) um gráfico multidimensional.

b) uma esfera.

c) uma planilha.

d) um cubo.

e) uma pirâmide tridimensional.

32ª Questão) (Cesgranrio – Petrobrás – Analista de Sistemas Júnior


– Engenharia de Software - 2010) Em um ambiente de data warehousing,
uma das fases mais importantes é a ETL (Extract, Transformation and Load), em
que se definem as estratégias de conversão, transformação e consistência dos
dados dos sistemas de origem para realizar a carga dos dados no sistema de
data warehouse. Uma característica relacionada a essa fase de ETL é que

a) a garantia da consistência dos dados é especialmente necessária nos


sistemas que incluem SGBDs relacionais, pois estes são incapazes de garantir as
consistências das transações e as integridades referenciais.

b) sua existência é incompatível com o uso dos sistemas legados, pois sua
26072658512

tecnologia antiquada impede que estes sejam integrados em um sistema de data


warehousing.

c) pode ser eliminada, se o próprio SGBD relacional transacional for usado


como o banco do sistema de data warehousing, o que permite obter uma grande
economia de recursos.

d) é necessária para se obter os dados das múltiplas fontes, de forma a


transformá-los nas variáveis que interessam ao processo de decisão.

e) visa a garantir que cada registro do data warehouse corresponda a


exatamente um registro do SGBD transacional, para assegurar a correção das
variáveis de decisão.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 119 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

33ª Questão) (CETRO – ANVISA – Analista Administrativo – Área 5 –


2013 – prova anulada) Quanto aos bancos de dados de suporte à decisão,
assinale a alternativa correta.

a) São, principalmente (embora não totalmente), apenas de leitura (read-


only).

b) São, principalmente, livres de qualquer tipo de redundância.

c) Sua principal preocupação é a integridade.

d) Por questões de eficiência no armazenamento, não são indexados.

e) Não devem ser muito grandes devido à constante manutenção exigida e


às transações comerciais que não devem ser acumuladas com o tempo.

34ª Questão) (CETRO – ANVISA – Analista Administrativo – Área 5 –


2013 – prova anulada) Assinale a alternativa que apresenta um recurso
essencialmente OLAP.

a) ROLLUP.

b) GROUP BY.

c) OLAPUP.

d) HAVING.

e) SELECT.

35ª Questão) (CETRO – ANVISA – Analista Administrativo – Área 5 –


2013 – prova anulada) Em relação aos DWs (Data warehouses), assinale a
26072658512

alternativa correta.

a) São orientados a objetos.

b) Não variam com o tempo.

c) São voláteis.

d) Evitam o uso de gerenciadores de bancos de dados tradicionais,


reduzindo custos, mas podem causar impactos significativos nos sistemas
operacionais.

e) Seus dados não podem ser alterados, mas podem ser excluídos.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 120 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
36ª Questão) (FCC – TRF 3ª Região – Analista Judiciário – Banco de
Dados – 2014) Mineração de dados é a investigação de relações e padrões
globais que existem em grandes bancos de dados, mas que estão ocultos no
grande volume de dados. Com base nas funções que executam, há diferentes
técnicas para a mineração de dados, dentre as quais estão:

I. identificar afinidades existentes entre um conjunto de itens em um dado


grupo de registros. Por exemplo: 75% dos envolvidos em processos judiciais
ligados a ataques maliciosos a servidores de dados também estão envolvidos em
processos ligados a roubo de dados sigilosos.

II. identificar sequências que ocorrem em determinados registros. Por


exemplo: 32% de pessoas do sexo feminino após ajuizarem uma causa contra o
INSS solicitando nova perícia médica ajuízam uma causa contra o INSS
solicitando ressarcimento monetário.

III. as categorias são definidas antes da análise dos dados. Pode ser
utilizada para identificar os atributos de um determinado grupo que fazem a
discriminação entre 3 tipos diferentes, por exemplo, os tipos de processos
judiciais podem ser categorizados como infrequentes, ocasionais e frequentes.

Os tipos de técnicas referenciados em I, II e III, respectivamente, são:

37ª Questão) (FCC – TRF 3ª Região – Analista Judiciário – Banco de


26072658512

Dados – 2014) A tecnologia de Data Warehouse oferece suporte às


ferramentas OLAP, que apresentam visões multidimensionais de dados
permitindo a análise das operações de negócio para facilitar a tomada de
decisões. Estas ferramentas suportam algumas operações de maneira a dar aos
analistas o poder de observar os dados de várias maneiras em níveis diferentes.
Considere duas destas operações mostradas nas figuras abaixo.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 121 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

26072658512

As operações mostradas na Figura 1 e na Figura 2, respectivamente, são

(A) rotação e drill-down.


(B) ROLAP e drill-through.
(C) rotação e roll-up.
(D) roll-up e rotação.
(E) drill-down e ROLAP.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 122 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

38ª Questão) (FCC – TCE/RS – Auditor Público Externo – Técnico em


Processamento de Dados – 2014) A revista da CGU − Controladoria Geral da
União, em sua 8a edição, publicou um artigo que relata que foram aplicadas
técnicas de exploração de dados, visando a descoberta de conhecimento útil
para auditoria, em uma base de licitações extraída do sistema ComprasNet, em
que são realizados os pregões eletrônicos do Governo Federal. Dentre as
técnicas preditivas e descritivas utilizadas, estão a classificação, clusterização e
regras de associação. Como resultado, grupos de empresas foram detectados
em que a média de participações juntas e as vitórias em licitações levavam a
indícios de conluio.
As técnicas aplicadas referem-se a

(A) Extraction, Transformation and Load.


(B) Customer Churn Trend Analysis.
(C) On-Line Analytical Processing.
(D) Data Mining.
(E) Business Process Management.

39ª Questão) (FCC – SEFAZ/PE – Auditor Fiscal – 2014) O grande


crescimento do ambiente de negócios faz com que as empresas armazenem um
alto volume de informações, tornando a sua correta extração um fator chave
para que consigam espaço no mercado competitivo. Nesse contexto, o Data
Warehouse (DW) é um depósito de dados

(A) redundante, pois como os dados são provenientes de várias fontes,


podem aparecer repetidos dezenas de vezes.

(B) orientado por departamentos, e sua modelagem é norteada a partir de


todos os assuntos da empresa, fornecendo uma visão geral dos processos de
negócio que permite a tomada de
26072658512
decisões estratégicas.

(C) volátil, em que os dados, após serem filtrados e limpos, podem sofrer
alterações, consulta e exclusão de cadastro que refletem nas bases de dados
originais.

(D) integrado, que visa padronizar os dados dos diversos sistemas em uma
única representação, para serem transferidos para a base de dados única do
DW.

(E) invariável com o tempo, que consiste na manutenção de um histórico


de dados em relação ao período de tempo maior que dos sistemas comuns o que
compromete, de certa forma, o desempenho dos bancos transacionais.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 123 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02

40ª Questão) (FCC – TCE/RS – Auditor Público Externo – Técnico em


Processamento de Dados – 2014) A granularidade de dados é uma questão
crítica no projeto de um Data Warehouse (DW), pois afeta o volume de dados
que reside no DW e, ao mesmo tempo, afeta o tipo de consulta que pode ser
atendida. Considere:

I. Quanto mais detalhe existir, mais baixo será o nível de granularidade.


Quanto menos detalhe existir, mais alto será o nível de granularidade.

II. Quando há um nível de granularidade muito alto, o espaço em disco e o


número de índices necessários se tornam bem menores, mas há uma
correspondente diminuição da possibilidade de utilização dos dados para atender
a consultas detalhadas.

É correto afirmar que a afirmativa I

(A) está incorreta. A afirmativa II está correta, pois é coerente em relação


ao nível de granularidade, espaço em disco e tipos de consultas em um DW.

(B) é equivalente a: quanto menos detalhes há nos dados, menor é a


granularidade, consequentemente, quanto mais detalhes existem, maior é a
granularidade.

(C) e a afirmativa II estão corretas e coerentes em relação ao nível de


granularidade, espaço em disco e tipos de consultas em um DW.

(D) está correta. A afirmativa II está incorreta, pois apresenta incoerência


em relação ao nível de granularidade, espaço em disco e tipos de consultas em
um DW.

(E) e a afirmativa II estão incorretas. Ambas apresentam incoerência em


relação ao nível de granularidade, espaço em disco e tipos de consultas em um
DW.
26072658512

41ª Questão) (FCC – TCE/RS – Auditor Público Externo – Técnico em


Processamento de Dados – 2014) Os cubos de dados que armazenam os
dados multidimensionais, podem ter modelos de armazenamento que variam
conforme a solução OLAP − On-Line Analytical Processing utilizada. Nesse
sentido considere os seguintes modelos:

I. Armazena os dados de detalhe (fatos) e as agregações em um modelo


multidimensional. Não faz uso da base de dados relacional para acessar os
dados dos cubos. Necessita de um processamento constante do cubo, embora
apresente melhor desempenho.
Prof. Victor Dalton
www.estrategiaconcursos.com.br 124 de 125
Análise de Informações para TCE/SC
Auditor Informática
Prof Victor Dalton Aula 02
II. Lê os dados de detalhe (fatos) diretamente de fonte de dados relacional.
Caso existam agregações, estas serão geradas no modelo relacional. Pode ser
usado quando há problemas para armazenamento de uma estrutura
multidimensional.

III. Lê os dados de detalhe (fatos) diretamente da fonte de dados


relacional. Grava as agregações em formato multidimensional. Os dados que não
possuem agregações são consultados no modelo relacional. Mantém os
benefícios do modelo multidimensional sem ocupar tanto espaço em disco.

I, II e III referem-se, respectivamente, aos modelos

(A) ROLAP − HOLAP − DOLAP.

(B) HOLAP − MOLAP − ROLAP.

(C) MOLAP − ROLAP − HOLAP.

(D) HOLAP − DOLAP − ROLAP.

(E) DOLAP − HOLAP − MOLAP.

GABARITO CESPE

1.c 2.e 3.e 4.c 5.e 6.c 7.a 8.e 9.c 10.e
11.e 12.e 13.c 14.c 15.c 16.e 17.e 18.c 19.e 20.c
21.e 22.c 23.c 24.e 25.c 26.c 27.e 28.e 29.e 30.e
31.e 32.c 33.e 34.e 35.c 36.c 37.e 38.c 39.c 40.e
41.c 42.c 43.e 44.e 45.c 46.e 47.c 48.e 49.c 50.e

26072658512

GABARITO OUTRAS BANCAS

1.e 2.e 3.b 4.e 5.d 6.d 7.a 8.e 9.e 10.d
11.c 12.c 13.b 14.e 15.c 16.b 17.b 18.b 19.a 20.a
21.d 22.a 23.e 24.a 25.a 26.e 27.a 28.e 29.b 30.d
31.d 32.d 33.a 34.a 35.e 36.b 37.a 38.d 39.d 40.c
41.c

Prof. Victor Dalton


www.estrategiaconcursos.com.br 125 de 125

Você também pode gostar