S5 Nota10 Comentada COM460
S5 Nota10 Comentada COM460
S5 Nota10 Comentada COM460
1
em RDD (Resilient Distributed Dataset), que permite que os dados se-
jam armazenados na memória entre as consultas sem a necessidade de
armazenamento persistente.
V. Movimentação de dados: Esta afirmação é verdadeira. O Spark minimiza
a movimentação de dados entre as tarefas e aproveita o armazenamento em
memória para melhorar a velocidade do processamento.
Portanto, a alternativa correta é a letra c: V - V - V - V - V.
Pergunta 2
A arquitetura do framework Apache Hadoop utiliza a maior parte do seu poder
computacional e de armazenamento de dados do sistema nos nós principais do
cluster. Além disso, utiliza elementos para balancear a carga de processamento,
como Sistema de Arquivos Distribuídos Hadoop (HDFS), NameNode, DataNode
e MapReduce Engine.
Relacione adequadamente os elementos do Apache Hadoop com as características
a seguir.
1. NameNode.
2. DataNode.
I. O servidor que contém a instância é bastante crucial, pois existe apenas um.
II. Pode ser executado em qualquer sistema de arquivos subjacente (ext3/4,
NTFS etc.)
III. Log de transações para exclusões/inclusões de arquivos etc.
Assinale a alternativa que correlaciona adequadamente os dois grupos de infor-
mações.
b. 1-I; 1-III; 2-II.
Pergunta 3
O framework Apache Hadoop pode ser encontrado em aplicações de vários
segmentos do mercado devido ao seu grande poder de processamento de dados
2
em larga escala, aliado às suas características, como capacidade de processamento,
flexibilidade, disponibilidade e custo baixo.
Leia as afirmações a seguir de exemplos de áreas que aplicam o Apache Hadoop.
I. Aplicações na publicidade.
II. Aplicações em segurança.
III. Aplicações em machine learning.
É correto que se afirma em:
e. I e II, apenas. → a resposta está incorreta, mas é a que vai dar como certa
ao enviar (até corrigirem)
Pergunta 4
O Apache Hadoop é um exemplo de framework utilizado, sendo uma implemen-
tação de código aberto de estruturas para armazenamento de dados e computação
confiável, escalável e distribuído. O Hadoop é uma arquitetura flexível e alta-
mente disponível para computação em larga escala e processamento de dados
em uma rede de hardware comum.
Assinale a alternativa correta que descreve duas características/requisitos do
Apache Hadoop.
c. É escrito na linguagem Java e trabalha com dados estruturados e não
estruturados.
3
em Java, não em C#, e pode trabalhar com dados estruturados e não
estruturados.
b. É escrito na linguagem Java e trabalha apenas com dados estrutu-
rados: Esta afirmação é incorreta. Embora o Apache Hadoop seja escrito
em Java, ele pode trabalhar com dados estruturados e não estruturados.
c. É escrito na linguagem Java e trabalha com dados estruturados
e não estruturados: Esta é a resposta correta. O Apache Hadoop é
escrito em Java e pode processar uma ampla variedade de tipos de dados,
incluindo dados estruturados e não estruturados.
É escrito na linguagem C# e trabalha com dados estruturados e não
estruturados: Esta afirmação é incorreta. O Apache Hadoop é escrito em va,
não em C#.
É escrito na linguagem C# e trabalha apenas com dados estruturados:
ta afirmação é incorreta. O Apache Hadoop é escrito em Java, não em C#, e
pode trabalhar com dados estruturados e não estruturados.
Pergunta 5
O framework Kafka, para processamento em larga escala, é uma plataforma
de streaming distribuído que possui alta escalabilidade, tolerância a falhas,
permite alto nível de paralelismo e desacoplamento entre produtores de dados e
consumidores de dados.
Analise estas duas definições: as mensagens são persistidas em uma fila, mas uma
mensagem específica pode ser consumida por, no máximo, um consumidor; as
mensagens são persistidas em um tópico, e os consumidores podem se inscrever
em um ou mais tópicos e consumir todas as mensagens desse tópico.
Assinale a alternativa correta que define os tipos de sistemas de mensagens para
a definição dos trechos acima, respectivamente.
b. Ponto a ponto e publicar-assinar.
4
c. Queue e buffer: Esta afirmação é incorreta. Embora “queue” (fila) possa
ser usada para descrever o modelo de mensagens ponto a ponto, “buffer”
não é um modelo de mensagens.
d. Ponto a ponto e queue: Esta afirmação é incorreta. Embora “queue”
(fila) possa ser usada para descrever o modelo de mensagens ponto a ponto,
ela não é usada para descrever o modelo de mensagens publicar-assinar.
e. Buffer e queue: Esta afirmação é incorreta. Nem “buffer” nem “queue”
são usados para descrever os modelos de mensagens na definição fornecida.
Pergunta 6
O conjunto de soluções do framework Apache Spark é denominado “ecossistema
Apache Spark”. Esse ecossistema é constituído pelos seguintes elementos: Spark
Core, Spark SQL, Spark Streaming, MLLib e Graphx, cada qual com as suas
funções específicas no framework.
Com relação às funcionalidades dos elementos que compõem o ecossistema do
framework Apache Spark, avalie as afirmações a seguir que explicam essas
vantagens.
I. Spark Core: refere-se ao motor de execução da plataforma e representa um
mecanismo de processamento de dados distribuído.
II. Spark SQL: é um mecanismo para o Hadoop Hive que permite que consultas
não modificadas sejam executadas de forma mais rápida.
III. Spark Streaming: é um mecanismo que permite aplicativos interativos e
analíticos poderosos no streaming de dados.
IV. GraphX: é o mais novo componente do Spark e representa uma biblioteca
de aprendizado de máquina escalável.
V. MLLib: é um mecanismo de computação gráfica que fornece vários utilitários
úteis para tarefas de aprendizado de máquina.
É correto o que se afirma em:
a. I, II e III, apenas.
5
IV. GraphX: Esta afirmação é incorreta. O GraphX é um componente do
Spark para computação gráfica, não uma biblioteca de aprendizado de
máquina.
V. MLLib: Esta afirmação é incorreta. O MLLib é uma biblioteca do Spark
para machine learning, não um mecanismo de computação gráfica.
Portanto, a alternativa correta é a letra a: I, II e III, apenas.
Pergunta 7
O framework Apache Spark aborda o problema do acesso __________ aos dados
com conjuntos de dados __________ resilientes (RDDs). O RDD permite que
as aplicações mantenham conjuntos de trabalho na memória para __________.
Destaca-se como um modelo de programação tolerante a falhas, utilizando
computação distribuída e compartilhamento em memória.
Assinale a alternativa que possui a sequência correta das lacunas.
d. Compartilhado - distribuídos - reutilização.
6
Pergunta extra
O Spark representa outro framework para processamento de dados em larga
escala, que foi motivado, por exemplo, pelo aumento dos datasets na web e pela
Internet das Coisas (IoT). O Apache Spark, uma alternativa ao MapReduce para
algumas aplicações, é um sistema de computação em cluster com baixa latência
e usado para grandes conjuntos de dados.
Assinale a alternativa que descreve um dos principais benefícios do Apache Spark.
e. Em vez de carregar os dados do disco para cada consulta, os dados são
compartilhados diretamente na memória.