S5 Nota10 Comentada COM460

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 7

Contents

Atividade avaliativa - Semana 5 1


Pergunta 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Pergunta 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Pergunta 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Pergunta 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Pergunta 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Pergunta 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Pergunta 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Pergunta extra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

Atividade avaliativa - Semana 5


Pergunta 1
O Spark representa outro framework para processamento de dados em larga
escala, que foi motivado, por exemplo, pelo aumento dos datasets na web e pela
Internet das Coisas (IoT). O Apache Spark é um sistema de computação em
cluster com baixa latência e usado para grandes conjuntos de dados.
Baseado no texto acima, identifique se são verdadeiras (V) ou falsas (F) as
afirmativas a seguir, que demonstram os benefícios da utilização do Apache
Spark.
I. ( ) Generaliza o MapReduce. II. ( ) Modelo de programação. III. ( ) Domínio
de sistemas. IV. ( ) Gerenciamento de memória. V. ( ) Movimentação de dados.
Assinale a alternativa que apresenta a sequência correta.
c. V - V - V - V - V.

I. Generaliza o MapReduce: Esta afirmação é verdadeira. O Spark generaliza


o modelo de computação MapReduce para suportar mais tipos de cálculos,
incluindo consultas interativas e processamento de fluxo.
II. Modelo de programação: Esta afirmação é verdadeira. O Spark fornece
um modelo de programação simples que suporta uma ampla gama de
aplicações, incluindo ETL (Extract, Transform, Load), aprendizado de
máquina, computação gráfica e muito mais.
III. Domínio de sistemas: Esta afirmação é verdadeira. O Spark pode
ser usado em uma variedade de sistemas, desde sistemas de aprendizado
de máquina até sistemas de processamento em tempo real e sistemas de
processamento em lote.
IV. Gerenciamento de memória: Esta afirmação é verdadeira. O Spark
faz um uso eficiente da memória com seu modelo de computação baseado

1
em RDD (Resilient Distributed Dataset), que permite que os dados se-
jam armazenados na memória entre as consultas sem a necessidade de
armazenamento persistente.
V. Movimentação de dados: Esta afirmação é verdadeira. O Spark minimiza
a movimentação de dados entre as tarefas e aproveita o armazenamento em
memória para melhorar a velocidade do processamento.
Portanto, a alternativa correta é a letra c: V - V - V - V - V.

Pergunta 2
A arquitetura do framework Apache Hadoop utiliza a maior parte do seu poder
computacional e de armazenamento de dados do sistema nos nós principais do
cluster. Além disso, utiliza elementos para balancear a carga de processamento,
como Sistema de Arquivos Distribuídos Hadoop (HDFS), NameNode, DataNode
e MapReduce Engine.
Relacione adequadamente os elementos do Apache Hadoop com as características
a seguir.
1. NameNode.
2. DataNode.
I. O servidor que contém a instância é bastante crucial, pois existe apenas um.
II. Pode ser executado em qualquer sistema de arquivos subjacente (ext3/4,
NTFS etc.)
III. Log de transações para exclusões/inclusões de arquivos etc.
Assinale a alternativa que correlaciona adequadamente os dois grupos de infor-
mações.
b. 1-I; 1-III; 2-II.

1. NameNode: Este é o nó mestre que gerencia o sistema de arquivos e


opera todas as transações com os dados. Portanto, a correlação correta é
1-I e 1-III.
2. DataNode: Estes são os nós escravos que são responsáveis pelo armazena-
mento dos dados reais no Hadoop. Portanto, a correlação correta é 2-II.
Portanto, a alternativa correta é a letra b: 1-I; 1-III; 2-II.

Pergunta 3
O framework Apache Hadoop pode ser encontrado em aplicações de vários
segmentos do mercado devido ao seu grande poder de processamento de dados

2
em larga escala, aliado às suas características, como capacidade de processamento,
flexibilidade, disponibilidade e custo baixo.
Leia as afirmações a seguir de exemplos de áreas que aplicam o Apache Hadoop.
I. Aplicações na publicidade.
II. Aplicações em segurança.
III. Aplicações em machine learning.
É correto que se afirma em:
e. I e II, apenas. → a resposta está incorreta, mas é a que vai dar como certa
ao enviar (até corrigirem)

A resposta está incorreta. O Apache Hadoop é usado em uma variedade de


aplicações e setores, incluindo publicidade, segurança e machine learning. Vamos
analisar cada alternativa:
I. Aplicações na publicidade: O Hadoop é frequentemente usado na indústria
da publicidade para analisar grandes volumes de dados de cliques e impressões
para otimizar as campanhas publicitárias.
II. Aplicações em segurança: O Hadoop também é usado em aplicações
de segurança, como detecção de fraudes e análise de ameaças cibernéticas,
onde é necessário processar grandes volumes de dados de log.
III. Aplicações em machine learning: O Hadoop é uma ferramenta valiosa
para aplicações de machine learning, onde grandes volumes de dados
precisam ser processados para treinar modelos.
Portanto, a alternativa correta de verdade seria a: I, II e III.

Pergunta 4
O Apache Hadoop é um exemplo de framework utilizado, sendo uma implemen-
tação de código aberto de estruturas para armazenamento de dados e computação
confiável, escalável e distribuído. O Hadoop é uma arquitetura flexível e alta-
mente disponível para computação em larga escala e processamento de dados
em uma rede de hardware comum.
Assinale a alternativa correta que descreve duas características/requisitos do
Apache Hadoop.
c. É escrito na linguagem Java e trabalha com dados estruturados e não
estruturados.

a. É escrito na linguagem C# e trabalha apenas com dados não


estruturados: esta afirmação é incorreta. O Apache Hadoop é escrito

3
em Java, não em C#, e pode trabalhar com dados estruturados e não
estruturados.
b. É escrito na linguagem Java e trabalha apenas com dados estrutu-
rados: Esta afirmação é incorreta. Embora o Apache Hadoop seja escrito
em Java, ele pode trabalhar com dados estruturados e não estruturados.
c. É escrito na linguagem Java e trabalha com dados estruturados
e não estruturados: Esta é a resposta correta. O Apache Hadoop é
escrito em Java e pode processar uma ampla variedade de tipos de dados,
incluindo dados estruturados e não estruturados.
É escrito na linguagem C# e trabalha com dados estruturados e não
estruturados: Esta afirmação é incorreta. O Apache Hadoop é escrito em va,
não em C#.
É escrito na linguagem C# e trabalha apenas com dados estruturados:
ta afirmação é incorreta. O Apache Hadoop é escrito em Java, não em C#, e
pode trabalhar com dados estruturados e não estruturados.

Pergunta 5
O framework Kafka, para processamento em larga escala, é uma plataforma
de streaming distribuído que possui alta escalabilidade, tolerância a falhas,
permite alto nível de paralelismo e desacoplamento entre produtores de dados e
consumidores de dados.
Analise estas duas definições: as mensagens são persistidas em uma fila, mas uma
mensagem específica pode ser consumida por, no máximo, um consumidor; as
mensagens são persistidas em um tópico, e os consumidores podem se inscrever
em um ou mais tópicos e consumir todas as mensagens desse tópico.
Assinale a alternativa correta que define os tipos de sistemas de mensagens para
a definição dos trechos acima, respectivamente.
b. Ponto a ponto e publicar-assinar.

a. Publicar-assinar e ponto a ponto: Esta afirmação é incorreta. A


primeira definição descreve o modelo de mensagens ponto a ponto, e a
segunda descreve o modelo de mensagens publicar-assinar.
b. Ponto a ponto e publicar-assinar: Esta é a resposta correta. A primeira
definição descreve o modelo de mensagens ponto a ponto, onde uma
mensagem específica pode ser consumida por, no máximo, um consumidor.
A segunda definição descreve o modelo de mensagens publicar-assinar, onde
os consumidores podem se inscrever em um ou mais tópicos e consumir
todas as mensagens desse tópico.

4
c. Queue e buffer: Esta afirmação é incorreta. Embora “queue” (fila) possa
ser usada para descrever o modelo de mensagens ponto a ponto, “buffer”
não é um modelo de mensagens.
d. Ponto a ponto e queue: Esta afirmação é incorreta. Embora “queue”
(fila) possa ser usada para descrever o modelo de mensagens ponto a ponto,
ela não é usada para descrever o modelo de mensagens publicar-assinar.
e. Buffer e queue: Esta afirmação é incorreta. Nem “buffer” nem “queue”
são usados para descrever os modelos de mensagens na definição fornecida.

Pergunta 6
O conjunto de soluções do framework Apache Spark é denominado “ecossistema
Apache Spark”. Esse ecossistema é constituído pelos seguintes elementos: Spark
Core, Spark SQL, Spark Streaming, MLLib e Graphx, cada qual com as suas
funções específicas no framework.
Com relação às funcionalidades dos elementos que compõem o ecossistema do
framework Apache Spark, avalie as afirmações a seguir que explicam essas
vantagens.
I. Spark Core: refere-se ao motor de execução da plataforma e representa um
mecanismo de processamento de dados distribuído.
II. Spark SQL: é um mecanismo para o Hadoop Hive que permite que consultas
não modificadas sejam executadas de forma mais rápida.
III. Spark Streaming: é um mecanismo que permite aplicativos interativos e
analíticos poderosos no streaming de dados.
IV. GraphX: é o mais novo componente do Spark e representa uma biblioteca
de aprendizado de máquina escalável.
V. MLLib: é um mecanismo de computação gráfica que fornece vários utilitários
úteis para tarefas de aprendizado de máquina.
É correto o que se afirma em:
a. I, II e III, apenas.

I. Spark Core: Esta afirmação é correta. O Spark Core é o motor de execução da


plataforma e representa um mecanismo de processamento de dados distribuído.
II. Spark SQL: Esta afirmação é correta. O Spark SQL é um módulo do
Spark para processamento de dados estruturados. Ele fornece suporte para
várias fontes de dados e torna possível executar consultas SQL no Spark.
III. Spark Streaming: Esta afirmação é correta. O Spark Streaming é um
componente do Spark que fornece processamento de fluxo de dados em
tempo real.

5
IV. GraphX: Esta afirmação é incorreta. O GraphX é um componente do
Spark para computação gráfica, não uma biblioteca de aprendizado de
máquina.
V. MLLib: Esta afirmação é incorreta. O MLLib é uma biblioteca do Spark
para machine learning, não um mecanismo de computação gráfica.
Portanto, a alternativa correta é a letra a: I, II e III, apenas.

Pergunta 7
O framework Apache Spark aborda o problema do acesso __________ aos dados
com conjuntos de dados __________ resilientes (RDDs). O RDD permite que
as aplicações mantenham conjuntos de trabalho na memória para __________.
Destaca-se como um modelo de programação tolerante a falhas, utilizando
computação distribuída e compartilhamento em memória.
Assinale a alternativa que possui a sequência correta das lacunas.
d. Compartilhado - distribuídos - reutilização.

a. Compartilhado - distribuídos - eliminação: Esta afirmação é incorreta.


O Spark não aborda o problema do acesso compartilhado aos dados, e os
conjuntos de dados não são apenas distribuídos, mas também resilientes.
Além disso, o RDD permite a reutilização dos conjuntos de trabalho na
memória, não a eliminação.
b. Distribuído - compartilhado - reutilização: Esta afirmação é incorreta.
O Spark aborda o problema do acesso compartilhado aos dados, não
distribuído. Além disso, os conjuntos de dados são distribuídos e resilientes,
não apenas compartilhados.
c. Compartilhado - remotos - reutilização: Esta afirmação é incorreta.
Embora o Spark aborde o problema do acesso compartilhado aos dados e
permita a reutilização dos conjuntos de trabalho na memória, os conjuntos
de dados são distribuídos e resilientes, não remotos.
d. Compartilhado - distribuídos - reutilização: Esta é a resposta correta.
O Spark aborda o problema do acesso compartilhado aos dados com
conjuntos de dados distribuídos resilientes (RDDs). O RDD permite que as
aplicações mantenham conjuntos de trabalho na memória para reutilização.
e. Restrito - distribuídos - reutilização: Esta afirmação é incorreta. O
Spark não aborda o problema do acesso restrito aos dados. Ele aborda
o problema do acesso compartilhado aos dados com conjuntos de dados
distribuídos resilientes (RDDs).

6
Pergunta extra
O Spark representa outro framework para processamento de dados em larga
escala, que foi motivado, por exemplo, pelo aumento dos datasets na web e pela
Internet das Coisas (IoT). O Apache Spark, uma alternativa ao MapReduce para
algumas aplicações, é um sistema de computação em cluster com baixa latência
e usado para grandes conjuntos de dados.
Assinale a alternativa que descreve um dos principais benefícios do Apache Spark.
e. Em vez de carregar os dados do disco para cada consulta, os dados são
compartilhados diretamente na memória.

a. Separa os processos em grids e ranks, o que facilita a admin-


istração dos processos pelo sistema central: Esta afirmação não
descreve um benefício do Apache Spark. O Spark não separa os processos
em grids e ranks.
b. Utiliza sub-partições de disco para facilitar o processamento
dos dados dos diferentes usuários do sistema: Esta afirmação não
descreve um benefício do Apache Spark. O Spark não utiliza sub-partições
de disco para processar dados.
c. Trabalha com nós de processamento, denominados “hosts”, e
consegue acelerar o processamento dos dados: Embora o Spark
trabalhe com nós de processamento e possa acelerar o processamento de
dados, a terminologia “hosts” não é específica ou única para o Spark.
d. Trabalha com o conceito de paginação de dados, separando as
camadas de processamento por prioridades: Esta afirmação não
descreve um benefício do Apache Spark. O Spark não trabalha com o
conceito de paginação de dados.
e. Em vez de carregar os dados do disco para cada consulta, os
dados são compartilhados diretamente na memória: Esta é a
resposta correta. Um dos principais benefícios do Apache Spark é sua
capacidade de realizar processamento em memória, o que pode resultar em
um desempenho significativamente melhor em comparação com sistemas
que carregam dados do disco para cada consulta.

Você também pode gostar