Aula 4 Big Data
Aula 4 Big Data
Aula 4 Big Data
BIG DATA
3
orçamento. Os projetos de dados englobam: banco de dados, data warehouses,
desenvolvimento de modelos, extração, transformação e produção de
informações, inteligência de negócios, integração de aplicativos e envolvimento
de vários tipos de tecnologia.
Como qualquer outro projeto, uma das etapas mais importantes é a análise
e gestão de riscos. Existem alguns riscos comuns como:
O Big Data tem chamado muito a atenção pelo aumento dos volumes de
dados. Há uma década não imaginávamos que teríamos discos rígidos com
terabytes dentro de nossas residências.
As tecnologias que sustentam Big Data poder ser analisadas sob duas
óticas: as envolvidas com Analytics, tecnologias como Hadoop e MapReduce
como nomes principais da infraestrutura que armazenam e processam petabytes
de dados. Nesse aspecto, temos também os bancos de dados NoSQL. O Big Data
é a simples constatação prática de que o imenso volume de dados gerados a cada
dia excede a capacidade das tecnologias atuais de os tratarem adequadamente.
4
A TI deve planejar sua arquitetura tecnológica para suportar essa demanda, seja
em equipamentos próprios, ou, cada vez mais provável, seja em ambiente de
computação nuvem (Taurion, 2013).
Nesse contexto de infraestrutura, é importante entender os diversos
formatos, padrões de dados, sistemas e arquitetura, ter disponível tecnologias que
possam coletar dados de diversas fontes, mídias, câmeras, vídeos e sensores,
com o uso cada vez maior de celulares, dispositivos móveis, mídias sociais e até
mesmo a internet das coisas, o volume de dados gerados irá crescer de forma
exponencial.
5
O Big Data é uma nova tendência de negócio que apresenta um impacto
potencial sobre os investimentos de TI, é uma ameaça as grandes empresas que
utilizam tecnologia legadas, o modo de armazenamento, processamento e análise
que os dados recebem hoje. A infraestrutura de hardware e software estão
sofrendo fortes transformações com o desenvolvimento do Big Data, a aplicação
dessas tecnologias está sendo feitas de várias maneiras diferentes.
6
engenharia (sensores em poços de petróleo), no comércio eletrônico
(localização e pesquisa de produtos), nas mídias sociais, entre outros. A
camada de dados mostra que esses dados são um grande ativo, sendo
justificada a sua gestão, auditoria e governança. Existe uma preocupação
muito grande com a qualidade dos dados, a integração, as atualizações,
segurança e privacidade dos dados na adoção do Big Data, outro ponto de
atenção se refere à propriedade dos dados e às responsabilidades pela
gestão continuada, ou seja, são desafios referentes à governança do Big
Data.
Código de aplicação: a codificação utilizada na manipulação dos dados é
bem variável, o Hadoop utiliza um framework (conjunto de ferramentas) de
processamento, que chamamos de MapReduce, o Big Data não é só
distribuir dados entres discos de armazenamento; é necessário elaborar e
manipular uma série de instruções computacionais complexas a esses
dados. As instruções do MapReduce podem ser processadas em paralelo
aos vários nós componentes da plataforma de Big Data, disponibilizam
novas estruturas de dados e vários conjuntos de respostas. O Apache Pig
e o Hive são linguagens de código aberto que utilizam scripts (programa
que automatiza a execução de tarefas) dentro da plataforma Hadoop. Outra
linguagem que também aparece para manipulação de scripts é o Python.
Visão de negócios: essa camada prepara o Big Data para possíveis
análises posteriores. Em algumas aplicações de Big Data, é necessária
uma estrutura de dados intermediária como modelos estatísticos, tabelas
relacionais, cubos de dados, entre outras estruturas. Modelos SQL são
muito utilizados por ser uma ferramenta tradicional de consulta. Essa visão
de negócios tem o objetivo de adaptar o Big Data às necessidades e às
ferramentas das empresas, aproveitando o conhecimento que já existe
dentro das organizações.
Aplicações: a última camada de aplicação apresenta os resultados do
processamento do Big Data aos usuários do negócio ou para sistemas que
utilizem os resultados do Big Data para a tomada de decisões automáticas.
Nessa camada, a apresentação dos dados é muito importante. A
preferência é sempre por ferramentas gráficas e intuitivas, planilhas pouco
práticas usadas antigamente não são recomendadas.
7
TEMA 3 – BANCO DE DADOS CASSANDRA
8
3.2 Cassandra e sua estrutura
9
Figura 1 – Estrutura de Banco de Dados NoSQL
10
TEMA 4 – CONSULTAS E OPERAÇÕES DO BANCO DE DADOS CASSANDRA
11
Para evitar que duas entradas tenham o mesmo nome de coluna por
apresentarem a mesma classificação, o registro de data e hora é incluído após o
nome (Machado, 2018).
12
TEMA 5 – TEXT MINING
5.4 Metodologias
14
as etapas. As fases são: entendimento do negócio, entendimento dos dados,
preparação de dados, modelagem, avaliação e entrega de resultados.
Os projetos de mineração textual apresentam algumas vantagens, pois é
possível fazer agrupamentos do texto com facilidade e de forma rápida, bases
estatísticas para análise e comprovação dos processos de mineração. Dessa
forma, é possível utilizar essas informações com uma visualização de dados feita
e fornecer conhecimento e sabedoria para a tomada de decisões.
15
REFERÊNCIAS
MACHADO, F. N. R. Big data: o futuro dos dados e aplicações. São Paulo: Érica,
2018.
16