Apache Spark e Big Data
Apache Spark e Big Data
Apache Spark e Big Data
br
Microsoft Power BI Para Data Science
Apache Spark e Big Data
Microsoft Power BI Para Data Science
O Big Data está por todos os lugares. Dados são gerados por pessoas e máquinas de
forma nunca antes vista pela humanidade. Cliques em web sites, pesquisas na web, cadastros,
posts em redes sociais, mensagens de rede entre servidores, sensores ou até mesmo um
simples pause que você dá em vídeo no Youtube. Tudo isso são dados gerados por bilhões de
pessoas em todo mundo. E boa parte destes dados são gerados de forma não estruturada.
Segundo estimativas, cerca de 80% dos dados gerados pela humanidade são não estruturados.
Para tratar esses dados não estruturados, utilizamos processos de ETL para coleta,
transformação e carga de dados, para que possamos disponibilizar os dados para análise. Ou
ainda utilizamos estruturas de Enterprise Data Hub para armazenar todo esse volume de dados,
gerado em alta velocidade e com alta variedade, as propriedades do Big Data.
Mas aí nós temos um problema…
Como armazenar e processar todos esses dados, se o volume aumenta de forma
exponencial? É praticamente impossível armazenar todos esses dados em apenas uma
máquina, em apenas um servidor.
Por esse motivo, utilizamos cada vez mais clusters. Clusters são conjuntos de
computadores (servidores) conectados, que executam como se fossem um único sistema. Cada
computador no cluster é chamado node e cada node realiza a mesma tarefa, sendo controlado
por software. Normalmente cada componente de um cluster é conectado através de redes
locais (LAN’s) e cada node executa sua própria instânca de sistema operacional. Em nossa seção
de links úteis você encontra o link para vídeo com o datacenter do Google, que mostra como
essas a empresa armazena seus dados em grandes clusters de computadores. Vale a pena
conferir.
Apache Spark é um framework open-source para processamento de Big Data construído
para ser veloz, fácil de usar e para análises sofisticadas. Apache Spark é uma ferramenta de
análise de Big Data, escalável e eficiente. O Spark é escrito na linguagem Scala e executa em
uma máquina virtual Java. Atualmente, suporta como linguagens para o desenvolvimento de
aplicativos, as linguagens: Scala, Java, Python e R.
A exemplo do Hadoop, o Spark pode ser integrado a diversas outras ferramentas,
permitindo a criação de uma poderosa e gratuita solução para processamento de Big Data.
Além da API do Spark, existem bibliotecas adicionais que fazem parte do seu ecossistema e
fornecem capacidades adicionais para as áreas de análise de Big Data e aprendizado de
máquina.
Para aprender mais sobre o Apache Spark, de forma 100% online e 100% em português,
confira: