Talend Guia de Orientação
Talend Guia de Orientação
Talend Guia de Orientação
TREINAMENTO
Talend Data Integration
Apostila com os comandos das
vídeoaulas e exercícios de fixação
CURSO: DIREITOS:
Talend Data Integration Uso da apostila deve ser autorizado,
WEB SITE DE ACESSO AO CURSO: caso o estudante venha a utilizá-la fora
www.aprendavirtual.com do ambiente virtual do curso. Enviar e-
mail para solicitação.
DATA CRIAÇÃO:
REVISÃO: 4.0
17/04/2017
DATA ÚLTIMA MODIFICAÇÃO:
VERSÃO: 7.0
18/08/2017
AUTOR EMAIL:
Conheça Grimaldo:
Livro: BI COMO DEVE SER - www.bicomodeveser.com.br
Blog: www.bicomvatapa.blogspot.com
Site: www.aprendavirtual.com - Seu Site de Cursos EAD
Facebook:www.facebook.com/groups/bicomvatapa/
Perfil:br.linkedin.com/in/grimaldo
Sumário
INTRODUÇÃO ............................................................................................................................ 4
APRESENTAÇÃO ..................................................................................................................................................... 4
SOBRE ESTE DOCUMENTO ......................................................................................................................................... 4
RECURSOS NECESSÁRIOS .......................................................................................................................................... 4
OBJETIVO............... .............................................................................................................................................. 6
ENTENDENDO O TALEND DATA INTEGRATION ................................................................................................................. 7
INSTALAÇÃO O TALEND DATA INTEGRATION .................................................................................................................. 8
ESTRUTURA DE FUNCIONAMENTO DO TALEND DATA INTEGRATION...................................................................................... 10
PRIMEIROS PASSOS COM O TALEND DATA INTEGRATOR ................................................................................................... 12
Construção do DW ......................................................................................................................................................... 21
APÊNDICE............ ...................................................................................................................105
GLOSSÁRIO DE SIGLAS E TERMOS ............................................................................................................................. 105
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Introdução
"O pessimista vê dificuldade em cada oportunidade; o otimista vê oportunidade em cada dificuldade."
Apresentação
O curso de Talend Data Integration, foi idealizado para permitir um rápido aprendizado
prático ao aluno, através de uma interação com o professor a partir de vídeoaulas, que
facilitam o entendimento dos diversos comandos do Talend Data Integration. Durante o
curso, o aluno terá que assistir as vídeoaulas e praticar diretamente no seu computador.
Será necessário que o aluno tenha em sua máquina uma versão da ferramenta instalada.
O aluno terá um prazo máximo de curso de 3 meses para sua conclusão, mas poderá
solicitar uma única prorrogação pelo tempo que desejar, entretanto o aluno será avisado
por e-mail sobre o término do curso. Durante todo o curso, o aluno poderá retirar
dúvidas com o professor e colegas, através do fórum de dúvidas ou por e-mail.
O objetivo deste documento é fornecer ao aluno, os passos necessários para que este
aprenda a trabalhar com a ferramenta Talend Data Integration na sua plenitude, onde
detalhes mais específicos sobre cada comandos serão explicados, através de uma
linguagem direta, facilitando a construção das suas análises.
Recursos necessários
Para acesso ao curso é necessário que o aluno tenha uma internet de rápido acesso para
assistir aos vídeos, além de um leitor pdf da apostila do curso*, devem ser utilizados os
navegadores de internet Firefox(Mozila) ou Google Chrome com às versões mais atuais
para acesso ao site de aulas EAD, além do software Talend Data Integration* instalado na
máquina do aluno.
*Este software não é fornecido pelo Site Aprenda Virtual, o aluno é responsável pela
aquisição, caso o mesmo seja pago.
PÁGINA 4
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
PÁGINA 5
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Aulas
“Todo o conhecimento humano começou com intuições, passou daí aos conceitos e terminou com ideias.”
Immanuel Kant
PÁGINA 6
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
O Talend Data Integration para Integração de Dados oferece soluções para os problemas
que as empresas enfrentam devido à crescente complexidade dos sistemas, abordando a
ETL para análise e ETL para necessidades de integração operacional.
Existe hoje no mercado três versões para o Talend Data Integration, ambas com a
seguinte nomenclatura:
Ao trabalhar com o Talend Data Integration para Integração de Dados, você será
apresentado a estrutura de trablaho do ambiente do programa, muitas vezes encontrará
palavras como repositório, projeto, workspace, Job, componente.
WORKSPACE: é o diretório onde você armazena todas as pastas do projeto. Você precisa
ter um diretório por conexão (conexão de repositório).
PÁGINA 7
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Entender o conceito por trás de cada uma dessas palavras é crucial para entender a
funcionalidade do Talend para integração de dados.
Enfim, o Talend Data Integration permite construir carga de dados dos mais variados
assuntos, personalizados para os indivíduos em sua empresa. Com ele você poderá
realizar descoberta nos dados sem necessitar de programação alguma, basta apenas
arrastar os mais diversos objetos que são oferecidos na sua paleta de construção.
Passos:
1- Download do http://www.talend.com/download/talend-open-studio/#t4
Talend Data
Integration,
versão Open
Studio
2- Faça o download
da ferramenta e
execute em sua
máquina.
3- Descompacte o
conteúdo e
execute o
programa.
PÁGINA 8
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
4- Aceite a licença.
5- Será solicitada a
criação de um
novo projeto e
automaticament
e o repositório
de dados.
6- Será exibida a
tela de entrada.
PÁGINA 9
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
7- Pronto você já
pode começar a
trabalhar.
PÁGINA 10
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
A versão do software,
Detalha sobre a configuração e os problemas,
Detalha sobre plug-in(s),
Detalha sobre futuras funcionalidades.
Support Logs Abre o wizard para que posssa ser exportado todos os
log´s gerados para um arquivo de dados.
Studio Quick Tour Abre passo–a-passo a apresentação ao Repository, ao
Design Workspace, as configurações em geral e paleta.
Vamos iniciar nosso curso, trabalhando com os comandos básicos do Talend Data
Integration e no decorrer do curso, vamos nos aprofundar nos assuntos com um grau de
dificuldade maior.
Para iniciar seu primeiro trabalho vamos criar nosso primeiro Job, ou seja, criar uma carga
de dados. Para isso, vamos utilizar uma planilha chamada notas fiscais.xls, que será
gravada em um banco de dados ORACLE.
PÁGINA 12
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Name: Carga_Produto
Propuse: a Finalidade é efetuar carga no banco de dados.
Description: carga de arquivo de produtos, xls de Notas Fiscais.
Clique em Finish.
Pronto, a área de carga está liberada para a leitura do arquivo .xlsx e para ser carregado
no banco de dados
Vamos à paleta e trazer o objeto na aba Input. Vamos arrastar
para a área de construção de cargas, chamada de design workspace.
PÁGINA 13
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Agora para lermos o arquivo, necessitaremos criar um metadados para determinar qual
será a aba do Excel que será aberta, qual é a estrutura do arquivo, quais campos serão
carregados, etc. O metadados facilita a comunicação entre o Talend Data Integration e os
arquivos de leitura e destino.
Passos:
1- Preencha os dados do
arquivo que será
carregado.
Produto_metadados
PÁGINA 14
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
2- Escolha a aba
produto, dentro da
planilha notas
fiscais.xlsx.
4- Defina o nome do
schema para o
arquivo de leitura.
Schema_leitura_prod
uto.
Pronto, o metadados que vai lhe ajudar a carregar os dados está disponível:
PÁGINA 15
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Para que você possa utilizá-lo, basta arrastá-lo sobre o componente t_FileInputExcel-1
Ao clicar na aba Basic Settings, você talvez não tenha a conexão ojdbc.jar instalada, basta
instalar para utilizar, veja a mensagem:
Vamos criar mais um metadados para o arquivo de saída do banco dados, pois caso
contrário você fará a configuração manualmente. Utilizaremos a criação do schema
PÁGINA 16
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
genérico, lá escolheremos a opção select the database mapping type a opção mapping
oracle.
Agora vamos criar a conexão com o banco de dados, escolha em Repositório ->
Metadados a opção DbConnection.
PÁGINA 17
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Você deve criar a conexão com seu banco de dados, basta digitar as informações de
conexão.
PÁGINA 18
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Na opção Repository (repositório) escolha a conexão que você acabou de criar, caso
contrário você terá que digitar manualmente.
Agora vamos utilizar um outro componente que interligará a entrada e a saída de dados,
é o objeto tMap. O objeto tMap encontra-se em Processing -> Fields -> tMap, ou digite o
nome do componente no search dos componentes.
1- Clique com o botão direito no objeto -> Row -> Main e arraste até o objeto
seguinte.
PÁGINA 19
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Note que o atributo nom_produto não encontrará seu correspondente, pois o nome do
campo na tabela está diferente, para isso basta clicar e arrastar até o campo
des_produto.
PÁGINA 20
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Pronto, agora que já demos nosso primeiro passo, vamos iniciar nosso projeto de
construção de um DW com o Talend Data Integration.
Construção do DW
Business Intelligence
Business Intelligence (BI), é um termo criado pelo Gartner Group. Este conceito surgiu na
década de 80 e descreve as habilidades das corporações para explorar informações que
normalmente estão em um Data Warehouse/Data Mart. BI é um processo que auxilia no
desenvolvimento Tático, Estratégico e Operacional da Corporação.
PÁGINA 21
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Data Warehouse
O Data Warehouse (DW) é o banco de dados de suporte a tomada de decisão, alinhado a
um programa para coletar, limpar, transformar e armazenar dados de diferentes fontes
externas, essas duas partes combinadas são utilizadas para atender as exigências
históricas e analíticas de um projeto de Business Intelligence.
TALEND
TRABALHO PRÁTICO
O Trabalho Prático consiste em construir um Data Mart de notas fiscais que são emitidas
por uma loja, neste DW teremos as dimensões (Vendedor, Produto, Tempo e
Departamento) e essas informações serão cruzadas com o valor da nota fiscal.
MODELO TRANSACIONAL
No desenvolvimento do trabalho prático, iremos utilizar como fonte de dados o Arquivo
notas fiscais cujas abas possuem os arquivos no formato Excel (Departamento,
Vendedor, Produto, Vendas), esses arquivos serão utilizados para a realização da carga
no modelo multidimensional.
MODELO MULTIDIMENSIONAL
PÁGINA 22
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Arquivo XLS
TEMPO VENDEDOR
STAGING
VENDA
PRODUTO DEPARTAMENTO
Criando Staging
OBS: A dimensão tempo será executada com base em uma procedure para a carga dos
dados.
PÁGINA 23
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
As etapas de criação de nosso projeto vão obedecer de forma sequencial o seguinte fluxo
de execução.
CARGA DA STAGING
5. Crie o metadados
vendedor_metadados.
6. Formate e selecione a
aba da planilha
vendedor.
PÁGINA 24
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
7. Selecione os campos
cod_vendedor e
des_vendedor. Troque
o encoding para ISO-
8859-1, isso irá fazer
com que os sinais das
grafias sejam gravados
no banco de dados.
9. Escolha o componente
tFileInputExcel_1 para
ler o metadados que
você acabou de criar.
PÁGINA 25
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
PÁGINA 26
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
PÁGINA 27
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
PÁGINA 28
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Agora que possuímos de forma mais clara as necessidades que compõe a tabela staging
da fato, vamos ver dicas importantes para transferi-la com cuidado.
1- Crie um Schema de metadados com a aba Notas Fiscal, pois será nela que você
lerá os dados. Converta os campos em código para string, data para string,
métricas para string, pois vamos utilizar transformações nos dados para
praticarmos.
PÁGINA 29
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
3- Como nós possuímos muitos dados para inserir, vamos alterar o commit do banco
de dados para 1000 em 1000. Atualmente está em 10000. Isso evitará erros na
carga.
PÁGINA 30
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
CARGA DA DIMENSÃO
A tabela dimensão representa os objetos importantes para a empresa e contém
informações descritivas e textuais do negócio. As dimensões são as principais fontes de
consultas nos relatórios, elas atuam como um link para as tabelas fatos, e seus dados
fornecem grupos de relatórios.
1. Clique com o
botão direito
em Job.
2. Clique em
Create Job.
3. Vamos designar o
nome do Job
como
carga_dim_depar
tamento
4. Clique em OK.
5. Vamos adicionar
o objeto que
chama a tabela
staging de
departamento e
configurá-lo com
a tabela
stg_departament
o.
PÁGINA 31
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
6. Vamos
adicionar a
ligação com
Tmap para
selecionar os
campos que irá
popular nossa
dimensão.
7. Vamos
adicionar o
Objeto que
iremos utilizar
para popular a
dimensão, para
isso pesquise o
componente
TOracleSCD.
PÁGINA 32
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
9. Vamos
importar a
estrutura da
dimensão que
você criou para
o Talend Data
Integration.
10. Aceite as
opções.
11. Escolha a
tabela
dim_departam
ento.
12. Confirme
apenas.
PÁGINA 33
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
13. Vamos
configurar o
Objeto
TOracleSCD.
Primeiro vamos
conectar a
dimensão no
banco de
dados, lembre-
se que
criaremos pela
primeira vez a
tabela de
dimensão
dim_departam
ento. Podemos
ver os dados
que serão
carregados da
staging,
clicando nos
“óculos”.
PÁGINA 34
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
PÁGINA 35
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Dimensão Tipo SCD1: Permite que os dados inseridos na dimensão sejam substituídos, ou
seja, não gerem histórico dos dados.
Dimensão Tipo SCD2: Permite que os dados inseridos na dimensão guardem o histórico
dos dados, ou seja, haverá registros dentro da dimensão que serão versionados, possuem
a mesma chave do operacional, mas com validades diferentes.
PÁGINA 36
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Um exemplo SCD 2:
STG_DEPARTAMENTO
COD_DEPARTAMENTO DES_DEPARTAMENTO
1 INFORMÁTICA
2 PAPELARIA
DIM_DEPARTAMENTO
PÁGINA 37
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
DIM_PRODUTO
DIM_VENDEDOR
Antes de encerrar, vamos criar um registro chamado de sem informação (código = -1),
isso devido à inconsistência de dados, pois podem ocorrer em projetos de DW, onde os
dados do operacional não são íntegros. Por exemplo, vendas de um determinado
vendedor na tabela vendas do banco de dados, cujo código de identificação não existe,
ou não foi cadastrado, a colocação de uma identificação de inconsistência permitirá que a
gestão da empresa veja que há dados inconsistentes na base.
PÁGINA 38
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
DIM_DEPARTAMENTO:
DIM_VENDEDOR:
DIM_PRODUTO:
PÁGINA 39
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
A dimensão TEMPO é uma das mais importantes que existem em um projeto de Data
Warehouse, sem ela, você não consegue estabelecer análises temporais. Com os dados
da dimensão TEMPO você identifica quando uma determinada métrica foi inserida. Veja o
exemplo:
TABELA VENDAS
Note, as compras são identificadas conforme a data da venda. Sem a data da venda você
não consegue fazer uma análise do tipo:
Está procedure está disponível no nosso site, basta baixar e executar dentro do banco
de dados. OBS.: Lembrando que ela está no formato de PL/SQL
PÁGINA 40
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
PÁGINA 41
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
CARGA DA FATO
Estamos chegando ao final de nosso projeto de DW, para isso precisaremos criar a carga
da tabela fato, que reunirá todas as chaves das dimensões e as métricas que utilizaremos.
Neste momento, você deve imaginar que os dados serão pesquisados nas dimensões e as
chaves artificiais gravadas na tabela FATO, ela deve ser da seguinte forma:
TABELA FATO_VENDAS
Note que a tabela fato é a maior de todas, contendo todas as informações das
dimensões. O que faremos é criar uma carga de dados para a FATO_VENDAS que ao ler
os dados da sua STG_VENDAS, identifiquem na dimensão quais são as chaves artificiais
correspondentes (SK´s). Utilizaremos componentes do Talend Data Integration que
facilite esta pesquisa.
1. Clique com o
botão direito em
Job.
2. Clique em Create
Job.
PÁGINA 42
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
3. Vamos designar o
nome do Job como
carga_fato_venda.
4. Clique em OK.
5. Vamos adicionar
o objeto que
chama a tabela
staging de venda
no metadados,
basta arrastar a
tabela e soltar.
6. Vamos adicionar
também o objeto
dim_produto, que
será utilizado para
pesquisar a
sk_produto
correspondente.
PÁGINA 43
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
8. Agora vamos
começar a criar a
ligação entre ambas
e efetuar uma
pesquisa entre as
tabelas, este
procedimento é
conhecido como
JOIN. Utilizaremos o
objeto Tmap para
isso.
PÁGINA 44
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
9. Renomeia as linhas
row1 e row2 para
respectivamente
stg_venda e
dim_produto
PÁGINA 45
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
PÁGINA 46
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
PÁGINA 47
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
lado. Coloque
Commit every
100
19. Configure e
coloque o nome
da tabela
FATO_VENDAS.
PÁGINA 48
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Uma observação importante. Devido ao nosso banco ser ORACLE quando for criar a
ligação no tMap entre a STG_VENDA e a DIM_TEMPO, mude a máscara da data da
dimensão tempo para dd/MM/yyyy.
Ao final, sua carga da tabela Fato Vendas deve estar da seguinte forma:
PÁGINA 49
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Carga Carga
Carga Staging
Dimensão Fato
PÁGINA 50
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Antes de Tudo, vamos criar um Job que elimina os registros das staging´s ao carregar o
DW.
1. Clique com o
botão direito em
Job.
2. Clique em Create
Job.
3. Crie o job
Carga_trunca_sta
ging
4. Arraste o
componente
tOracleRow
5. Configura com o
comando
TRUNCATE TABLE
<TABELA>
PÁGINA 51
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
7. Clique com o
botão direito em
Job.
8. Clique em Create
Job.
9. Crie o job
Carga_geral_DW
PÁGINA 52
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
13. Vamos
acrescentar uma
Anotação para
sinalizarmos que
é a carga do DW.
Puxe o
componente
Note.
PÁGINA 53
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
O uso da paleta do Talend Data Integration é livre por se tratar de uma ferramenta de
ETL, agora as suas necessidades vão sendo adequadas de acordo com sua criatividade e
de como você pensa no seu projeto.
A paleta de objetos é muito rica, vamos começar criando uma extração de dados com
componentes sobre Componentes de tratamento de arquivos:
PÁGINA 54
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
tFileArchive
tFileArchive: Componente criado para compactar um ou mais arquivos no formato ZIP.
Crie um Job com o nome do componente.
PÁGINA 55
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
PÁGINA 56
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
tFileUnarchive
TfileUnarchive: Componente criado para descompactar um ou mais arquivos no formato
*.tar.gz , *.tgz, *.tar, *.gz and *.zip.
Vamos criar um Job chamado TfileUnarchive.
PÁGINA 57
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
tFileCompare e tFileOutputDelimeted
tFileCompare: Componente criado para comparar dois arquivos.
Vamos criar um Job chamado tFileCompare.
PÁGINA 58
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Saída será:
tFileCopy e tFileList
tFileCopy: Componente criado para copiar um ou mais arquivos entre diretórios.
Vamos criar um Job chamado tFileCopy.
PÁGINA 59
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Agora vamos escolher o diretório que os arquivos serão copiados, para isso vamos para o
componente tFileCopy, vamos aprender a trabalhar com variáveis de ambiente do
Talend, pressione as teclas CTRL + Space e escolha TFILE_LIST1:CURRENT_FILEPATH:
PÁGINA 60
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
tFileDelete e tJava
tFileDelete: Componente criado para deletar um ou mais arquivos entre diretórios.
Vamos criar um Job chamado tFileDelete.
PÁGINA 61
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
PÁGINA 62
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
tFileExist eTMsgBox
tFileExist: Componente criado para verificar se um determinado arquivo existe.
Vamos criar um Job chamado tFileExist.
Para facilitar o encontro dos arquivos vamos pesquisar o arquivo saída.csv com o
componente tFileExist
PÁGINA 63
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
PÁGINA 64
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
tFileRowCount
tFileRowCount: Componente criado para verificar a quantidade de linhas de um arquivo.
Vamos criar um Job chamado tFileRowCount.
System.out.println( ((Integer)globalMap.get("tFileRowCount_1_COUNT"))
+ " Linha(s) encontrada!" );
PÁGINA 65
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
O resultado será:
Vamos trabalhar agora com componentes que executam todos os tipos de tarefas de
processamento em fluxos de dados, incluindo agregação, mapeamento, transformação,
desnormalização, filtragem e assim por diante.
PÁGINA 66
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
PÁGINA 67
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Você terá que modificar o tipo de dado do campo qtd_venda, pois faremos
qtd_venda(sum).
PÁGINA 68
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
PÁGINA 69
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
tReplace e tFilterColumn
tReplace: Componente criado para executar uma operação de Pesquisa e Substituição
nas colunas de um entrada definida.
PÁGINA 70
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
PÁGINA 71
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Altere de acordo com sua necessidade, no nosso caso, vamos colocar Ano e os campos de
Cidade e Marca no inicio do arquivo, ele deve ficar no seguinte formato.
PÁGINA 72
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
PÁGINA 73
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
tFilterRow
tFilterRow: Componente criado para filtrar registros dentro de um arquivo ou tabela de
dados.
PÁGINA 74
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
PÁGINA 75
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
tSplitRow
tSplitRow: Componente criado para transformar linhas em colunas dentro de um arquivo
ou tabela de dados.
PÁGINA 76
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
PÁGINA 77
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
PÁGINA 78
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
tFileInputXML
tFileInputXML: Componente criado para ler um arquivo XML e transformá-lo em um
arquivo de dados por registros.
Antes, vamos ler o arquivo livraria.xml (baixe no site de aulas). Vamos criar o metadados
para leitura dos dados, de forma a facilitar a carga.
PÁGINA 79
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Note que os campos foram identificados. Agora vamos selecioná-los para a carga de
dados.
PÁGINA 80
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
1- Arraste o campo livro para a sua direita, na aba Target Schema, note que ficará
uma seta em laranja.
2- Arraste cada campo para sua direita na aba Fields to extract, ficará uma seta em
azul com todos os campos selecionados.
PÁGINA 81
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Vamos adicionar o componente tFileInputXML e tLogRow para entrada e saída dos dados.
No componente tFileInputXML vamos clicar em Property Type para escolher o
metadados que acabamos de criar, livraria.
PÁGINA 82
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Formate o componente tLogRow para que a saída fica mais fácil de entender.
PÁGINA 83
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Vamos trabalhar agora com componentes que controlam logs e erros dos nossos Jobs.
PÁGINA 84
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
tLogCatcher , tRowGenerator,tDie e
tLogRow
tLogCatcher: Componente criado para configurar os campos e as mensagens de Java
Exception, tDie e / ou tWarn (faz sentido quando usado ao lado de um tLogCatcher para
que os dados de registro coletados sejam encapsulados e transmitidos para a saída
definida) e passa-os para o próximo componente.
Primeiramente, vamos criar alguns campos no schema para geração dos dados, veja
abaixo, abra o componente e em Edit Schema crie os campos:
PÁGINA 85
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Colocamos um intervalo variando de 10 a 100 para o campo ID. Agora clique em Preview
e os dados serão exibidos.
PÁGINA 86
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
((Integer)globalMap.get("tRowGenerator_1_NB_LINE")) <=100
Será provocado um erro que será enviado ao tLogCartcher, estamos forçando o erro se a
quantidade de linhas for menor que 100.
PÁGINA 87
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
PÁGINA 88
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
tSendMail
tSendMail: Componente criado para enviar email e caso seja necessário com arquivos em
anexo.
PÁGINA 89
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Variável de Contexto
Como exemplificação do seu uso, utilizaremos uma variável de contexto que passa o
nome de um diretório e o nome do arquivo que serão utilizados para serem copiados, por
meio do componente tFileList e tFileCopy.
1- Vamos criar o contexto , clique com o botão direito em Contexts na aba lateral de
repositório de trabalho.
PÁGINA 90
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
3- Acrescente as variávies: diretorio e arquivo, ambas string. Você verá que pode
criar varios cenários com estas mesmas variáveis.
4- Agora vamos copiar o JOB tFileCopy já criado por nós, deverá ficar assim:
PÁGINA 92
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
PÁGINA 93
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Exportar JOB
Podemos Exportar um JOB em especifico para que este seja executado em qualquer
máquina, geralmente sendo encapsulado em um arquivo .zip, para isso, basta clicar no
JOB e escolher a opção Build JOB.
PÁGINA 94
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Descompactando
Pronto, os arquivos estão gerados, vamos executar o tFileCopy.bat, irá copiar os arquivos
.zip ou .csv para o diretório copia.
PÁGINA 95
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Exportar Projeto
Podemos Exportar o projeto como um todo, ou seja, realizar um backup.
PÁGINA 96
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
PÁGINA 97
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Importar Projeto
Podemos Importar um projeto como um todo, a partir de um backup realizado.
3- Escolha o Arquivo, no formato ZIP. Caso o projeto já exista, ele alertará sobre isso,
você pode ignorar clicando na opção Overwrite Existing Items.
PÁGINA 98
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
PÁGINA 99
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
PÁGINA 100
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
O aluno deve realizar os exercícios e caso tenha dúvidas deve consultar o professor, mas
o aluno deve tentar realizar TODOS OS EXERCÍCIOS, estejam corretos ou não.
O professor irá avaliar o seu grau de entendimento. Caso o professor não esteja satisfeito
com o seu rendimento, este solicitará que você refaça os exercícios ou revise algumas
aulas.
O professor tem total autonomia para ajudar e gerenciar as atividades dos alunos e
decidir quando o aluno terá direito ao certificado de participação.
PÁGINA 101
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Os arquivos de entrada que serviram para carga nas tabelas de Staging estão no
formato texto (CSV).
PÁGINA 102
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
2) Utilize pelo menos 4 componentes vistos no curso para realizar tratamento de dados,
ou qualidade dos dados. Explique qual a finalidade do seu JOB.
PÁGINA 103
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Considerações Importantes
“A alegria que se tem em pensar e aprender faz-nos pensar e aprender ainda mais”
9. Considerações Importantes
Importante que você saiba que você pode retirar dúvidas com o professor no
momento que desejar, para isso entre em contato via e-mail, o mesmo está na
folha de rosto da apostila ou através do fórum dos alunos;
Lembre-se que uma internet de banda larga ajudará na visualização dos vídeos,
quando temos lentidão no acesso da internet isso influenciará na aprendizagem
rápida do curso;
Importante que você trabalhe com a ferramenta Talend Data Integration
diariamente, ou um espaço de tempo de uma aula para outra pequeno, pois isso
facilitará seu entendimento;
Lembre-se o curso tem um custo baixo, para permitir que mais colegas possam
realizar o curso e retire dúvidas com os professores e colegas, não compartilhe
seu usuário e senha, pois prejudica uma cadeia de profissionais que trabalharam
no curso.
Qualquer dificuldade não hesite e entre em contato com o professor do curso,
passe um e-mail.
PÁGINA 104
Curso EAD Talend Data Integration
Prof. Grimaldo Oliveira
[email protected]
Apêndice
Glossário de Siglas e Termos
“Mesmo desacreditado e ignorado por todos, não posso desistir, pois para mim, vencer é nunca desistir..”
-E–
EAD – É uma modalidade de educação mediada
por tecnologias em que alunos e professores
estão separados espacial e/ou temporalmente,
ou seja, não estão fisicamente presentes em um
ambiente presencial de ensino-aprendizagem.
-P–
PROFESSOR - É uma pessoa que ensina uma
ciência, arte, técnica ou outro conhecimento.
-T–
PÁGINA 105