Uma - Visao - Sintetica - e - Comentada - Do - Dmbok (1) - 231027 - 220554
Uma - Visao - Sintetica - e - Comentada - Do - Dmbok (1) - 231027 - 220554
Uma - Visao - Sintetica - e - Comentada - Do - Dmbok (1) - 231027 - 220554
Carlos Barbieri
Belo Horizonte
Janeiro de 2013
Versão 01
UMA VISÃO SINTÉTICA E COMENTADA DO DMBOK 3
FICHA TÉCNICA
Autor
Carlos Barbieri
Colaboração
Fernanda Farinelli (PRODEMGE)
Equipe técnica
Isabella Fonseca (FUMSOFT)
Claudio Filardi (FUMSOFT)
Evilene Santos (FUMSOFT)
Editoração
Pedro Ivo Brandão (FUMSOFT)
Renata Ferreira (FUMSOFT)
Projeto gráfico
Gracielle Santos (FUMSOFT)
Barbieri, Carlos.
As informações contidas neste trabalho podem ser reproduzidas desde que citada a fonte.
Fumsoft
Av. Afonso Pena, 4.000, 3º andar - bairro Cruzeiro
CEP: 30.130-009 - Belo Horizonte/MG
Tel.: (31) 3281-1148
www.fumsoft.org.br
UMA VISÃO SINTÉTICA E COMENTADA DO DMBOK 4
SUMÁRIO
O objetivo desse trabalho é fornecer uma visão sintética sobre os corpos de conhecimentos
do Data Management Body of Knowledge (DMBOK), adicionando aspectos práticos sobre
gestão de dados desenvolvidos pelo autor nesta área por mais de 40 anos. Esse trabalho não
tem a pretensão de substituir o documento DMBOK original, e intenciona servir somente de
um guia mais rápido e comentado sobre as práticas daqueles corpos de conhecimentos. Para
detalhes completos de conteúdo e de referências, os documentos DMBOK, tanto o original,
quanto a sua edição brasileira, deverão ser consultados.
Esse trabalho surgiu nos cursos de pós-graduação ministrados pelo autor, originado da
necessidade de se ter um texto menor e acessível aos alunos que ainda não dispunham (ou
não dispõem) das referências originais. Além disso, incorpora comentários correlatos,
percepções e visões do autor sobre o tema, que podem servir para o entendimento das
interpretações realizadas sobre a pesquisa realizada pela Data Management Association
(Dama) Brasil e pela Fumsoft, abordando a gestão estratégica de dados.
A Gestão de Dados (no inglês, Data Management ou DM), conforme o DMBOK (2009), visa
controlar e alavancar eficazmente o uso dos ativos de dados e sua missão e objetivos são
atender e exceder às necessidades de informação de todos os envolvidos (stakeholders) da
empresa em termos de disponibilidade, segurança e qualidade. É uma responsabilidade
tanto do setor de Tecnologia da Informação de uma empresa quanto de seus clientes
internos e externos e envolve desde a alta direção, que utiliza dados na geração de
informações estratégicas, até profissionais de nível operacional, que muitas vezes são
responsáveis pela coleta e produção dos dados.
Governança de dados
Desenvolvimento de dados
Gestão de Metadados
O objetivo é:
• Entender as necessidades estratégicas de dados da empresa.
• Desenvolver e manter uma estratégia de dados.
• Estabelecer unidades organizacionais e papéis voltadas para dados.
• Identificar os Data Stewards.
• Estabelecer as camadas de GD e de data stewards.
• Desenvolver e aprovar Políticas, Padrões e Procedimentos de dados.
• Revisar e aprovar a Arquitetura de Dados.
• Planejar e patrocinar Projetos e Serviços de Gestão de Dados.
• Estimar o valor dos Ativos de Dados e custos associados (Riscos).
A visão sintética é:
Entender a estratégia e os dados necessários para apoiá-la. São evidentes questões como:
• Para onde vou (em temos de negócios), como vou, quando vou?
• Que dados serão necessários nesse caminho?
• Como obtê-los, como mantê-los?
• Como garantir a sua qualidade?
• Que áreas serão prioritárias no tratamento dos dados, baseado nas
estratégias de negócios?
• Para que segmentos vamos caminhar? Big Data, sentiment analysis via redes
sociais, etc.?
b. Desenvolver e manter a estratégia de dados:
Instanciar as ações para a obtenção dos dados, sua manutenção, sua qualidade, baseado nas
necessidades estratégicas identificadas anteriormente.
Estruturas in-business (data stewards), estruturas in-TI (AD, DBA, etc.), estruturas táticas
(CDO, DMO, gerencia os data stewards) e estruturas estratégicas (Comitê de GD, que define
regras, tira dúvidas, resolve impasses, etc.).
Serão os responsáveis, dentro da área de negócios, pelo controle e uso dos dados. Nos
usuários, seriam figuras com amplo domínio de conhecimento desses assuntos. Tomarão
conta daquele recurso, serão os responsáveis (liability) e gerenciarão o seu uso.
Enquanto no item há uma visão mais genérica, aqui há uma visão mais detalhe. Envolve
Membros do Comitê de GD, principais Data Stewards, principais componentes do DMO,
entre outros. Para as funções in-business, definir as áreas prioritárias (em função da
estratégia) que deverão ter os seus stewards (gestores de dados). Há várias proposições
possíveis de estruturas para GD. Abaixo, na figura 2, uma das proposições com as camadas e
suas principais atribuições:
UMA VISÃO SINTÉTICA E COMENTADA DO DMBOK 9
Definir os projetos mais prioritários para se começar a implementação dos conceitos de GD.
Podem ser melhorias na integração de dados, na definição de arquiteturas, na segurança,
UMA VISÃO SINTÉTICA E COMENTADA DO DMBOK 10
em foco de dados não estruturados, em qualidade, entre outros. Serão definidos de acordo
com as prioridades estratégicas dos negócios.
O objetivo é:
Visão sintética:
A visão sintética é:
Modelo de Entidades de negócios por subject area, numa visão de alto nível, com
menção das principais Entidades de Negócios daquele domínio.
Modelo conceitual de dados: Um pouco mais detalhado que o anterior,
contemplando visões de relacionamentos e dos principais atributos envolvidos.
Modelo lógico de dados: Visão mais detalhada que a anterior, contemplando as
Entidades de Dados, com seus relacionamentos e seus atributos, normalizados,
numa visão relacional.
Modelo Físico, com uma visão de implementação, dentro da restrição do
SGBD/tecnologia.
UMA VISÃO SINTÉTICA E COMENTADA DO DMBOK 12
Aqui ao grande foco é manter a coerência entre o modelo de negócios da empresa (como
grande balizador) e os modelos de dados, modelos de processos, modelos de
sistemas/aplicações, modelo de tecnologia e modelo de organização. Isso significa que uma
Entidade de Negócios (modelo conceitual de dados) será criada, atualizada, mantida e
eliminada por processos implementados em sistemas, apoiados em tecnologia e sob a
responsabilidade de áreas (organização). É o dado se integrando nas várias dimensões da
empresa.
Envolve uma visão acerca das ferramentas e soluções de integração de dados. Inclui o
envolvimento dos sistemas/aplicativos onde os dados são gerados, transformados,
consumidos, eliminados, dentro do conceito de data lineage (linhagem de dados). Linhagem
de dados é uma espécie de visão dos dados, desde a sua origem, observando o seu ciclo de
vida. Dessa forma, essa recomendação do DMBOK inclui sistemas e informações e envolve
papéis que fazem manipulações (CRUD) de dados e suas transformações a fim de torná-los
adequados ao uso da empresa.
No fundo é um detalhamento dos itens anteriores, com foco em Business Intelligence e Data
Warehousing. Envolve as estruturas de armazenamento (DW, Dmarts, ODS), camadas de
transformação e integração (ETL) e camadas de consumo de informações (Relatórios, OLAP,
dashboards, estudos de inferência por técnicas de analytics, data mining, etc.).
A visão sintética é:
Osà ite sà a alisa à osà e uisitosà deà i fo ação,à dese volve / a te à odelosà
conceituais/modelos lógi osà eà odelosà físi os à sãoà pa teà doà p o essoà t adi io alà deà
desenvolvimento de aplicações e dizem respeito ao levantamento dos requisitos (de dados e
de sistemas), com o intuito de desenvolver os modelos necessários à compreensão das
necessidades de informações da solução em projeto. Essa abstração de dados é construída
em vários níveis, indo da visão conceitual (entidades, relacionamentos, alguns atributos),
lógica (entidades, relacionamentos, atributos, com maior nível de detalhe e aspectos de
normalização, domínios, chaves, etc.), física (detalhamento da abstração anterior, com
incorporação de aspectos associados a índices, campos nulos, formas de armazenamento
em coerência com o SGBD a ser usado, etc.). Como qualquer proposição, o DMBOK não
sugere nenhu aàa o dage àespe ífi a,àdeve doàaàe p esaà e t a à oà oà u àest àsendo
suge idoàeà ãoà oà o o .
Os serviços de acesso aos dados podem ser entendidos como a disposição com que os
SGBD´s seà e o t a à u aà a uitetu aà ouà topologia.à Pode à se à se vido esà li kados ,à
acesso por Serviços (SOA), Message Broker (serviços assíncronos de mensagens), dispositivos
tipo ODBC, JDBC, arquitetura de bancos distribuídos, como replicação, partições,
distribuição, camadas de ETL que fazem leitura de bancos de dados, entre outros.
ou final dos dados alterados pela transação. Os serviços de isolamento garantem que as
transações executadas em paralelo não sofrerão ou interferirão nas outras, simulando um
ambiente exclusivo de recursos, quando na realidade eles são compartilhados. O conceito de
durabilidade se expressa nos serviços que garantem a manutenção do estado alcançado pela
transação, depois que ela foi terminada, mesmo que ainda alguma intercorrência possa
afetar os dados atualizados por ela.
Além disso, também devem ser considerados os conceitos de integração numa visão mais
ampla. Envolve, dessa forma, a definição de camadas de integração, como ETL, de
persistência, etc.; e do uso de Stored Procedures, como camada de ações essenciais de dados
como ADD, MOD e DEL de linhas /registros.
Envolve a definição e verificação de padrões a serem usados nos modelos, incluindo nomes
de entidades, de atributos, de relacionamentos, simbologias de entidades, relacionamentos,
atributos, cardinalidade, entre outros. A revisão é a verificação dessas aderências feitas por
trabalhos de QA (Quality Assurance) ou por revisões por pares (VER/VAL), garantindo a
compatibilidade entre os requisitos iniciais (de dados) e os elementos implementados. Inclui
também a gerência de versionamento, é parte da gerência de configuração, garantindo a
integridade de modelos, com controles de versionamento, controles de alterações (quem
fez, porque, quando, e o que?), entre outros.
d. A implementação de dados:
A visão sintética é:
A visão sintética é:
São as regras e diretrizes maiores que devem ser seguidas pela empresa, em termos de
segurança da informação. São normalmente definidas por administradores de segurança
juntamente com gestores de dados e auditores de segurança externa ou interna. Deverá ser
aprovada pelo Conselho de Governança de Dados (GD).
Significa, para o DMBOK, estabelecer um grau de detalhe sobre as diversas atividades, tanto
de planejamento, operação quanto de controle da gestão de segurança de dados.
Envolve a aplicação dos conceitos de opt in e opt out, ou seja, as atividades de se garantir
privacidade e segurança de dados por conceder especificamente permissões, através de
definições explícitas (opt in) ou por se restringir ações específicas, dentro de um leque amplo
de alternativas concedido por default (opt out). Também os conceitos de visões (views) de
bancos de dados são elementos considerados nesse ponto.
segurança de dados. Pode ser interna ou externa, porém feitas por pessoas sem nenhum
envolvimento nos processos em auditoria.
UMA VISÃO SINTÉTICA E COMENTADA DO DMBOK 24
Os dois Mestres e Referências servem como input para os dados transacionais: Num pedido,
por exemplo, que representa um dado do tipo Transacional (normalmente associado a uma
data) você tem dados Mestres (clientes e produtos entregues, vendedor envolvido, etc.),
dados de Referência, como o status do pedido, CEP padrão do fornecedor, entre outros, e no
conjunto formam os dados Transacionais do Pedido. Essa classificação de tipos de dados
está mais detalhada adiante. A estrutura é:
Algumas considerações iniciais: Os dados, há muito, são usados por diferentes áreas dentro
de uma empresa, de formas também diferentes. As áreas de Venda, Fornecedores,
Manufatura, etc. veem os dados de Vendas, por exemplo, de forma diferente, cada uma com
uma visão ou conjunto de atributos específicos, algumas inclusive com definições diferentes
para a mesma entidade ou informação.
UMA VISÃO SINTÉTICA E COMENTADA DO DMBOK 25
Os dados podem ser vistos como enquadradas dentro de três tipos: Os Mestres, os de
Referência e os Transacionais:
Ambos dadosà est es à eà dadosà deà efe ia à são insumos para a produção de dados
tiposà t a sa io ais .à Po à exe plo,à u à lie te à o p a doà p odutos à e à lo ais à daà
minha empresa, gera transação de compras (que podem ter os seus dados próprios, como
data, tipo de desconto daquela compra, etc.).
Os dados Mestres e de Referência devem ser geridos pela empresa de forma centralizada,
envolvendo os gestores de dados da(s) área(s) afim(ins). Sua gerência envolve a criação,
integração, manutenção uso e descarte. Contempla também a definição das versões
abrangentes (que englobem todos os seus atributos) e, preferencialmente únicas, que
representem a verdade dos dados (golden records). Buscam, na essência, a entidade com
seus atributos e valores mais íntegros, atuais e associados ao negócio.
Osà dadosà est esà pode à se à lassifi adosà e à algu sà do í ios:à pa tes (parties ,à ueà
representam organizações, indivíduos, seus papéis, como clientes, empregados,
fornecedores, vendedores, entre outros. Na visão de segurança podem ser: cidadãos,
testemunhas, vítimas. No domínio saúde podem ser: clientes, provedores de serviços, estes
classificados em médicos, convênios, etc. No domínio educação, podem ser: aluno,
professor, inspetor, diretor, etc. Há dados Mestres também nos domínios de clientes,
ambiente financeiro, produtos ou serviços e localização, dentre outros.
Significa ter os devidos controles para compatibilizar os dados que estão replicados e usados
em diferentes sistemas/aplicativos. Normalmente as causas-raiz de problemas de qualidade
de dados revelam esse aspecto. A solução Master Data management (MDM) é complexa e,
como tal, exige solução gradativa e incremental. A sugestão é entender a necessidade e o
uso daquele dado em estudo, nas diversas aplicações/sistema da empresa.
Depois de entendido, é importante traçar a linhagem do dado, para identificar a suas fontes
originais e temporárias (BD, FMS, processo, área organizacional, pessoas, papéis/indivíduos
envolvidos).
Passa por definição de soluções que permitam o uso compartilhado do dado Mestre ou de
Refe ia,à aàsuaàfo aà golden record ààpo àva iadasàapli ações OLTP ou de BI, mantendo
a sua integridade. As topologias devem permitir leituras diretas dos DM (dados mestres ou
de referência) ou o seu uso em sistemas através de replicações controladas (síncronas ou
assíncronas).
Trabalhar padrões para que se possa identificar duas ocorrências como sendo do mesmo
objeto. Conforme citado anteriormente, dois registros de cliente com nome Carlos Barbieri
são considerados o mesmo objeto (Carlos Barbieri)?
Tal atividade passa por técnicas de identificação de elementos duplicados, através de regras
de inferência de similaridade, por técnicas de eliminação de duplicação de registros iguais e
por técnicas de consolidação que podem ser:
Golden Records à sig ifi aà oà onceito de fonte única, íntegra e confiável, que procura
garantir a verdade sobre os dados. Por exemplo, um único cadastro lógico de clientes,
formado por informações advindas de várias fontes físicas.
Nesse ponto, o DMBOK se preocupa com a chegada de novas fontes de dados que deverão
ser integradas ao ambiente já existente. Isso envolve: analisar as requisições feitas de
integração, a complexidade e custo de sua integração e avaliar a qualidade dos dados
entrantes.
Esse ponto versa sobre a arquitetura definida para a solução de MDM implementada.
Poderá ser via bancos distribuídos, ou através de replicações.
Esse ponto, de crucial importância, deverá ser considerado com cuidado, pois os dados do
ambiente MDM estarão compartilhados e as suas alterações implicam controles mais
rigorosos, a fim de evitar impactos e rupturas em sistemas em funcionamento. Passa por:
criar e receber pedidos de alteração, identificar áreas interessadas; avaliar impactos em
função da solicitação, aceitar ou rejeitar a solicitação ou transferir a decisão para o âmbito
da Governança de Dados (GD), comunicar a decisão às partes interessadas, realizar as
mudanças, caso aprovada, comunicar as partes interessadas acerca das mudanças.
O objetivo da Gestão de data warehousing (DW) e business intelligence (BI) (DMBOK, 2009)
é planejar, implementar e controlar processos para prover dados de suporte à decisão e
apoio a colaboradores envolvidos em produção de relatórios, consultas e análises.
A estrutura é:
A visão sintética é:
Passa pelas diferentes alternativa de escolas: Visão de EDW (Bill Inmonn) e de DMarts
evolutivos e integrados (Ralph Kimball), com todos os elementos que formam uma
arquitetura de DW e BI: sistemas transacionais fomentadores dos dados, camada de ETL,
camada de armazenamento com DataWarehouse, DataMarts, ODS,etc, camada de
ferramentas para produção de informações, camada de profiling e cleansing dos dados, etc.
UMA VISÃO SINTÉTICA E COMENTADA DO DMBOK 30
Passa pelos tipos de ferramentas necessários para se alcançar os objetivos. São ferramentas
de dashboards, ferramentas de visualização de dados, ferramentas de relatórios, OLAPs (de
cubos), de análise preditiva/mining, entre outros, que formarão o arsenal de aplicativos para
atender as necessidades de informação da empresa.
Passa pelos processos de monitoração de performance de bancos dos dados que compõem
a estrutura do DW, processos de backup/recovery, processos de archiving, etc.
fundamentalmente dos dados não estruturados (DNE) como: arquivos (em formato não
relacional), gráficos, imagens, textos, relatórios, formulários, vídeo, som, entre outros. Os
novos tipos de dados como posts de Linkedin, posts de Facebook, etiquetas de RFID, dados
biométricos e dados gerados por comunicação máquina-máquina (M2M), como monitoração
de pacientes, medidores inteligentes de energia elétrica, dados de localização (GPS), etc. não
foram diretamente considerados nesse contexto, embora a sua governança se revista dos
mesmos conceitos. Esses dados (DNE) constituem cerca de mais de 70% dos dados
existentes hoje num ambiente corporativo e, portanto, passam a merecer a atenção, até
porque muitas regulações oficiais assim exigem. Aspectos regulatórios como Sarbannes
Oxley (SOX), E-Discovery amendments to Federal rule of civil procedures, Canada Bill´s 190,
dentre outros, são exigências presentes em muitos segmentos da indústria.
A visão sintética é:
a. Planejar a gerência de documentos e registros:
Nesta atividade o DMBOK foca nos processos, técnicas e tecnologias que visam o controle e
a organização dos documentos e registros, quer seja em meio eletrônico ou papel. Nesta
ponto devem ser considerados o planejamento dos diferentes sistemas de controle de
documentos e registros: sistemas de bibliotecas, sistemas de controle de emails, sistemas de
controle de documentos na forma eletrônica ou em microficha. Devem ser planejados os
seguintes pontos: armazenamento, integridade, segurança, qualidade do conteúdo, formas
de indexação e de acesso e guias gerais para a sua gerência. O planejamento deve considerar
aspectos dos vários pontos do ciclo de vida do documento, da sua criação ao
descarte/eliminação, passando pela sua classificação (taxonomia), indexação, arquivamento
e uso e recuperação.
O planejamento passa também pela definição das políticas e procedimentos para esses
diversos momentos do ciclo de vida do documento, bem como pela definição das unidades
organizacionais (UO) que deverão ser as suas gestoras (stewards). Essas políticas deverão,
entre outros pontos, definir aspectos de responsabilidade dos gestores, políticas de retenção
em conformidade com as regulações existentes, aspectos de circulação e distribuição interna
e externa, entre outros.
Aqui o DMBOK está focando na implementação de sistemas de software que apoiem esses
pontos. Passa por sistemas de Gerência de Conteúdo (ECM), com documentos criados via
eletrônica, scanner ou OCR. Devem permitir facilidades de indexação por palavras chaves ou
por elementos do conteúdo (aqui as duas partes desse processo DMBOK se encontram).
Deverá haver metadados que bem caracterizem aqueles documentos, como data de criação,
data de revisão, nome do criador/responsável, entre outros. As referências bibliográficas,
UMA VISÃO SINTÉTICA E COMENTADA DO DMBOK 33
Aqui o foco é nos aspectos de retenção dos dados no ambiente principal até serem
transferidos para uma mídia secundária. Deverão ser considerados aspectos legais, fiscais e
valores históricos do documento. Um ponto importante a ser considerado é a garantia da
compatibilidade do documento com relação à versão do sistema de gerência e do sistema
operacional onde este funciona. Isso é importante no caso de recuperações de documentos
que ao serem trazidos para o ambiente atual de software, podem apresentar problemas de
compatibilidade de versão. Aspectos de privacidade e de retenção de dados pessoais
também devem ser considerados neste item.
via uma visão ontológica (conhecimento de ser ou entes), com taxonomias da seguinte
forma: achatada (com os elementos listados em sequência, sem uma estruturação entre
eles), hierárquica (com uma organização dos elementos apresentando certa forma de
subordinação), na forma de facets ou estrelas (com os elementos dispostos numa forma de
radial, dispostos em torno de um ponto central, como comumente encontrado nos mapas
mentais) e de rede (misturando a hierarquia com facets).
O objetivo é planejar, implementar e controlar atividades que viabilizem um fácil acesso aos
metadados integrados e de qualidade (DMBOK, 2009).
A visão sintética é:
Deài í ioà ài po ta teàe te de àoà ueàsãoàosà etadados,àal àdaàdefi içãoà li h àdeà dadosà
sobre os dados .à Osà etadadosà estãoà pa aà osà dadosà assi à o o os dados estão para as
oisas /entidades colocadas sob os processos de um sistema computadorizado. Por
exemplo, os objetos, os eventos, as transações e osà ela io a e tosà sãoà asà oisas à
controladas num computador, através de sistemas. Assim, os dados definem esses objetos,
da mesma forma como os metadados definem os dados. Assim, a gerência de metadados é
um processo que controla a sua criação (quando se define, se entende e se documenta
aquilo que está sendo objeto do processo), o seu armazenamento (se estrutura, se carrega e
se cuida para que seja acessado com facilidade e rapidez), a integração (quando dois ou mais
metadados sobre o mesmo o objeto, diferentemente definidos em tempos distintos, por
unidades organizacionais distintas, não estão consistentes) e o seu controle (quando se
procura mantê-los com qualidade e sobre os quais se define métricas, no sentido de que não
se controla aquilo que não se mede).
Um conceito simples e metafórico de metadado é aquela plaquinha que fica ao lado dos
rechauds ,à osà estau a tesàdeà o idaà à uilo,ài di a doàoà o eàdoàp ato,àdetalhesàdaàsuaà
UMA VISÃO SINTÉTICA E COMENTADA DO DMBOK 36
b. Arquitetura de metadados:
dados (UO responsáveis por eles), regras de compartilhamento de dados, papéis e definições
sobre os gestores de dados, áreas de assunto, entre outros. Um ponto emergente sobre
metadados é a sua definição para DNE, resultante do fenômeno Big Data. Sua visão
particular sugere a definição de metadados descritivos (definição, catálogos, etc.),
metadados estruturais (formato de áudio, vídeo, email, XML, etc.) e metadados
administrativos (direitos de acesso, planos de integração, etc.).
O desafio de se criar e manter metadados é muito grande. Daí a ainda baixa incidência de
implementação nas empresas. Normalmente se tem modelos isolados oriundos das
ferramentas adquiridas, sendo a sua integração um dos grandes desafios. A devida definição
de uma arquitetura funcional, prática e que mostre retornos é o grande lance da gestão de
metadados. A instanciação dessa gerência se dará pelo gerenciamento adequado dos
diversos repositórios, que possam produzir, distribuir e entregar os metadados na forma de
consultas, relatórios e análise, no momento exigido e com a devida consistência. Os desafios
de metadados são (quase) os mesmos que sempre enfrentamos na área de dados. Aliás, não
poderia ser diferente, pois estamos falando dos dados sobre os dados. Um problema, na sua
meta referência.
A visão sintética é:
Refere-se à necessária fotografia inicial do estado dos dados de certa(s) área(s) de assunto
ou domínio(s) da empresa. Deve ser uma das primeiras ações para se estabelecer as
baselines àdosàp o essosàdeà elho iaàdeà ualidadeàdeàdadosàdaàe p esa.àPe iteà ia àasà
primeiras métricas e a definição dos objetivos a serem alcançados em função delas. É como
se fosse a analise laboratorial solicitada por um médico para melhor diagnosticar o estado
do paciente e iniciar o seu tratamento.
UMA VISÃO SINTÉTICA E COMENTADA DO DMBOK 41
As métricas deverão ser definidas para a avaliação do estado atual e da evolução dos
tratamentos de qualidade dos dados. As métricas, como todas as medidas definidas em
processos de qualidade deverão:
Implica na análise das regras de negócios fundamentais dos processos e na descoberta dos
dados que podem implicar em eventuais quebras de conformidade delas. Esses dados
deverão ser observados na sua qualidade justamente para garantir a conformidade da regra
com o processo. Por exemplo, a regra de negócios que define que nenhum colaborador com
oito horas diárias de turno de trabalho poderá ganhar menos que o salário mínimo. Um
campo de um arquivo enviado ao INSS contendo um valor abaixo desse estabelecido implica
numa quebra de conformidade do processo (admissão, por exemplo), com as regras de
negócios definidas.
Nesse ponto, o DMBOK sugere que haja processo de verificação inicial (data profiling, por
exemplo) e verificação constante e recorrente, a fim de que os dados sejam sempre
avaliados nos seus domínios de qualidade.
Nesse item, é sugerida a definição de níveis de serviços de qualidade de dados, o que deverá
ser garantido por medições e verificações constantes. Os níveis de SLA são o compromisso
firmado sobre qualidade da área gestora dos dados com os seus usuários. Os itens
subsequentes, relativos a medir e monitorar continuamente, gerenciar as pendências e
corrigir os defeitos são consequências diretas desse compromisso de nível de serviços.
2. CONCLUSÕES
Há, hoje no mercado, diversos frameworks sobre Governança de Dados, conforme discutidos
no Blog do Barbi (Carlos Barbieri), em posts ao longo de 2012. O framework da Dama é
certamente o mais completo e detalhado, pois envolve a Governança de Dados e todas as
áreas associadas a ela. A trajetória de uma empresa em direção à Gestão de Dados (Data
Management) requer muitos cuidados, exatamente pelas características fluídas deste
elemento dentro da empresa, não bastando somente a adoção de um framework de
referência.
A Fumsoft, por meio de seu setor de Qualidade, o qual coordeno, adquiriu ao longo desses
últimos dez anos, uma sólida experiência em implementações de processos, cuja tônica do
desafio é essencialmente a mesma exigida em empresas que queiram melhorar a sua gestão
de dados. É preciso haver uma forte mudança cultural. Há que se buscar uma maturidade
gradativa de dados, da mesma forma com que as empresas buscam a maturidade em
processos, trilhando os caminhos do MPS.BR e/ou CMMI. No livro BI2 - Modelagem e
Qualidade (Barbieri, 2011) foram apresentados e discutidos modelos de maturidade de
dados, alguns dos quais centrados nas práticas consagradas de maturidade de software. Na
última edição da Data Management Conference – Latin America (DMC Latam), em agosto de
2012, foi apresentada uma visão sobre níveis de maturidade em dados, conforme a Figura 5.
3. REFERÊNCIAS BIBLIOGRÁFICAS
BARBIERI, C. Posts sobre Governança de Dados, Big Data, entre outros. Disponível em
http://blogdobarbi.blogspot.com
DMBOK. MOSLEY, M. ; BRACKETT, M.; EARLEY, S. HENDERSON, D. DAMA Guia para o corpo
de conhecimento em gerenciamento de dados. Technics Publications, versão brasileira
2012.
DMBOK. MOSLEY, M.; BRACKETT, M.; EARLEY, S.; HENDERSON, D. The DAMA Guide to The
Data Management Body of Knowledge: DAMA - DMBOK Guide. 1. ed. Estados Unidos:
Technics Publications, 2009.
SADALAGE P.; FOWLER, M. NoSQL Distilled: A Brief Guide to the Emerging World of
Polyglot Persistence. Addison-Wesley, 2013.