Menu
Técnicas

Integridade de dados na origem

Nov 2019
Adote?

Hoje em dia, a resposta de muitas organizações para destravar dados para uso analítico é construir um labirinto de pipelines de dados. Pipelines recuperam dados de uma ou múltiplas fontes, limpam e então os transformam e os movem para outro local para uso. Essa abordagem para gerenciamento de dados frequentemente deixa as pipelines de consumo com a difícil tarefa de verificar a integridade dos dados de entrada e construir uma lógica complexa para limpar os dados e atender o nível necessário de qualidade. O problema fundamental é que a fonte dos dados não tem incentivo e responsabilidade por fornecer dados de qualidade para seu público consumidor. Por isso, defendemos fortemente a integridade dos dados na origem , ou seja, qualquer fonte que forneça dados consumíveis deve descrever suas medidas de qualidade de dados explicitamente e garanti-las. A principal razão por trás disso é que os sistemas e times de origem são mais intimamente ligados com seus dados e mais bem posicionados para corrigir na fonte. A arquitetura de malha de dados vai um passo além, comparando dados consumíveis a um produto, onde a qualidade de dados e seus objetivos são atributos integrais de cada conjunto de dados compartilhado.