Menu
May 2020
Avalie?

Ainda existem algumas lacunas em ferramentas ao se aplicar boas práticas de engenharia de software na engenharia de dados. Tentando automatizar verificações de qualidade de dados entre diferentes etapas em um pipeline de dados, um de nossos times se surpreendeu ao encontrar apenas algumas ferramentas nesse espaço. O consenso foi Deequ, uma biblioteca para escrever testes que se assemelham a testes de unidade para conjuntos de dados. Deequ foi desenvolvida com base no Apache Spark e, mesmo sendo publicada pela AWS Labs, pode ser usada em ambientes diferentes da AWS.