Menu
Técnicas

Definição de pipeline de dados declarativa

Oct 2020
Experimente?

Muitos pipelines de dados são definidos em um script grande, mais ou menos imperativo, escrito em Python ou Scala. O script contém a lógica das etapas individuais, bem como o código que as une. Quando confrontadas com uma situação semelhante nos testes Selenium, as pessoas desenvolvedoras descobriram o padrão Page Object e, posteriormente, muitos frameworks de desenvolvimento orientados a comportamento (BDD) implementaram uma divisão entre as definições de etapas e sua composição. Agora, alguns times estão tentando trazer o mesmo pensamento para a engenharia de dados. Uma definição de pipeline de dados declarativa separada, talvez escrita em YAML, contém apenas a declaração e a sequência de etapas. Ela indica conjuntos de dados de entrada e saída, mas faz referência a scripts se e quando uma lógica mais complexa for necessária. A La Mode é uma ferramenta relativamente nova que usa uma abordagem DSL para definir pipelines, mas airflow-declarative, uma ferramenta que transforma grafos acíclicos direcionados definidos em YAML em agendas de tarefas Airflow, parece ter mais força neste espaço.

May 2020
Avalie?

Muitos pipelines de dados são definidos em um script grande, mais ou menos imperativo, escrito em Python ou Scala. O script contém a lógica das etapas individuais, bem como o código que as une. Quando confrontadas com uma situação semelhante nos testes Selenium, as pessoas desenvolvedoras descobriram o padrão Objeto de Página e, posteriormente, muitos frameworks de desenvolvimento orientado a comportamento (BDD) implementaram uma divisão entre as definições de etapas e sua composição. Agora, alguns times estão tentando trazer o mesmo pensamento para a engenharia de dados. Uma definição de pipeline de dados declarativa separada, talvez escrita em YAML, contém apenas a declaração e a sequência de etapas. Ela indica conjuntos de dados de entrada e saída, mas refere-se a scripts se e quando uma lógica mais complexa for necessária. Com o A La Mode, estamos vendo a primeira ferramenta de código aberto a aparecer nesse espaço.