菜单
技术

声明式数据管道定义

May 2020
评估?

许多数据管道都或多或少地使用了 Python 或 Scala 编写的命令式脚本来定义。这样的脚本中包含了各个步骤的逻辑以及将这些步骤串联起来的代码。在使用 Selenium 测试时, 出现过类似的情况,而后开发人员发现了 Page Object 模式,后来许多行为驱动开发(BDD)框架都实现了步骤定义与步骤组合之间的分离。 现在,一些团队正在尝试为数据工程引入相同的思路。一个独立的 声明式数据管道定义 (可能是用 YAML 编写的)仅包含一些步骤的声明和顺序。 它定义了输入和输出的数据集,并且在需要更复杂的逻辑时决定是否需要以及何时引入脚本。 我们发现了该领域的第一个开源工具——A La Mode