Enable javascript in your browser for better experience. Need to know to enable it? Go here.
本页面中的信息并不完全以您的首选语言展示,我们正在完善其他语言版本。想要以您的首选语言了解相关信息,可以点击这里下载PDF。
更新于 : Oct 27, 2021
不在本期内容中
这一条目不在当前版本的技术雷达中。如果它出现在最近几期中,那么它很有可能仍然具有相关参考价值。如果这一条目出现在更早的雷达中,那么它很有可能已经不再具有相关性,我们的评估将不再适用于当下。很遗憾我们没有足够的带宽来持续评估以往的雷达内容。 了解更多
Oct 2021
Trial ? 值得一试。了解为何要构建这一能力是很重要的。企业应当在风险可控的前提下在项目中尝试应用此项技术。

近年来,工作流管理工具越来越受到大家的关注,不管它是专注某个特定领域还是领域无关,这样的趋势归功于越来越多的数据处理流水线以及机器学习(ML)模型开发流程的自动化。Airflow 是早期开源的工作流编排引擎之一,它用代码将流水线定义为有向无环图(DAGs),这是对传统 XML/YAML 定义方式的一大改进。尽管 Airflow 仍然是被广泛使用的编排工具之一,但是我们还是鼓励你根据实际情况评估其他工具。例如, Prefect , 它的关键特性是支持动态的数据处理任务,任务本身通过 Python 范型函数实现。如果你需要和 Kubernetes 深度集成,那么可以考虑 Argo 。如果你需要编排机器学习(ML)工作流,那么 KubeflowMLflow 可能更合适。考虑到越来越多的新工具不断涌现,再加上 Airflow 本身的功能短板(比如缺少对动态工作流的支持,中心化的流水线调度机制),我们不再推荐 Airflow 作为首选的编排工具。

我们相信,随着流式处理越来越多地用于数据分析和数据流水线,以及通过去中心化的 Data Mesh来管理数据,人们使用编排工具来定义和管理复杂数据流水线的需求会越来越少。

Oct 2020
Adopt ? 我们强烈建议业界采用这些技术,我们将会在任何合适的项目中使用它们。

Airflow仍然是我们广泛采用的最喜欢的开源工作流管理工具,用于构建作为有线无环图(DAGs)的数据处理流水线。这是一个蓬勃发展的领域,开源工具有 LuigiArgo,厂商工具则有 Azure Data Factory 或者 AWS Data Pipeline。然而 Airflow 特别之处在于它对工作流的程序化定义,而非低代码配置文件,以及对自动化测试的支持,开源并支持多平台,对数据生态丰富的集成点还有广泛的社区支持。不过在像数据网格这样的去中心化数据架构中,Airflow 的劣势在于它是一个中心化的工作流编排。

Mar 2017
Trial ? 值得一试。了解为何要构建这一能力是很重要的。企业应当在风险可控的前提下在项目中尝试应用此项技术。

Airflow is a tool to programmatically create, schedule and monitor data pipelines. By treating Directed Acyclic Graphs (DAGs) as code, it encourages maintainable, versionable and testable data pipelines. We've leveraged this configuration in our projects to create dynamic pipelines that resulted in lean and explicit data workflows. Airflow makes it easy to define your operators and executors and to extend the library so that it fits the level of abstraction that suits your environment.

发布于 : Mar 29, 2017

下载 PDF

 

English | Español | Português | 中文

订阅技术雷达简报

 

立即订阅

查看存档并阅读往期内容