Delta Lake

技术雷达

更新于 : Oct 26, 2022

不在本期内容中

这一条目不在当前版本的技术雷达中。如果它出现在最近几期中，那么它很有可能仍然具有相关参考价值。如果这一条目出现在更早的雷达中，那么它很有可能已经不再具有相关性，我们的评估将不再适用于当下。很遗憾我们没有足够的带宽来持续评估以往的雷达内容。了解更多

Oct 2022

采纳

Delta Lake 是由 Databricks 实现的开源存储层，旨在将 ACID 事务处理引入到大数据处理中。在使用了 Databricks 的 data lake 或 data mesh 的项目中，我们的团队更喜欢使用 Delta Lake 存储，而不是直接使用 AWS S3 或 ADLS 等文件存储类型。 Delta Lake 此前一直是 Databricks 的闭源项目，最近成为了开源项目，并且可以在 Databricks 之外的平台使用。但是，我们只建议使用 Parquet 文件格式的 Databricks 项目将 Delta Lake 作为默认选择。Delta Lake 促进了需要文件级事务机制的并发数据读/写用例的发展。我们发现 Delta Lake 与 Apache Spark batch 和 micro-batch的无缝集成API 非常有用，尤其是其中诸如时间旅行（在特定时间点访问数据或还原提交）以及模式演变支持写入等功能，尽管这些功能有一些限制。

Apr 2021

试验

Delta Lake是由Databricks实现的开源存储层，旨在将ACID事务处理引入到大数据处理中。在使用了Databricks的data lake或data mesh的项目中，我们的团队更喜欢使用Delta lake存储，而不是直接使用S3或ADLS等文件存储类型。当然，这仅限于那些使用了支持Delta Lake的存储平台的项目，并且使用了Parquet文件格式。当需要实现文件级事务完整性时，Delta Lake 能实现并发数据读写。尽管还存在一些限制，但Delta Lake 与 Apache Spark batch以及micro-batch接口的无缝集成，对我们非常有用。尤其有用的是诸如时间旅行（在特定时间点访问数据或进行提交回滚）和对写操作的schema演进的支持。

Nov 2019

评估

Delta Lake是一个由Databricks开发的开源存储层，用于在大数据场景中引入事务处理。我们在使用Apache Spark时经常遇到的一个问题是缺少ACID事务。Delta Lake通过与Spark的API集成，使用事务日志和版本化的Parquet文件解决了这个问题。由于其可序列化的隔离性，它允许读取器和写入器对Parquet文件进行并发的操作。它的另一个广受好评的特性是对写操作和版本控制的模式强制，它允许我们在必要时可以查询和恢复到旧版本的数据。Delta Lake已经在我们的一些项目中得到了应用，并收获了极好的用户评价。

发布于 : Nov 20, 2019