Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Last updated : Oct 26, 2022
NOT ON THE CURRENT EDITION
This blip is not on the current edition of the Radar. If it was on one of the last few editions, it is likely that it is still relevant. If the blip is older, it might no longer be relevant and our assessment might be different today. Unfortunately, we simply don't have the bandwidth to continuously review blips from previous editions of the Radar. Understand more
Oct 2022
Adopt ?

Delta Lake 是由 Databricks 实现的开源存储层,旨在将 ACID 事务处理引入到大数据处理中。在使用了 Databricks 的 data lakedata mesh 的项目中,我们的团队更喜欢使用 Delta Lake 存储,而不是直接使用 AWS S3ADLS 等文件存储类型。 Delta Lake 此前一直是 Databricks 的闭源项目,最近成为了开源项目,并且可以在 Databricks 之外的平台使用。但是,我们只建议使用 Parquet 文件格式的 Databricks 项目将 Delta Lake 作为默认选择。Delta Lake 促进了需要文件级事务机制的并发数据读/写用例的发展。我们发现 Delta Lake 与 Apache Spark batchmicro-batch的无缝集成API 非常有用,尤其是其中诸如时间旅行(在特定时间点访问数据或还原提交)以及模式演变支持写入等功能,尽管这些功能有一些限制。

Apr 2021
Trial ?

Delta Lake是由Databricks实现的开源存储层,旨在将ACID事务处理引入到大数据处理中。在使用了Databricks的data lakedata mesh的项目中,我们的团队更喜欢使用Delta lake存储,而不是直接使用S3ADLS等文件存储类型。当然,这仅限于那些使用了支持Delta Lake的存储平台的项目,并且使用了Parquet文件格式。当需要实现文件级事务完整性时,Delta Lake 能实现并发数据读写。尽管还存在一些限制,但Delta Lake 与 Apache Spark batch以及micro-batch接口的无缝集成,对我们非常有用。尤其有用的是诸如时间旅行(在特定时间点访问数据或进行提交回滚)和对写操作的schema演进的支持。

Nov 2019
Assess ?

Delta Lake是一个由Databricks开发的开源存储层,用于在大数据场景中引入事务处理。我们在使用Apache Spark时经常遇到的一个问题是缺少ACID事务。Delta Lake通过与Spark的API集成,使用事务日志和版本化的Parquet文件解决了这个问题。由于其可序列化的隔离性,它允许读取器和写入器对Parquet文件进行并发的操作。它的另一个广受好评的特性是对写操作和版本控制的模式强制,它允许我们在必要时可以查询和恢复到旧版本的数据。Delta Lake已经在我们的一些项目中得到了应用,并收获了极好的用户评价。

Published : Nov 20, 2019

Download the PDF

 

 

 

English | Português 

Sign up for the Technology Radar newsletter

 

 

Subscribe now

Visit our archive to read previous volumes