Master
平台

Delta Lake

Published: Nov 20, 2019
Last Updated: Apr 13, 2021
Apr 2021
试验?

Delta Lake是由Databricks实现的开源存储层,旨在将ACID事务处理引入到大数据处理中。在使用了Databricks的data lakedata mesh的项目中,我们的团队更喜欢使用Delta lake存储,而不是直接使用S3ADLS等文件存储类型。当然,这仅限于那些使用了支持Delta Lake的存储平台的项目,并且使用了Parquet文件格式。当需要实现文件级事务完整性时,Delta Lake 能实现并发数据读写。尽管还存在一些限制,但Delta Lake 与 Apache Spark batch以及micro-batch接口的无缝集成,对我们非常有用。尤其有用的是诸如时间旅行(在特定时间点访问数据或进行提交回滚)和对写操作的schema演进的支持。

Nov 2019
评估?

Delta Lake是一个由Databricks开发的开源存储层,用于在大数据场景中引入事务处理。我们在使用Apache Spark时经常遇到的一个问题是缺少ACID事务。Delta Lake通过与Spark的API集成,使用事务日志和版本化的Parquet文件解决了这个问题。由于其可序列化的隔离性,它允许读取器和写入器对Parquet文件进行并发的操作。它的另一个广受好评的特性是对写操作和版本控制的模式强制,它允许我们在必要时可以查询和恢复到旧版本的数据。Delta Lake已经在我们的一些项目中得到了应用,并收获了极好的用户评价。