Enable javascript in your browser for better experience. Need to know to enable it? Go here.
更新于 : Oct 26, 2022
Oct 2022
采纳 ? 我们强烈建议业界采用这些技术,我们将会在任何合适的项目中使用它们。

Delta Lake 是由 Databricks 实现的开源存储层,旨在将 ACID 事务处理引入到大数据处理中。在使用了 Databricks 的 data lakedata mesh 的项目中,我们的团队更喜欢使用 Delta Lake 存储,而不是直接使用 AWS S3ADLS 等文件存储类型。 Delta Lake 此前一直是 Databricks 的闭源项目,最近成为了开源项目,并且可以在 Databricks 之外的平台使用。但是,我们只建议使用 Parquet 文件格式的 Databricks 项目将 Delta Lake 作为默认选择。Delta Lake 促进了需要文件级事务机制的并发数据读/写用例的发展。我们发现 Delta Lake 与 Apache Spark batchmicro-batch的无缝集成API 非常有用,尤其是其中诸如时间旅行(在特定时间点访问数据或还原提交)以及模式演变支持写入等功能,尽管这些功能有一些限制。

Apr 2021
试验 ? 值得一试。了解为何要构建这一能力是很重要的。企业应当在风险可控的前提下在项目中尝试应用此项技术。

Delta Lake是由Databricks实现的开源存储层,旨在将ACID事务处理引入到大数据处理中。在使用了Databricks的data lakedata mesh的项目中,我们的团队更喜欢使用Delta lake存储,而不是直接使用S3ADLS等文件存储类型。当然,这仅限于那些使用了支持Delta Lake的存储平台的项目,并且使用了Parquet文件格式。当需要实现文件级事务完整性时,Delta Lake 能实现并发数据读写。尽管还存在一些限制,但Delta Lake 与 Apache Spark batch以及micro-batch接口的无缝集成,对我们非常有用。尤其有用的是诸如时间旅行(在特定时间点访问数据或进行提交回滚)和对写操作的schema演进的支持。

Nov 2019
评估 ? 在了解它将对你的企业产生什么影响的前提下值得探索

Delta Lake是一个由Databricks开发的开源存储层,用于在大数据场景中引入事务处理。我们在使用Apache Spark时经常遇到的一个问题是缺少ACID事务。Delta Lake通过与Spark的API集成,使用事务日志和版本化的Parquet文件解决了这个问题。由于其可序列化的隔离性,它允许读取器和写入器对Parquet文件进行并发的操作。它的另一个广受好评的特性是对写操作和版本控制的模式强制,它允许我们在必要时可以查询和恢复到旧版本的数据。Delta Lake已经在我们的一些项目中得到了应用,并收获了极好的用户评价。

发布于 : Nov 20, 2019
Radar

下载第27期技术雷达

English | Español | Português | 中文

Radar

获取最新技术洞见

 

立即订阅

查看存档并阅读往期内容