Master
语言 & 框架

AWS Data Wrangler

Published: Apr 13, 2021
Apr 2021
试验?

AWS Data Wrangler 是一个开源库,可以将数据框连接到 AWS 数据相关的服务,从而将 Pandas 的功能扩展到 AWS。另外,该库还利用 Apache ArrowBoto3 暴露了一些 API,用于从数据湖和数据仓库中加载、转换和保存数据。AWS Data Wrangler 最大的限制是不支持大型的分布式数据流水线操作。但是,你可以使用原生的数据服务(如 Athena、Redshift 和 Timestream 等)进行大批量的数据上传和提取工作,来表示适用于数据框的复杂转换。我们在生产环境中使用过 AWS Data Wrangler。它可以使你专注于编写转换,而不必在连接AWS数据服务上花费太多时间。