Master
Linguagens & Frameworks

AWS Data Wrangler

Published: Apr 13, 2021
Apr 2021
Experimente?

A AWS Data Wrangler é uma biblioteca de código aberto que estende os recursos do Pandas para a AWS, conectando frames de dados a serviços da AWS relacionados a dados. Além do Pandas, a biblioteca usa Apache Arrow e Boto3 para expor várias APIs para carregar, transformar e salvar dados em lagos de dados e data warehouses. Uma limitação importante é que você não pode executar grandes pipelines de dados distribuídos com esta biblioteca. No entanto, você pode aproveitar os serviços de dados nativos – como Athena, Redshift e Timestream – para fazer o trabalho pesado e extrair dados a fim de expressar transformações complexas que são adequadas para frames de dados. Usamos o AWS Data Wrangler em produção e, dessa forma, ele permite que você se concentre em escrever transformações sem gastar muito tempo na conectividade com os serviços de dados da AWS.