Master
Lenguajes & Frameworks

AWS Data Wrangler

Published: Apr 13, 2021
Apr 2021
Probar?

AWS Data Wrangler es una biblioteca de código abierto que amplía las capacidades de Pandas a AWS al conectar marcos de datos a los servicios de datos de AWS. Además de Pandas, esta biblioteca aprovecha las capacidades de Apache Arrow y Boto3 para exponer varias APIs para cargar, transformar y guardar datos provenientes de lagos y almacenes de datos. Una limitación importante de esta biblioteca es que no permite realizar pipelines distribuidos para grandes volúmenes de datos. Sin embargo, es capaz de aprovechar servicios de datos nativos, como Athena, Redshift y Timestream, para hacer el trabajo pesado y extraer datos y así expresar transformaciones complejas que se adapten bien a los marcos de datos. Hemos utilizado AWS Data Wrangler en producción y como tal, permite concentrarse en escribir transformaciones sin perder demasiado tiempo en la conectividad a los servicios de datos de AWS.