Menú
May 2020
Evaluar?

Aún existen algunas brechas de herramientas cuando se aplican buenas prácticas de ingeniería de software en la ingeniería de datos. Uno de nuestros equipos, al intentar automatizar las revisiones de calidad de datos entre las distintas etapas de un pipeline de datos, se sorprendió cuando apenas encontraron herramientas en este espacio. Finalmente, se decidieron por usar Deequ, una biblioteca para escribir pruebas para conjuntos de datos que se asemejan a las pruebas unitarias. Deequ está construido sobre Apache Spark, y aunque es publicado por AWS Labs puede ser usado en entornos diferentes a AWS.