Master
Herramientas

Great Expectations

Published: Oct 28, 2020
Last Updated: Apr 13, 2021
Apr 2021
Probar?

Habíamos escrito sobre Great Expectations en la edición anterior del Radar. Nos encanta y hemos decidido moverlo al anillo "Probar" en esta edición. Great Expectations es un marco de trabajo que permite crear controles que etiquetan anomalías o problemas de calidad en los pipelines de datos. Igual que la ejecución de una prueba unitaria en un pipeline de compilación, Great Expectations realiza verificaciones durante la ejecución del pipeline de datos. Nos gusta su simplicidad y facilidad de uso: las reglas almacenadas en formato JSON pueden ser modificadas por nuestros expertos del dominio de datos sin necesidad de tener habilidades de ingeniería de datos.

Oct 2020
Evaluar?

Con el surgimiento de CD4ML, los aspectos operacionales de la ingeniería y la ciencia de datos han recibido más atención. La gobernanza de datos automatizada es un aspecto de este desarrollo. Great Expectations es un framework que permite crear controles integrados que señalan anomalías o problemas de calidad en los pipelines de datos. Al igual que las pruebas unitarias corren en un pipeline de compilación, Great Expectations realiza verificaciones durante la ejecución de un pipeline de datos. Esto es útil no solo para implementar una especie de Andon para pipelines de datos sino también para garantizar que los algoritmos basados en modelos permanezcan dentro del rango operativo determinado por sus datos de entrenamiento. Los controles automatizados como este pueden ayudar a distribuir, democratizar y custodiar el acceso a los datos. Great Expectations también contiene una herramienta de generación de perfiles para ayudar a comprender las cualidades de un conjunto de datos en particular y establecer límites apropiados.