Menú
Nov 2019
Evaluar?

La transformación de datos es una parte esencial de los flujos de trabajo de procesamiento de datos: filtrar, agrupar o unir múltiples fuentes en un formato que sea adecuado para el análisis de datos o para alimentar modelos de machine learning. dbt es una herramienta open-source y un producto comercial SaaS que proporciona capacidades de transformación simples y efectivas a los analistas de datos. Los frameworks y herramientas actuales para la transformación de datos, o bien pueden entrar en el grupo de potentes y flexibles — que requieren un conocimiento íntimo del modelo de programación y los lenguajes del framework como es el caso de Apache Spark — o en el grupo de las herramientas con una interfaz de usuario simple tipo drag-and-drop que no se prestan a prácticas fiables de ingeniería como las pruebas y despliegues automatizados. dbt rellena un nicho: usa SQL -una interfaz ampliamente comprendida- para modelar transformaciones simples en lotes, al tiempo que proporciona herramientas de línea de comando que animan a aplicar buenas prácticas de ingeniería como el versionado, las pruebas y el despliegue automatizados; esencialmente implementa modelado de transformación basado en SQL como código. dbt soporta actualmente múltiples fuentes de datos, incluyendo Snowflake y Postgres, y ofrece varias opciones de ejecución, como Airflow y la propia oferta de Apache en la nube. Su capacidad de transformación se limita a lo que ofrece SQL, y no soporta transformaciones de streaming en tiempo real en el momento que escribimos estas líneas.