Master
Published: Nov 20, 2019
Last Updated: Apr 13, 2021
Apr 2021
Probar?

Desde la última vez que escribimos sobre dbt, lo hemos utilizado en algunos proyectos y nos gusta lo que hemos visto. Por ejemplo, dbt hace que la parte de transformación de los pipelines ETL sea más accesible para los consumidores de los datos en vez de solo para los ingenieros de datos que los construyen. Al mismo tiempo, fomenta la aplicación de buenas prácticas de ingeniería, como el versionamiento, las pruebas automatizadas y los despliegues. SQL sigue siendo la lengua franca del mundo de los datos (incluyendo bases de datos, almacenes de datos, motores de consulta, lagos de datos y plataformas de analítica) y la mayoría de estos sistemas lo soportan en cierta medida. Esto permite que dbt sea utilizado frente a estos sistemas para realizar transformaciones con la sola construcción de adaptadores. El número de conectores nativos ha crecido e incluyen aquellos para Snowflake, BigQuery, Redshift y Postgres, al igual que la gama de complementos de la comunidad. Vemos que las herramientas como dbt ayudan a que las plataformas de datos brinden más capacidades de auto-servicio.

Nov 2019
Evaluar?

La transformación de datos es una parte esencial de los flujos de trabajo de procesamiento de datos: filtrar, agrupar o unir múltiples fuentes en un formato que sea adecuado para el análisis de datos o para alimentar modelos de machine learning. dbt es una herramienta open-source y un producto comercial SaaS que proporciona capacidades de transformación simples y efectivas a los analistas de datos. Los frameworks y herramientas actuales para la transformación de datos, o bien pueden entrar en el grupo de potentes y flexibles — que requieren un conocimiento íntimo del modelo de programación y los lenguajes del framework como es el caso de Apache Spark — o en el grupo de las herramientas con una interfaz de usuario simple tipo drag-and-drop que no se prestan a prácticas fiables de ingeniería como las pruebas y despliegues automatizados. dbt rellena un nicho: usa SQL -una interfaz ampliamente comprendida- para modelar transformaciones simples en lotes, al tiempo que proporciona herramientas de línea de comando que animan a aplicar buenas prácticas de ingeniería como el versionado, las pruebas y el despliegue automatizados; esencialmente implementa modelado de transformación basado en SQL como código. dbt soporta actualmente múltiples fuentes de datos, incluyendo Snowflake y Postgres, y ofrece varias opciones de ejecución, como Airflow y la propia oferta de Apache en la nube. Su capacidad de transformación se limita a lo que ofrece SQL, y no soporta transformaciones de streaming en tiempo real en el momento que escribimos estas líneas.