Master
Plataformas

Delta Lake

Published: Nov 20, 2019
Last Updated: Apr 13, 2021
Apr 2021
Probar?

Delta Lake es una capa de almacenamiento de código abierto implementada por Databricks, que intenta llevar transacciones ACID al procesamiento de big data. En proyectos de lago de datos o de malla de datos con soporte de Databricks, nuestros equipos siguen prefiriendo usar el almacenamiento Delta Lake en lugar del uso directo de mecanismos de almacenamiento de archivos como S3 o ADLS. Por supuesto que esto se limita a proyectos que usan plataformas de almacenamiento que soportan Delta Lake cuando usan formatos de archivo Parquet. Delta Lake facilita casos de uso de lectura/escritura de datos concurrentes donde se requiere transaccionalidad a nivel de archivo. Encontramos de gran ayuda a la integración transparente de Delta Lake con las APIs de procesamiento en lotes o en micro lotes de Apache Spark, y particularmente, a funcionalidades como los viajes en el tiempo (acceder a los datos de un momento determinado o en la reversión de un commit) así como el soporte de evolución de esquema al momento de escritura, aunque hay algunas limitaciones en estas características.

Nov 2019
Evaluar?

Delta Lake es una capa de almacenamiento de open-source de Databricks que intenta llevar las transacciones al procesamiento de big data. Uno de los problemas que a menudo encontramos al usar Apache Spark es la falta de transacciones ACID. Delta Lake se integra con la API de Spark y resuelve este problema mediante el uso de un registro de transacciones y archivos de Parquet versionados. Su aislamiento serializable, permite que lectores y escritores puedan trabajar sobre archivos Parquet simultáneamente. Dentro de las bien recibidas características se incluye la aplicación de esquemas al escribir y versionar, lo que nos permite consultar y volver a versiones anteriores de datos de ser necesario. Hemos comenzando a usarlo en algunos de nuestros proyectos y nos resulta interesante.