Menú
Plataformas

Delta Lake

Nov 2019
Evaluar?

Delta Lake es una capa de almacenamiento de open-source de Databricks que intenta llevar las transacciones al procesamiento de big data. Uno de los problemas que a menudo encontramos al usar Apache Spark es la falta de transacciones ACID. Delta Lake se integra con la API de Spark y resuelve este problema mediante el uso de un registro de transacciones y archivos de Parquet versionados. Su aislamiento serializable, permite que lectores y escritores puedan trabajar sobre archivos Parquet simultáneamente. Dentro de las bien recibidas características se incluye la aplicación de esquemas al escribir y versionar, lo que nos permite consultar y volver a versiones anteriores de datos de ser necesario. Hemos comenzando a usarlo en algunos de nuestros proyectos y nos resulta interesante.