Delta Lake
Delta Lake é uma camada de armazenamento de código aberto da Databrick que tenta trazer transações para processamento de big data. Um dos problemas que frequentemente encontramos quando usamos Apache Spark, é a falta de transações ACID. Delta Lake tem integração com API Spark e resolve esse problema usando um log de transação e arquivos Parquet versionados. Seu isolamento serializável permite que leitores e gravadores concorrentes operem em arquivos Parquet. Outras funcionalidades bem-vindas incluem validação de esquema na escrita e no versionamento, o que nos permite consultar e reverter para versões antigas de dados, se necessário. Começamos a usar em alguns de nossos projetos e temos gostado bastante.