Master
Plataformas

Delta Lake

Published: Nov 20, 2019
Last Updated: Apr 13, 2021
Apr 2021
Experimente?

Delta Lake é uma camada de armazenamento de código aberto, implementada pelo Databricks, que tenta levar transações ACID para o processamento de big data. Em nossos projetos de lago de dados ou malha de dados habilitados pelo Databricks, nossos times continuam preferindo usar o armazenamento Delta Lake em vez do uso direto de tipos de armazenamento de arquivos, como S3 ou ADLS. Claro, isso se limita a projetos que usam plataformas de armazenamento que suportam Delta Lake ao usar formatos de arquivo Parquet. O Delta Lake facilita os casos de uso simultâneos de leitura/gravação de dados em que a transacionalidade no nível de arquivo é necessária. Achamos a impecável integração do Delta Lake com a API de processamento em lote e microlote do Apache Spark muito úteis, principalmente recursos como versionamento — que possibilita acessar dados em um determinado momento ou reverter um commit — bem como suporte a evolução de esquemas, embora existam algumas limitações nesses recursos.

Nov 2019
Avalie?

Delta Lake é uma camada de armazenamento de código aberto da Databrick que tenta trazer transações para processamento de big data. Um dos problemas que frequentemente encontramos quando usamos Apache Spark, é a falta de transações ACID. Delta Lake tem integração com API Spark e resolve esse problema usando um log de transação e arquivos Parquet versionados. Seu isolamento serializável permite que leitores e gravadores concorrentes operem em arquivos Parquet. Outras funcionalidades bem-vindas incluem validação de esquema na escrita e no versionamento, o que nos permite consultar e reverter para versões antigas de dados, se necessário. Começamos a usar em alguns de nossos projetos e temos gostado bastante.