Delta Lake

Technology Radar

Atualizado em : Oct 26, 2022

NÃO ENTROU NA EDIÇÃO ATUAL

Este blip não está na edição atual do Radar. Se esteve em uma das últimas edições, é provável que ainda seja relevante. Se o blip for mais antigo, pode não ser mais relevante e nossa avaliação pode ser diferente hoje. Infelizmente, não conseguimos revisar continuamente todos os blips de edições anteriores do Radar. Saiba mais

Oct 2022

Adote

Delta Lake é uma camada de armazenamento de código aberto, implementada pela Databricks, que tenta trazer transações ACID para processamento de big data. Em nossos projetos de malha de dados (data mesh) ou lago de dados habilitado por Databricks, nossos times preferem usar o armazenamento Delta Lake em vez do uso direto de tipos de armazenamento de arquivos como AWS S3 ou ADLS. Até recentemente, o Delta Lake era um produto proprietário fechado da Databricks, mas agora é código aberto e acessível a plataformas não Databricks. No entanto, nossa recomendação de Delta Lake como uma opção padrão atualmente se estende apenas a projetos Databricks que usam formatos de arquivo Parquet. O Delta Lake facilita os casos de uso de leitura/escrita de dados simultâneas em que a transacionalidade no nível do arquivo é necessária. Consideramos a fluida integração do Delta Lake com APIs de Apache Spark batch e micro-batch muito útil, principalmente recursos como time travel (acessar dados em um determinado momento ou reverter um commit), bem como suporte para gravação no schema evolution, embora haja algumas limitações nesses recursos

Apr 2021

Experimente

Delta Lake é uma camada de armazenamento de código aberto, implementada pelo Databricks, que tenta levar transações ACID para o processamento de big data. Em nossos projetos de lago de dados ou malha de dados habilitados pelo Databricks, nossos times continuam preferindo usar o armazenamento Delta Lake em vez do uso direto de tipos de armazenamento de arquivos, como S3 ou ADLS. Claro, isso se limita a projetos que usam plataformas de armazenamento que suportam Delta Lake ao usar formatos de arquivo Parquet. O Delta Lake facilita os casos de uso simultâneos de leitura/gravação de dados em que a transacionalidade no nível de arquivo é necessária. Achamos a impecável integração do Delta Lake com a API de processamento em lote e microlote do Apache Spark muito úteis, principalmente recursos como versionamento — que possibilita acessar dados em um determinado momento ou reverter um commit — bem como suporte a evolução de esquemas, embora existam algumas limitações nesses recursos.

Nov 2019

Avalie

Delta Lake é uma camada de armazenamento de código aberto da Databrick que tenta trazer transações para processamento de big data. Um dos problemas que frequentemente encontramos quando usamos Apache Spark, é a falta de transações ACID. Delta Lake tem integração com API Spark e resolve esse problema usando um log de transação e arquivos Parquet versionados. Seu isolamento serializável permite que leitores e gravadores concorrentes operem em arquivos Parquet. Outras funcionalidades bem-vindas incluem validação de esquema na escrita e no versionamento, o que nos permite consultar e reverter para versões antigas de dados, se necessário. Começamos a usar em alguns de nossos projetos e temos gostado bastante.

Publicado : Nov 20, 2019