Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Atualizado em : Apr 26, 2023
NÃO ENTROU NA EDIÇÃO ATUAL
Este blip não está na edição atual do Radar. Se esteve em uma das últimas edições, é provável que ainda seja relevante. Se o blip for mais antigo, pode não ser mais relevante e nossa avaliação pode ser diferente hoje. Infelizmente, não conseguimos revisar continuamente todos os blips de edições anteriores do Radar. Saiba mais
Apr 2023
Adopt ? Acreditamos firmemente que a indústria deveria adotar esses itens. Nós os usamos quando são apropriados em nossos projetos.

DVC continua a ser nossa ferramenta preferida para gerenciar experimentos em projetos de ciência de dados. O fato de ser baseado no Git faz com que seja um território conhecido para as pessoas desenvolvedoras trazerem práticas de engenharia para o ecossistema de ciência de dados. A visão opinativa do DVC de um ponto de verificação do modelo encapsula cuidadosamente um conjunto de dados de treinamento, um conjunto de dados de teste, hiperparâmetros do modelo e o código. Ao tornar a reprodutibilidade uma preocupação de primeira classe, permite que a equipe viaje no tempo em várias versões do modelo. Nossas equipes usaram DVC com sucesso em produção para permitir entrega contínua para aprendizado de máquina (CD4ML); pode ser conectada a qualquer tipo de armazenamento (incluindo AWS S3, Google Cloud Storage, MinIO e Google Drive). No entanto, com conjuntos de dados cada vez maiores, a criação de snapshots com base no sistema de arquivos pode se tornar particularmente cara. Quando os dados subjacentes mudam com rapidez, o DVC sobre um bom armazenamento com controle de versão permite rastrear os desvios do modelo ao longo de um período de tempo. Nossas equipes usaram efetivamente o DVC em formatos de armazenamento de dados como Delta Lake que otimiza o controle de versão (COW). A maioria de nossas equipes de ciência de dados configura DVC como uma tarefa do dia zero enquanto fazem o bootstrap de um projeto; por esse motivo, estamos felizes em movê-lo para Adote.

May 2020
Trial ? Vale a pena ir atrás. É importante entender como desenvolver essa capacidade. As empresas devem experimentar esta tecnologia em um projeto que possa lidar com o risco.

Em 2018, mencionamos DVC em conjunto com dados versionados para análises reproduzíveis. Desde então, ele se tornou a ferramenta preferida para gerenciar experimentos em projetos de aprendizado de máquina (ML). Baseado em Git, o DVC é um ambiente familiar para pessoas desenvolvedoras de software levarem suas práticas de engenharia à prática de ML. Como ele libera o código que processa os dados junto com os próprios dados e rastreia os estágios em um pipeline, ajuda a ordenar as atividades de modelagem sem interromper o fluxo de analistas.

Publicado : May 19, 2020

Baixe o PDF

 

 

 

English | Español | Português | 中文

Inscreva-se para receber o boletim informativo Technology Radar

 

 

Seja assinante

 

 

Visite nosso arquivo para acessar os volumes anteriores