Plataformas
Adote
-
Em um mundo cada vez mais digital, melhorar a eficácia das pessoas desenvolvedoras em grandes organizações costuma ser uma preocupação central da liderança sênior. Observamos valor suficiente em portais de desenvolvimento em geral, Backstage em particular, e por isso estamos felizes em recomendá-lo em "Adote". Backstage é uma plataforma de portal de desenvolvimento de código aberto criada pelo Spotify, que melhora a descoberta de ativos de software em toda a organização. A plataforma usa Markdown TechDocs que acompanham o código de cada serviço, o que equilibra muito bem as necessidades de descoberta centralizada com a necessidade de propriedade distribuída de ativos. O Backstage oferece suporte a modelos de software para acelerar novos desenvolvimentos e uma arquitetura de plug-in que permite extensibilidade e adaptabilidade no ecossistema de infraestrutura de uma organização. O Backstage Service Catalog usa arquivos YAML para rastrear a propriedade e metadados de todo o software no ecossistema de uma organização. Permite ainda rastrear software SaaS de terceiros, o que geralmente requer o rastreamento de propriedade.
-
Delta Lake é uma camada de armazenamento de código aberto, implementada pela Databricks, que tenta trazer transações ACID para processamento de big data. Em nossos projetos de malha de dados (data mesh) ou lago de dados habilitado por Databricks, nossos times preferem usar o armazenamento Delta Lake em vez do uso direto de tipos de armazenamento de arquivos como AWS S3 ou ADLS. Até recentemente, o Delta Lake era um produto proprietário fechado da Databricks, mas agora é código aberto e acessível a plataformas não Databricks. No entanto, nossa recomendação de Delta Lake como uma opção padrão atualmente se estende apenas a projetos Databricks que usam formatos de arquivo Parquet. O Delta Lake facilita os casos de uso de leitura/escrita de dados simultâneas em que a transacionalidade no nível do arquivo é necessária. Consideramos a fluida integração do Delta Lake com APIs de Apache Spark batch e micro-batch muito útil, principalmente recursos como time travel (acessar dados em um determinado momento ou reverter um commit), bem como suporte para gravação no schema evolution, embora haja algumas limitações nesses recursos
Experimente
-
Muitos de nossos times usaram com sucesso o AWS Database Migration Service (DMS) para migrar dados de e para a AWS. Em um de nossos projetos de transformação digital, conseguimos chegar a quase zero de tempo de inatividade para o novo sistema, pois migramos dados do Microsoft SQL Server para uma instância PostgreSQL do AWS Relational Database Service (RDS). Essas transformações envolvem muitas partes móveis que exigem planejamento e coordenação entre times multidisciplinares, mas para a migração de dados estamos muito felizes com o DMS. O serviço administra automaticamente a implantação, o gerenciamento e o monitoramento de todos os recursos necessários. Ao longo dos anos, o DMS amadureceu para oferecer suporte a várias databases source e target, e continuamos gostando.
-
Colima está se tornando uma alternativa de código aberto popular em relação ao Docker Desktop. A plataforma provisiona o tempo de execução do contêiner Docker em uma VM Lima, configura a CLI do Docker no macOS e lida com encaminhamento de porta e escala de volume. Colima usa containerd como seu tempo de execução, que também é o tempo de execução na maioria dos serviços gerenciados do Kubernetes — melhorando a importante paridade entre desenvolvimento e produção. Com Colima, você pode usar e testar facilmente os recursos mais recentes do containerd, como carregamento lento para imagens de contêiner. Temos tido bons resultados com Colima em nossos projetos. No espaço Kubernetes, também usamos nerdctl, uma CLI compatível com Docker para containerd. Como o Kubernetes descontinuou o Docker como tempo de execução de contêiner e a maioria dos serviços gerenciados (EKS, GKE etc.) estão seguindo esse caminho, mais pessoas procurarão ferramentas nativas de contêiner, daí a importância de ferramentas como nerdctl. Em nossa opinião, o Colima está mostrando seu forte potencial e se tornando uma opção escolhida como alternativa ao Docker Desktop.
-
A partir do Databricks 9.1 LTS (Long Term Support), foi disponibilizado um novo runtime chamado Databricks Photon, uma alternativa que foi reescrita do zero em C++. Vários de nossos times já usaram o Photon em produção e ficaram satisfeitos com as melhorias de desempenho e a consequente redução de custos. Melhorias e mudanças reais nos custos dependerão de vários fatores, como tamanho do conjunto de dados e tipos de transação. Recomendamos testar em uma carga de trabalho realista para coletar dados para uma comparação antes de tomar qualquer decisão sobre o uso do Photon.
-
Desde que mencionamos a detecção de dados pela primeira vez no Radar, o LinkedIn evoluiu o WhereHows para DataHub, uma plataforma de próxima geração que aborda a descoberta de dados por meio de um sistema de metadados extensível. Em vez de rastrear e extrair metadados, DataHub adota um modelo baseado em push, em que componentes individuais do ecossistema de dados publicam metadados por meio de uma API ou um fluxo para a plataforma central. Essa integração baseada em push transfere a propriedade da entidade central para times individuais, tornando-os responsáveis por seus metadados. Como resultado, usamos o DataHub com sucesso como um repositório de metadados em toda a organização e como ponto de entrada para vários produtos de dados mantidos de forma autônoma. Ao adotar essa abordagem, certifique-se de mantê-la leve e evitar o caminho escorregadio que leva ao controle centralizado sobre um recurso compartilhado.
-
DataOps.live é uma plataforma de dados que automatiza ambientes em Snowflake. Inspirado nas práticas de DevOps, DataOps.live permite que você trate a plataforma de dados como qualquer outra plataforma web, adotando integração contínua e entrega contínua (CI/CD), testes automatizados, observabilidade e gerenciamento de código. Você pode reverter as alterações imediatamente sem afetar os dados ou recuperar-se de falhas completas e reconstruir um novo tenant do Snowflake em minutos ou horas, em vez de dias. Nossos times tiveram uma boa experiência com DataOps.live, porque nos permitiu iterar rapidamente ao criar produtos de dados no Snowflake.
-
Há vários anos, o kernel do Linux inclui o Berkeley Packet Filter estendido (eBPF), uma máquina virtual que fornece a capacidade de anexar filtros a soquetes específicos. Mas o eBPF vai muito além da filtragem de pacotes, permitindo que scripts personalizados sejam acionados em vários pontos dentro do kernel com muito pouca sobrecarga. A possibilidade de execução de programas em área restrita dentro do kernel do sistema operacional habilita pessoas desenvolvedoras de aplicativos a executar programas eBPF para adicionar recursos adicionais ao sistema operacional em tempo de execução. Alguns de nossos projetos exigem solução de problemas e criação de perfil no nível de chamada do sistema, e nossos times descobriram que ferramentas como bcc e bpftrace facilitam seu trabalho. A observabilidade e a infraestrutura de rede também se beneficiam do eBPF — por exemplo, o projeto Cilium pode implementar balanceamento de carga de tráfego e observabilidade sem sobrecarga de sidecar em Kubernetes, e Hubble oferece mais segurança e observabilidade de tráfego. O projeto Falco usa eBPF para monitoramento de segurança, e o projeto Katran usa eBPF para construir balanceamento de carga L4 mais eficiente. A comunidade eBPF está crescendo rapidamente e temos visto cada vez mais sinergia com o campo da observabilidade.
-
Feast é uma Feature Store de código aberto para aprendizado de máquina. Tem várias propriedades úteis, incluindo a geração de conjuntos de atributos corretos em um determinado momento — para que os valores de recursos futuros propensos a erros não vazem para os modelos durante o treinamento — e suporte a fontes de dados de streaming e em lote. No entanto, atualmente suporta apenas dados estruturados com carimbo de data/hora e, portanto, pode não ser adequado se você trabalhar com dados não estruturados em seus modelos. Usamos com sucesso Feast em uma escala significativa como um repositório offline durante o treinamento do modelo e como um repositório online durante a predição.
-
Monte Carlo é uma plataforma de observabilidade de dados. Usando modelos de aprendizado de máquina, Monte Carlo infere e aprende sobre os dados, identificando problemas e notificando os usuários quando eles surgem. A plataforma permite que nossos times mantenham a qualidade dos dados em pipelines ETL, data lakes, data warehouses e relatórios de inteligência de negócios (BI). Com recursos como painéis de monitoramento como código, catálogo de dados central e linhagem em nível de campo, nossos times consideram Monte Carlo uma ferramenta de grande valor para a governança geral de dados.
-
Em edições anteriores, recomendamos avaliar plataformas limitadas de baixo código como um método para aplicar soluções de baixo código para casos de uso específicos em domínios muito limitados. Vimos alguma tração nesse espaço, especificamente com Retool, uma plataforma de baixo código que nossos times usam para criar soluções para usuários internos, principalmente para consultar e visualizar dados. A plataforma permite que os times produzam soluções somente leitura não essenciais aos negócios mais rapidamente. Os principais benefícios relatados do Retool são seus componentes de interface do usuário e sua capacidade de integração rápida e fácil com fontes de dados comuns.
-
Seldon Core é uma plataforma de código aberto para empacotar, implantar, monitorar e gerenciar modelos de aprendizado de máquina no Kubernetes. Com suporte pronto para uso para vários frameworks de aprendizado de máquina, você pode facilmente colocar seus modelos em contêiner usando servidores de inferência pré-empacotados, servidores de inferência personalizados ou wrappers de linguagem. Com rastreamento distribuído por meio de Jaeger e explicabilidade do modelo com Alibi, o Seldon Core enderessa vários desafios de reta final de entrega com implantações de aprendizado de máquina, e nossos times de dados gostam disso.
-
Teleport é uma ferramenta para acesso de rede à infraestrutura de confiança zero. As configurações tradicionais exigem políticas complexas ou jump servers para restringir o acesso a recursos críticos. Teleport, no entanto, simplifica isso com um plano de acesso unificado e com controles de autorização refinados que substituem jump servers, VPNs ou credenciais compartilhadas. Implementado como um único binário com suporte imediato para vários protocolos (incluindo SSH, RDP, Kubernetes API, MySQL, MongoDB e protocolos de PostgreSQL wire), Teleport facilita a configuração e o gerenciamento de acesso seguro em ambientes Linux, Windows ou Kubernetes. Desde que o mencionamos pela primeira vez no Radar, alguns times vem usando Teleport e nossa experiência geral positiva nos levou a destacá-lo.
-
A observabilidade moderna depende da coleta e agregação de um conjunto extenso de métricas granulares para entender, prever e analisar integralmente o comportamento do sistema. Mas quando aplicada a um sistema nativo de nuvem composto por muitos processos e hosts redundantes e cooperativos, a cardinalidade (ou número de séries temporais únicas) se torna difícil, porque cresce exponencialmente com cada serviço adicional, contêiner, nó, cluster etc. Ao lidar com dados de alta cardinalidade, descobrimos que VictoriaMetrics tem um bom desempenho. VictoriaMetrics é particularmente útil para operar microsserviços hospedados em Kubernetes, e o operador VictoriaMetrics torna mais fácil para os times a implementação do seu próprio monitoramento em forma de autoatendimento. Também gostamos de sua arquitetura em componentes e sua capacidade de continuar coletando métricas mesmo quando o servidor central não está disponível. Embora nossa equipe esteja satisfeita com VictoriaMetrics, esta é uma área em rápida evolução, e recomendamos ficar de olho em outras bancos de dados de séries temporais de alto desempenho compatíveis com Prometheus, como Cortex ou Thanos.
Avalie
-
Bun é um novo ambiente de execução JavaScript, semelhante ao Node.js ou Deno. Ao contrário do Node.js ou do Deno, no entanto, Bun é construído usando o JavaScriptCore do WebKit em vez do mecanismo V8 do Chrome. Projetado como um substituto imediato para o Node.js, Bun é um binário único (escrito em Zig) que atua como um empacotador, transpilador e gerenciador de pacotes para aplicativos JavaScript e TypeScript. Bun está atualmente em beta, então espere bugs ou problemas de compatibilidade com algumas bibliotecas Node.js. No entanto, foi construído desde o início com várias otimizações, incluindo inicialização rápida e renderização aprimorada do lado do servidor, e acreditamos que seja interessante avaliar.
-
Databricks Unity Catalog é uma solução de governança de dados para ativos como arquivos, tabelas ou modelos de aprendizado de máquina em um lakehouse. Embora você encontre várias plataformas no espaço de governança de dados corporativos, se você já estiver usando outras soluções Databricks, certamente deve avaliar o Unity Catalog. Queremos destacar que, embora essas plataformas de governança geralmente implementem uma solução centralizada para melhor consistência entre espaços de trabalho e cargas de trabalho, a responsabilidade de governar deve ser federada, permitindo que times individuais gerenciem seus próprios ativos.
-
Dragonfly é um novo repositório de dados em memória compatível com Redis e APIs Memcached. Dragonfly aproveita a nova API io_uring específica do Linux para E/S e implementa novos algoritmos e estruturas de dados em cima de uma arquitetura multithread e sem compartilhamento. Por causa dessas escolhas inteligentes na implementação, Dragonfly alcança resultados impressionantes em desempenho. Embora Redis continue sendo nossa escolha padrão para soluções de armazenamento de dados na memória, consideramos Dragonfly uma opção interessante para avaliar.
-
Em edições anteriores do Radar, escrevemos sobre TinyML — a prática de executar modelos treinados em pequenos dispositivos com sensores integrados para tomar decisões ou extrair recursos sem uma viagem de ida e volta para a nuvem. O Edge Impulse simplificou ao máximo o processo de coleta de dados do sensor, treinamento e implantação de um modelo. O Edge Impulse é uma plataforma de ponta a ponta hospedada para o desenvolvimento de modelos otimizados para execução em pequenos dispositivos de borda, como microcontroladores. A plataforma orienta a pessoa desenvolvedora por todo o pipeline, incluindo a tarefa de coletar e rotular dados de treinamento. Fica mais fácil começar a usar seu telefone celular para coleta de dados e execução do classificador, enquanto o treinamento e o refinamento do modelo acontecem no ambiente mais poderoso e hospedado na nuvem. Os algoritmos de reconhecimento resultantes também podem ser otimizados, compilados e carregados em uma ampla variedade de arquiteturas de microcontroladores. Embora o Edge Impulse seja um empreendimento comercial, a plataforma é gratuita para pessoas desenvolvedoras e torna todo o processo divertido e envolvente, mesmo para iniciantes no aprendizado de máquina. A baixa barreira de entrada para a criação de um aplicativo funcional significa que veremos mais dispositivos de ponta com decisões inteligentes integradas.
-
GCP Vertex AI é uma plataforma unificada de inteligência artificial (IA) que permite que os times criem, implantem e dimensionem modelos de aprendizado de máquina (ML). O Vertex AI inclui modelos pré-treinados, que podem ser usados diretamente, ajustados ou combinados com AutoML, bem como infraestrutura, por exemplo feature stores e pipelines para modelos de ML. Gostamos dos recursos integrados da Vertex AI, que ajudam a torná-la uma plataforma de IA coerente.
-
Gradient é uma plataforma para criar, implantar e executar aplicações de aprendizado de máquina, muito semelhante à Colab do Google. Os notebooks podem ser criados a partir de modelos, ajudando você a começar com PyTorch ou TensorFlow ou com aplicações como Stable Diffusion. Em nossa experiência, o Gradient é adequado para modelos com uso intenso de GPU e gostamos que o ambiente baseado em web seja persistente.
-
IAM Roles Anywhere é um novo serviço da AWS que permite obter credenciais de segurança temporárias no IAM para cargas de trabalho como servidores, contêineres e aplicativos executados fora da AWS. Achamos isso particularmente útil em configurações de nuvem híbrida em que as cargas de trabalho são divididas entre recursos da AWS e não AWS. Em vez de criar credenciais de longa duração, com o IAM Roles Anywhere, agora você pode criar credenciais de curta duração para acessar recursos da AWS usando certificados X.509. Acreditamos que essa abordagem simplifica o padrão de acesso na nuvem híbrida e recomendamos que você confira.
-
Keptn é um plano de controle para entrega e operações que depende de CloudEvents para instrumentação. Como uma das técnicas que mencionamos em observalidade para pipelines de CI/CD, Keptn visualiza sua orquestração como vestígios. A definição declarativa da pipeline de entrega visa separar as intenções de SRE da implementação subjacente, contando com outras ferramentas de observabilidade, pipeline e implantação para responder aos eventos apropriados. Estamos particularmente otimistas com a ideia de adicionar verificações de objetivo de nível de serviço (SLO) como funções de aptidão arquitetural a pipelines de CI/CD: Keptn permite definir indicadores de nível de serviço (SLIs) como pares de chave-valor, com o valor representando a consulta à sua infraestrutura de observabilidade. Em seguida, a ferramenta avalia o resultado em relação aos SLOs definidos como um portão de qualidade. O Keptn adota a mesma abordagem para operações automatizadas, permitindo uma definição declarativa que especifica a intenção de dimensionar um ReplicaSet em resposta a uma degradação do tempo médio de resposta, por exemplo. Criado pela Dynatrace, o Keptn também se integra ao Prometheus e ao Datadog.
-
Sem dúvida, detecção de dados tornou-se um ponto focal muito importante para as empresas, pois é um facilitador para que os dados sejam compartilhados e usados de forma eficiente por pessoas diferentes. Incluímos plataformas como DataHub e Collibra em edições anteriores do Radar, no entanto, nossos times estão constantemente avaliando opções nesse espaço e recentemente demonstraram interesse em OpenMetadata, uma plataforma dedicada ao gerenciamento de metadados usando padrões abertos. Nossos times gostam dessa plataforma de código aberto porque melhora a experiência de desenvolvimento devido à sua arquitetura simples, fácil implantação com foco em automação e forte foco na detecção de dados.
-
OrioleDB é um novo mecanismo de armazenamento para PostgreSQL. Nossos times usam muito o PostgreSQL, mas seu mecanismo de armazenamento foi originalmente projetado para discos rígidos. Embora existam várias opções de ajuste para hardware moderno, pode ser difícil e complicado obter os melhores resultados. OrioleDB aborda esses desafios implementando um mecanismo de armazenamento nativo da nuvem com suporte explícito para unidades de estado sólido (SSDs) e memória de acesso aleatório não volátil (NVRAM). Para experimentar o novo mecanismo, primeiro instale os patches de aprimoramento nos atuais métodos de acesso à tabela e depois instale o OrioleDB como uma extensão do PostgreSQL. Acreditamos que o OrioleDB tem um grande potencial para resolver vários problemas há muito tempo pendentes no PostgreSQL e encorajamos você a avaliá-lo cuidadosamente.
Evite
- Novo
- Modificado
- Sem alteração
Não encontrou algo que você esperava achar?
Cada edição do Radar inclui blips que refletem nossas experiências nos seis meses anteriores. Talvez já tenhamos falado sobre o que você procura em um Radar anterior. Às vezes, deixamos coisas de fora simplesmente porque há muitas a serem abordadas. Também pode faltar um tópico específico porque o Radar reflete nossa experiência, não se baseando em uma análise abrangente do mercado.
Não encontrou algo que você esperava achar?
Cada edição do Radar inclui blips que refletem nossas experiências nos seis meses anteriores. Talvez já tenhamos falado sobre o que você procura em um Radar anterior. Às vezes, deixamos coisas de fora simplesmente porque há muitas a serem abordadas. Também pode faltar um tópico específico porque o Radar reflete nossa experiência, não se baseando em uma análise abrangente do mercado.
