平台
采纳
-
32. 云上 Arm
云端 Arm 计算实例 近年来因其相较传统 x86 实例更具成本效益和能效,受到了越来越多的关注。主流云服务商——包括 AWS、Azure 和 GCP——如今都提供了强大的 Arm 方案。对于大规模或对成本敏感的工作负载,这类实例尤其具备吸引力。我们的多个团队已顺利将微服务、开源数据库,甚至高性能计算等工作负载迁移至 Arm 平台,只需极少的代码修改和轻微的构建脚本调整。越来越多新兴云原生应用和系统,也默认选择 云端 Arm 作为首选架构。根据我们的实践经验,除非有特殊的架构依赖,我们推荐大多数工作负载优先考虑 Arm 计算实例。现代工具(如 多架构 Docker 镜像)也进一步简化了 Arm 与 x86 环境的构建与部署流程。
试验
-
33. Apache Paimon
Apache Paimon 是一种开源数据湖格式,旨在支持 数据湖仓一体架构。它可与 Flink 和 Spark 等处理引擎无缝集成,支持流处理与批处理操作。Paimon架构的一大核心优势在于将标准数据湖格式与 LSM (日志结构合并树) 结构相融合。这一组合解决了数据湖在高性能更新和低延迟读取方面的传统难题。 Paimon 支持主键表以实现高吞吐、实时更新,并内置可定制的合并引擎,支持去重、部分更新和聚合。这一设计使得在数据湖中直接进行高效的流数据写入及可变状态管理成为可能。除此之外,Paimon 还提供成熟的数据湖能力,包括可扩展的元数据、ACID 事务、时间穿梭、模式演进,以及通过压缩与 Z-ordering 实现的优化数据布局。我们建议在需要统一存储层以实现高效处理大规模追加式数据和复杂实时流更新的项目中评估使用 Paimon。
-
34. DataDog LLM Observability
DataDog LLM Observability 为大语言模型和智能体应用工作流提供端到端的跟踪、监控和诊断。它将每个提示、工具调用和中间步骤映射到跨度和跟踪中;跟踪延迟、令牌使用、错误和质量指标;并与 Datadog 更广泛的 APM 和可观测性套件集成。 对于已经使用 Datadog 并熟悉其成本结构的组织而言,如果这些工作负载可以进行插桩,LLM 可观测性功能可能是一种直接了解 AI 工作负载的方法。然而,配置和使用 LLM 检测需要谨慎和对工作负载及其实现的深入理解。我们建议数据工程师和运维人员在部署时密切合作。另请参阅我们关于避免独立数据工程团队的建议。
-
35. Delta Sharing
Delta Sharing 是一个用于安全与跨平台数据共享的开放标准和协议,由 Databricks 和 Linux Foundation 开发。它与云平台无关,使组织能够在云提供商和本地位置之间共享实时数据,而无需复制或重复数据,从而保持数据的新鲜度并消除重复成本。我们看到一家电子商务公司成功使用 Delta Sharing 将分散的合作伙伴数据共享系统替换为集中式、实时和安全的平台,显著改善了协作。该协议使用简单的 REST API 来颁发短期预签名 URL,允许接收者使用 pandas、Spark 或 Power BI 等工具检索大型数据集。它支持共享数据表、视图、AI 模型和笔记本。虽然它提供了强大的集中治理和审计功能,但用户仍应注意云出站费用,如果管理不当,这可能成为重大的运营风险。
-
39. 模型上下文协议(MCP)
模型上下文协议(Model Context Protocol,MCP) 是一个开放标准,用于定义 LLM 应用程序和智能体如何与外部数据源和工具集成,从而显著提升 AI 生成输出的质量。MCP 专注于上下文和工具访问,这使其区别于负责智能体间通信的 Agent2Agent (A2A) 协议。它定义了服务器(用于访问数据库、Wiki 和服务等数据与工具)和客户端(如智能体、应用程序与代码助手)。自上次收录以来,MCP 的采用率迅速上升,越来越多的公司加入生态系统,包括 JetBrains(IntelliJ)和 Apple,以及新兴框架如 FastMCP。MCP 注册表预览版 现已支持公共和专有工具的发现。然而,MCP 的快速演进也暴露出一些架构层面的不足,并因忽视了数十年的 RPC 最佳实践而遭到批评。在生产应用中,团队应超越炒作,加强审查与防护,例如使用 MCP-Scan 缓解有害数据流风险,并密切关注 授权模块草案 的安全进展。
-
40. n8n
n8n 是一个公平代码许可的工作流自动化平台,类似于 Zapier 或 Make(前身为 Integromat),但专为希望获得自托管、可扩展和代码可控选项的开发者而构建。它提供了比 Apache Airflow 更低代码的可视化工作流创建方法,同时仍支持 JavaScript 或 Python 的自定义代码。 其主要用例是将多个服务集成到自动化工作流中,但它也可以将大语言模型与可配置的数据源、内存和工具连接起来。我们的许多团队使用 n8n 来快速构建由聊天应用程序或 Webhook 触发的智能体工作流原型,并经常利用其导入和导出功能来生成具有 AI 辅助的工作流。一如既往,我们建议在生产环境中使用低代码平台时要谨慎。不过 n8n 的自托管和代码定义的工作流可以缓解其中的一些风险。
-
41. OpenThread
OpenThread 是 Google 开发的 Thread 网络协议的开源实现。它支持 Thread 规范的所有关键功能——包括 IPv6、6LoWPAN 和 LR-WPAN 等网络层,以及允许设备同时作为节点和边界路由器运行的网状网络功能。OpenThread 可在广泛的硬件平台上运行,它利用灵活的抽象层和集成钩子,使供应商能够整合他们自己的无线电和加密功能。这一成熟的协议已广泛应用于商业产品中,并且根据我们的经验,它已被证明是构建各种物联网解决方案的可靠之选,从电池供电的低功耗设备到大规模网状传感器网络,均可胜任。
评估
-
42. AG-UI协议
AG-UI 是一个开放协议和库,旨在规范丰富用户界面与智能体之间的通信。该协议专注于面向用户的智能体应用,并通过中间件和客户端集成实现前端与后端的通用交互。协议定义了后端智能体与前端应用交流的一致方式,使 AI 和人类用户之间能够进行实时、有状态的协作。它支持多种传输协议,包括 SSE 和 WebSockets,并提供标准化的事件类型,用于描述智能体执行的不同阶段。目前已内置兼容主流智能体框架,如 LangGraph 和 Pydantic AI,并有社区集成其他解决方案。
-
43. Agent-to-Agent (A2A) 协议
Agent2Agent (A2A) 是一个协议,定义了复杂、多智能体工作流中智能体之间通信和交互的标准。它使用 Agent Cards 描述智能体间通信的关键元素,包括技能发现和传输及安全方案的规范。A2A 通过专注于智能体间通信,而不暴露内部细节(如智能体状态、记忆或内部),这成为了对 模型上下文协议 (MCP)的一个补充。 该协议提倡最佳实践,例如对长时间运行的任务采用异步优先方法,对增量更新采用流式响应,以及使用 HTTPS、身份验证和授权进行安全传输。为了方便快速采用,A2A 提供了 Python、JavaScript、Java 和 C# 的 SDK。尽管 A2A 相对较新,但它使团队能够构建特定领域的代理,这些代理可以协作形成复杂的工作流,使其成为此类场景的理想选择。
-
44. Amazon S3 Vectors
Amazon S3 Vectors 为 S3 对象存储原生扩展了向量能力,提供内置的向量存储与相似度检索功能。它可与包括 Amazon Bedrock、OpenSearch 在内的 AWS 生态系统无缝集成,并支持基于元数据的过滤与通过 IAM 的治理等附加特性。尽管目前仍处于预览阶段且受限制与约束影响,我们认为它的价值主张极具吸引力。这种高性价比、易于访问的向量存储方案有望支持涉及大量数据、但对低延迟要求不高的多样应用场景。
-
46. CloudNativePG
CloudNativePG 是一个 Kubernetes Operator,用于简化在 Kubernetes 中托管和管理高可用 PostgreSQL 集群的过程。在 Kubernetes 上运行像 PostgreSQL 这样的有状态服务可能非常复杂,需要深入了解 Kubernetes 和 PostgreSQL 的复制机制。CloudNativePG 将整个 PostgreSQL 集群视为单个可配置的声明式资源,从而抽象了大部分复杂性。它使用原生流复制提供无缝的主/备架构,并开箱即用地包含高可用功能,包括自愈能力、自动故障切换以提升最一致的副本以及自动重建失败的副本。如果你计划在 Kubernetes 上托管 PostgreSQL,CloudNativePG 是一个可靠的起点。
-
48. Graft
-
49. groundcover
groundcover 是一个云原生可观测性平台,将日志、追踪、指标和 Kubernetes 事件统一在一个面板中。它利用 eBPF 技术,无需编写任何代码即可捕获细粒度的可观测性数据——也就是说,无需在应用程序代码中插入代理或 SDK。groundcover 的 eBPF 传感器在每个监控集群中运行在专用节点上,独立于它观察的应用程序。关键功能包括深度内核级可见性、自带云(BYOC)架构 用于数据隐私和数据量无关的定价模型,从而保证成本可预测。
-
50. Karmada
Karmada(“Kubernetes Armada”)是一个可在多个 Kubernetes 集群、云和数据中心间编排工作负载的平台。许多团队当前通过 Flux 等 GitOps 工具或 ArgoCD 结合自定义脚本跨集群部署,因此一个专为此设计的解决方案备受欢迎。Karmada 利用原生 Kubernetes API,无需对已为云原生环境构建的应用进行任何更改。它为多云管理、高可用性、故障恢复和流量调度等场景,提供了先进的调度能力。 Karmada 仍然相对较新,因此评估团队所依赖功能的成熟度尤为重要。不过,作为一个 CNCF 项目,它发展势头迅猛,我们已有多个团队成功部署使用。需要注意的是,诸如跨集群的网络、状态与存储管理等领域并不在 Karmada 的功能范围内。大多数团队仍需配合 Istio 或 Linkerd 这类 服务网格 进行流量管理,并提前规划有状态工作负载和分布式数据的管理方案。
-
51. OpenFeature
随着企业规模的扩大,特性开关管理通常变得日益复杂;团队需要一个能够超越最简单的特性开关的抽象层。OpenFeature 通过一个与供应商无关、由社区驱动的 API 规范,提供了这样的抽象层。该规范标准化了特性开关的定义与消费方式,将应用代码与管理方案解耦。这样的灵活性让团队可以方便地切换供应商——无论是使用环境变量或内存配置等基础方案,还是像 ConfigCat 或 LaunchDarkly 这样成熟的平台。不过,仍然有一个关键的提醒:各团队必须对不同类型的开关进行有纪律的分别管理,以避免开关泛滥、应用复杂度增加和过多的测试负担。
-
52. Oxide
构建和运营私有基础设施非常复杂,这也是公共云成为大多数组织默认选择的主要原因之一。然而,对于有这类需求的团队,Oxide 提供了一种替代方案,无需从零组装和集成硬件与软件。它提供预构建的机架,包括计算、网络和存储,并运行完全集成的系统软件。团队可以通过 Oxide 的 IaaS API 使用 Terraform 等自动化工具管理资源——Oxide 称之为 本地弹性基础设施。 戴尔和 VMware 的 VxRail、Nutanix 以及 HPE SimpliVity 也提供超融合基础设施(HCI)解决方案,但 Oxide 的独特之处在于其专用设计方法。它从电路板、电源到固件设计整个堆栈,而不是从不同供应商处组装组件。Oxide 还开发并开源了 Hubris,这是一个为嵌入式系统设计的轻量级、内存保护、消息传递内核,采用 Rust 编写,同时还有其他基于 Rust 的基础设施项目。我们还赞赏 Oxide 的设备和软件销售不收取许可费。
-
55. StarRocks
StarRocks 是一个分析型数据库,通过结合传统 OLAP 系统的速度与现代Lakehouse架构的灵活性,重新定义了实时商业智能。它通过 SIMD 优化的执行引擎、列存储以及复杂的基于成本的优化器,实现了大规模环境下的亚秒级查询延迟。这种高性能架构允许用户直接在开放数据格式(如Apache Iceberg)上运行复杂分析,无需预计算或复制数据。尽管该领域存在许多平台,我们认为 StarRocks 是需要极高并发性和实时数据一致性的成本效益解决方案的有力候选。
-
56. Uncloud
Uncloud 是一款轻量级的容器编排与集群管理工具,旨在帮助开发者将 Docker Compose 应用快速部署到生产环境。它提供了一种简化的云端体验,同时避免了 Kubernetes 带来的复杂运维负担。为实现跨机器扩展和零停机部署,它自动配置安全的 WireGuard 网状网络以确保通信,并利用 Caddy 反向代理提供自动化 HTTPS 和负载均衡服务。Uncloud 的核心架构优势在于其彻底的去中心化设计,这种设计消除了对中心控制平面的依赖,确保即使集群中的单台机器离线,服务和集群操作仍能维持功能。借助 Uncloud,用户可以灵活地将云虚拟机和裸金属服务器整合为一个统一且节省成本的计算环境。
暂缓
是不是没有找到你预期的内容?
每一期的雷达都会收录我们过去六个月所发现的亮点(blip)。您想寻找的内容,我们可能已经在之前的雷达中有所涵盖。有时,仅仅是因为可讨论的内容太多,我们不得不有所取舍。某个亮点之所以缺失,也可能是因为雷达反映的是我们的实际经验,而非基于全面的市场分析。