Data Mesh 定义了四个原则来分解Data Mesh的核心理念。通过这四个原则可以了解Data Mesh的逻辑架构和运营模型,帮助企业向着Data Mesh的目标前进:规模化数据价值、支持企业的快速增长和在复杂和脆弱的商业环境中拥抱变化。
下面是四个原则的简单解释,可以通过链接“更多内容”,阅读更多英文文章。
领域所有权
将分析数据的所有权分散到数据归属的业务领域,可能是数据的生产者领域或者数据的主要消费者所在的领域。根据业务领域的不同对(分析)数据进行逻辑分解,并对面向领域的数据的生命周期进行独立管理。在企业架构和组织上对业务、技术和分析数据进行对齐。
设计领域所有权的主要动机是:
- 提供能够与企业增长相一致的数据扩展和共享的能力,包括增加数据源数量,增加数据使用者数量,增加数据用例的多样性。
- 通过将数据的变化限定在某个领域中以实现对某些变化的隔离。
- 通过减少团队间的同步和消除数据团队、数据仓库和数据湖架构的中心化瓶颈,实现更好的敏捷性。
- 通过缩短数据来源与数据分析之间的差距,提高数据的业务真实性。
- 通过移除复杂的中间数据管道,增强分析和机器学习解决方案的弹性。
数据即产品
Data Mesh通过面向领域的数据产品直接与数据用户(数据分析师、数据科学家等)共享。
数据即产品遵循一系列的可用性特征:
- 可发现性
- 可寻址性
- 可理解性
- 可信赖性和真实性
- 原生可访问性
- 可互操作和可组合性
- 具有价值
- 安全性
数据产品提供一组明确定义且易于使用的数据共享契约。每个数据产品都是自治的,其生命周期和模型独立管理,不受其他产品的影响。
数据产品作为Data Mesh的一个逻辑架构单元(节点),可以控制和封装共享数据所需的所有结构组件,包括数据、元数据、代码、策略和基础设施依赖声明等。
设计数据即产品的主要动机是:
- 通过改变团队与数据的关系,防止面向领域的数据孤立的可能性。数据成为团队共享的产品,而不仅仅是收集和自己内部使用。
- 创建数据驱动的创新文化,通过提升发现和使用高质量数据的用户体验,实现无摩擦的多点交互。
- 通过在数据产品之间提供构建和运行时隔离以及明确定义的数据共享契约,增强适应变化的能力,确保更改一个产品不会破坏其他产品。
- 通过在组织边界上共享和使用数据,获得更高的数据价值。
自助式数据平台
这一原则引导我们思考如何建立新一代的自助式数据平台,通过平台赋予领域团队分析、共享数据的能力。这些平台的核心在于消除从数据源到数据消费的端到端的数据共享过程中的障碍,包括提供存储、计算、调度、可视化、数据服务等资源。平台负责管理各个数据产品的完整生命周期,构建可靠的互联数据产品网格,并提供网格层面的功能,例如构建和发布数据产品,通过知识图谱展示数据产品之间的关联关系。该平台简化了数据用户发现、访问和使用数据产品的体验,也简化了数据提供者构建、部署和维护数据产品的体验。
设计自服务数据平台的主要动机是:
- 降低各个领域拥有数据所有权的总体成本。
- 抽象数据管理复杂性,减少领域团队在管理其数据产品端到端生命周期中的认知负荷。
- 鼓励更多的开发人员参与到数据产品开发,减少专业化需求。
- 自动化治理策略,为所有数据产品创建安全性和合规性标准。
联邦数据治理
这一原则基于联邦式的决策和责任结构创建了一个数据治理的运营模型,该模型由领域代表、数据平台和专家团队(法律、合规、安全等)组成。该运营模型创建了一个激励和责任结构,平衡了领域的自治和敏捷性与整个网格的全局互操作性。治理的执行在很大程度上依赖于通过平台服务对每个数据产品进行策略代码化和自动化。
设计联邦计算治理的主要动机是:
- 通过独立但可互操作的数据产品的聚合和相关性,获得更高级别的业务价值。
- 消除面向领域的分散化带来的不可兼容性的不良后果。
- 实现在分布式数据产品的网格中构建跨领域的治理要求,如安全、隐私、法律合规等。
- 通过自动化减少领域和全局的策略同步和治理的开销。