Menú
Técnicas

Malla de datos

Published: Nov 20, 2019
Last Updated: Oct 28, 2020
Oct 2020
Probar?

La malla de datos marca el inicio de un cambio en los paradigmas arquitectónicos y organizacionales sobre cómo se gestionan los datos analíticos masivos. El paradigma se fundamenta en cuatro principios: (1) descentralización orientada al dominio de la propiedad de los datos y de su arquitectura; (2) datos orientados al dominio servidos como un producto; (3) auto servicio de infraestructura de datos como plataforma, para impulsar la autonomía de los equipos orientados al dominio; y (4) gobernanza federada para impulsar ecosistemas y la interoperabilidad. Si bien los principios son intuitivos y pretenden abordar muchos de los desafíos ya conocidos de la gestión centralizada de datos analiticos, estos trascienden las tecnologías actuales para datos analiticos. Luego de construir mallas de datos en muchos clientes con las herramientas existentes hemos aprendido dos cosas: (a) hay una gran brecha en las herramientas de código abierto o comerciales para acelerar la implementación de mallas de datos (por ejemplo, la implementación de un modelo de acceso universal a datos políglota basados en tiempo, que actualmente construimos a la medida para nuestros clientes) y (b) a pesar de la brecha, es factible usar tecnologías existentes como elementos básicos.

Naturalmente, la idoneidad tecnológica es un componente importante en la implementación de una estrategia de datos de una organización basada en una malla de datos. Sin embargo, el éxito requiere de una reorganización estructural para separar al equipo de la plataforma de datos, crear el rol del product owner de datos para cada dominio e introducir las estructuras necesarias de incentivos para que los dominios se apropien y compartan los datos analíticos como productos.

May 2020
Evaluar?

La malla de datos (data mesh) es un paradigma de arquitectura y de organización que desafía la vieja presunción de que se debe centralizar los grandes datos analíticos para utilizarlos, tener todos los datos en un mismo lugar o gestionarlos a través de un equipo de datos centralizado para entregar valor. Este paradigma afirma que, para que big data promueva la innovación, su propiedad debe ser federada entre los dueños de los datos de dominio quienes son responsables de proveer sus datos como productos (con el soporte de una plataforma de datos de autoservicio para abstraer la complejidad técnica que supone servir productos de datos); también se debe adoptar una nueva forma de gobierno federado a través de la automatización que permita la interoperabilidad de los productos de datos orientados a dominios. La descentralización, junto con la interoperabilidad y el enfoque en la experiencia para los consumidores de datos, son clave para la democratización de la innovación usando datos.

Si en la organización existe un gran número de dominios con varios sistemas y equipos generando datos o un conjunto diverso de casos de uso y patrones de acceso basados en datos, sugerimos evaluar a malla de datos. La implementación de este paradigma requiere invertir en la construcción de una plataforma de datos de autoservicio y aceptar y promover un cambio organizacional para que los dominios tomen la propiedad a largo plazo de sus productos de datos, así como una estructura de incentivos que premien a los dominios que sirvan y utilicen datos como producto.

Nov 2019
Evaluar?

Malla de datos es un paradigma de arquitectura que desbloquea datos analíticos a escala; rápidamente desbloquea accesos a un número cada vez mayor de conjuntos distribuidos de datos de dominio, para una proliferación de escenarios de consumo tales como aplicaciones de aprendizaje automático, análisis o uso intensivo de datos en toda la organización. Malla de datos aborda los modos de fallas comunes de los data lakes centralizados tradicionales o de la arquitectura de plataforma de datos, con un cambio desde el paradigma centralizado de un lake, o su predecesor, el data warehouse. Malla de datos cambia a un paradigma que traza desde una arquitectura distribuida moderna: considerando dominios como los asuntos de primera clase, aplicando platform thinking para crear una infraestructura de datos de autoservicio, tratamiento de datos como un producto, e implementando estandarización abierta para habilitar un ecosistema de productos de datos distribuidos inter-operables.