Menú
Técnicas

Definición declarativa de pipelines de datos

May 2020
Evaluar?

Muchos pipelines de datos se definen usando secuencias de comandos largas, en forma de código, más o menos, imperativo, escritas en Python o Scala. Estos códigos contienen tanto la lógica de los pasos individuales como la lógica que enlaza los pasos entre sí. Cuando los desarrolladores se enfrentaron a una situación similar con las pruebas de Selenium, descubrieron el patrón “Page Object”, y posteriormente muchos frameworks dirigidos por comportamiento, BDD por sus siglas en inglés, implementaron una división entre definición de los pasos y su composición. Algunos equipos están experimentando con la aplicación del mismo enfoque en ingeniería de datos. Una definición declarativa de pipeline de datos separada, tal vez escrita en YAML, contiene únicamente la declaración y la secuencia de pasos. Declara los tipos de datos de entrada y salida pero puede ejecutar comandos imperativos en otros archivos cuando se necesita una lógica más compleja. Con A La Mode, vemos a la primera herramienta de código abierto que aparece en este espacio.