Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Publicado : Oct 23, 2024
NO EN LA EDICIÓN ACTUAL
Este blip no está en la edición actual del Radar. Si ha aparecido en una de las últimas ediciones, es probable que siga siendo relevante. Si es más antiguo, es posible que ya no sea relevante y que nuestra valoración sea diferente hoy en día. Desgraciadamente, no tenemos el ancho de banda necesario para revisar continuamente los anuncios de ediciones anteriores del Radar. Entender más
Oct 2024
Evaluar ?

Preparar los datos de prueba para ingeniería de datos es un gran desafío. Transferir datos desde producción a ambientes de prueba puede ser riesgoso, por lo que los equipos a menudo optan por utilizar datos falsos o sintéticos en su lugar. En este Radar, exploramos enfoques novedosos como datos sintéticos para pruebas y entrenamiento de modelos. Sin embargo, en muchas ocasiones, la generación procedural de bajo costo es suficiente.

dbldatagen (Generador de Datos de Databricks Labs) es una de esas herramientas; se trata de una biblioteca de Python para generar datos sintéticos dentro del entorno de Databricks, utilizada para pruebas, benchmarking, demos y muchos otros usos. dbldatagen puede generar datos sintéticos a gran escala, alcanzando hasta miles de millones de filas en cuestión de minutos, y soporta varios escenarios como múltiples tablas, change data capture y operaciones de merge/join. Maneja bien los tipos primitivos de Spark SQL, genera rangos y valores discretos, y aplica distribuciones específicas. Al crear datos sintéticos utilizando el ecosistema de Databricks, dbldatagen es una opción que vale la pena evaluar.

Descarga el PDF

 

 

 

English | Español | Português | 中文

Suscríbete al boletín informativo de Technology Radar

 

 

 

 

Suscríbete ahora

Visita nuestro archivo para leer los volúmenes anteriores