Technology Radar
Published : Oct 26, 2022
NOT ON THE CURRENT EDITION
This blip is not on the current edition of the Radar. If it was on one of the last few editions, it is likely that it is still relevant. If the blip is older, it might no longer be relevant and our assessment might be different today. Unfortunately, we simply don't have the bandwidth to continuously review blips from previous editions of the Radar.
Understand more
Oct 2022
Assess
在我们本期技术雷达的讨论中,出现了几个用于生成合成数据的工具和应用。我们发现,随着工具的成熟, 模型测试的合成数据 成了一项强大而且有广泛应用的技巧。在验证机器学习模型判别能力的过程里,合成数据虽然尚不能取代真实数据,但也有相当广泛的使用场景。例如,合成数据可以用于预防小概率事件下模型彻底失效,或者在不暴露个人隐私信息的前提下对数据流水线进行测试。在探索缺乏真实数据的边缘场景以及确认模型偏差时,合成数据也很有用处。有一些有助于生成数据的工具,例如 Faker 和 Synth 可以生成服从预期统计特性的数据,Synthetic Data Vault 等工具可以依照输入数据集特性来生成数据。