Master
技术

Contextual bandits

Published: Apr 13, 2021
Apr 2021
试验?

Contextual bandits 是一类非常适用于解决探索/利用权衡问题的强化学习算法。该算法以赌场中的“老虎机”命名,通过探索不同的选择,学习有关预期结果的更多信息,并通过利用表现良好的选项来平衡该结果。我们已经在一些场景中成功地使用了该技术,在这些场景中只使用了少量的数据来训练和部署一些机器学习模型。事实上,我们可以在此探索/利用的权衡过程中添加上下文,使它适合于各种用例,包括 A/B 测试、推荐和布局优化。