Contextual bandits

Technology Radar

Publicado : Apr 13, 2021

NÃO ENTROU NA EDIÇÃO ATUAL

Este blip não está na edição atual do Radar. Se esteve em uma das últimas edições, é provável que ainda seja relevante. Se o blip for mais antigo, pode não ser mais relevante e nossa avaliação pode ser diferente hoje. Infelizmente, não conseguimos revisar continuamente todos os blips de edições anteriores do Radar. Saiba mais

Apr 2021

Experimente

Contextual bandits é um tipo de aprendizado por reforço, adequado para problemas que envolvem o dilema entre explorar investigando e explorar tirando proveito. Nomeado em referência às "bandits" – como são informalmente chamadas as máquinas caça-níqueis, em inglês –, o algoritmo investiga diferentes opções para aprender mais sobre os resultados esperados e equilibra tirando proveito das opções que funcionarem bem. Usamos com sucesso essa técnica em cenários com poucos dados disponíveis para treinar e implantar outros modelos de aprendizado de máquina. O fato de podermos adicionar contexto à relação explorar investigando e explorar tirando proveito torna a técnica adequada para uma ampla variedade de casos de uso, incluindo testes A/B, recomendações e otimizações de layout.