Radar Tecnológico

Contextual bandits

Publicado : Apr 13, 2021

NO EN LA EDICIÓN ACTUAL

Este blip no está en la edición actual del Radar. Si ha aparecido en una de las últimas ediciones, es probable que siga siendo relevante. Si es más antiguo, es posible que ya no sea relevante y que nuestra valoración sea diferente hoy en día. Desgraciadamente, no tenemos el ancho de banda necesario para revisar continuamente los anuncios de ediciones anteriores del Radar. Entender más

Apr 2021

Probar

Contextual bandits es un tipo de aprendizaje por refuerzo muy adecuado para problemas que requieren un equilibrio entre exploración y explotación ("Exploration-Exploitation Trade-off"). Con un nombre que hace honor a las máquinas tragamonedas de los casinos (en inglés, "bandits" o "one-armed bandits"), el algoritmo explora diferentes opciones para aprender más sobre los resultados esperados y los equilibra explotando aquellas que se desempeñan bien. Hemos usado esta técnica exitosamente en escenarios donde se ha tenido muy poca información para entrenar y desplegar otros modelos de aprendizaje automático. El hecho de que es posible agregar contexto a este equilibrio entre exploración y explotación lo hace apropiado para una amplia variedad de casos de uso, como pruebas A/B, recomendaciones y optimizaciones de diseño, etc.

Descarga el PDF

English | Español | Português| 中文

Suscríbete al boletín del Radar Tecnológico

Suscríbete ahora

Industrias

Publicaciones Digitales y Herramientas

Todos los Insights

Contextual bandits

Descarga el PDF

Suscríbete al boletín del Radar Tecnológico

Visita nuestro archivo para leer los volúmenes anteriores