Chung-Ang University(韩国中央大学)研究人员开发出重尾噪声奖励下的最佳决策算法

译文 精选
开发 前端
研究人员提出了一些方法,在理论上保证重尾奖励分布的先验信息最小的情况下损失最小。

译者 | 崔皓

审校 | 孙淑娟

研究人员提出了一些方法,在理论上保证重尾奖励分布的先验信息最小的情况下损失最小。

研究多臂赌博机问题(MABs)是为了解决不确定环境下的连续决策问题,针对多臂赌博机(MABs)的探索算法通常假定奖励噪声为轻尾分布。然而,现实世界的数据集往往是重尾噪声的。有鉴于此,来自韩国的研究人员提出了一种算法,该算法能够以最小的先验信息实现最小的最优性(最大损失情况下的最小损失)。与现有算法相比,新算法在自主交易和个性化推荐系统中具有潜在的应用。

在数据科学中,研究人员通常要处理包含噪声的观测数据。在这种情况下,数据科学家探索顺序决策的问题。也被称为 "随机多臂赌博机"问题(stochastic MAB)。在这里,一个智能代理在一个不确定的环境下,根据嘈杂的奖励(Rewards),依次探索和选择行动。它的目标是最小化累积遗憾(Regret)--最大奖励(Rewards)和所选行动的预期奖励之间的差异。遗憾(Regret)越小,意味着决策效率越高。

大多数现有的关于随机MABs的研究都是在奖励噪声遵循轻尾分布的假设下进行遗憾分析。然而,事实上,许多现实世界的数据集显示出重尾的噪声分布。这些数据包括用于开发个性化推荐系统的用户行为模式数据,用于自动交易开发的股票价格数据,以及用于自动驾驶的传感器数据。

在最近的一项研究中,韩国中央大学的Kyungjae Lee助理教授和蔚山科技学院的Sungbin Lim助理教授都解决了这个问题。在他们的理论分析中,他们证明了现有的随机MABs算法对于重尾奖励是次优的。更具体地说,这些算法采用的方法--稳健的置信度上限(UCB)和具有无界扰动的自适应扰动探索(APE)--不能保证最小化(最大可能损失的最小化)的最优性。

"基于这一分析,提出了最小最优鲁棒(MR)UCB和APE方法。MR-UCB利用更严格的稳健均值估计器的置信度约束,而MR-APE是其随机化版本。它采用了有界扰动,其规模与MR-UCB中修改后的置信度界限一致,"李博士在谈到他们的工作时解释说,这项工作于2022年9月14日发表在IEEE神经网络与学习系统期刊上。

研究人员接下来得出了依赖差距和独立的累积遗憾的上界。对于这两种提议的方法,后者的值与重尾噪声假设下的下限相吻合,从而实现了最小的最优性。此外,新方法需要最小的先验信息,并且只依赖于奖励有界时刻的最大顺序。相比之下,现有的算法需要该时刻的上限,而这一先验信息在许多现实世界的问题中可能无法获得。

在建立了他们的理论框架后,研究人员通过在帕累托和弗雷谢噪声下进行模拟测试了他们的方法。他们发现,MR-UCB的表现一直优于其他探索方法,而且在重尾噪声下,随着行动数量的增加,MR-UCB更加稳健。

此外,两人利用加密货币数据集验证了他们的方法,表明MR-UCB和MR-APE在处理重尾的合成和现实世界的随机MAB问题上是有益的--最大的最佳遗憾界限和最小的先验知识。

由于容易受到重尾噪声的影响,现有的MAB算法在对股票数据进行建模时表现不佳。他们无法预测股票价格的大幅上涨或突然下跌,造成巨大的损失。相比之下,MR-APE可用于自主交易系统,通过股票投资获得稳定的预期收益,"李博士在讨论本项工作的潜在应用时评论道。"此外,它还可以应用于个性化的推荐系统,因为行为数据显示出重尾的噪音。有了对个人行为的更好预测,就有可能提供比传统方法更好的推荐,这可以使广告收入最大化,"他总结道。

译者介绍

崔皓,51CTO社区编辑,资深架构师,拥有18年的软件开发和架构经验,10年分布式架构经验。曾任惠普技术专家。乐于分享,撰写了很多热门技术文章,阅读量超过60万。《分布式架构原理与实践》作者。​

原文标题:Chung-Ang University Researchers Develop Algorithm for Optimal Decision Making under Heavy-tailed Noisy Rewards


责任编辑:华轩 来源: 51CTO
相关推荐

2010-03-04 09:20:10

Firefox3D

2021-09-03 14:19:52

密码网络攻击数据线

2022-01-17 11:47:03

汽车智能技术

2023-06-29 12:52:31

2021-11-16 15:43:47

机器人人工智能算法

2020-10-14 10:39:50

漏洞网络攻击网络安全

2019-09-10 10:07:26

2021-11-01 20:28:16

木马漏洞源码

2023-05-14 23:39:51

机器人深度学习

2021-02-02 09:32:06

黑客攻击l安全

2021-12-28 10:08:33

模型人工智能工具

2021-04-30 07:40:02

DirectX 12黑客恶意软件

2013-01-07 13:01:28

2022-08-23 10:32:33

人工智能人工智能决策

2017-03-27 16:09:58

2014-08-25 11:06:42

2021-08-31 05:56:43

处理器芯片神经网络

2019-06-18 09:05:31

谷歌Android开发者

2021-04-04 22:55:51

谷歌网络攻击网络安全

2020-02-06 11:08:48

区块链分布式比特币
点赞
收藏

51CTO技术栈公众号