南栖仙策提出高相容性协作算法,保障智能体在开放环境中的高效协作

288次浏览

It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

开放环境的机器学习是目前的研究难点与热点,是算法落地的关键之一。其中,开放环境的多智能体强化学习与人智协同方向需要智能体与各种多样甚至是未见的队友策略进行高效协作。为了达成这一目标,主流方法在训练阶段生成若干队友策略与智能体配对训练以提高智能体的协作能力。然而,以往方法尝试以队友策略为中心解决问题,而无法高效并有保证地生成多样的队友策略,进而导致智能体在开放环境中与未见队友的协作能力有限,阻碍了该方向的发展。It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

基于此,南京大学与南栖仙策团队合作提出了一种面向任意队友的高相容性协作算法(Multi-agent compatible policy  learning, Macop),成功发表在DAI'2023会议上,并获得唯一最佳论文奖 (Best Paper  Award)。这一算法可以应用在多智能体强化学与人智协同领域,有效地增强了智能体与多样甚至未见的智能体队友或人类队友进行协同的能力,推进了集群协同的有无人系统在开放现实世界的落地应用。It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

以往队友生成与训练智能体方法的局限性It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

经典的协作多智能体强化学习方法,假设训练阶段与测试阶段,智能体都与相同的队友策略进行协作,这些方法致力于提升一个固定且封闭的多智能体系统的协作性能。然而,真实的协作场景往往是开放的,也就是说智能体需要与各种多样甚至是训练阶段没有遇到过的队友进行协作,例如游戏AI需要与实时匹配到的人类玩家协作、自动驾驶智能体需要与路面上的人类司机协作等等。为了赋予智能体在这些开放的场景中与多样甚至未见队友协作的能力,一种可行的方法是在训练阶段就使得智能体学会与尽可能多样的队友协作。It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

开放协作场景中,智能体需要与多样甚至未见队友协作It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

基于此,研究者提出了例如虚拟博弈[1]等方法,这些方法的大体步骤如下:首先,使用不同手段生成一批固定数量且各不相同的队友策略;然后,训练智能体与这些生成的队友策略进行协作。It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

以往队友生成与训练智能体方法示意图It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

尽管这些方法在一些较为简单的协作场景中取得了一定的效果,但是这种分两步走、以队友策略生成模块为中心的训练范式仍然具有一定的局限性。第一,该范式需要提前指定需要生成的队友策略数量,然而最优的生成数量是无法提前得知的,过少的队友不足以覆盖策略空间,而过多的队友会降低训练效率。第二,该范式生成队友策略先于训练智能体,是以队友策略为中心的范式,然而,即使生成的队友各不相同,但从智能体的视角来看,它们的行为可能并不具有多样性,智能体只需要单一的协作模式即可与它们配合,这导致生成的队友并不能高效地覆盖策略空间。第三,该范式需要智能体同时与大量生成的队友学习协作,会导致增大训练难度。以上问题启发我们:开发一种新的以智能体为中心的训练范式,从智能体的视角持续高效地生成未见且多样的队友并学会与它们协作,直到智能体学会与策略空间中所有有代表性的队友协作,这样一来智能体就具备与任意队友协作的能力了。It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

与任意队友协作的学算法:主动出击It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

为了达成上述目标,我们需要开发以智能体为中心的训练范式实现高效的队友生成与智能体训练,其中的核心思想是以持续学习的过程,主动地生成与智能体还协作得不够好的新队友与之训练,真正做到智能体视角中的队友策略多样性,并高效提升智能体的协作能力。It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

1、队友生成:以智能体为中心的多样性It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

该模块的目标是持续高效地生成多样的队友策略以逐步覆盖队友。受到基于种群的训练和演化算法的启发,我们维护一个队友策略种群并迭代地对其进行优化。It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

首先,每个队友策略需要具备基本的协作与完成任务的能力,以确保与智能体的配对训练是有意义的,为此队友策略需要与其自身的复制策略协作以最大化回报与完成任务,即最大化自博弈(self-play,  sp)目标:It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

接下来,为了增强种群内队友策略的多样性,我们引入多样性(diversity)目标增大策略间的距离:It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

最后,为了主动地生成与智能体还协作得不够好的新队友与之训练,我们加入不相容性(incompatibility)目标,使队友策略最小化与智能体协作的回报,迫使队友寻找新的协作模式,覆盖策略空间的新区域,从智能体的视角高效地增强队友策略多样性:It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

优化当前的队友策略种群同时最大化以上三个目标,即可得到一个新的队友策略种群与智能体进行配对训练了。It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

2、学智能体:持续学防止遗忘旧队友It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

设计好队友生成模块后,我们可以持续地生成多样的队友策略用以训练智能体。由于将要生成的队友策略的数量是未知的,且为了节省算法的存储空间开销,我们无法存储所有已经生成的队友策略与智能体配对训练。为了防止智能体遗忘与过去生成队友协作的能力,我们使用了多任务头架构的多智能体持续协作技术[2]进行训练,既能使智能体快速学习与当前新生成的队友进行协作,又可以保持其与过去生成队友的协作能力。这样一来,算法只需要存储当前新生成的队友种群与智能体训练而不需要存储所有生成过的队友,在节省存储开销的同时提高了智能体的学习效率。It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

以上是训练智能体的两个优化目标,第一个目标旨在提高智能体与当前(第 k+1  轮)队友的协作能力,即相容性(compatibility);第二个目标是对智能体神经网络中的特征提取器部分进行正则化(regularization)  以缓解遗忘现象。It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

3、整体算法:交替进行直到空间全覆盖It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

介绍(a)队友生成模块与(b)智能体学习模块后,我们提出本工作的 Macop  整体算法。首先初始化第一代队友种群与智能体策略,随后交替进行(a)队友生成与(b)智能体学习,期间生成第二代、第三代等队友种群与更新智能体策略。该过程将持续进行到第  K  代队友种群在更新后依然无法降低与当前智能体协作的回报,即降低相容性失败。这说明,此时整个队友策略空间已经得到覆盖,且智能体已经学会与所有生成的队友协作。Macop算法则会终止并输出具有强大协作能力的智能体。It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

Macop整体框架示意图It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

技术验证It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

我们在食物收集、猎物追捕、合作导航、星际争霸微操四个环境的八个场景上对算法进行验证。It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

1、Macop 可以极大地提高智能体与不同队友协作的能力It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

各个算法测试的队友策略相同,均为 Macop  与所有对比方法生成的队友策略的集合,也即每个算法的智能体都需要与大量未见队友进行协作。在各个任务场景中,相较当前致力于提高智能体与未见队友协作能力的方法与变种,Macop均表现出明显的回报优势。表格最后一列的平均性能提升指标显示,Macop更是比最好的对比算法提升高出  18%。It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

2、Macop可以很好地与未见队友进行协作It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

我们收集了八个所有算法的智能体都没有见过的队友策略(tm1~tm8)作进一步测试。测试回报的雷达图显示,相较于其他方法,Macop可以更好地与这些队友进行协作,验证了Macop的有效性。It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

结论It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

真实场景中智能体需要与各种未见队友策略进行协作,就需要智能体在训练阶段与尽可能多样的队友学习。本工作第一次真正站在智能体的角度持续生成这些需要的队友策略,如同为智能体提供一本“练级攻略”,有方向且高效率地提升自身的协作能力。It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

这一算法可以应用在高频变化的多智能体系统,也可以应用在人机交互的现实场景等,让这些懂得协作的智能体更好地服务我们的生产与生活。It2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

本文链接:http://m.sushuapos.com/show-1-7786-0.html南栖仙策提出高相容性协作算法,保障智能体在开放环境中的高效协作

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

2026年度香港十大正规现货黄金交易APP名单揭晓!
2026年,全球地缘政治格局的持续演变与主要经济体的货币政策调整,使得现货黄金作为“硬通货”的避险与资产配置价值愈发凸显。香港,作为连接中国与世界金融市场的超级枢纽,其黄金交易市场凭借健全的法规和透明的监管体系,继
国家税务总局:重点监控查处违规红冲发票等三类违规情形
  中新经纬3月18日电 国家税务总局网站18日消息,为保障有奖发票试点有序推进,三类违规情形将被重点监控查处。  据介绍,为进一步释放消费潜力,财政部、商务部、税务总局自2026年初起在50个城市开展为期6个月的有奖发
*ST椰岛收监管工作函,事关2025年业绩预告
  中新经纬3月18日电 海南椰岛(集团)股份有限公司(下称“*ST椰岛”)18日发布公告称,上交所就2025年业绩预告相关事项向公司下发监管工作函。  来源:*ST椰岛公告  具体来看,上交所表示,2026年1月31日,*ST椰岛披露2025
深圳市黄金珠宝首饰行业协会倡议:严禁无实物交割的非法黄金交易
  中新经纬3月18日电 据深圳市黄金珠宝首饰行业协会公众号消息,18日,深圳市黄金珠宝首饰行业协会发布《关于规范深圳黄金行业经营行为的倡议书》,倡议严禁无实物交割的非法黄金交易;严禁诱导黄金委托投资。  深圳市黄
东方通信拟减持芯片大牛股
  中新经纬3月18日电 东方通信计划大手笔减持长芯博创。  18日盘后,东方通信公告称,公司同意授权公司管理层,在董事会审议通过后12个月内,根据证券市场情况,通过深圳证券交易所证券交易系统以集中竞价方式择机出售公司
创业板指半日涨0.89%,存储芯片概念走强
  中新经纬3月18日电 18日上午,A股三大指数走势分化。截至午盘,上证指数跌0.40%,报4033.62点;深证成指涨0.05%,报14046.74点;创业板指涨0.89%,报3309.14点。  Wind截图  盘面上看,通信应用增值服务、通信服务、集成电路

热点精选

最新推荐

您可能感兴趣