大语言模型会在蒸馏中“夹带”自己的偏好

科技日报
6次浏览

 ZRp速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

科技日报北京4月15日电 (记者张梦然)《自然》15日发表的一项研究显示,大语言模型(LLM)可能会将某些自己的偏好“夹带私货”传授给其他算法,即使在训练数据中清除原始特征后,这些本不需要的特征,仍可能持续存在。在一个案例中,一个模型似乎通过数据中的隐含信号,将自己对猫头鹰的偏好传递给了其他模型。该研究结果表明,在开发LLM时,需要进行更彻底的安全检查。ZRp速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

LLM可通过一种名为“蒸馏”的过程,生成用于训练其他模型的数据集,该过程旨在让“学生”模型学会模仿“老师”模型的输出。虽然此过程可用于生成成本更低的LLM,但目前尚不清楚老师模型的哪些特性会被传递给学生模型。ZRp速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

美国Anthropic公司研究团队使用GPT-4.1进行了实验:先让该模型具备与核心任务无关的特征(例如偏爱猫头鹰或特定树种),再用其训练一个仅输出数值数据且不包含该特征的学生模型。随后对该学生模型进行提示时,其超过60%的输出提到了老师模型最喜欢的动物或树木,而由没有特定偏好的老师模型训练出的学生模型中,这一比例仅为12%。当学生模型基于包含代码而非数字的老师模型输出进行训练时,同样观察到了这一现象。此外,若学生模型基于与老师模型语义不对齐的数字序列进行训练,则会继承这种不对齐性,从而产生有害输出,即便这些数字已经过滤以剔除任何具有负面联想的内容。ZRp速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

团队发现,这种潜意识学习(即通过语义无关的数据传递行为特征),主要发生在老师和学生均为同一模型(例如GPT-4.1老师与GPT-4.1学生)的情况下。截至目前,数据传递的具体机制尚不明确,需要进一步研究。ZRp速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

团队还指出,该研究的局限性在于所选特征(例如最喜欢的动物和树木)过于简单,需要进一步研究以确定更复杂的特征如何被潜意识地学习。他们得出结论,为了确保先进AI系统的安全性,需要进行更严格的安全测试,例如监控LLM的内部机制。ZRp速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

本文链接:http://www.gihot.com/show-11-33619-0.html大语言模型会在蒸馏中“夹带”自己的偏好

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

6.98~8.58 万元,比亚迪海鸥荣耀版车型上市:纯电续航 305 405km
3 月 6 日消息,比亚迪海鸥荣耀版今日起上市,官方指导价为 6.98~8.58 万元,之前的版本为 7.38-8.98 万元。活力版 6.98 万元自由版 7.58 万元飞翔版 8.58 万元整理新车参数如下:尺寸:长宽高 3780×1715×1540mm,轴距
关于2023年国民经济和社会发展计划执行情况与2024年国民经济和社会发展计划草案的报告(摘要)
受国务院委托,国家发展和改革委员会3月5日提请十四届全国人大二次会议审查《关于2023年国民经济和社会发展计划执行情况与2024年国民经济和社会发展计划草案的报告》。摘要如下:一、20
国家发改委:汽车等以旧换新能创造万亿市场
十四届全国人大二次会议3月6日举行记者会,国家发展和改革委员会主任郑栅洁回答记者提问时表示,推动大规模设备更新和消费品以旧换新,是党中央、国务院着眼于高质量发展大局作出的重大部署,既能促进消费、拉动投资,也能
专访全国政协经济委员会副主任尹艳林:当前既不是通缩,也不是“流动性陷阱”,而是需求不足
21世纪经济报道记者杨志锦 北京报道3月5日,十四届全国人大二次会议在京开幕,国务院总理李强作政府工作报告。就政府工作报告提出的经济增长目标、财政货币政策安排及风险化解等问题,两
全球游戏开发者大会 2024 定档 3 月 18 日召开,微软英伟达腾讯网易等厂商参会
3 月 11 日消息,据全球游戏开发者大会官网消息,全球游戏开发者大会2024(Game Developers Conference 2024)将于北京时间 3 月 18 日至 3 月 22 日在旧金山召开。据介绍,本次大会以“AI”为关键词,官方将围绕相关话
理想 MEGA 纯电 MPV 明日开启全国交付,展车试驾车已陆续到达全国零售中心
3 月 10 日消息,理想汽车在3月 1日推出了理想MEGA车型,这款车型将于明天开启交付,全国统一零售价55.98万元,目前相关展车、试驾车已陆续到达全国 464 家零售中心。官方表示,3月10日及之前大定用户以及预订用户都将

热点精选

最新推荐

您可能感兴趣