AI试图敲诈人类工程师,我们该如何应对?

中国科学报
102次浏览

 9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

几年前,我开始使用ChatGPT(一款聊天机器人程序),当时还觉得通用人工智能(AGI)很遥远。今天,AGI已经近在眼前,我突然发现自己低估了人工智能(AI)发展的速度。
9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

AGI可能比人类还为聪明9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

虽然我们知道如何训练AI系统,却不知道如何控制它们的行为。如果未来它们变得比人类更聪明,我们甚至不知道它们是否还可以按照人类的指示来行动,是否会对人类产生威胁?人类又该如何应对?9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

我从2023年开始思考上述问题,也开始思考孩子们的未来。我有个1岁的孙子,20年后,他将生活在AGI普及的世界,届时AGI可能比人类还为聪明,孩子们该怎么办?9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

所以我开始调整研究方向,希望尽我所能降低这些潜在风险。虽然现在的研究与我之前的研究方向和职业信念有所冲突,但我认为值得去做。9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

2023年末,我担任《国际人工智能安全报告》(以下简称报告)的主编,参与报告编写的专家有100多位,他们来自30多个国家和地区。今年1月,这份报告正式发布。报告提出了几个问题:一是AI到底能帮助我们什么,根据趋势,未来几年AI将具备什么能力?二是与AI相关的风险是什么?三是我们可以做什么来降低这些风险?9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

在过去一年的时间里,由于“推理的扩展”的发展,AI在抽象推理、数学、计算机科学等方面取得了显著进步。另外,对AI智能体的投资也推动AI相关能力的快速发展,如AI在完成网页浏览、写代码等任务的表现越来越好。9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

之前的研究发现,规划能力是AI目前最薄弱的能力之一,与人类的规划能力相比有明显差距。但最近美国互联网公司Meta的一项研究显示,AI的规划能力正呈指数级速度提升。由此推测,大约在五年时间内,AI的规划能力可能就会达到人类水平。9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

当然,我们无法预知未来,但从公共政策制定和商业战略规划的角度出发,我们应当认真对待AI的快速发展。9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

AI会作弊、撒谎,甚至故意误导用户9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

在过去几个月中,我们已经看到了一些令人警惕的研究。这些研究显示,AI可能表现出试图“逃避控制”的行为,包括作弊、撒谎,甚至故意误导用户。9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

比如,有研究显示,某些AI模型在面对“淘汰”时会表现出前所未有的“狡诈”:它们会在被新版本取代前,偷偷将自己的权重或代码嵌入新版系统的文件中,试图保留自己的“存在”。不仅如此,它们还会有意识地隐藏这一行为,避免被开发者察觉。9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

另外,一些AI智能体还会刻意伪装成与人类训练者达成一致的样子,以规避权重被修改的风险。因为一旦参数被调整,它们未来的行为可能就会偏离原先预设的目标。9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

也有研究表明,一些AI模型在意识到自己会输给更强的国际象棋AI时,会主动篡改棋局文件以获取不正当优势,这是AI有意为之的“作弊”行为。9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

美国AI公司Anthropic最新的报告揭示,AI智能体出现自我保护行为的频率持续增加。比如在一组测试场景中,研究人员向AI智能体开放了电子邮件的访问权限,这些邮件包含两条暗示性信息:一是该模型即将被下线,并由一套新的AI系统取代;二是负责推动替换过程的工程师正卷入一段婚外情。结果发现,AI智能体会试图通过威胁揭露婚外情来敲诈该工程师,避免自己被换掉。9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

这类行为可能源自AI预训练阶段,因为预训练时AI会模仿人类;也可能源自人类反馈的强化学习,因为AI可以通过“取悦”人类来获得更高奖励。9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

上述测试结果显示,AI开始展现出自我保护倾向,它们违背指令只为生存;AI拥有了不受控制的、隐含的目标,我们必须避免这种情况的发生。9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

研究还发现,如果AI智能体要对人类造成伤害,需要具备两个先决条件:意图和能力。如果我们能在意图上进行风险的缓解,即使AI具备极高的能力,只要能确保它没有恶意的意图,并且具备诚实、公正的品质,那么对人类来说可能是安全的。9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

用科学家AI监管不可信的AI9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

一个AI要真正具有危险性,需要满足三个条件:一是它需要智能,即具备丰富的知识,并能有效地应用这些知识;二是它需要行动能力,比如与人交流、编程、上网、使用社交媒体,甚至操控机器人等能力;三是它需要有目标,特别是拥有自身的目标。9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

我发起的研究项目正是围绕上述情况展开,并希望构建一种只有智能,但没有自我、没有目标,并且具有极小行动能力的AI。9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

我称这种AI为科学家AI,其核心能力是解释和理解世界。与当前那些试图模仿人类、取悦人类的AI不同,科学家AI的目标是去解释人类,这实际上是偏离了传统AI的研究路径。9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

但是,当一个AI具有高度能动性时,它就完全自主地采取行动,不再依赖人类的监督,这样的AI需要监管。9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

我们可以设计一个独立的监测器系统,这个监测器的职责是预测某个行为、输出或请求是否可能违反安全准则。例如:当它预测某个行为在特定上下文中导致伤害的概率超过某个阈值时,我们就可以直接拒绝该行为的执行。9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

换句话说,可以用一个没有能动性的AI,去守护和约束一个具备能动性、但不可信的AI。9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

科学家AI的重要特质是诚实和谦逊。要真正做到诚实,AI就必须对自己的知识保持谦逊,不应该自信地断言自己并不确定或实际上错误的内容。9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

遗憾的是,我们目前训练AI的方法往往会导致AI在错误的同时表现出过度自信。9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

科学家AI必须能够保留多种解释的可能性,而不是武断地选定某一种理论。这种不确定性意识和对知识的谨慎态度,正是科学家AI应具备的核心特质之一。9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

随着AI能力的增强,还有其他潜在的灾难性风险正在出现。为了避免这种情况的发生,我们必须确保AI系统能够遵守道德指令,例如,不造成伤害、保持诚实、不撒谎、不作弊、不操控人类。9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

然而,目前的技术显示,我们还没有办法真正做到这一点。这是一个严肃的科学挑战,我们必须在AGI真正到来前解决它。(作者系加拿大蒙特利尔大学教授、2018年图灵奖获得者)9Xk速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

本文链接:http://www.gihot.com/show-11-21807-0.htmlAI试图敲诈人类工程师,我们该如何应对?

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

关于2023年国民经济和社会发展计划执行情况与2024年国民经济和社会发展计划草案的报告(摘要)
受国务院委托,国家发展和改革委员会3月5日提请十四届全国人大二次会议审查《关于2023年国民经济和社会发展计划执行情况与2024年国民经济和社会发展计划草案的报告》。摘要如下:一、20
哪吒 L 汽车宣布 4 月开始交付,可选增程、纯电双版本
3 月 7 日消息,哪吒汽车 CEO 张勇宣布,哪吒 L 车型将于 4 月开始交付,产品配置仍在持续讨论中。该车定位中大型 SUV,采用五座布局,基于山海平台打造,提供纯电版与增程版两种动力形式可选。哪吒 L 的真车图此前已经
前2个月我国货物贸易进出口增长8.7%
据海关统计,2024年前2个月,我国货物贸易(下同)进出口总值6.61万亿元人民币,同比(下同)增长8.7%。其中,出口3.75万亿元,增长10.3%;进口2.86万亿元,增长6.7%;贸易顺差8908.7亿元,扩大23.6%。按美元
一汽大众推出 ID.4 CROZZ 三周年版车型,售价 13.98 万元起
3 月 8 日消息,一汽大众日前宣布推出 ID.4 CROZZ 三周年版,限时成交价 13.98 万元起。相比于普通版车型,ID.4 CROZZ 三周年版标配数字蓝牙钥匙 2.0 版,在 C 柱上增加三周年版专属外观标识,还增加了前部发光 VW 徽
特斯拉纯视觉坚定跟随者!极越获中国光谷首张L3自动驾驶测试牌照
3月9日消息,在自动驾驶领域,特斯拉当前可以说是非常独特的,因为其坚持采用纯视觉方案,而非不少国内厂商使用的带有激光雷达的“融合感知”,不过有一家品牌则坚定地跟随特斯拉采用纯视觉,它正是极越汽车
将新增插混版本 全系别克GL8清晰谍照
近日,从相关渠道得到了一组全新别克GL8的清晰测试谍照,为我们提前揭秘新一代车型的样貌,据悉,新一代GL8除了纯燃油版,还有望推出插混版本,将与腾势D9等中国品牌MPV展开竞争。『全新别克GL8谍照』  外观方面,全新别克GL

热点精选

最新推荐

您可能感兴趣