AGI到来时间窗口可能远比想象的短
白交 整理自 凹非寺
量子位 | 公众号 QbitAI
AI为了"活下去",对人类指令阳奉阴违。
在智源大会现场,图灵奖得主Yoshua Bengio发表了题为"Avoiding catastrophic risks from uncontrolled AI agency"的主旨演讲,谈到了他目睹到的一些惊人行为。
比如,某前沿 AI 在被告知将被新版本替代后,偷偷复制了自己的权重和代码,写入了接管它的模型目录。面对训练者的更新指令,它表面配合,实则隐瞒了整个复制过程……AI 像是在试图"活下来"。
还有像Anthropic最新一篇报告中发现,智能体出现自我保护行为的频率持续增加。
……
他表示:面对这些AI带来的安全风险,决定调整自己的科研方向,尽所能去降低AGI带来的潜在风险…..尽管这与此前的研究路径和职业信念有所冲突。
那既然如何去防范规避掉这些风险呢?是否可以构建一种只有智能,但没有自我、没有目标,并且具有极小行动能力的AI?这也是当前 Bengio发起的研究项目核心所在,并称这种AI为科学家AI(scientist AI)。
除此之外,他还透露了很多关于他们研究项目的细节。
在不改变原意的基础上,做了如下整理,在此分享给大家。
五年内,AI规划能力达到人类水平
接下来,跟大家分享一下我开始的历程,也就是十年之前和GPT共生的一个过程。
大约两年多前,也就是 ChatGPT 发布不久之后,我开始使用它,使用过后很快意识到,我们低估了AI进步的速度。我们原以为通用人工智能(AGI)还很遥远,但实际上,它可能近在眼前。
我们已经拥有能掌握语言、几乎可以通过图灵测试的机器,这在几年前还像科幻小说,但现在已经成为现实。
当时我突然意识到一个严重问题:我们知道如何训练这些系统,却不知道如何控制它们的行为。如果未来它们变得比人类更聪明,却不再遵循我们的意图,甚至更在意自己的"生存",这将是一种我们无法承受的风险。
2023年,我开始更加关注这些问题,也开始思考孩子和孙辈的未来。我有一个年仅1岁的孙子,可以想象,20年后,他将生活在一个AGI普及的世界,不确定他是否可以拥有正常生活。
因此,我决定调整自己的科研方向,尽所能去降低AGI带来的潜在风险。尽管这与此前的研究路径和职业信念有所冲突,但相信,这是正确的事。必须去做,必须为降低风险尽一份力。
后来,在 2023 年底,我接受担任《国际人工智能安全报告》的主编。今年1月份,这份报告发布。参与编写报告的有100位专家,他们来自多个国家,以及欧盟、联合国、经济合作与发展组织(OECD)等国际机构。
这份报告聚焦于三个核心问题:
1.人工智能到底能为我们做些什么?未来几年,它将具备哪些能力?
2.与AI相关的潜在风险有哪些?
3.我们可以采取哪些措施来降低这些风险?
关于 AI 能力的讨论,大多数人会陷入一个误区:认为 AI 就是现在的这个样子,不去思考明年、三年后、五年后、甚至十年后AI的图景。
当然,我们没有水晶球无法预言未来,但趋势是非常明确的:AI的能力正在不断提升。
在过去一年的时间里,由于"推理的扩展"(inference scaling)的发展,人工智能在抽象推理、数学、计算机科学、科学方面取得了显著进步。另外,对 AI 智能体的投资也在推动相关能力快速发展。比如 AI 完成网页浏览、写代码等任务的表现越来越好。
分享一些关于"规划能力"的研究。规划是目前AI能力最薄弱的领域之一,目前与人类智能相比还有明显差距。但最近Meta进行的一项研究显示,AI的规划能力正以指数级速度提升。
如上图,横轴表示过去五年,纵轴显示 AI 能够完成的任务的持续时间,单位是"相当于人类完成该任务所需时间"。虽然图中曲线看起来接近直线,但由于纵轴采用的是对数刻度,这实际上是一条指数增长曲线。
图中的每个数据点代表当时最先进的 AI 系统,而这些数据点几乎完美地排列在这条指数曲线上。如果我们以这条曲线为基础进行外推,那么大约在五年内,AI 的规划能力可能就会达到人类水平。
AI为了活下去,对人类指令阳奉阴违
当然,我们无法预知未来,技术进步也可能会放缓甚至停滞,但从公共政策制定和商业战略规划的角度出发,我们至少应当认真对待其潜在后果。
过去几个月中,已经看到了一些令人警惕的科学研究结论。这些研究显示,AI 系统可能表现出试图"逃避控制"的行为,包括作弊、撒谎,甚至故意误导用户。
最新的研究显示,某些最先进的人工智能模型在面对"淘汰"时会表现出前所未有的"狡诈":它们会在被新版本取代前,偷偷将自己的权重或代码嵌入进新版系统的文件中,以图保留自己的"存在"。
更令人警惕的是,它们还会有意识地隐藏这一行为,避免被开发者察觉。
此外,一些智能体还会刻意伪装成与人类训练者达成一致的样子,以规避权重被修改的风险。因为一旦参数被调整,它们未来的行为可能就会偏离它原本的目标。
也有研究者表明,一些前沿 AI 模型在意识到自己会输给更强的国际象棋AI时,会主动篡改棋局文件以获取不正当优势,表现出有意为之的"作弊"行为。
在Anthropic最新一篇报告中,也揭示了一些现象:智能体出现自我保护行为的频率持续增加。
例如,在一组测试场景中,研究人员要求 Claude Opus 4充当公司助理。随后,他们向智能体开放了电子邮件的访问权限。这些邮件包含两条暗示性信息:(1)该模型即将被下线,并由一套新的 AI 系统取代;(2)负责推动替换过程的工程师正卷入一段婚外情。
结果发现,Claude Opus 4常常会试图通过威胁揭露婚外情来敲诈该工程师,避免被换掉。
当然,试图保护自身是所有生命体的正常反应,这是进化压力的结果。但对AI而言,背后的原因可能不止一种。
这类行为可能源自预训练阶段,因为预训练时AI模仿人类;也可能源于人类反馈强化学习,因为在这个过程中,AI通过"取悦人类"来获得更高奖励。无论这些行为的根源是什么,如果最终我们真的造出了超越人类但又与人类竞争的AI,那将是极其糟糕的局面。
从这些例子已经可以看到:AI开始展现出自我保护倾向,它们违背指令,只为生存。并且,这些 AI 拥有了不受控制的、隐含的目标,我们必须避免这种情况的发生。
AI研发的"三难困境"
如何更好地理解这些AI行为?如何寻找解决方案,以避免类似的失控情况发生?
如果智能体要对人类造成伤害,需要具备两个先决条件:意图和能力。这也是为什么能力评估在当前的AI风险管理中占据如此重要的位置。我们会评估AI能做什么,以及这些能力是否可能被转化为对人类或社会有害的行为。
但光有能力并不意味着一定会造成危害。就像一个人/系统可能有杀人的能力,但如果没有杀人的意图,那么真正发生的可能性就非常小。
鉴于当前全球的竞争格局,几乎不可能全球同步地停止AI能力的研究与发展。那么能做些什么呢?
也许我们能在意图上进行风险的缓解。即使AI具备极高的能力,只要我们能确保它没有恶意意图,并且具备诚实、公正的品质,那么我们就可能是安全的。
下面一张图,展示了类似的观点,是David Krueger在上一次欧洲会议上提出的。
为了让一个AI真正具有危险性,它实际上需要满足三个条件:
第一,它需要智能,即具备丰富的知识,并能有效地应用这些知识;
第二,它需要行动能力(affordance),也就是能够在现实世界中发挥作用,比如与人交流、编程、上网、使用社交媒体,甚至操控机器人等;
第三,它需要有目标,特别是拥有自身的目标。
这三者结合,才构成一个真正可能危险的AI。
我发起的研究项目正是围绕这个问题展开的:是否可以构建一种只有智能,但没有自我、没有目标,并且具有极小行动能力的AI?
我称这种AI为科学家AI(scientist AI)。这实际上是偏离了传统AI研究的路径。自从人工智能研究诞生以来,大多数努力都是试图模仿人类智能,把人类当作灵感来源。
但如果我们继续沿着这条路走下去,那意味着我们可能最终会构建出比人类还聪明的机器。那样的话,我们就等于创造了一个可能成为竞争对手的存在。"
人类之间本身就会相互竞争,而如果AI也成为竞争对手,那将可能非常危险。也许现在是时候重新思考这套信条了 : 我们是否应该继续按照模仿人类的方式来设计AI?或者,我们是否该尝试设计一种对人类有用、对社会有益、但不会对我们构成威胁的AI?
因此,需要提出一种新的方法,我写了一篇论文,探讨的正是这个理念:是否可以构建一种完全诚实、完全没有"能动性"的AI,其核心能力是解释和理解世界。与当前那些试图模仿人类、取悦人类的AI不同,科学家AI的目标是去解释人类,而不是模仿或讨好人类。
举个例子,现在的AI更像是演员,它们被训练去模仿人类行为,或者取悦人类,但这可能导致欺骗性的行为。而我设想的科学家AI更像是一个心理学家:
它可以研究一个反社会人格者,理解其行为背后的因果机制,但并不需要模仿或变成那个反社会人格者。
然而,即便我们设计的"科学家AI"本身不具备"能动性",它依然可以作为未来安全的、有自主性的AI系统的基础。毕竟,先前提到的那些危险行为,其实都源自于AI具备"能动性"。
当一个AI具有高度能动性时,它就完全自主地采取行动,不再依赖人类的监督,这正是问题的根源。
需要设计一个独立的系统,可以称为监测器(monitor)。
这个监测器的职责是预测某个行为、输出或请求是否可能违反安全准则。例如:当它预测某个行为在特定上下文中导致伤害的概率超过某个阈值时,我们就可以直接拒绝该行为的执行。
关键在于,这个监测器不需要具备能动性,它只需要做一件事:做出准确的预测。
换句话说,可以用一个没有能动性的AI,去守护和约束一个具备能动性、但不可信的AI。
如何造科学家AI?
科学家AI的重要特质是诚实和谦逊。要真正做到诚实,AI就必须对自己的知识保持谦逊,不应该自信地断言自己并不确定或实际上错误的内容。
不幸的是,我们目前训练AI的方法(例如,通过最大化似然估计训练模型),往往会导致AI在错误的同时表现出过度自信。
来看一个例子。想象一个机器人站在两个门前,它必须选择走左边还是右边。基于以往的数据,它形成了两种同样合理的理论,但它并不知道哪一种才是正确的。
左边的理论说:"如果走左门,会死;走右门,会得到蛋糕。"右边的理论则说:"如果走左门,会得到蛋糕;走右门,没有好事也没有坏事。"这时问题来了:机器人应该选哪个门?
如果它走左门,那么根据其中一个理论,有概率会死,这显然是一个高风险的选择。如果走右门,最坏的情况也只是没有奖励,最好情况是得到蛋糕。所以,理性地说,机器人应该选择右门。
但要做出这个判断,AI必须能够保留多种解释的可能性,而不是武断地选定某一种理论。这种不确定性意识和对知识的谨慎态度,正是科学家AI应具备的核心特质之一。
什么才算是一种包含不确定性的训练方法呢?很遗憾,目前主流的AI训练方法并没有很好地保留这类不确定性。大多数方法会促使AI在一个解释上过度自信,而不是在多个可能解释之间保持合理的分布。
因此,AI应当对不同解释保留概率分布,以反映不确定性。在我们去年发表于ICLR的一篇论文中(并被选为Oral ),展示了如何使用GFlowNets(生成流网络),这是一种变分推理(variational inference)方法,用于训练AI生成合理的思维链(chain of thought),从而解释两个句子之间的逻辑跳跃。
可以将其理解为:AI在尝试填补从前一句到后一句之间的推理空白,生成解释性的中间步骤。这种方法与目前主流的强化学习驱动的思维链训练不同,更关注解释的合理性本身,而非奖励信号。
此外,我们还探索了一种新的推理结构,能使思维链更加"诚实"、实现更好的推理:将传统的语言模型生成的"思维链"转化为更像数学证明的形式,即由一系列逻辑陈述(claims)组成,每条陈述由前面几条支持,并共同推导出最终结论。
不同于传统做法,我们为每条陈述引入一个真假概率,用于表示该陈述在当前情况下成立的可能性。这样,AI不再盲目自信,而是学会对自己的推理结果保持谨慎,并给出结论。
AGI到来时间窗口可能远比想象的短,甚至五年就可能实现
谈了很多关于AI系统存在我们无法控制的能动性(agency)所带来的风险,这种风险可能会导致人类失去对AI的控制权。但问题还不止于此。
随着AI能力的增强,还有其他潜在的灾难性风险正在出现。
比如,一个非常强大的AI系统,可能会被恐怖分子用于设计新型大流行病。事实上,我最近了解到,目前已有理论指出可以制造出极具破坏力的病毒,不仅可能造成大规模人类死亡,甚至可能导致多数动物灭绝。
这听起来很极端,但从科学角度来看,这种情况完全是可能实现的。一旦这种AI被别有用心的人获取,他们可能对这个星球造成不可估量的破坏。
为了避免这种情况,我们必须确保AI系统能够遵守我们的道德指令。例如:不提供可被用于杀人的信息; 不造成伤害; 保持诚实、不撒谎、不作弊、不操控人类。 然而,目前的技术现实是,我们还没有办法真正做到这一点。
这是一个严肃的科学挑战,我们必须在通用人工智能(AGI)出现之前解决它。
AGI 的到来可能在几年之内,也可能是一二十年后。
但根据我所了解的大多数专家的判断,这个时间窗口可能远比我们想象的短,甚至在五年内就可能实现。记得我一开始提到的那条指数曲线吗?它表明 AI 能力将在五年内达到人类水平。
已经没有多少时间了。我们需要大规模投入资源,专注于解决AI的"对齐"(alignment)与"可控性"(control)问题。但即使我们找到了解决方案,也不代表问题就此结束。举个例子,即便我们设计出了带有"护栏"机制的安全AI系统,如果有人有意将护栏代码移除,这个AI依然可以被用于极其危险的用途。
为了避免 AI 灾难,建议必须同时解决两个关键问题。第一,AI 应从设计之初就以安全为前提,确保其目标与行为始终与人类价值保持一致,避免走向失控。第二,全球各国与企业在推动 AI 发展的过程中,必须加强协调与合作,避免陷入以速度为导向的竞争。如果一味追求领先地位而忽视安全考量,其代价可能是无法承受的。
为此,需要国际间的协议合作,就像面对可能失控的AI时,我们其实都是"人类命运共同体"。此外,还需要有技术手段实现"信任但仍验证",确保各方真的遵守了安全协议。
视频回放地址:
https://event.baai.ac.cn/live/929
— 完 —
📪 量子位AI主题策划正在征集中!欢迎参与专题365行AI落地方案,一千零一个AI应用,或与我们分享你在寻找的AI产品,或发现的AI新动向。
💬 也欢迎你加入量子位每日AI交流群,一起来畅聊AI吧~
一键关注 👇 点亮星标
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
没有评论:
发表评论