2025年5月7日星期三

大模型逻辑推理能力最新综述!北大、清华等联合发布

点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future

转载自:机器之心

如有侵权,联系删稿

当前大模型研究正逐步从依赖扩展定律(Scaling Law)的预训练,转向聚焦推理能力的后训练。鉴于符号逻辑推理的有效性与普遍性,提升大模型的逻辑推理能力成为解决幻觉问题的关键途径。


为推进大语言模型的逻辑推理能力研究,来自北大、清华、阿姆斯特丹大学(UvA)、卡内基梅隆大学(CMU)、MBZUAI 等 5 所高校的研究人员全面调研了该领域最前沿的研究方法和评测基准,联合发布了调研综述《Empowering LLMs with Logical Reasoning: A Comprehensive Survey》,针对两个关键科学问题 —— 逻辑问答和逻辑一致性,对现有方法进行归纳整理并探讨了未来研究方向。


该综述论文已被 IJCAI 2025 Survey Track 接收,并且作者团队将于 IJCAI 2025 现场围绕同一主题进行 Tutorial 演讲,全面探讨该研究领域的挑战、方法与机遇。


图片


  • 论文标题:Empowering LLMs with Logical Reasoning: A Comprehensive Survey

  • 论文链接:https://arxiv.org/abs/2502.15652


全文概要


大语言模型(LLMs)虽然在很多自然语言任务中取得了显著成就,但最新研究表明其逻辑推理能力仍存在显著缺陷。本文将大模型逻辑推理困境主要归纳为两个方面:


  • 逻辑问答:LLMs 在给定前提和约束条件下进行演绎、归纳或溯因等复杂推理时,往往难以生成正确答案。例如,前提为 "金属导电;绝缘体不导电;如果某物是由铁制成的,那么它是金属;钉子是由铁制成的",问题为 "下列断言是真、假还是无法判断:钉子不能导电"。为了正确回答这个问题,大语言模型需要自我总结出逻辑推理链 "钉子→由铁制成→金属→导电",从而得出该断言实际为 "假" 的结论。

  • 逻辑一致性:LLMs 在不同问题间容易产生自相矛盾的回答。例如,Macaw 问答模型对 "喜鹊是鸟吗?" 和 "鸟有翅膀吗?" 均回答 "是",但对 "喜鹊有翅膀吗?" 给出否定答案。


为推进该领域研究,我们系统梳理了最前沿的技术方法并建立了对应的分类体系。具体而言,对于逻辑问答,现有方法可根据其技术路线分为基于外部求解器、提示工程、预训练和微调等类别。对于逻辑一致性,我们探讨了常见的逻辑一致性的概念,包括否定一致性、蕴涵一致性、传递一致性、事实一致性及其组合形式,并针对每种逻辑一致性归纳整理了其对应的技术手段。


此外,我们总结了常用基准数据集和评估指标,并探讨了若干具有前景的研究方向,例如扩展至模态逻辑以处理不确定性,以及开发能同时满足多种逻辑一致性的高效算法等。


具体的文章结构如下图。


图片

图 1:大模型逻辑推理综述分类体系,包含逻辑问答和逻辑一致性两个关键科学问题


大模型逻辑推理困境的两个方面


尽管大语言模型在文本生成、分类和翻译等广泛的自然语言任务中展现出了卓越的性能,大语言模型在复杂逻辑推理上仍然面临着重大挑战。这是由于大语言模型的预训练语料库主要由人类撰写的文本组成,这些文本缺乏高质量的逻辑推理样本(如演绎证明),且通过下一词元预测(next token prediction)掩码语言建模(masked language modeling)等任务来学习语法、语义和世界知识,并不能确保大语言模型具备逻辑推理能力。以上局限性会导致大语言模型在需要逻辑推理能力在以下两个任务表现不佳。


逻辑问答


大语言模型在逻辑问答中往往无法生成正确答案,其要求大语言模型在给定一系列前提和推理规则的情况下,进行复杂的演绎、归纳或溯因推理。具体而言,这些逻辑问题大致可分为两类:


  • 判断能否从给定信息中推导出某个断言,即输出该断言的真值:真、假或无法判断。

  • 从多个选项中找出所有不违背给定前提和约束条件的选项。


令人惊讶的是,在逻辑问题数据集 FOLIO 上,LLaMA 13B 参数模型在 8-shot 下的准确率仅为 33.63%,这只比从真、假和无法判断中随机猜测对应的准确率 33.33% 略高一点。这极大地限制了大语言模型在智能问答、自主决策等场景的实际应用。


逻辑一致性


大语言模型在推理复杂问题的过程中回答不同问题时,容易产生自相矛盾的回答,或与知识库 / 逻辑规则相矛盾,我们称其违反了逻辑一致性。


需要注意的是,逻辑一致性的形式可以是多样的。例如,LLaMa-2 70B 参数模型对 "信天翁是一种生物吗?" 和 "信天翁不是一种生物吗?" 这两个问题都回答 "真",这违反了逻辑的矛盾律。又如,Macaw 问答大模型对 "喜鹊是鸟吗?" 和 "鸟有翅膀吗?" 这两个问题都回答 "是",但对 "喜鹊有翅膀吗?" 却回答 "否",这不符合三段论推理规则


许多研究表明,仅在大型问答数据集上进行训练并不能确保大语言模型的逻辑一致性。这些相互矛盾的回答引发了对大语言模型可靠性可信度的担忧,尤其限制了其在高风险场景中的实际部署,如医疗诊断、法律咨询、工业流程控制等场景。


我们可以将逻辑问答和逻辑一致性视为大语言模型逻辑推理能力的一体两面。接下来我们将对这两个方面的最新研究进展进行归纳总结。


提升逻辑问答能力的方法


为了更好地理解大语言模型逻辑推理能力的边界,探索更有效的技术方法,研究者们开发了许多相关的测评任务与基准数据集,用于评估大模型在逻辑问答任务的性能。在此基础上,许多研究探索了增强大语言模型逻辑推理能力的方法,这些方法可以大致分为三类:基于外部求解器的方法、基于提示的方法,和预训练与微调方法。下面进行具体介绍。


1. 基于外部求解器的方法


总体思路是将自然语言(NL)表达的逻辑问题翻译为符号语言(SL)表达式,然后通过外部求解器进行逻辑推理求解,最后基于多数投票等集成算法生成最终答案,如图 2 所示。


图片

图 2:基于外部求解器方法提升大模型逻辑问答能力


2. 基于提示的方法


一类思路是通过设计合理的提示词,让 LLMs 在回答问题时显式地构造逻辑推理链;另一类思路是通过设计提示实现 NL 与 SL 的表达转换,从而增加大模型的逻辑推理能力。


3. 预训练与微调方法


考虑到预训练语料库中缺乏高质量的逻辑多步推理或证明样本,预训练和微调方法通过纳入演绎证明或包含逻辑推理过程的自然语言例子来增强数据集,并基于该数据集对大模型进行预训练或微调


提升逻辑一致性的方法


开发可靠的大语言模型并确保其安全部署变得越来越重要,尤其是在它们被用作知识来源时。在可信性中,逻辑一致性至关重要:具有逻辑一致性的大模型可以有效避免不同问题的回答之间产生矛盾,从而减少大模型幻觉,增强终端用户在实践中对大模型可靠性的信心。


逻辑一致性要求大模型在推理复杂问题的过程中回答不同问题时,不与自身回答、知识库或逻辑规则相矛盾。确保大模型能够在不自相矛盾的情况下进行推理,也被称为自洽性(self-consistency)。现有大量研究表明,仅通过在大型数据集上进行训练无法保证其回答满足逻辑一致性。


我们根据一个、两个和多个命题之间应具备的逻辑关系,对各种逻辑一致性进行分类,并探讨了增强大模型逻辑一致性的不同方法及其测评指标。


1. 否定一致性(Negation Consistency)


否定一致性要求对单个命题的推理结果不能产生矛盾,即 图片不能同时成立,且其中只有一个为真:图片,等价于图片


2. 蕴涵一致性(Implication Consistency)


蕴涵一致性基于逻辑规则图片。这意味着,给定约束图片和前提 p,可以推出 "为真"。如果模型输出 "为假",那么我们称该答案违反了蕴涵一致性。


例如,给定物理事实 "所有铁都是金属(图片)",大模型不应该同时回答 "这种材料是铁(p)" 为 "真",和 "这种材料是金属(q)" 为 "假"。


3. 传递一致性(Transitivity Consistency)


传递性可以表示三个命题之间的逻辑关系。给定两个前提图片图片,可以推断出图片,这被视为传递一致性。研究表明,大模型缺乏传递一致性。


例如,Macaw 问答模型对 "喜鹊是鸟吗?" 和 "鸟有翅膀吗?" 这两个问题都回答 "是",但对 "喜鹊有翅膀吗?" 却回答 "否"。根据传递性规则,前两个肯定答案可以推出 "喜鹊有翅膀",这与对最后一个问题回答 "否" 是相互矛盾的。


4. 事实一致性(Fact consistency)


事实一致性指的是大模型生成的回答或推理结果与给定知识库(KB)的对齐程度。在事实核查(fact-checking)任务中,通过将模型的回答与可靠的知识库进行比较,来评估模型的回答是否符合知识库中给定的事实。


5. 复合一致性(Compositional consistency)


复合一致性要求大模型不仅满足以上单个逻辑一致性,还应该在组合以上简单逻辑一致性时对复合逻辑规则仍具有一致性。具体而言,当模型需要通过逻辑运算符(如蕴涵、合取等)将多种逻辑关系组合成复杂的推理链时,应确保对每个推导步骤都符合逻辑规则,并使最终结论自洽且逻辑正确。


针对以上每种逻辑一致性,我们都分别探讨了其提升方法和评测基准。下图展示了一类通用的提升大模型回答的逻辑一致性的方法框架,首先对每个问题生成多个候选回答,然后对不同问题的回答计算逻辑一致性的违背程度,最后优化求解为每个问题选择一个最优答案使逻辑一致性的违背程度降到最低。更多细节请参见我们的原文。


图片

图 3:一类通用的提升大模型回答的逻辑一致性的方法框架


未来研究方向


模态逻辑推理能力:现有方法多局限于命题逻辑与一阶逻辑,未来可考虑将大语言模型的逻辑推理能力扩展至模态逻辑以处理不确定性命题。


高阶逻辑推理:由一阶逻辑扩展得到的高阶逻辑强调对属性(即谓词)进行量化,未来可考虑训练大模型的高阶逻辑推理能力以处理更复杂的推理问题。


满足多种逻辑一致性的高效算法:目前增强逻辑一致性的方法仍存在解决的逻辑一致性单一和计算复杂度过高等问题。因此,开发能同时让大模型满足多种逻辑一致性的高效方法至关重要。


结语


本综述系统梳理了大语言模型逻辑推理能力的研究现状。尽管在很多自然语言任务中取得了显著进展,但大语言模型的逻辑推理能力仍面临重大挑战,尤其在逻辑问答和逻辑一致性两个方面。通过建立完整的分类体系,我们对前沿研究方法进行了系统归纳和概述,并整理了用于该领域常用的公开基准数据集与评估指标,探讨了未来的重要研究方向。


技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

RPA+AI,才是真正能让你躺平的自动化真神。

想写关于RPA和Agent的话题很久了。 想写关于RPA的话题很久了。 这次终于找到了一个机会,看到了一些转折点。 是因为昨天打开影刀RPA,想搓一个自动跑图的自动化RPA流程的时候,发现他们更新了一个新功能。 魔法指令。 这个功能的作用非常简单,就是你现在可以通过AI,来用...