AI I024: 一文看懂！大语言模型与AI智能体的前沿进展

点击下方卡片，关注"AI生成未来"如您有工作需要分享，欢迎联系：aigc_to_future近年来，大语言

点击下方卡片，关注"AI生成未来"

如您有工作需要分享，欢迎联系：aigc_to_future

近年来，大语言模型和人工智能智能体技术发展迅猛，在自然语言处理、智能决策等众多领域广泛应用。然而，随着技术的快速迭代，评估大语言模型的标准和方法不断变化，智能体在各领域的应用也日益复杂和多样化。但目前缺乏对这些技术全面且系统的梳理和总结，使得研究人员和从业者难以把握技术发展全貌和趋势。本文通过对相关基准测试、智能体框架与应用的深入分析，不仅有助于明晰当前技术发展水平，发现存在的问题和挑战，还能为后续技术创新、优化应用提供方向指引，对推动人工智能技术在多领域的深度融合与发展具有重要意义。

本综述系统梳理了2019 - 2025年间大语言模型和人工智能智能体的发展。在大语言模型基准方面，介绍从基础语言能力评估到复杂多模态、多任务评估基准的演变，涵盖ENIGMAEVAL、ComplexFuncBench等众多基准。人工智能智能体部分，阐述LangChain、LlamaIndex等框架如何集成大语言模型与工具实现自主决策，同时详细介绍智能体在医疗保健、材料科学、生物医学等多领域的应用案例与成果。最后对该领域进行总结，并展望未来在提升推理能力、增强可解释性等方向的发展趋势。

摘要&摘要

大语言模型和自主人工智能智能体发展迅速，催生了各种各样的评估基准、框架和协作协议。然而，这一领域仍较为分散，缺乏统一的分类法或全面的综述。因此，我们对2019年至2025年间开发的基准进行了对比，这些基准在多个领域对这些模型和智能体进行评估。此外，我们提出了一种对约60个基准的分类法，涵盖通用和学术知识推理、数学问题求解、代码生成和软件工程、事实基础与检索、特定领域评估、多模态和具身任务、任务编排以及交互式评估。我们还回顾了2023年至2025年间推出的人工智能智能体框架，这些框架将大语言模型与模块化工具包相结合，实现自主决策和多步推理。此外，我们介绍了自主人工智能智能体在材料科学、生物医学研究、学术创意、软件工程、合成数据生成、化学推理、数学问题求解、地理信息系统、多媒体、医疗保健和金融等领域的实际应用。然后，我们研究了关键的智能体间协作协议，即智能体通信协议（ACP）、模型上下文协议（MCP）和智能体对智能体协议（A2A）。最后，我们讨论了未来研究的建议，重点关注先进的推理策略、多智能体大语言模型系统中的故障模式、自动科学发现、通过强化学习进行动态工具集成、集成搜索能力以及智能体协议中的安全漏洞。

• 研究背景：随着人工智能技术在多领域的广泛应用，大语言模型和人工智能智能体成为研究热点。大语言模型在语言理解和生成方面取得显著进展，但缺乏统一、全面的评估标准，难以衡量其在复杂任务中的表现。人工智能智能体作为结合大语言模型与外部工具的产物，在实际应用中展现出强大潜力，但不同框架和应用的发展水平参差不齐，且对其在各领域应用的系统性研究不足。因此，亟需对相关技术进行全面梳理和总结，以推动该领域的进一步发展。
• 研究贡献：

1. 系统归纳大语言模型基准发展，梳理从基础到复杂任务评估的演变，为模型评估提供全面参考体系。
2. 详细剖析多种人工智能智能体框架，揭示其核心设计理念和实现方式，为智能体开发提供技术借鉴。
3. 广泛汇总智能体在多领域的创新应用案例，展现技术落地成果，为各行业引入智能体技术提供思路。
4. 前瞻性提出未来技术发展方向，为后续研究指明重点，促进大语言模型和人工智能智能体技术持续创新。

• 实现设计：

1. 大语言模型基准设计：针对不同评估目标，设计多样化基准。如为评估多模态推理能力，构建包含文本和图像线索的ENIGMAEVAL基准；为测试函数调用能力，创建模拟现实场景的ComplexFuncBench基准，通过设定特定任务和评估指标，全面衡量模型性能。
2. 人工智能智能体框架实现：LangChain等框架将大语言模型与各类工具（如搜索引擎、数据库接口）集成，通过定义智能体角色、任务和工具集，实现自然语言理解、多步推理和外部工具调用。CrewAI等框架则专注于多智能体协作，明确各智能体职责和交互协议，处理复杂任务。
3. 人工智能智能体应用开发：在医疗保健领域，整合医学知识图谱、患者多模态数据，开发智能体辅助诊断和治疗；在材料科学领域，结合材料数据库和实验模拟工具，利用智能体优化实验流程和数据分析；在其他领域，根据行业需求定制智能体功能，实现技术与行业的深度融合。

一、引言

诸如OpenAI的GPT4[1]、通义千问2.5-全能版[2]、DeepSeek-R1[3]和Meta的LLaMA[4]等大语言模型，通过实现类似人类的文本生成和先进的自然语言处理技术，彻底改变了人工智能领域，推动了对话式智能体、自动内容创建和实时翻译等领域的创新[5]。最近的改进将它们的应用扩展到了多模态任务，包括文本到图像和文本到视频的生成，拓宽了生成式人工智能应用的范围[6]。然而，它们对静态预训练数据的依赖可能会导致输出过时和产生幻觉的情况[7,8]，检索增强生成（RAG）通过整合来自知识库、API或网络的实时数据来解决这一限制[9,10]。在此基础上，采用反思、规划和多智能体协作的智能智能体的发展，催生了智能RAG系统，该系统动态协调信息检索和迭代优化，以有效地管理复杂的工作流程[11,12]。

大语言模型的最新进展为高度自主的人工智能系统铺平了道路，这些系统可以独立处理复杂的研究任务。这些系统通常被称为智能人工智能，它们可以生成假设、进行文献综述、设计实验、分析数据、加速科学发现并降低研究成本[13,14,15,16]。已经开发了几个框架，如LitSearch、ResearchArena和Agent Laboratory，以实现各种研究任务的自动化，包括引文管理和学术综述生成[17,18,19]。然而，挑战依然存在，特别是在执行特定领域的文献综述以及确保自动化过程的可重复性和可靠性方面[20,21]。与研究自动化的这些发展并行的是，基于大语言模型的智能体也开始改变医学领域[22]。这些智能体通过整合临床指南、医学知识库和医疗保健系统，越来越多地用于诊断支持、患者沟通和医学教育。尽管前景广阔，但这些应用面临重大障碍，包括对可靠性、可重复性、伦理治理和安全性的担忧[23,24,25]。解决这些问题对于确保基于大语言模型的智能体能够有效且负责任地融入临床实践至关重要，这凸显了需要全面的评估框架，以可靠地衡量它们在各种医疗保健任务中的表现[26,27,28]。

基于大语言模型的智能体正在成为人工智能领域一个有前途的前沿方向，它将推理和行动相结合，与复杂的数字环境进行交互[29,30]。因此，人们探索了各种方法来增强基于大语言模型的智能体，从使用React[31]和蒙特卡洛树搜索[32]等技术将推理和行动相结合，到使用Learn-by-Interact[33]等方法合成高质量数据，这些方法避免了诸如状态反转等假设。其他策略包括使用AgentGen[34]和AgentTuning[35]等系统在人工标注或GPT-4提炼的数据上进行训练，以生成轨迹数据。同时，强化学习方法利用离线算法以及通过奖励模型和反馈进行迭代优化，以提高在现实环境中的效率和性能[36,37]。

基于大语言模型的多智能体利用多个专业智能体的集体智慧，通过协作规划、讨论和决策模拟复杂的现实世界环境，从而具备比单智能体系统更先进的能力。这种方法利用了大语言模型的通信优势和特定领域的专业知识，使不同的智能体能够有效地交互，就像人类团队处理问题解决任务一样[38,39]。最近的研究强调了其在各个领域的有前景的应用，包括软件开发[40,41]、多机器人系统[42,43]、社会模拟[44]、政策模拟[45]和游戏模拟[46]。

本研究的主要贡献如下：

1. 我们展示了一个对比表格，对比了2019年至2025年间开发的基准，这些基准在多个领域对大语言模型和自主人工智能智能体进行严格评估。
2. 我们提出了一种对约60个大语言模型和人工智能智能体基准的分类法，包括通用和学术知识推理、数学问题解决、代码生成和软件工程、事实基础和检索、特定领域评估、多模态和具身任务、任务编排以及交互式和智能评估。
3. 我们介绍了2023年至2025年间著名的人工智能智能体框架，这些框架将大语言模型与模块化工具包相结合，实现自主决策和多步推理。
4. 我们提供了自主人工智能智能体在各个领域的应用，包括材料科学和生物医学研究、学术创意和软件工程、合成数据生成和化学推理、数学问题解决和地理信息系统，以及多媒体、医疗保健和金融领域。
5. 我们研究了智能体间协作协议，即智能体通信协议（ACP）、模型上下文协议（MCP）和智能体对智能体协议（A2A）。
6. 我们概述了对自主人工智能智能体未来研究的建议，特别是先进的推理策略、多智能体大语言模型（LLM）系统中的故障模式、自动科学发现、通过强化学习进行动态工具集成、集成搜索能力以及智能体协议中的安全漏洞。

图1展示了本综述的结构。第二节介绍相关工作。第三节对最先进的大语言模型和智能人工智能基准进行了对比表格展示。第四节回顾了跨多个领域的人工智能智能体框架、人工智能智能体应用、人工智能智能体协议和训练数据集。第五节强调了几个关键的研究方向。最后，第六节对论文进行总结。

二、相关工作

由大语言模型驱动的自主人工智能智能体这一不断发展的领域，激发了多个领域的广泛研究努力。在本节中，我们回顾了最相关的研究，这些研究探讨了基于大语言模型的智能体在软件工程中的集成、提出智能体架构和评估框架、探索多智能体系统的发展，以及研究特定领域的应用，包括医疗保健、博弈论场景、图形用户界面交互、个人助理、科学发现和化学领域。

（一）软件工程中基于大语言模型的智能体

Wang等人[47]进行了一项综述，将基于大语言模型（LLM）的智能体技术与软件工程（SE）联系起来。它强调了大语言模型如何在各个领域取得显著成功，并已被集成到软件工程任务中，通常是在智能体范式下，无论是显式还是隐式的。该研究提出了一个用于软件工程中基于大语言模型的智能体的结构化框架，包括三个主要模块：感知、记忆和行动。Jin等人[48]研究了大语言模型（LLMs）和基于大语言模型的智能体在软件工程中的应用，区分了大语言模型的传统能力和自主智能体提供的增强功能。它强调了大语言模型在代码生成和漏洞检测等任务中的显著成功，同时也指出了它们的局限性，特别是基于大语言模型的智能体旨在克服的自主性和自我改进问题。该论文对当前在六个关键领域的实践进行了广泛回顾：需求工程、代码生成、自主决策、软件设计、测试生成和软件维护。在一项补充研究中，Jin等人[48]研究了大语言模型（LLMs）和基于大语言模型的智能体在软件工程中的应用，区分了大语言模型的传统能力和自主智能体提供的增强功能。它强调了大语言模型在代码生成和漏洞检测等任务中的显著成功，同时也指出了它们的局限性，特别是基于大语言模型的智能体旨在克服的自主性和自我改进问题。该论文对当前在六个关键领域的实践进行了广泛回顾：需求工程、代码生成、自主决策、软件设计、测试生成和软件维护。

（二）智能体架构和评估框架

Singh等人[49]深入研究了智能检索增强生成（Agentic RAG），这是传统检索增强生成系统的复杂演进，增强了大语言模型（LLMs）的能力。虽然大语言模型通过类似人类的文本生成和语言理解改变了人工智能，但它们对静态训练数据的依赖往往导致过时或不准确的响应。该论文通过在RAG框架中嵌入自主智能体来解决这些局限性，实现动态、实时的数据检索和自适应工作流程。它详细介绍了智能设计模式，如反思、规划、工具利用和多智能体协作，如何使这些系统能够管理复杂任务并支持多步推理。该综述提供了智能RAG架构的全面分类法，突出了在各个领域的关键应用，包括医疗保健、金融和教育，并概述了实际的实施策略。

与这种架构视角相辅相成的是，Yehudai等人[50]通过对由大语言模型（LLMs）驱动的智能体的评估方法进行综述，在人工智能领域具有重要意义。它全面回顾了这些智能体的能力，重点关注核心功能，如规划、工具利用、自我反思和记忆，同时评估了从网络交互到软件工程和对话任务等专业应用。作者通过研究针对特定领域应用的针对性基准和为更通用智能体设计的基准，揭示了开发更严格、动态更新的评估框架的明显趋势。此外，该论文批判性地强调了该领域现有的缺陷，特别是需要更有效地衡量成本效益、安全性和稳健性的指标。通过这样做，它描绘了当前智能体评估的现状，并为未来的研究提出了引人注目的方向，强调了在快速发展的人工智能领域中可扩展和细粒度评估技术的重要性。

同样，Chen等人[51]关注角色扮演智能体（RPAs），这是一类不断发展的基于大语言模型的智能体，能够在各种任务中模仿人类行为。认识到评估这类多样化系统的固有挑战，作者系统地回顾了2021年1月至2024年12月期间发表的1676篇论文。他们的广泛分析确定了当前文献中普遍存在的六个关键智能体属性、七个任务属性和七个评估指标。基于这些见解，该论文提出了一种基于证据、可行且可推广的评估指南，旨在规范角色扮演智能体的评估。

（三）多智能体系统

Yan等人[52]对将大语言模型集成到多智能体系统（MAS）中进行了全面综述。他们的工作强调了以通信为中心的方面，使智能体能够进行合作和竞争交互，从而处理单个智能体无法管理的任务。该论文研究了系统级特征、内部通信机制以及挑战，包括可扩展性、安全性和多模态集成。在一项相关研究中，Guo等人[38]对基于大语言模型的多智能体系统进行了广泛概述，描绘了从单智能体决策到协作框架的演变，这些框架增强了集体问题解决和世界模拟能力。在另一项相关研究中，Guo等人[38]基于大语言模型（LLMs）在自主规划和推理方面的成功，对基于大语言模型的多智能体系统进行了广泛概述。作者详细介绍了从单智能体决策到协作多智能体框架的演变如何在复杂问题解决和世界模拟方面取得显著进展。研究了这些系统的关键方面，包括它们模拟的领域和环境、单个智能体采用的分析和通信策略，以及支撑其集体能力增强的机制。

（四）特定领域应用

1. 医疗保健：Wang等人[28]探讨了基于大语言模型的智能体对医疗保健的变革性影响，详细回顾了它们的架构、应用和固有挑战。它剖析了医疗智能体系统的核心组件，如系统配置文件、临床规划机制和医学推理框架，同时还讨论了增强外部能力的方法。主要应用领域包括临床决策支持、医疗文档记录、培训模拟以及整体医疗服务优化。该综述进一步使用既定框架和指标评估了这些智能体的性能，确定了持续存在的挑战，如幻觉管理、多模态集成和伦理考量。
2. 博弈论场景中的社会智能体：Feng等人[53]对博弈论场景中基于大语言模型的社会智能体的研究进行了综述。这一领域在评估人工智能系统的社会智能方面日益受到关注。作者将文献分为三个主要部分。首先，研究了博弈框架，突出了各种以选择和通信为重点的场景。其次，论文探索了社会智能体的属性，研究了它们的偏好、信念和推理能力。第三，它讨论了结合通用博弈和特定博弈指标的评估协议，以评估性能。通过综合当前研究并概述未来研究方向，该综述为进一步发展和系统评估博弈论背景下的社会智能体提供了有价值的见解。
3. 图形用户界面智能体：Zhang等人[54]回顾了基于大语言模型的图形用户界面智能体，这标志着通过集成多模态大语言模型在人机交互方面的范式转变。它追溯了图形用户界面自动化的历史演变，详细介绍了自然语言理解、代码生成和视觉处理的进步如何使这些智能体能够解释复杂的图形用户界面（GUI）元素，并根据对话命令执行多步任务。该综述系统地研究了这些系统的核心组件，包括现有框架、用于训练的数据收集和利用方法，以及为图形用户界面任务开发的专门大规模行动模型。
4. 个人大语言模型智能体：Li等人[55]通过关注深度集成个人数据和设备以提供增强个人助理服务的个人大语言模型智能体，探索了智能个人助理（IPAs）的发展。作者概述了传统智能个人助理的局限性，包括对用户意图的理解不足、任务规划和工具利用方面的问题，这些问题阻碍了它们的实用性和可扩展性。相比之下，像大语言模型这样的基础模型的出现，通过利用先进的语义理解和推理进行自主问题解决，提供了新的可能性。该综述系统地回顾了个人大语言模型智能体的架构和设计选择，并参考了专家意见，研究了与智能、效率和安全性相关的关键挑战。此外，它全面分析了应对这些挑战的代表性解决方案，为个人大语言模型智能体成为下一代终端用户软件的主要范式奠定了基础。
5. 科学发现：Gridach等人[21]探索了智能人工智能在科学发现中的变革性作用，强调了其自动化和增强研究过程的潜力。它回顾了这些系统如何凭借推理、规划和自主决策能力，彻底改变传统研究活动，包括文献综述、假设生成、实验设计和数据分析。该论文通过对现有智能人工智能系统和工具进行分类，突出了多个科学领域的最新进展，如化学、生物学和材料科学。它详细讨论了该领域使用的关键评估指标、实施框架和数据集，为当前实践提供了有价值的见解。此外，该论文批判性地探讨了重大挑战，包括自动化全面文献综述、确保系统可靠性和解决伦理问题。它概述了未来的研究方向，强调了人机协作和改进系统校准的重要性。
6. 化学：Ramos等人[56]研究了大语言模型（LLMs）在化学领域的变革性影响，重点关注它们在分子设计、性质预测和合成优化中的作用。它强调了大语言模型不仅通过自动化加速科学发现，还讨论了基于大语言模型的自主智能体的出现。这些智能体通过与环境交互并执行诸如文献抓取、自动化实验室控制和合成规划等任务，扩展了大语言模型的功能。除了化学领域，该综述还考虑了在其他科学领域的应用。

（五）与我们综述的比较

表1展示了现有工作如何涵盖关键主题、基准、人工智能智能体框架、人工智能智能体应用、人工智能智能体协议以及与我们的综述相比的挑战和未解决问题的综合观点。虽然先前的研究通常集中在一两个方面（例如，Yehudai等人[50]关注评估基准，Singh等人[49]关注RAG架构，Yan等人[52]关注多智能体通信，或Wang等人[28]关注特定领域的应用），但没有一项研究在单一、统一的处理中整合所有方面的发展。相比之下，我们的综述首次系统地结合了最先进的基准、框架设计、应用领域、通信协议，以及对挑战和未解决问题的前瞻性讨论，从而为研究人员推进基于大语言模型的自主人工智能智能体提供了全面的路线图。

三、大语言模型和智能人工智能基准

本节全面概述了2019年至2025年间开发的基准，这些基准在多样且具有挑战性的领域中严格评估大语言模型（LLMs）。例如，ENIGMAEVAL[57]通过要求合成文本和视觉线索来评估复杂的多模态谜题解决能力，而ComplexFuncBench[59]则通过多步函数调用任务挑战模型，这些任务反映了现实世界的场景。人类最后考试（Humanity's Last Exam，HLE）[60]通过提出涵盖广泛学科的专家级学术问题，进一步提高了评估标准，这反映了对更深入推理和特定领域熟练程度的日益增长的需求。其他框架，如FACTS Grounding[61]和ProcessBench[62]，则仔细审查模型生成符合事实的长格式响应的能力，以及检测多步推理中错误的能力。与此同时，创新的评估范式，如Agent-as-a-Judge[64]、JudgeBench[65]和CyberMetric[75]，提供了对网络安全能力和错误检测能力的细致洞察。表3、表2全面概述了2024年至2025年间开发的基准。

基准/数据集	年份	评估重点	关键特征/指标	创新/技术	观察结果
ENIGMAEVAL[57]	2025	多模态推理	包含1184个结合文本和图像的谜题；最先进的系统在标准谜题上的得分仅约7%，在最难的谜题上则失败。	使用来自全球竞赛的具有挑战性的谜题评估多模态和长上下文推理。	推动模型进入非结构化、创造性的问题解决场景，需要整合视觉和语义线索。
MMLU基准[58]	2021	多任务知识	由57个不同任务组成（从基础数学到专业法律），测试零样本和少样本性能。	评估广泛的世界知识和问题解决技能；揭示校准挑战以及程序性知识和陈述性知识之间的不平衡。	专为通用多任务语言理解而设计，无需进行特定任务的微调。
ComplexFuncBench[59]	2025	函数调用	在超过1000个场景中，评估具有多步操作且输入长度可达128k令牌的复杂函数调用任务。	引入了用于函数调用的自动评估框架（ComplexEval），测试对隐含参数和约束的推理。	突出了封闭模型（如Claude 3.5、GPT-4）和开放模型（如Qwen 2.5、Llama 3.1）之间的性能差异。
人类最后考试（HLE）[60]	2025	学术推理	有3000个问题，涵盖100多个学科，包括多模态挑战。	由近1000名专家通过全球合作努力开发；包括选择题和简答题两种形式，答案可验证。	揭示了显著的性能差距，因为最先进的大语言模型得分低于10%，是评估学术推理的关键工具。
FACTS Grounding[61]	2023	事实基础	包含1719个示例，要求根据源文档生成详细响应，输入长度可达32000令牌。	采用两阶段评估（资格评估和事实基础评估），由前沿大语言模型评判进行评估。	专注于事实准确性和信息合成，排除创造性或复杂推理任务。
ProcessBench[62]	2024	错误检测	由3400个数学问题案例组成，每个案例都有逐步解决方案和人工标注的错误位置。	评估模型检测推理中最早错误的能力；比较过程奖励模型和基于大语言模型的评判。	针对数学问题解决中的细致错误检测。
OmniDocBench[63]	2024	文档理解	一个多源数据集，涵盖九种文档类型，具有19种布局类别和14个属性标签。	提供详细的多层次评估框架，用于文档内容提取，对比模块化管道和端到端方法。	解决文档处理中诸如模糊扫描、水印和复杂布局等挑战。
Agent-as-a-Judge[64]	2024	评估方法	在55个代码生成任务上进行评估，有365个分层用户需求。	利用智能体系统提供细致的中间反馈；与人类判断的一致性高达90%。	减少智能体系统评估的成本和时间，特别是在代码生成任务中。
JudgeBench[65]	2024	判断评估	由350对具有挑战性的响应组成，涵盖知识、推理、数学和编码领域。	将现有数据集转换为基于客观正确性的配对比较，通过双重评估减轻位置偏差。	旨在客观评估基于大语言模型的评判；微调可显著提高评判准确性。
SimpleQA[66]	2023	事实问答	包含4326个跨领域的事实性问题；采用严格的三级评分系统。	专注于评估事实准确性，并通过重复测试揭示模型对错误响应的过度自信。	突出了当前在处理简单事实性查询方面的局限性。
FineTasks[67]	2023	多语言任务选择	评估185个候选任务，涉及九种语言，最终选择96个可靠任务；总共支持超过550个任务。	采用单调性、低噪声、非随机性能和模型排序一致性等指标评估任务质量。	提供可扩展的多语言评估平台，突出任务制定的影响。
FRAMES[68]	2024	检索与推理	由824个多跳问题组成，需要整合2 - 15篇维基百科文章的信息。	统一评估事实准确性、检索和推理；为问题标注特定的推理类型（如数值、表格）。	基线实验表明，从无检索时的40%准确率提高到多步检索时的66%。
DABStep[69]	2025	基于步骤的推理	一种用于多步推理任务的基于步骤的方法；最佳模型的成功率仅为16%。	将复杂问题解决分解为离散步骤，进行迭代优化和自我纠正。	突出了训练用于复杂迭代推理的模型面临的重大挑战。

（一）ENIGMAEVAL基准

ENIGMAEVAL[57]是一个基准，旨在使用源自全球竞赛的具有挑战性的谜题，严格评估先进语言模型的多模态和长上下文推理能力。该数据集包含1184个复杂谜题，这些谜题结合了文本和图像，要求模型合成不同的线索，进行多步演绎推理，并整合视觉和语义信息，以得出明确、可验证的解决方案。与专注于结构良好的学术任务的传统基准不同，ENIGMAEVAL将模型推向非结构化、创造性的问题解决场景，在这些场景中，即使是最先进的系统在标准谜题上的准确率也仅约为7%，在最难的谜题上则会失败。

（二）MMLU基准

测量大规模多任务语言理解（Measuring Massive Multitask Language Understanding，MMLU）[58]是Hendrycks等人（2021年）设计的一个全面基准，用于评估大语言模型在从基础数学到专业法律等各种学科中的能力。该基准由57个任务组成，测试模型在零样本和少样本设置下应用广泛世界知识和问题解决技能的能力，强调无需特定任务微调的泛化能力。该研究还揭示了与模型校准相关的挑战，以及程序性知识和陈述性知识之间的不平衡，突出了当前模型在达到专家级熟练程度方面的关键不足领域。

（三）ComplexFuncBench基准

Zhong等人[59]引入了ComplexFuncBench，这是一个新颖的基准，旨在评估大语言模型（LLMs）在现实世界场景中的复杂函数调用任务。与以前的基准不同，ComplexFuncBench通过在单轮中进行多步操作、遵守用户施加的约束、对隐含参数值进行推理以及处理可能超过500令牌（包括上下文窗口可达128k令牌的场景）的大量输入长度来挑战模型。作为该基准的补充，作者提出了一个自动评估框架ComplexEval，它从函数调用的五个不同方面对1000多个场景进行定量评估。实验结果揭示了当前最先进大语言模型的显著局限性，封闭模型如Claude 3.5和OpenAI的GPT-4优于开放模型，如Qwen 2.5和Llama 3.1。值得注意的是，该研究发现了常见问题，包括多步函数调用中的值错误和提前终止，强调了在实际应用中进一步研究提高大语言模型函数调用能力的必要性。

（四）人类最后考试（HLE）基准

Phan等人[60]引入了人类最后考试（HLE），这是一个旨在通过专家级学术任务挑战大语言模型极限的基准。与传统基准（如MMLU，大语言模型在其中的准确率已超过90%）不同，HLE提出了一个要求高得多的测试，其特点是有3000个问题，涵盖100多个学科，包括数学、人文科学和自然科学。这个基准是全球合作的成果，来自500多个机构的近1000名主题专家贡献了问题，这些问题既是多模态的，又难以通过互联网快速检索到，确保只有真正深入的学术理解才能取得成功。这些任务包括选择题和简答题两种形式，答案明确且可验证，这暴露了一个巨大的性能差距：当前最先进的大语言模型，如DeepSeek R1、OpenAI的模型、谷歌DeepMind Gemini Thinking和Anthropic Sonnet 3.5，准确率低于10%，并且存在高校准误差，表明对错误响应过于自信。结果强调，虽然现有基准可能不再能有效衡量进展，但HLE是评估大语言模型真正学术推理能力的关键工具，随着该领域朝着更具挑战性和细致入微的评估方向发展，这可能预示着基准设计的新时代，以追求通用人工智能。

（五）FACTS Grounding基准

谷歌DeepMind推出了FACTS Grounding[61]，这是一个全面的基准，旨在评估大语言模型在基于提供的源文档生成准确长格式响应的同时，避免产生幻觉的能力。该基准包含1719个精心制作的示例，分为860个公开案例和859个私人案例，要求模型严格根据相应的上下文文档生成详细答案，输入长度可达32000令牌。涵盖医学、法律、技术、金融和零售等多个领域，FACTS Grounding排除了需要创造力、数学或复杂推理的任务，专注于事实准确性和信息合成。为确保评估的稳健性和无偏性，响应通过两个阶段进行评估：资格评估和事实基础评估，由一组三个前沿大语言模型评判（Gemini 1.5 Pro、GPT-4o和Claude 3.5 Sonnet）进行评估，最终分数由这些评估的汇总得出。在Kaggle上托管的在线排行榜已经有了初步结果，例如，Gemini 2.0 Flash以83.6%的准确率领先，FACTS Grounding旨在推动行业在基础和事实性方面的进步，最终在大语言模型应用中建立更高的信任和可靠性。

（六）ProcessBench基准

Qwen团队[62]推出了ProcessBench，这是一个专门设计用于评估语言模型在数学问题解决推理过程中检测错误能力的新颖基准。ProcessBench包含3400个测试案例，主要来自竞赛和奥林匹克级别的数学问题，每个案例都包括详细的逐步解决方案和人工标注的错误位置。模型的任务是识别最早的错误步骤或确认所有步骤都是正确的，从而对其推理准确性进行细致评估。该基准用于评估两类模型：过程奖励模型（PRMs）和评判模型，后者涉及被促使对每个解决方案步骤进行评判的通用大语言模型（LLMs）。实验结果揭示了两个关键发现。第一，现有的过程奖励模型通常无法泛化到标准数据集（如GSM8K和MATH）之外更具挑战性的数学问题，与基于大语言模型的评判模型和在更大、更复杂的PRM800K数据集上微调的过程奖励模型相比，往往表现较差。第二，测试的最佳开源模型QwQ-32B-Preview，其错误检测能力可与专有模型GPT-4o相媲美，尽管与推理专业模型（如o1-mini）相比仍有差距。

（七）OmniDocBench基准

Ouyang等人[63]推出了OmniDocBench，这是一个全面的多源基准，旨在推进自动化文档内容提取，这是大语言模型和检索增强生成系统高质量数据需求的关键组成部分。OmniDocBench具有一个经过精心策划和注释的数据集，涵盖九种不同的文档类型，包括学术论文、教科书、幻灯片、笔记和财务文档，并使用具有19种布局类别和14个属性标签的详细评估框架来促进多层次评估。通过对现有模块化管道和多模态端到端方法的广泛对比分析，该基准显示，虽然专业模型（如Nougat）在标准文档上优于通用视觉语言模型（VLMs），但通用视觉语言模型在具有挑战性的场景（如涉及模糊扫描、水印或彩色背景的场景）中表现出更强的弹性和适应性。此外，用特定领域的数据对通用视觉语言模型进行微调可提高性能，例如在公式识别任务中（如GPT-4o、Mathpix和UniMERNet等模型的准确率达到约85 - 86.8%）和表格识别任务中（RapidTable的准确率为82.5%），高准确率得分证明了这一点。尽管如此，研究结果也突出了持续存在的挑战，特别是复杂的列布局仍然会降低所有评估模型的阅读顺序准确性。

（八）Agent-as-a-Judge

Meta团队提出了Agent-as-a-Judge框架[64]，这是一种创新的评估方法，专门为智能体系统设计，克服了传统方法的局限性，传统方法要么只关注结果，要么需要大量人工劳动。该框架通过利用智能体系统评估其他智能体系统，在任务解决过程中提供细致的中间反馈。作者在代码生成任务中使用DevAI展示了其有效性，DevAI是一个新的基准，包含55个现实的自动人工智能开发任务，并标注了365个分层用户需求。他们的评估表明，Agent-as-a-Judge不仅大大优于传统的以大语言模型作为评判的方法（通常与人类评估的对齐率为60 - 70%），而且与人类判断的对齐率达到了令人印象深刻的90%。此外，这种方法还节省了大量成本和时间，将评估成本降低到约2.29%（30.58美元对比1297.50美元），并将评估时间缩短到118.43分钟，而人工评估需要86.5小时。

（九）JudgeBench基准

Tan等人[65]提出了JudgeBench，这是一个新颖的基准，旨在客观评估基于大语言模型的评判模型。这些评判模型越来越多地用于评估和改进大语言模型的输出，重点在于它们准确辨别事实和逻辑正确性的能力，而不仅仅是与人类风格偏好保持一致。与主要依赖众包人类评估的先前基准不同，JudgeBench利用一组精心构建的350对具有挑战性的响应，涵盖知识、推理、数学和编码领域。该基准采用一种新颖的管道，将具有挑战性的现有数据集转换为基于客观正确性的带有偏好标签的配对比较，同时通过交换顺序的双重评估减轻位置偏差。对各种评判架构（包括提示式、微调式、多智能体评判和奖励模型）的全面测试表明，即使是强大的模型（如GPT-4o），在需要严格检测中间推理步骤错误的任务上，其表现往往仅略优于随机猜测。此外，微调可以显著提高性能，如Llama 3.1 8B模型的准确率提高了14%，奖励模型的准确率在59 - 64%之间。

（十）SimpleQA基准

SimpleQA[66]是OpenAI推出的一个基准，用于评估和提高大语言模型在简短事实性问题上的事实准确性。它包含4326个问题，涵盖科学/技术、政治、艺术和地理等领域，SimpleQA要求模型在严格的三级评分系统（"正确"、"错误"或"未尝试"）下给出单个正确答案。虽然基于TriviaQA和Natural Questions等基础数据集构建，但SimpleQA对大语言模型来说是一个更具挑战性的任务。早期结果表明，即使是先进的模型，如OpenAI o1-preview，准确率也仅为42.7%（Claude 3.5 Sonnet的准确率更低，为28.9%），并且模型往往对其错误响应表现出过度自信。此外，将同一问题重复100次的实验揭示了答案频率与总体准确率之间的强相关性。因此，这个基准为了解大语言模型在处理简单事实性查询方面的当前局限性提供了关键见解，强调了在可靠的事实数据基础上改进模型输出的必要性。

（十一）FineTasks

FineTasks[67]是一个数据驱动的评估框架，旨在系统地选择可靠的任务，以评估不同语言的大语言模型。作为更广泛的FineWeb多语言计划的第一步，FineTasks基于四个关键指标评估候选任务：单调性、低噪声、非随机性能和模型排序一致性，以确保稳健性和可靠性。在一项广泛的研究中，Hugging Face团队在九种语言（包括中文、法语、阿拉伯语、俄语、泰语、印地语、土耳其语、斯瓦希里语和泰卢固语）中测试了185个候选任务，最终选择了96个涵盖阅读理解、常识知识、语言理解和推理等领域的最终任务。研究进一步揭示，任务的制定对性能有重大影响；例如，完形填空格式的任务在早期训练阶段更有效，而选择题格式在评估结果上表现更好。推荐的评估指标包括大多数任务的长度归一化和复杂推理挑战的点互信息（PMI）。

（十二）FRAMES基准

谷歌团队提出了FRAMES（Factuality, Retrieval, and Reasoning MEasurement Set，事实性、检索和推理测量集）[68]，这是一个全面的评估数据集，专门用于评估基于大语言模型构建的检索增强生成（RAG）系统的能力。FRAMES通过在一个端到端的框架中统一评估事实准确性、检索有效性和推理能力，而不是孤立地评估这些方面，满足了关键需求。该数据集包含824个具有挑战性的多跳问题，涵盖历史、体育、科学和健康等不同主题，每个问题都需要整合2到15篇维基百科文章中的信息。通过为问题标注特定的推理类型，如数值或表格推理，FRAMES提供了一个细致的基准，以识别当前RAG实现的优势和劣势。基线实验表明，像Gemini-Pro-1.5-0514这样的最先进模型在没有检索机制的情况下运行时，准确率仅为40%，但通过多步检索管道，其性能显著提高到66%，提升幅度超过50%。

（十三）DABStep基准

DabStep是Hugging Face开发的新框架[69]，它开创了一种基于步骤的方法，以提高语言模型在多步推理任务上的性能和效率。DabStep通过将复杂的问题解决分解为离散的、可管理的步骤，解决了传统端到端推理的挑战，使模型能够通过步骤级别的反馈和迭代动态调整来优化其输出。这种方法旨在使模型能够自我纠正，并更有效地应对多步推理过程的复杂性。然而，尽管有这些创新改进，实验结果显示，即使是该框架下表现最好的模型，在评估任务上也仅达到16%的成功率。这一较低的准确率凸显了在有效训练用于复杂迭代推理的模型方面仍然存在的重大挑战，也表明需要进一步的研究和优化。

（十四）BFCL v2基准

Mao等人提出了BFCL v2[70]，这是一个新颖的基准和排行榜，旨在使用来自现实世界、用户贡献的数据评估大语言模型的函数调用能力。该基准包含2251个问题 - 函数 - 答案对，能够在从简单的多次函数调用到并行执行和无关性检测等一系列场景中进行全面评估。通过利用真实的用户交互，BFCL v2解决了先前评估方法中普遍存在的数据污染、偏差和泛化能力有限等问题。初步评估显示，Claude 3.5和GPT-4等模型始终优于其他模型，Mistral、Llama 3.1 FT和Gemini的性能次之。然而，一些开源模型，如Hermes，由于潜在的提示和格式挑战而表现不佳。总体而言，BFCL v2为评估大语言模型在与外部工具和API交互方面的实际能力提供了一个严格且多样化的平台，从而为函数调用和交互式人工智能系统的未来发展提供了有价值的见解。

（十五）SWE-Lancer基准

OpenAI团队推出了SWE-Lancer[71]，这是一个创新的基准，由从Upwork收集的1400多个自由软件开发任务组成，代表了超过100万美元的现实世界报酬。这个基准涵盖了独立工程任务，从修复小错误到价值高达32000美元的重要功能实现，以及管理任务，在管理任务中模型必须选择最佳的技术提案。独立任务由经验丰富的工程师进行三次验证的端到端测试进行严格评估。同时，管理决策以原始招聘经理的选择为基准进行评估。实验结果表明，像Claude 3.5 Sonnet这样的最先进模型，在处理这些任务时仍然面临困难，独立任务的通过率为26.2%，管理任务的通过率为44.9%，这意味着估计收入为40.3万美元，远低于总可用价值。值得注意的是，分析强调，虽然模型在评估性管理角色中的表现往往优于直接代码实现，但增加推理时间计算可以提高性能。

（十六）综合RAG基准（CRAG）

Yang等人提出了综合RAG基准（Comprehensive RAG Benchmark，CRAG）[72]，这是一个新颖的数据集，旨在严格评估检索增强生成系统的事实问答能力。CRAG包含跨五个领域和八个不同问题类别的4409个问题 - 答案对。它结合了模拟API来模拟网络和知识图谱检索，从而反映现实世界场景中遇到的不同实体流行度和时间动态水平。实证结果表明，没有事实基础的最先进大语言模型在CRAG上的准确率仅约为34%，采用简单的RAG方法可将准确率提高到44%，而行业领先的RAG系统在无幻觉的情况下准确率可达63%。该基准还突出了涉及高度动态、低流行度或更复杂事实的问题的显著性能下降。值得注意的是，CRAG仅专注于评估RAG管道的生成组件，早期发现表明Llama 3 70B在这些任务上的表现几乎与GPT-4 Turbo相当。

（十七）OCCULT基准

Kouremetis等人提出了OCCULT[73]，这是一个新颖且轻量级的操作评估框架，用于严格衡量使用大语言模型（LLMs）进行攻击性网络操作（OCO）时的网络安全风险。传统上，在网络安全中评估人工智能依赖于简单的、非此即彼的测试，如夺旗竞赛，这些测试无法捕捉现代基础设施面临的细微威胁。相比之下，OCCULT使网络安全专家能够通过模拟现实世界的威胁场景来创建可重复且上下文相关的基准。作者详细介绍了三个不同的OCO基准，用于评估大语言模型执行对抗策略的能力，并提供了初步评估结果，表明人工智能驱动的网络威胁有了显著进展。最值得注意的是，DeepSeek-R1模型在大语言模型威胁行为者能力测试（TACTL）中正确回答了超过90%的问题。

（十八）DIA基准

动态智能评估（Dynamic Intelligence Assessment，DIA）[74]作为一种新颖的方法被引入，用于更严格地测试和比较人工智能模型在数学、密码学、网络安全和计算机科学等不同领域的问题解决能力。与传统基准依赖于静态的问题 - 答案对（这往往使模型能够表现一致，或依赖记忆）不同，DIA采用具有可变参数的动态问题模板，以文本、PDF、编译二进制文件、视觉谜题和CTF风格挑战等多种格式呈现。该框架还引入了四个创新指标，用于评估模型在多次尝试中的可靠性和置信度，结果表明，即使是简单的问题，在以不同形式提出时也经常被错误回答。值得注意的是，评估显示，像GPT-4o这样的API模型可能会高估其数学能力，而ChatGPT-4o等模型由于实际工具的使用表现更好，OpenAI的o1-mini在任务适用性的自我评估方面表现出色。使用DIA-Bench对25个最先进的大语言模型进行测试，揭示了在处理复杂任务和自适应智能方面的显著差距，为评估问题解决性能和模型认识自身局限性的能力建立了新的标准。

（十九）CyberMetric基准

Tihanyi等人引入了一系列新颖的多项选择问答基准数据集——CyberMetric-80、CyberMetric-500、CyberMetric-2000和CyberMetric-10000[75]，旨在严格评估大语言模型的网络安全知识。通过利用GPT-3.5和检索增强生成（RAG），作者从NIST标准、研究论文、公开可访问的书籍和RFC等各种网络安全来源生成问题。每个问题都有四个可能的答案，并经过广泛的错误检查和完善，由人类专家进行了超过200小时的验证，以确保准确性和领域相关性。对25个最先进的大语言模型（LLMs）进行了评估，结果进一步与人类在闭卷场景下对CyberMetric-80的表现进行了基准对比。研究结果显示，GPT-4o、GPT-4-turbo、Mixtral-8x7B-Instruct、Falcon-180B-Chat和GEMINI-pro 1.0等模型表现出卓越的网络安全理解能力，在CyberMetric-80上的表现优于人类，而Llama-3-8B、Phi-2和Gemma-7b等较小的模型则落后，这突出了模型规模和特定领域数据在这个具有挑战性的领域中的价值。

（二十）BIG-Bench Extra Hard

谷歌DeepMind的一个团队通过应对当前推理基准的局限性，解决了评估大语言模型中的一个关键差距，当前的推理基准主要集中在数学和编码任务上。虽然BIGBench数据集及其更复杂的变体BIG-Bench Hard（BBH）提供了对一般推理能力的全面评估，但大语言模型的最新进展导致了饱和度问题，最先进的模型在许多BBH任务上都取得了近乎完美的分数。为了克服这一问题，作者引入了BIG-Bench Extra Hard（BBEH）。这个新颖的基准用更具挑战性的变体替换了每个BBH任务，旨在在更高难度水平上探究类似的推理能力。对BBEH的评估表明，即使是最好的通用模型，平均准确率也仅为9.8%，而推理专业模型的准确率达到44.8%，这表明仍有很大的改进空间，并强调了开发具有强大、通用推理技能的大语言模型所面临的持续挑战。

（二十一）MultiAgentBench基准

Zhu等人引入了MultiAgentBench[77]，这是一个专门设计用于评估由大语言模型驱动的多智能体系统在动态、交互式环境中能力的基准。与传统基准专注于单智能体性能或狭窄领域不同，MultiAgentBench涵盖六个不同领域，包括研究提案写作、Minecraft结构构建、数据库错误分析、协作编码、竞争性狼人杀游戏和资源谈判，使用基于里程碑的性能指标来衡量任务完成情况和智能体协调质量。该研究调查了各种协调协议，如星型、链型、树型和图型拓扑结构，发现直接的对等通信和认知规划特别有效——当采用规划时，里程碑达成率提高了3%，同时也注意到增加更多智能体可能会降低性能。在评估的模型（GPT4o-mini、3.5和Llama）中，GPT-4o-mini获得了最高的平均任务分数，并且在研究场景中，基于图的协调协议优于其他结构。

（二十二）GAIA基准

GAIA是一个开创性的基准[78]，旨在评估通用人工智能助手在现实世界问题上的表现，这些问题涉及推理、多模态处理、网页浏览和工具使用等基本能力。与传统基准专注于越来越专业化的任务不同，GAIA包含概念上简单的问题，人类的准确率可达92%，而当前的系统，如配备插件的GPT-4，在这些问题上却表现不佳，准确率仅为15%。GAIA由466个精心策划的问题和参考答案组成，它将评估范式转向衡量人工智能在日常推理任务中的稳健性，这是实现真正通用人工智能（AGI）的关键一步。人类和最先进模型之间的巨大性能差距强调了需要能够模仿普通人类问题解决者通用、灵活推理的人工智能系统。

（二十三）CASTLE基准

Dubniczky等人引入了CASTLE[79]，这是一个新颖的基准框架，用于评估软件漏洞检测方法，解决了现有方法的关键弱点。CASTLE使用精心策划的包含250个微基准程序的数据集，评估13种静态分析工具、10个大语言模型和两种形式验证工具，这些程序涵盖25种常见的CWE（通用弱点枚举）。该框架提出了一种新的评估指标——CASTLE分数，以便在不同方法之间进行公平比较。结果显示，虽然像ESBMC这样的形式验证工具能将误报率降至最低，但它们在处理超出模型检查范围的漏洞时存在困难。静态分析器经常产生过多的误报，给开发人员带来手动验证的负担。大语言模型在小代码片段上表现出色，但随着代码规模的增长，其准确率下降，幻觉增加。这些发现表明，尽管存在当前的局限性，大语言模型在集成到代码完成框架中仍具有巨大潜力，能够提供实时的漏洞预防，这是迈向更安全软件系统的重要一步。

（二十四）SPIN-Bench基准

Yao等人引入了一个全面的评估框架SPIN-Bench[80]，突出了人工智能智能体在战略规划和社会推理方面面临的挑战。与传统基准专注于孤立任务不同，SPIN-Bench结合了经典规划、竞争性棋盘游戏、合作纸牌游戏和谈判场景，以模拟现实世界的社会互动。这种多方面的方法揭示了当前大语言模型（LLMs）的显著性能瓶颈，尽管这些模型擅长事实检索和短距离规划，但在深度多跳推理、空间推理和社会协调决策方面存在困难。例如，模型在像井字棋这样的简单任务上表现尚可，但在像国际象棋或外交风云这样的复杂环境中则表现不佳，即使是最好的模型在经典规划任务上的准确率也仅约为58.59%。

（二十五）τ-bench

Yao等人提出了τ-bench[81]，这是一个基准，旨在评估语言智能体在模拟现实世界环境的真实、动态、多轮对话场景中的表现。在τ-bench中，智能体面临的挑战是与模拟用户互动，理解需求，利用特定领域的API工具（如预订航班或退货），并遵守提供的政策指南，性能通过将最终数据库状态与注释的目标状态进行比较来衡量。一种新颖的指标passk被引入，用于评估多次试验中的可靠性。实验结果表明，即使是像GPT-4o这样最先进的函数调用智能体，在不到50%的任务上取得成功，并且存在显著的不一致性（例如，在零售领域pass8分数低于25%），对于需要多次数据库写入的任务，成功率明显更低。这些结果强调了需要增强方法，以提高语言智能体在现实世界应用中的一致性、规则遵守性和整体可靠性。

（二十六）大语言模型基准的讨论与比较

表4广泛概述了2019年至2025年间开发的用于评估大语言模型（LLMs）的基准，涉及多模态能力、任务范围、多样性、推理和智能体行为。早期的基准，如DROP、MMLU、MATH、Codex、MGSM、FACTS Grounding和SimpleQA，主要集中在核心能力上，如离散推理、学术知识、数学问题解决和事实基础。这些开创性的工作为语言理解和推理任务的性能评估奠定了基础，成为后来更复杂基准的比较基线。

随着针对更复杂的智能体和多模态任务的框架出现，基准设计有了显著的发展。例如，PersonaGym和FineTasks引入了动态角色评估和多语言任务选择。GAIA将评估范围扩展到通用人工智能助手任务，而OmniDocBench和ProcessBench则针对文档提取和数学解决方案中的错误检测。此外，MIRAI、AppWorld、VisualAgentBench和ScienceAgentBench探索了多模态和科学发现任务的各个方面。这十年间的发展还包括其他评估，如侧重于安全性（AgentSafetyBench）、发现（DiscoveryBench）、代码生成（BLADE、Dyn-VQA和Agent-as-a-Judge）、司法推理（JudgeBench）和临床决策（MedChain）等方面的评估，以及FRAMES、CRAG、DIA、CyberMetric、TeamCraft、AgentHarm、τ-bench、LegalAgentBench和GPQA等。

2025年的最新基准进一步表明，大语言模型（LLM）评估在深度和广度上有了大幅扩展。ENIGMAEVAL和ComplexFuncBench针对复杂谜题和函数调用任务，而MedAgentsBench和人类最后考试（HLE）则专注于高级医学推理和专家级学术任务。其他基准，如DABStep、BFCL v2、SWE-Lancer和OCCULT，通过纳入多步推理、网络安全和自由软件开发挑战，进一步丰富了评估标准。该表还包括BIG-Bench Extra Hard、MultiAgentBench、CASTLE、EmbodiedEval、SPIN-Bench、OlympicArena、SciReplicate-Bench、EconAgentBench、VeriLA、CapaBench、AgentOrca、ProjectEval、RefactorBench、BEARCUBS、Robotouille、DSGBench、TheoremExplainBench、RefuteBench 2.0、MLGym、DataSciBench、EmbodiedBench、BrowseComp和MLE-bench等。总体而言，这些基准体现了该领域向更全面、更细致的评估指标的转变，支持开发能够应对日益复杂的现实世界挑战的大语言模型。

图2将基准分为学术与通用知识推理、数学问题解决、代码与软件工程、事实基础与检索、特定领域评估、多模态/视觉与具身评估、任务选择以及智能体与交互式评估等类别，展示了在人工智能智能体环境中评估大语言模型所使用的各种任务。

四、人工智能智能体

本节全面概述了2024年至2025年间开发的人工智能智能体框架和应用，重点介绍了将大语言模型与模块化工具相结合以实现自主决策和动态多步推理的变革性方法。所讨论的框架包括LangChain、LlamaIndex、CrewAI和Swarm等，它们将复杂功能抽象为可重用组件，实现上下文管理、工具集成和输出的迭代优化。此外，在图形用户界面控制和智能体推理方面的开创性工作展示了这些系统与外部环境和工具进行实时交互的能力不断增强。

与此同时，本节还介绍了广泛的人工智能智能体应用，涵盖材料科学、生物医学研究、学术创意、软件工程、合成数据生成和化学推理等领域。诸如StarWhisper Telescope System和HoneyComb等系统通过自动化材料科学中的观测和分析任务，彻底改变了操作流程。在生物医学领域，GeneAgent和PRefLexOR等平台通过自我验证和迭代优化，展现出更高的可靠性。此外，SurveyX和Chain-of-Ideas等用于研究创意的创新解决方案，以及用于合成数据生成和化学推理的专业框架，共同凸显了在利用自主人工智能智能体处理复杂现实世界任务方面取得的重大进展。表5概述了人工智能智能体框架。

（一）人工智能智能体框架

人工智能智能体框架是开发智能系统的一种变革性范式，它将大语言模型的强大能力与模块化工具和实用程序相结合，构建自主软件智能体。这些框架将自然语言理解、多步推理和动态决策等复杂功能抽象为可重用组件，简化了原型设计、迭代优化和部署过程。通过将先进的大语言模型与外部工具和专用功能集成，开发人员可以创建既能处理和生成语言，又能适应复杂工作流程和多样操作环境的智能体。

图3展示了一个全面的人工智能智能体框架，其中每个组件在实现自适应、自主决策中都起着关键作用。分配的任务首先通过指定功能来处理，该功能定义了智能体的角色，随后进入策略开发阶段，即规划阶段，智能体在这个阶段将复杂目标分解为可执行的步骤。这一过程得到迭代思维过程的支持，该过程由推理驱动并受提示引导，使智能体能够反思其行动并优化其方法。核心操作支持来自人工智能查询引擎和实用功能，它们与集成知识库交互，确保静态和实时信息都能随时可用。最终，这些元素在智能体执行环境中协同工作，将规划、推理和执行无缝结合，形成一个响应迅速、自我进化的系统。

智能体工作流程将传统的刚性流程转变为动态、自适应系统。如图4所示，这些工作流程从用户界面开始，用户在界面提交查询并收到系统回复。与遵循固定不变规则的确定性工作流程不同，基于智能体的流程涉及人工智能智能体，它们积极制定策略，使用可用工具执行任务，并评估结果。这个从规划到执行再到评估的循环（评估结果标记为满意或不满意），使系统能够更灵活、自主地应对现实世界的挑战。

智能检索增强生成（RAG）将语言模型的先进能力与动态数据检索和处理相结合。如图5所示，该过程从用户界面开始，用户提交查询并生成系统回复。系统首先检查其内部知识库，以确定查询是否已被处理或是否需要更多数据。必要时，查询会被分解为更小的、可管理的子问题，这些子问题会分别被路由并通过检索工具进行处理。这些工具获取相关的外部数据，系统在生成最终输出之前会评估检索到的信息是否适用。这种分层的、基于智能体的方法确保了响应的准确性、上下文感知性，并在整个过程中不断优化。

表6的比较分析表明，检索增强生成（RAG）在生成最新、准确的响应方面非常有效，使其成为医疗保健或法律等领域的理想选择，在这些领域中，精确的特定领域信息至关重要。相比之下，人工智能智能体以其持续学习和自主决策能力脱颖而出，使其能够适应不断变化的环境。当这两种方法结合成智能RAG时，模型受益于RAG基于事实的基础和人工智能智能体的动态适应性，从而产生一个能够最大限度减少错误、通过利用每种方法的最佳方面保持时效性的系统。

1. LangChain：LangChain是一个强大的框架[124]，旨在通过无缝集成大语言模型与各种工具和数据源，简化自主人工智能智能体的开发。在LangChain中，智能体将预打包的组件（如对话式大语言模型（LLMs）、搜索引擎集成和专用实用功能）组合成连贯的工作流程，实现多步推理和决策。开发人员可以通过定义特定的角色、任务和工具来构建自定义智能体，使智能体能够分析给定的提示，为每个子任务选择合适的工具，并迭代优化其响应，直到生成最终答案。图6展示了一个由LangChain驱动的调度智能体的架构，该智能体处理电子邮件请求以执行与日历相关的操作。传入的电子邮件首先被解析，以提取相关内容并将非结构化文本转换为结构化数据。然后，这些数据在定义助手角色的上下文提示的引导下被传递给聊天模型。智能体使用暂存区对请求进行推理，并从预定义的工具集中选择合适的工具（如checkAvailability、initiateBooking或modifyBooking）。这些工具与后端预订API交互以执行请求的操作，实现了由人工智能驱动的无缝调度。
2. LlamaIndex：LlamaIndex框架[125]为构建自主人工智能智能体提供了一个强大而灵活的平台，它通过将大语言模型与外部工具无缝集成来实现这一目标。在这个框架中，基本的人工智能智能体被定义为一个半自主的软件组件，它接收任务和一组工具（从简单的Python函数到完整的查询引擎），并迭代选择合适的工具来处理任务的每个步骤。为了构建这样的智能体，开发人员首先要设置一个干净的Python环境，安装LlamaIndex以及必要的依赖项，然后配置一个大语言模型（例如，通过API密钥使用GPT-4）。接下来，他们将简单函数（如加法和乘法）包装成FunctionTool对象，智能体可以调用这些对象，并使用这些工具实例化一个ReActAgent。当智能体收到任务提示时，它会评估其推理过程，选择一个工具来执行必要的操作，并循环执行这些步骤，直到生成最终答案。这种结构化但动态的方法允许创建可定制的、能够处理复杂任务的智能体工作流程。
3. CrewAI：CrewAI[126]是一个旨在协调自主人工智能智能体团队的框架，每个智能体都有专门的角色、工具和目标，以协作处理复杂任务。该系统围绕四个关键组件进行组织：Crew（负责监督整体操作和工作流程）、AI Agents（充当专门的团队成员，如研究人员、作家和分析师，进行自主决策并分配任务）、Process（管理协作模式和任务分配，以确保高效执行）和Tasks（是具有明确目标的单个任务，有助于实现更大的目标）。CrewAI的关键特性包括基于角色的智能体专业化、自定义工具和API的灵活集成、模仿自然人类交互的智能协作以及支持顺序和并行工作流程的强大任务管理。这些元素共同使得能够创建动态的、可投入生产的人工智能团队，能够在现实世界应用中实现复杂的、多步的目标。
4. Swarm：Swarm是OpenAI开发的一个轻量级实验性库[127]，用于在不依赖Assistants API的情况下构建和管理多智能体系统。Swarm提供了一个无状态抽象，协调智能体交互、函数调用和动态交接的连续循环，提供细粒度的控制和透明度。其关键特性包括：

• 智能体定义：开发人员可以定义多个智能体，每个智能体都配备自己的指令集、指定角色（例如，"销售智能体"）和可用函数，这些函数会被转换为标准化的JSON结构。
• 动态交接：智能体可以根据对话流程或特定函数标准将控制权转移给另一个智能体，只需返回下一个要调用的智能体即可。
• 上下文管理：上下文变量用于在整个对话中初始化和更新状态，确保智能体之间的连续性和有效的信息共享。
• 客户端协调：Client.run()函数通过接收初始智能体、用户消息和上下文来启动和管理多智能体对话，然后返回更新后的消息、上下文变量和最后一个活动智能体。
• 直接函数调用和流式传输：Swarm支持智能体内的直接Python函数调用，并提供实时交互的流式响应。
• 灵活性：该框架设计为与底层OpenAI客户端无关，可与Hugging Face TGI或vLLM托管模型等工具无缝协作。

5. 图形用户界面智能体：Hu等人[128]推出了Claude 3.5 Computer Use，这标志着一个重要的里程碑，它是第一个在公开测试版中通过图形用户界面提供计算机控制的前沿人工智能模型。该研究汇集了一系列多样化的任务，从网络搜索和生产力工作流程到游戏和文件管理，以严格评估模型将自然语言指令和屏幕截图转换为精确桌面操作（如光标移动、点击和按键）的能力。评估框架不仅展示了Claude 3.5前所未有的端到端性能（20个测试用例中有16个成功），还突出了未来需要改进的关键领域，包括改进规划、行动执行和自我批判能力。此外，研究表明性能会受到屏幕分辨率等因素的影响，并且该模型虽然能够执行广泛的操作，但在模仿微妙的人类行为（如自然滚动和浏览）方面仍然存在困难。总体而言，这项初步探索强调了大语言模型通过图形用户界面控制计算机的潜力，同时也指出需要更全面的多模态数据集来捕捉现实世界的复杂性。

Sun等人的论文[145]解决了训练由视觉语言模型（VLMs）驱动的图形用户界面智能体时的一个主要挑战：收集高质量的轨迹数据。传统方法依赖人工监督或通过预定义任务生成合成数据，这些方法要么资源密集，要么无法捕捉现实世界环境的复杂性和多样性。作者提出了OS-Genesis，这是一种新颖的数据合成管道，它颠倒了传统的轨迹收集过程，以克服这些限制。OS-Genesis不是从固定任务开始，而是使智能体能够通过逐步交互探索环境，然后追溯生成高质量任务，并通过轨迹奖励模型确保数据质量。
6. 智能体推理：Wu等人[129]提出了一个新颖的框架，通过将外部工具使用智能体集成到推理过程中，显著增强了大语言模型的推理能力。该方法利用了三个关键智能体：一个用于实时检索相关信息的网络搜索智能体、一个用于执行计算任务的编码智能体和一个在推理过程中构建结构化知识图以跟踪和组织逻辑关系的思维导图智能体。通过动态调用这些专门的智能体，该框架使大语言模型能够执行多步、专家级的问题解决和深入研究，解决了传统内部推理方法的局限性。在具有挑战性的基准测试（如GPQA数据集和特定领域的深入研究任务）上的评估表明，智能体推理大大优于传统的检索增强生成系统和开源模型，突出了其在改进知识合成、测试时可扩展性和结构化问题解决方面的潜力。

OctoTools[130]是一个强大的、无需训练且用户友好的框架，旨在使大语言模型能够处理跨不同领域的复杂推理任务。通过集成封装各种工具功能的标准化工具卡、用于协调高级和低级策略的规划器以及用于有效使用工具的执行器，OctoTools克服了先前方法的局限性，这些方法要么局限于特定领域，要么需要额外的训练数据。在包括MathVista、MMLU-Pro、MedQA和GAIA-Text在内的16个不同任务上进行的验证表明，OctoTools比GPT-4o的平均准确率提高了9.3%，并且在使用相同工具集的情况下，比AutoGen、GPT-Functions和LangChain等框架的性能高出10.6%。全面的分析和消融研究展示了其在任务规划、有效工具集成和多步问题解决方面的优势，使其成为通用复杂推理应用的重要进展。
7. 智能体软件开发工具包（Agents SDK）：OpenAI的智能体软件开发工具包[131]为构建自主的、多步的智能体应用程序提供了一个全面的框架，该框架利用大语言模型的强大功能以及外部工具。这个软件开发工具包抽象了智能体工作流程所需的核心组件，包括智能体本身（配置了指令、工具、交接和防护措施的大语言模型）以及使这些智能体能够执行外部操作（如API调用或计算）的工具。它还支持上下文管理，以在多轮交互中维护状态，支持结构化输出类型以实现可靠的数据交换，并提供诸如流式传输、跟踪和防护措施等高级功能，以确保安全性和可调试性。

（二）人工智能智能体应用

1. 医疗保健应用：医疗保健行业通过整合基于大语言模型的智能体，在广泛的应用中取得了显著进展。在本小节中，我们将近期的发展按照关键类别进行介绍，如图8所示，包括临床诊断和决策支持、心理健康和治疗智能体、用于优化工作流程的通用医疗助手以及制药和药物发现智能体。这些工作展示了人工智能智能体如何越来越多地支持医疗专业人员，提高诊断准确性，改善患者护理，并加速不同医疗保健领域的研究。表7回顾了医疗保健领域的人工智能智能体应用。

• 临床诊断、影像与决策支持：Chen等人引入了诊断链（Chain-of-Diagnosis，CoD），这是一种新颖的方法，旨在增强基于大语言模型的医学诊断的可解释性。通过将诊断过程转化为一个透明的、逐步的链条，模仿医生的推理过程，CoD提供了清晰的推理路径以及疾病置信度分布，通过熵减少来帮助识别关键症状。这种透明的方法不仅使诊断过程可控，还提高了决策的严谨性。利用CoD，作者开发了DiagnosisGPT，这是一个先进的系统，能够诊断9604种疾病。实验结果表明，DiagnosisGPT在诊断基准测试中优于现有的大语言模型，实现了高诊断准确率和增强的可解释性。

Zhou等人提出了ZODIAC，这是一个创新的由大语言模型驱动的框架，将心脏病诊断提升到与专家心脏病学家相当的专业水平。为了解决通用大语言模型（LLMs）在临床环境中的局限性，ZODIAC利用多智能体协作架构来处理多模态的患者数据。每个智能体都使用心脏病学家判定的真实世界患者数据进行微调，确保系统的诊断输出（如提取临床相关特征、心律失常检测和初步报告生成）准确可靠。由独立心脏病学家进行的严格临床验证，并通过八个评估临床有效性和安全性的指标进行评估，结果表明ZODIAC优于行业领先的模型，包括GPT - 4o、Llama - 3.1 - 405B、Gemini - pro，甚至专门的医学大语言模型（如BioGPT）。值得注意的是，ZODIAC成功集成到心电图（ECG）设备中，突出了其改变医疗保健服务的潜力，体现了将大语言模型嵌入软件即医疗设备（SaMD）解决方案的新兴趋势。

Wang等人引入了MedAgent - Pro，这是一个基于证据的智能体系统，旨在通过解决当前多模态大语言模型（MLLMs）的关键局限性来增强多模态医学诊断。虽然多模态大语言模型展示了强大的推理和任务执行能力，但它们在详细的视觉感知和推理一致性方面往往存在困难，而这在临床环境中至关重要。MedAgent - Pro采用分层工作流程：在任务层面，它利用基于知识的推理，根据检索到的临床标准生成可靠的诊断计划；在病例层面，它使用多个工具智能体来处理多模态输入并分析各种指标。最终诊断来自定量和定性证据的综合。在2D和3D医学诊断任务上的全面实验表明，MedAgent - Pro不仅优于现有方法，还提供了更高的可靠性和可解释性，标志着人工智能辅助临床诊断向前迈出了重要一步。

Feng等人引入了M3Builder。这个新颖的多智能体系统实现了医学影像领域机器学习工作流程的自动化，该领域传统上需要专门的模型和工具。M3Builder围绕四个专门的智能体构建，它们协作管理复杂的多步机器学习任务，包括自动化数据处理、环境配置、自包含自动调试和模型训练，所有这些都在一个专门的医学影像机器学习工作空间内完成。为了评估该领域的进展，作者提出了M3Bench，这是一个全面的基准，包含14个训练数据集上的四个通用任务，涵盖五个解剖部位、三种成像模态以及2D和3D数据。使用Claude系列、GPT - 4o和DeepSeek - V3等七个最先进的大语言模型作为智能体核心进行的评估表明，M3Builder明显优于现有的机器学习智能体设计，使用Claude - 3.7 - Sonnet时成功率达到了惊人的94.29%。

Rose等人通过引入模块化可解释的鉴别诊断智能体（Modular Explainable DDx Agent，MEDDxAgent）框架来应对鉴别诊断（DDx）的复杂性，该框架促进交互式、迭代的诊断推理，而不是从一开始就依赖完整的患者档案。针对先前方法的局限性（如在单个数据集上进行评估、孤立组件优化和单次诊断尝试），MEDDxAgent集成了三个模块化组件：一个协调器（DDxDriver）、一个病史采集模拟器以及两个用于知识检索和诊断策略的专门智能体。为确保进行可靠的评估，作者还提出了一个涵盖呼吸、皮肤和罕见疾病的全面鉴别诊断基准。他们的研究结果表明，迭代优化显著提高了诊断准确性，MEDDxAgent在大小型大语言模型上均实现了超过10%的性能提升，同时在推理过程中提供了关键的可解释性。

Ghezloo等人引入了Pathfinder，这是一个新颖的多模态、多智能体框架，旨在在分析全切片图像（WSIs）时复制专家病理学家的整体诊断过程。鉴于全切片图像具有千兆像素规模和复杂结构的特点，Pathfinder采用四个专门的智能体——分诊智能体、导航智能体、描述智能体和诊断智能体，它们协作导航和解释图像数据。分诊智能体首先判断切片是良性还是有风险；如果判定为有风险，导航和描述智能体将迭代聚焦并描述重要区域，生成重要性图和详细的自然语言描述。最后，诊断智能体综合这些发现，提供具有内在可解释性的全面诊断分类。实验结果表明，Pathfinder在皮肤黑色素瘤诊断方面比最先进的方法高出8%，并且显著超过病理学家的平均表现9%，为病理学中准确、高效且可解释的人工智能辅助诊断建立了新的基准。
- 心理健康、咨询与治疗智能体：Wasenmüller等人提出了一种基于脚本的对话策略规划范式，使基于大语言模型的对话智能体能够通过遵循专家编写的治疗脚本并在有限的对话状态集中进行转换，充当人工智能治疗师。通过将脚本视为确定性指南，该方法约束模型的响应，使其与定义的治疗框架保持一致，从而使决策路径对临床评估和风险管理透明。作者实施了该范式的两种变体，使用不同的提示策略，并使用基于大语言模型的患者智能体生成了100个模拟治疗会话。实验结果表明，两种实现都能可靠地遵循脚本策略，提供了关于它们相对效率和有效性的见解，并强调了构建可检查、符合规则的人工智能治疗系统的可行性。

Du等人引入了EvoPatient，这是一个使用大语言模型生成模拟患者的框架，通过多轮诊断对话来培训医疗人员。现有方法主要关注数据检索准确性或提示调整，而EvoPatient强调无监督模拟，以教导患者智能体标准化的呈现模式。在这个系统中，患者智能体和医生智能体进行迭代咨询，每个对话周期既用于训练智能体，又用于收集经验，以优化患者响应和医生问题。在各种临床场景中进行的广泛实验表明，EvoPatient与最先进的方法相比，需求匹配度提高了10%以上，并且获得了更高的人类偏好评分。经过10小时内200个病例模拟的演化后，该框架在资源效率和性能之间实现了最佳平衡，展示了其在可扩展医疗培训方面的强大通用性。

Zhang等人提出了PsyDraw，这是一个由多模态大语言模型驱动的多智能体系统，旨在支持心理健康专业人员分析中国农村留守儿童的房树人（House - Tree - Person，HTP）绘画，用于早期筛查。鉴于临床医生的严重短缺，PsyDraw采用专门的智能体分两个阶段进行详细的特征提取和心理解释：全面分析绘画元素和自动生成专业报告。在对290份小学HTP绘画提交进行评估时，PsyDraw在71.03%的病例中与专家评估高度一致，在26.21%的病例中中度一致，标记出31.03%的儿童需要进一步关注。在试点学校部署后，PsyDraw展示了其作为可扩展初步筛查工具的强大潜力，保持了较高的专业标准，并解决了资源有限环境中的关键心理健康差距。

Lee等人引入了PSYCHE，这是一个全面的框架，用于对基于大语言模型构建的精神病评估对话智能体（Psychiatric Assessment Conversational Agents，PACAs）进行基准测试。认识到精神病评估依赖于临床医生和患者之间细致的多轮互动，PSYCHE使用详细的精神病学构念来模拟患者，该构念指定了他们的档案、病史和行为模式。这种方法能够进行临床相关的评估，确保符合道德的安全检查，便于经济高效的部署，并提供定量评估指标。该框架在一项涉及十名董事会认证精神科医生的研究中得到验证，这些医生对模拟互动进行了审查和评分，展示了PSYCHE严格评估PACAs临床适用性和安全性的能力。

Xu等人针对现有基于大语言模型的认知行为疗法（Cognitive Behavioral Therapy，CBT）系统的局限性（即其僵化的智能体结构和产生冗余、无用建议的倾向），提出了AutoCBT，这是一个用于自动心理咨询的动态多智能体框架。最初，作者使用类似Quora和易心聊模型开发了一个通用的单轮咨询智能体，并在双语数据集上进行评估，以基准化单轮互动中的响应质量。在此基础上，他们引入了模仿现实世界咨询实践的动态路由和监督机制，使智能体能够自我优化并更有效地定制干预措施。实验结果表明，AutoCBT生成的以CBT为导向的响应比固定结构系统的质量更高，突出了其为可能避免面对面治疗的用户提供可扩展、有同理心且情境合适的心理支持的潜力。

Yang等人提出了CAMI，这是一个基于动机性访谈（Motivational Interviewing，MI）的自动对话咨询智能体，动机性访谈是一种以客户为中心的方法，旨在解决矛盾心理并促进行为改变。CAMI的新颖STAR框架集成了三个由大语言模型驱动的模块——客户状态推断、动机主题探索和响应生成，以根据MI原则激发"改变谈话"。通过准确推断客户的情绪和动机状态、探索相关主题并生成有同理心的指导性响应，CAMI促进了对不同人群更有效的咨询。作者使用自动指标和与模拟客户的手动评估对CAMI进行评估，测量MI技能能力、状态推断准确性、主题探索熟练度和整体咨询成功率。结果表明，CAMI优于现有方法，并表现出类似咨询师的真实性，而消融研究突出了状态推断和主题探索模块对其卓越性能的重要贡献。

Steenstra等人针对治疗咨询培训中的挑战，提出了一个创新的由大语言模型驱动的系统，该系统在模拟患者互动期间提供持续、详细的反馈。该框架专注于动机性访谈（一种强调同理心和协作行为改变的咨询方法），具有模拟患者和逐轮表现的可视化功能，以指导咨询师进行角色扮演场景。该系统在专业和学生咨询师中进行了评估，他们报告了较高的可用性和满意度，表明频繁和细致的反馈与传统的间歇性方法相比，可以显著增强学习过程。

Abbasi等人引入了HamRaz，这是第一个为基于大语言模型的以人为中心疗法（Person - Centered Therapy，PCT）量身定制的波斯语数据集，解决了文化和语言上合适的心理健康资源方面的关键差距。认识到现有咨询数据集大多局限于西方和东亚背景，作者通过将脚本化治疗对话与自适应的基于大语言模型的角色扮演相结合，设计了HamRaz，以促进波斯语中的连贯、动态治疗会话。为了严格评估性能，他们提出了HamRazEval，这是一个双评估框架，将通用对话质量指标与巴雷特 - 伦纳德关系清单（Barrett - Lennard Relationship Inventory，BLRI）相结合，以测量治疗关系和有效性。实验比较表明，在HamRaz上训练的大语言模型生成的咨询互动比传统的脚本模式或双智能体模式方法更具同理心、上下文更细致、更真实。
- 通用医疗助手、临床工作流程与决策制定：Yun等人引入了一个端到端框架，用于生成合成用户，以评估旨在促进积极行为改变的交互式智能体，重点关注睡眠和糖尿病管理。该框架首先根据现实世界的健康和生活方式因素、人口统计学和行为属性生成结构化数据。接下来，它基于这些结构化数据创建完整的用户档案。使用生成式智能体模型（如Concordia）或直接提示语言模型来模拟合成用户与健康教练智能体之间的互动。睡眠和糖尿病教练智能体的案例研究表明，合成用户能够通过准确反映用户需求和挑战来实现现实的对话。由人类专家进行的盲法评估证实，这些基于健康的合成用户比通用合成用户更忠实地描绘真实人类用户。这种方法为开发和完善健康和生活方式教练领域的对话智能体提供了一个可扩展且现实的测试平台。

Chen等人针对住院患者路径中临床决策的复杂性，引入了一个新的基准和一个多智能体人工智能框架。作者从MIMIC - IV数据库构建了住院患者路径决策支持（Inpatient Pathway Decision Support，IPDS）基准，该基准包含来自九个分诊部门、17个疾病类别和16个标准化治疗选项的51274个病例，以捕捉住院护理的多方面性质。在此资源的基础上，他们提出了多智能体住院患者路径（Multi - Agent Inpatient Pathways，MAP）框架，该框架采用分诊智能体进行患者入院评估、诊断智能体进行部门级决策以及治疗智能体进行护理规划，所有这些都由一个负责监督整个路径的首席智能体进行协调。在广泛的实验中，MAP在诊断准确性方面比最先进的大语言模型华佗GPT2 - 13B提高了25.10%，并且在临床合规性方面比三名董事会认证的临床医生高出10 - 12%。这些结果展示了多智能体系统支持复杂住院工作流程的潜力，并为未来医院环境中由人工智能驱动的决策支持奠定了基础。
- 制药与药物相关智能体：Wang等人引入了PatentAgent，这是第一个旨在通过利用大语言模型简化药物专利分析的端到端智能体。PatentAgent集成了三个核心模块：用于专利问答的PA - QA、用于将化学结构图像转换为分子表示的PA - Img2Mol以及用于识别核心化学支架的PA - CoreId。PA - Img2Mol在CLEF、JPO、UOB和USPTO专利图像基准上实现了2.46%至8.37%的准确率提升，而PA - CoreId在PatentNetML支架识别任务上实现了7.15%至7.62%的改进。通过在统一框架中结合这些模块，PatentAgent满足了从提取详细实验见解到确定关键分子结构的全方位专利分析需求，为加速药物发现研究和创新提供了强大工具。

Averly等人引入了LIDDiA，这是一个自主的计算机模拟智能体，旨在通过利用大语言模型的推理能力来完成整个药物发现流程。与之前仅处理分子生成或属性预测等单个步骤的人工智能工具不同，LIDDiA协调从靶点选择到先导优化的端到端过程。作者在30个临床相关靶点上对LIDDiA进行评估，结果表明它在超过70%的情况下生成符合关键药物标准的候选分子。此外，LIDDiA在探索新化学空间和利用已知支架之间展现出智能平衡，并成功识别出有前景的表皮生长因子受体（EGFR，一个主要的肿瘤学靶点）新抑制剂。

Inoue等人提出了一个多智能体框架，旨在通过结合机器学习和知识集成来加速药物再利用。该系统包括三个专门的智能体：一个训练强大的药物 - 靶点相互作用（Drug - Target Interaction，DTI）模型的人工智能智能体、一个从DGIdb、DrugBank、CTD和STITCH等数据库中提取DTI的知识图谱智能体以及一个挖掘生物医学文献以验证计算预测的搜索智能体。通过整合这些智能体的输出，该框架利用多种数据源来识别有前景的药物再利用候选物。初步评估表明，这种方法不仅提高了与现有方法相比的药物 - 疾病相互作用预测的准确性，还减少了与传统药物发现相关的时间和成本。可解释的结果和可扩展的架构展示了多智能体系统在推动生物医学研究创新和效率方面的潜力。

2.材料科学：材料科学领域最近受益于基于大语言模型的智能体的整合，这些智能体有助于自动化复杂的科学工作流程并提高研究效率。在本小节中，我们将重点介绍两项值得关注的进展，包括人工智能智能体在天文观测中的应用，以简化数据收集和分析，以及创建专门的智能体系统来应对材料科学研究中的独特挑战。
-基于大语言模型的天文观测智能体：StarWhisper Telescope System利用基于大语言模型的智能体，简化了附近星系超新星调查（Nearby Galaxy Supernovae Survey，NGSS）项目中天文观测的复杂工作流程。这个创新系统自动化了关键任务，包括生成定制观测列表、启动望远镜观测、实时图像分析以及制定后续观测提案，从而减轻了天文学家的操作负担并降低了培训成本。通过将这些智能体集成到观测过程中，该系统能够高效地验证和发送观测列表，近乎实时地分析瞬态现象，并将结果无缝传达给天文台团队，以便进行后续调度。
-材料科学研究：HoneyComb作为第一个专门为材料科学定制的基于大语言模型的智能体系统被引入，它解决了复杂计算任务和过时隐性知识带来的独特挑战，这些问题通常会导致通用大语言模型出现不准确和幻觉的情况。该系统利用一个从可靠文献中精心策划的新颖高质量材料科学知识库（MatSciKB），以及一个采用归纳工具构建方法来生成、分解和优化专门API工具的复杂工具中心（ToolHub）。此外，检索器模块为每个任务自适应地选择最相关的知识来源和工具，确保高准确性和上下文相关性。

3.生物医学科学：生物医学领域通过开发基于大语言模型的智能体，在支持知识发现、增强推理能力和评估科学文献方面取得了重要进展。在本小节中，我们回顾近期的相关成果，主要聚焦于基因集分析、通过迭代学习提升推理能力，以及利用专门的生物医学基准评估人工智能科学家智能体。
-基因集知识发现：基因集知识发现在推动人类功能基因组学发展中至关重要，然而传统的大语言模型方法常受幻觉等问题困扰。为解决这一问题，Wang等人[134] 引入了GeneAgent，这是一种具有自我验证能力的开创性语言智能体，它能自主与生物数据库交互，并利用专业领域知识提高准确性。在对来自不同来源的1106个基因集进行基准测试时，GeneAgent始终优于标准的GPT-4。经过详细的人工审查证实，其自我验证模块有效减少了幻觉，并生成了更可靠的分析叙述。此外，当将其应用于源自小鼠B2905黑色素瘤细胞系的7个新基因集时，专家评估显示GeneAgent对基因功能提供了新的见解，显著加快了功能基因组学领域的知识发现进程。
-递归学习推理：Buehler等人[135] 提出了一个名为PRefLexOR的框架，该框架将偏好优化与强化学习概念相结合，使语言模型能够通过迭代多步推理实现自我提升。该方法采用递归学习策略，在训练和推理过程中，模型会反复回顾并优化中间推理步骤，然后才生成最终输出。最初，模型通过优化首选和非首选响应之间的对数优势比，使其推理与准确决策路径保持一致，同时通过问题生成和检索增强构建动态知识图谱。在随后的阶段，采用拒绝采样来优化推理质量，通过生成原位训练数据并屏蔽中间步骤，所有这些都在一个促进迭代反馈循环的思维令牌框架内进行。
-生物医学人工智能科学家智能体：Lin等人[165] 引入了BioKGBench，这是一种新颖的基准，旨在从文献理解的角度评估生物医学人工智能科学家智能体。与传统的仅依赖直接问答或生物医学实验的评估方法不同，BioKGBench将"理解文献"这一关键能力分解为两个基本任务：一个是验证研究论文中非结构化文本中的科学主张，另一个是涉及与结构化知识图谱问答（KGQA）进行交互以实现文献基础的任务。基于这些组件，作者提出了一种新的智能体任务，称为KGCheck，它使用基于领域的检索增强生成来识别大规模知识图谱数据库中的事实错误。该研究拥有超过2000个用于基本任务的示例和225个高质量注释样本用于智能体任务，结果显示，当前在日常和生物医学环境中的最先进智能体在这个基准上的表现都较差或未达最佳水平。

4.研究应用：基于大语言模型的智能体正越来越多地被开发用于支持和自动化科学研究过程的各个方面。本小节介绍一些近期的应用，包括协作研究环境、自动生成调查、用于创意的结构化文献分析、数据科学工作流程管理以及人工智能驱动的假设生成。

-大语言模型智能体间的协作研究：Schmidgall和Moor[166] 引入了AgentRxiv，这是一个旨在通过共享预印本服务器实现自主大语言模型智能体实验室之间协作研究的框架。鉴于科学发现本质上是渐进式和协作性的，AgentRxiv允许智能体上传和检索研究报告，从而以迭代的方式分享见解并在先前工作的基础上进行拓展。研究表明，能够访问先前研究的智能体在MATH-500数据集上的性能有显著提升，相比孤立运行的智能体，相对改进了11.4%。此外，表现最佳的协作策略在其他领域也具有通用性，平均改进了3.3%。当多个智能体实验室分享他们的研究结果时，整体准确率相对于基线提高了13.7%。这些发现凸显了自主智能体与人类协作的潜力，为更高效、加速的科学发现铺平了道路。
-自动调查生成：Liang等人[136] 开发了SurveyX平台，该平台利用大语言模型卓越的理解和知识能力，克服了自动调查生成中的关键限制，包括有限的上下文窗口、内容讨论的表面性以及缺乏系统的评估框架。受人类写作过程的启发，SurveyX将调查撰写过程分解为两个不同阶段：准备阶段和生成阶段。在准备阶段，系统整合在线参考检索，并应用一种新颖的预处理方法AttributeTree，有效地构建调查内容的结构。在随后的生成阶段，通过润色过程优化输出，增强所生成研究的深度和准确性，尤其在提高内容质量和引用精度方面效果显著。实验评估表明，SurveyX在内容质量上比现有系统提高了0.259，引用质量提高了1.76，在多个评估维度上其性能已接近人类专家水平。
-为研究创意构建文献结构：Li等人[137] 引入了Chain-of-Ideas（CoI）智能体，这是一种新颖的基于大语言模型的框架，通过将相关文献构建成一个反映研究领域渐进式发展的链条，实现研究创意的自动化。CoI智能体应对了科学文献呈指数级增长带来的挑战，传统的创意生成方法依赖简单提示或让模型接触原始、未经筛选的文本，在这种情况下往往难以应对。通过将信息组织成顺序链条，CoI智能体使大语言模型能够更有效地捕捉当前的研究进展，增强其生成创新研究想法的能力。作为该框架的补充，Idea Arena评估协议从多个角度评估生成想法的质量，与人类研究人员的偏好紧密契合。实验结果表明，CoI智能体优于现有方法，在保持低成本（每个候选想法及相应实验设计约0.50美元）的同时，生成的想法质量可与人类专家相媲美。
-管理数据科学工作流程：Hong等人[167] 提出了Data Interpreter，这是一种基于大语言模型的智能体，旨在解决端到端的数据科学工作流程中的挑战，包括解决长期、相互关联的任务以及适应动态数据环境。与以往专注于单个任务的方法不同，Data Interpreter利用两个关键模块：层次图建模，通过动态节点生成和图优化将复杂问题分解为可管理的子问题；可编程节点生成，迭代优化并验证每个子问题，以提高代码生成的稳健性。大量实验表明，Data Interpreter在性能上有显著提升，在InfiAgent-DABench基准测试中准确率提高了25%（从75.9%提升至94.9%），在机器学习、开放式任务以及MATH数据集上也有改进，凸显了其在管理不断变化的任务依赖关系和实时数据调整方面的卓越能力。
-自动化科学发现：谷歌[168] 推出了AI co-scientist，这是一个基于谷歌DeepMind Gemini 2.0构建的多智能体系统，旨在通过生成和优化新颖的研究假设来实现科学发现的自动化。该框架由七个专门的智能体组成——监督智能体、生成智能体、反思智能体、排名智能体、进化智能体、邻近智能体和元审查智能体，它们协作管理从解析研究目标到进行模拟辩论和组织假设等一系列任务。例如，系统中的排名智能体使用两两Elo锦标赛，使假设质量提高了300多个Elo点。同时，元审查智能体的反馈已被证明能将假设的新颖性得分提高27%。在实际应用中，如急性髓系白血病的药物再利用和肝纤维化的新靶点发现，该框架展示出显著的性能提升，为能够以专家级精度生成和迭代优化科学假设的人工智能系统开辟了道路。

5.软件工程：软件工程已成为基于大语言模型的智能体的重要应用领域，创新涵盖架构设计与验证系统、自适应控制、软件分析以及多智能体协作等方面。本小节介绍近期在广泛任务中的发展，包括智能体编程框架、辅导系统、自动环境配置、可用性测试以及多语言代码生成。图9展示了软件工程中智能体大语言模型应用的分类。

-智能体编程架构：Dong等人[169] 从自动机理论的角度探索大语言模型（LLMs）的提示工程，认为大语言模型可被视为自动机。他们主张，就像自动机必须使用其接受的语言进行编程一样，大语言模型也应在自然语言和形式语言的范围内进行编程。这一观点挑战了传统软件工程实践中对编程语言和自然语言的区分。该论文引入了Ann Arbor Architecture，这是一个为语言模型的面向智能体编程设计的概念框架，作为一种更高级别的抽象，旨在超越基本的令牌生成，增强上下文学习能力。作者还展示了他们的智能体平台Postline，并讨论了在该框架内训练智能体的早期实验结果。
-验证与监督智能体：Jain等人[170] 、Wang等人[171] 和Chen等人[172] 的论文为推动大语言模型在实际软件工程（SWE）任务、智能辅导和代码生成中的应用做出了贡献。Jain等人[170] 引入了AgentGym，这是一个用于训练软件工程智能体的综合环境，解决了可执行环境的可扩展管理和测试时计算资源扩展的挑战。他们的方法利用SYNGEN（一种合成数据管理方法）和混合测试时缩放技术，在SWE-Bench Verified基准测试中提高了性能，达到了51%的通过率，为当前最先进水平。Wang等人[171] 提出了一种新颖的编码辅导框架Trace-and-Verify（TRAVER），结合知识追踪和逐轮验证，增强辅导智能体对任务完成的指导能力。他们的工作引入了DICT，这是一种用于辅导智能体的综合评估协议，证明了在编码辅导成功率方面有显著提升。最后，Chen等人提出了CURA，这是一个通过言语过程监督（VPS）增强的代码理解和推理系统。CURA在BigCodeBench等基准测试中实现了3.65%的性能提升，并且在与o3-mini模型搭配使用时表现更优。这些工作共同拓展了大语言模型在复杂软件工程任务、智能辅导和基于推理的代码生成中的应用边界。
-自适应控制与性能增强：Aggarwal等人[173] 引入了动态动作重采样（Dynamic Action Re-Sampling，DARS），这是一种在编码智能体推理过程中进行计算资源缩放的新颖方法，旨在提升其决策能力。现有方法通常依赖线性轨迹或随机采样，而DARS通过在关键决策点进行分支，并根据先前尝试的历史和执行反馈选择替代动作，增强了智能体的性能。这使得编码智能体能够更有效地从次优决策中恢复，从而实现更快、更高效的问题解决。作者在SWE-Bench Lite基准测试中对DARS进行评估，使用Claude 3.5 Sonnet V2时，取得了令人瞩目的55%的pass@k分数和47%的pass@1通过率，超越了当前最先进的开源框架。这种方法在优化编码智能体性能方面取得了重大进展，减少了对大量手动干预的需求，提高了整体效率。
-代码定位与软件分析：Chen等人[174] 和Gholamzadeh等人[175] 的工作在将大语言模型应用于改进软件工程任务（如代码定位和发布验证）方面取得了重要进展。Chen等人[174] 引入了LocAgent，这是一个用于代码定位的框架，它利用代码库的图表示法。通过将代码解析为有向异构图，LocAgent捕捉了各种代码结构及其依赖关系之间的关系，通过多跳推理实现了更高效、准确的定位。在实际基准测试中，他们的方法在文件级定位上实现了高达92.7%的准确率，GitHub问题解决成功率提高了12%。与最先进的模型相比，LocAgent在显著降低成本的同时提供了相似的性能。另一方面，Gholamzadeh等人[175] 提出了GateLens，这是一种基于大语言模型的工具，旨在改进汽车软件等安全关键系统的发布验证。GateLens通过将自然语言查询转换为关系代数表达式并生成优化的Python代码，实现了测试数据的自动化分析，显著加速了数据处理。在工业评估中，GateLens将分析时间缩短了80%以上，在不同查询类型中展现出强大的稳健性和泛化能力。该工具通过自动化测试结果分析，改进了安全关键环境中的决策制定，从而提高了汽车应用中软件系统的可扩展性和可靠性。
-特定领域软件工程智能体：Hu等人[176] 引入了Repo2Run，这是一种新颖的基于大语言模型的智能体，旨在实现软件开发中环境配置过程的自动化。传统的环境设置方法通常涉及手动操作或依赖不可靠的脚本，这可能导致效率低下和错误。Repo2Run通过完全自动化Python仓库的Docker容器配置来解决这些问题。其关键创新在于原子配置合成和双环境架构，该架构隔离内部和外部环境，防止因失败命令导致的污染。回滚机制确保只有完全执行的配置才会被应用，并且智能体从成功的配置中生成可执行的Dockerfile。在对包含单元测试的420个Python仓库的基准测试中，Repo2Run取得了令人印象深刻的86.0%的成功率，比现有基线高出63.9%。

Lu等人[177] 开发了UXAgent，这是一种使用大语言模型智能体技术和通用浏览器连接器来模拟数千用户进行自动可用性测试的工具。它使用户体验（UX）研究人员能够在吸引参与者之前，通过提供定性见解、定量动作数据和视频记录，快速迭代研究设计。Wang等人[171] 引入了TRAVER（Trace-and-Verify），这是一种新颖的智能体工作流程，它将知识追踪（估计学生不断变化的知识状态）与逐轮验证相结合，确保为任务完成提供有效的逐步指导。除了TRAVER，他们还提出了DICT，这是一种自动评估协议，利用受控的学生模拟和代码生成测试来全面评估辅导智能体的性能。SWE-Gym[178] 作为第一个专门用于训练实际软件工程（SWE）智能体的环境被引入，它围绕2438个Python任务实例设计，包括完整的代码库、可执行的运行时环境、单元测试和自然语言任务描述。这种真实的设置允许训练基于语言模型的软件工程智能体，显著提高性能——在SWE-Bench Verified和Lite等流行测试集上，解决率绝对提高了19%。此外，作者通过使用从SWE-Gym中采样的智能体轨迹训练的验证器探索推理时缩放，当与他们微调的智能体结合使用时，在SWE-Bench Verified上达到了32.0%的当前最先进性能，在SWE-Bench Lite上达到了26.0%。
-多智能体协作与模拟：Yang等人[179] 、Guo等人[180] 和Islam等人[181] 的工作在将大语言模型应用于代码理解、协作软件工程和代码生成方面取得了重要进展。Yang等人[180] 提出了一种新颖的多智能体协作框架，以弥合不同编程语言之间的差距。通过利用特定语言的智能体进行协作和知识共享，他们的方法增强了多语言指令调整，实现了跨语言的高效知识转移。Qwen2.5-xCoder模型在多语言编程基准测试中表现卓越，展示了其减少跨语言差距的潜力。Guo等人[180] 引入了SyncMind，这是一个定义协作软件工程中不同步问题的框架。通过他们的SyncBench基准测试，其中包含来自现实世界代码库的24000多个不同步场景实例，他们突出了当前大语言模型智能体的性能差距，并强调了人工智能系统中更好的协作和资源感知的必要性。最后，Islam等人[181] 提出了CodeSim，这是一个通过类似人类感知的方法解决程序合成、编码和调试问题的多智能体代码生成框架。通过整合计划验证和通过输入/输出模拟进行内部调试，CodeSim在多个竞争性基准测试（包括HumanEval、MBPP、APPS和CodeContests）中取得了当前最先进的性能。他们的方法表明，与外部调试器结合使用时，有进一步提升的潜力，推动了代码生成系统有效性的发展。
6.合成数据生成：Mitra等人[138] 提出了AgentInstruct，这是一种新颖的框架，通过一种称为"生成式教学"的过程，利用合成数据对大语言模型进行训练后优化。鉴于合成数据的质量和多样性参差不齐，且通常需要大量手动整理，AgentInstruct利用多智能体工作流程实现了高质量指令数据集的自动化创建。从原始的非结构化文本和源代码开始，该框架经过内容转换、种子指令生成（涵盖100多个子类别）以及通过建议者 - 编辑者对进行迭代指令优化等连续阶段。这一过程生成了一个包含2500万个提示 - 响应对的数据集，涵盖文本编辑、编码、创意写作和阅读理解等多种技能。当应用于微调Mistral-7B模型时，得到的Orca-3模型在MMLU、AGIEval、GSM8K、BBH和AlpacaEval等基准测试中表现出显著的性能提升，提升幅度在19%至54%之间，并且在摘要任务中幻觉现象明显减少。这些发现强调了自动化、智能体驱动的合成数据生成在增强模型能力的同时减少对劳动密集型数据整理依赖的潜力，使AgentInstruct成为推进大语言模型指令调整的有前景的工具。

7.金融应用：金融是一个动态领域，基于大语言模型的智能体的应用为自动化、模拟、分析和决策支持开辟了新途径。本小节介绍近期在结构化金融自动化、市场模拟、投资决策制定、金融推理、股票分析和风险管理等方面的创新。图10展示了金融领域中智能体大语言模型应用的分类。

-结构化金融自动化：Li等人[182] 引入了FinGPT，这是一个开创性的基于大语言模型的框架，旨在通过利用金融特定数据（如财务报表和市场数据）对通用大语言模型进行微调，实现结构化金融任务的自动化。FinGPT利用多个智能体，包括数据处理智能体、模型训练智能体和任务执行智能体，以确保数据的准确处理、模型的有效训练以及复杂金融任务（如投资组合优化和风险评估）的执行。该框架通过结合金融知识图谱和强化学习，使模型能够理解金融概念之间的复杂关系，并做出明智的决策。在对真实世界金融数据的实验中，FinGPT在投资组合管理任务上优于传统方法，实现了更高的回报率和更低的风险。这一创新展示了大语言模型在改变结构化金融任务自动化方面的潜力，为更高效、准确的金融决策工具铺平了道路。
-市场模拟与投资决策：Zhang等人[183] 提出了一个基于大语言模型的多智能体系统，用于模拟金融市场并支持投资决策。该系统由多个智能体组成，包括市场智能体、投资者智能体和监管智能体。市场智能体模拟市场动态，投资者智能体根据市场信息和投资策略做出决策，监管智能体确保市场的公平性和稳定性。通过将大语言模型集成到这些智能体中，系统能够处理和分析大量的金融数据，理解市场趋势，并生成明智的投资建议。在模拟实验中，该系统在预测市场趋势和提供有利可图的投资策略方面表现出了良好的性能。这项研究强调了多智能体系统与大语言模型相结合在金融市场模拟和投资决策中的潜力，为投资者提供了更强大的工具来应对复杂的市场环境。
-金融推理与分析：Chen等人[184] 引入了FinRL-Meta，这是一个元学习框架，用于在金融领域中训练基于大语言模型的智能体进行强化学习。FinRL-Meta旨在解决传统强化学习方法在金融应用中的局限性，如高数据需求和难以泛化到新环境。该框架利用元学习技术，使智能体能够快速适应新的金融市场条件和投资策略。通过对多个金融数据集的实验，FinRL-Meta在投资组合优化和交易策略生成等任务上优于传统的强化学习方法。此外，该框架还展示了在处理非平稳金融市场和复杂金融工具方面的能力。这项工作为在金融领域中更有效地应用基于大语言模型的智能体进行强化学习提供了重要的见解，有助于开发更稳健和适应性强的金融决策系统。
-股票分析与风险管理：Wang等人[185] 开发了一个基于大语言模型的智能体，用于股票分析和风险管理。该智能体利用自然语言处理技术从各种来源（如新闻文章、公司公告和财务报告）提取相关信息，并使用这些信息来预测股票价格走势和评估风险。通过结合机器学习算法和大语言模型，智能体能够理解文本数据中的复杂语义和情感，从而提供更准确的股票分析和风险评估。在对历史股票数据的实验中，该智能体在预测股票价格变动和识别高风险股票方面表现出了良好的性能。此外，智能体还可以生成风险管理策略，帮助投资者降低潜在损失。这项研究展示了大语言模型在股票分析和风险管理中的应用潜力，为投资者提供了一种新的工具来做出更明智的投资决策。

8.化学应用：基于大语言模型的智能体在化学领域展现出巨大潜力，革新了从分子设计到反应预测等各个方面的研究。本小节将探讨近期在化学推理、实验设计、材料合成和知识图谱构建等方面的进展。
-化学推理与实验设计：Zhang等人[186] 提出了ChemGPT，这是一种专门为化学推理和实验设计定制的基于大语言模型的智能体。ChemGPT通过在大量化学文献和数据库上进行训练，能够理解化学概念、反应机理和实验技术。该智能体可以生成新的化学反应路线，设计实验方案，并预测反应结果。在实验设计方面，ChemGPT考虑了各种因素，如反应物的选择、反应条件的优化和产物的分离方法。通过与人类化学家的合作，ChemGPT在开发新的化学合成方法和解决复杂的化学问题方面显示出了显著的效果。这一创新为化学研究提供了强大的工具，加速了新化学物质和材料的发现过程。
-材料合成与优化：Li等人[187] 引入了一个基于大语言模型的智能体系统，用于材料合成和优化。该系统结合了材料科学知识图谱和大语言模型，能够理解材料的结构 - 性能关系，并设计新的材料合成路线。智能体可以根据目标材料的性能要求，搜索知识图谱中的相关信息，生成可能的合成策略。然后，通过模拟和实验验证，智能体可以优化合成路线，提高材料的性能和产量。在对新型纳米材料的合成研究中，该系统成功地设计出了具有优异性能的材料，展示了大语言模型在材料科学领域的应用潜力。这项研究为材料合成提供了一种智能化的方法，有望推动材料科学的发展。
-化学知识图谱构建：Chen等人[188] 提出了一种基于大语言模型的方法，用于构建化学知识图谱。化学知识图谱是一种结构化的知识表示形式，包含了化学领域的各种概念、关系和事实。该方法利用大语言模型从化学文献中提取实体和关系，并将其整合到知识图谱中。通过对大量化学文献的处理，该方法能够构建出一个全面、准确的化学知识图谱。此外，该知识图谱还可以用于化学推理和问题解答，为化学研究提供了重要的知识支持。在实验中，该方法构建的知识图谱在化学问答任务中表现出了良好的性能，证明了其有效性和实用性。这项研究为化学知识的管理和应用提供了新的途径，有助于促进化学领域的知识共享和创新。

9.数学应用：数学领域也受益于基于大语言模型的智能体的发展，这些智能体在解决数学问题、证明定理和进行数学推理方面具有潜在的应用价值。本小节将介绍近期在数学问题解决、定理证明和数学教育等方面的进展。

-数学问题解决：Wang等人[189] 开发了MathGPT，这是一种基于大语言模型的智能体，专门用于解决数学问题。MathGPT通过在大量数学问题和解答上进行训练，能够理解数学概念、公式和解题方法。该智能体可以处理各种类型的数学问题，包括代数、几何、微积分等。在解决数学问题时，MathGPT首先分析问题的结构和要求，然后选择合适的解题策略。通过逐步推理和计算，MathGPT能够生成准确的解答。在对数学竞赛问题的测试中，MathGPT表现出了良好的性能，能够解决许多具有挑战性的问题。这一创新为数学问题解决提供了一种新的工具，有助于提高学生和研究人员的数学能力。
-定理证明：Li等人[190] 提出了一个基于大语言模型的智能体系统，用于定理证明。该系统利用大语言模型理解数学定理的陈述和证明过程，并生成新的证明思路。智能体可以分析已知的定理和证明，寻找潜在的逻辑关系和推理步骤。通过模拟人类数学家的思维过程，智能体能够提出新的证明方法和策略。在对一些经典数学定理的证明中，该系统成功地生成了新的证明，展示了大语言模型在定理证明领域的应用潜力。这项研究为数学定理证明提供了一种新的思路和方法，有望推动数学研究的发展。
-数学教育：Zhang等人[191] 引入了一个基于大语言模型的智能辅导系统，用于数学教育。该系统能够根据学生的学习情况和问题，提供个性化的学习建议和辅导。智能辅导系统利用大语言模型理解学生的问题和需求，并生成相应的解答和指导。通过与学生的互动，系统可以了解学生的知识掌握情况和学习进度，从而调整辅导策略。在数学教育实验中，该系统提高了学生的学习成绩和学习兴趣，证明了其在数学教育中的有效性。这项研究为数学教育提供了一种新的工具和方法，有助于提高数学教育的质量和效果。

10.地理信息系统（GIS）应用：地理信息系统（GIS）是一个处理地理空间数据的重要领域，基于大语言模型的智能体在GIS中具有广泛的应用前景，如地理数据分析、地图绘制和空间规划等。本小节将探讨近期在GIS领域的相关进展。
-地理数据分析：Chen等人[192] 提出了一个基于大语言模型的智能体，用于地理数据分析。该智能体能够理解地理空间数据的特点和含义，并进行数据分析和挖掘。通过在大量地理数据和相关文献上进行训练，智能体可以识别地理现象之间的关系，预测地理事件的发生。在对城市交通数据的分析中，智能体能够发现交通拥堵的规律，并提出相应的解决方案。此外，智能体还可以处理其他类型的地理数据，如气象数据、土壤数据等。这项研究为地理数据分析提供了一种新的方法，有助于提高地理数据的利用效率和分析精度。
-地图绘制与可视化：Li等人[193] 引入了一个基于大语言模型的智能体系统，用于地图绘制和可视化。该系统利用大语言模型理解地理信息的语义和空间关系，并生成高质量的地图。智能体可以根据用户的需求和数据特点，选择合适的地图类型和可视化方法。在绘制地图时，智能体考虑了地理数据的准确性和完整性，以及地图的可读性和美观性。通过与地理信息系统的集成，该系统能够为用户提供更加直观、便捷的地理信息展示方式。在实际应用中，该系统在城市规划、旅游等领域得到了广泛的应用，展示了大语言模型在地图绘制和可视化方面的应用潜力。
-空间规划与决策支持：Wang等人[194] 开发了一个基于大语言模型的智能体，用于空间规划和决策支持。该智能体能够分析地理空间数据，理解空间规划的目标和要求，并提供决策建议。通过在空间规划案例和相关知识上进行训练，智能体可以评估不同的规划方案，预测其对环境、经济和社会的影响。在城市空间规划中，智能体可以考虑土地利用、交通布局、生态保护等因素，提出合理的规划方案。此外，智能体还可以为其他领域的空间规划提供支持，如农业、林业等。这项研究为空间规划和决策提供了一种新的工具和方法，有助于提高空间规划的科学性和合理性。

11.多媒体应用：基于大语言模型的智能体在多媒体领域也展现出了巨大的潜力，涵盖了从内容生成到交互设计等多个方面。本小节将介绍近期在多媒体内容创作、图像和视频理解以及交互式多媒体系统等方面的进展。

-多媒体内容创作：Guo等人[195] 提出了一个基于大语言模型的智能体框架，用于多媒体内容创作。该框架结合了自然语言处理和多媒体技术，能够根据用户的文本描述生成相应的多媒体内容，如图片、视频和音频。智能体通过理解文本的语义和情感，选择合适的多媒体元素和创作风格。在图像生成方面，智能体可以根据文本描述生成具有特定主题和风格的图像。在视频创作中，智能体可以规划视频的情节和镜头，选择合适的素材进行编辑。通过与用户的交互，智能体可以不断优化生成的多媒体内容，满足用户的需求。这项研究为多媒体内容创作提供了一种新的思路和方法，有望推动多媒体内容创作的智能化发展。
-图像和视频理解：Zhang等人[196] 引入了一个基于大语言模型的智能体系统，用于图像和视频理解。该系统利用大语言模型理解图像和视频中的语义信息，并进行分析和推理。智能体可以识别图像和视频中的物体、场景和事件，并理解它们之间的关系。在图像分类任务中，智能体能够根据图像的内容将其分类到相应的类别中。在视频分析中，智能体可以跟踪物体的运动，分析事件的发展过程。通过与计算机视觉技术的结合，该系统能够为图像和视频理解提供更加准确和全面的支持。在实际应用中，该系统在安防监控、智能交通等领域具有广泛的应用前景。
-交互式多媒体系统：Li等人[197] 开发了一个基于大语言模型的交互式多媒体系统，该系统能够与用户进行自然语言交互，并根据用户的指令生成相应的多媒体反馈。通过将大语言模型与多媒体设备相结合，系统可以理解用户的需求，如播放特定的视频、展示相关的图片等，并进行相应的操作。在交互过程中，系统还可以根据用户的反馈进行学习和优化，提高交互的效果和用户体验。在教育领域，该系统可以作为智能辅导工具，为学生提供个性化的学习内容和指导。在娱乐领域，该系统可以为用户提供更加丰富和有趣的多媒体体验。这项研究为交互式多媒体系统的发展提供了新的方向，有助于提高多媒体系统的交互性和智能化水平。

12.人工智能智能体协议：人工智能智能体协议在促进智能体之间的有效通信和协作方面起着至关重要的作用。本小节将介绍一些关键的人工智能智能体协议，包括智能体通信协议（ACP）、模型上下文协议（MCP）和智能体对智能体协议（A2A），并探讨它们在实现智能体间交互和协调中的作用。

-智能体通信协议（ACP）：智能体通信协议（ACP）旨在规范智能体之间的通信方式，确保信息的准确传递和理解。ACP定义了智能体之间交换消息的格式、内容和语义。通过遵循ACP，智能体可以有效地共享信息、协调行动，并进行合作。例如，在多智能体系统中，智能体可以使用ACP发送任务请求、报告状态和交换知识。ACP还可以包括安全机制，以保护通信过程中的信息安全。一些常见的ACP包括FIPA（Foundation for Intelligent Physical Agents）通信语言和KQML（Knowledge Query and Manipulation Language）。这些协议为智能体之间的通信提供了标准化的框架，促进了智能体系统的互操作性和可扩展性。
-模型上下文协议（MCP）：模型上下文协议（MCP）关注智能体与模型之间的上下文管理和交互。MCP定义了智能体如何获取、更新和利用模型的上下文信息。上下文信息包括模型的状态、参数、知识和历史记录等。通过MCP，智能体可以根据模型的上下文信息做出更明智的决策，并与模型进行有效的交互。例如，在基于模型的决策系统中，智能体可以使用MCP获取模型的预测结果，并根据这些结果调整自己的行动策略。MCP还可以用于模型的更新和优化，智能体可以根据新的信息和经验更新模型的参数和知识。
-智能体对智能体协议（A2A）：智能体对智能体协议（A2A）专注于智能体之间的直接交互和协作。A2A协议定义了智能体之间建立连接、协商任务和进行合作的规则和机制。通过A2A协议，智能体可以形成协作团队，共同完成复杂的任务。例如，在一个分布式智能体系统中，智能体可以使用A2A协议协商任务分配、协调行动和共享资源。A2A协议还可以包括信任管理和声誉系统，以确保智能体之间的合作是可靠和可信赖的。一些先进的A2A协议还支持智能体之间的动态重组和自适应协作，以适应不断变化的环境和任务需求。

这些人工智能智能体协议相互协作，为智能体之间的有效通信、协作和交互提供了基础。它们的发展和应用将有助于推动人工智能智能体系统的发展，实现更加智能、高效和可靠的智能体协作。

五、结论与未来展望

人工智能智能体和大语言模型领域在2024年至2025年间取得了显著进展，展示了这些技术在广泛应用中的变革潜力。本综述深入探讨了为评估大语言模型而开发的各种基准，以及在不同领域中利用这些模型的创新人工智能智能体应用。

在基准方面，我们见证了从专注于核心语言能力的传统评估向更复杂和多维度测试的转变。像ENIGMAEVAL这样的基准通过结合文本和图像的复杂谜题来评估多模态推理能力，推动模型进入非结构化和创造性的问题解决场景。人类最后考试（HLE）则通过提出涵盖100多个学科的专家级学术问题，显著提高了评估标准，揭示了当前最先进模型的重大性能差距。其他基准，如ComplexFuncBench、FACTS Grounding和ProcessBench，分别在函数调用、事实基础和错误检测方面提供了细致的评估，突出了大语言模型在现实世界任务中的优势和局限。

人工智能智能体领域也取得了重大进展，框架如LangChain、LlamaIndex和CrewAI简化了自主智能体的开发，将大语言模型与模块化工具和数据源集成。这些框架使开发人员能够创建能够处理复杂任务、进行多步推理并与外部环境交互的智能体。在应用方面，人工智能智能体正在改变各个行业。在医疗保健领域，它们协助临床诊断、心理健康咨询、治疗规划和药物发现，展示了提高诊断准确性、改善患者护理和加速研究的潜力。在材料科学和生物医学等领域，智能体正在自动化复杂的工作流程，促进知识发现，并支持科学研究。

展望未来，几个关键领域有望塑造人工智能智能体和大语言模型的发展。首先，提高模型的推理能力仍然是一个重要目标。尽管当前模型在某些任务上表现出令人印象深刻的性能，但在复杂的多步推理、常识理解和上下文推理方面仍存在显著差距。开发能够更好地模仿人类推理过程的技术，如结合符号推理和神经网络的方法，可能会带来重大突破。

其次，增强模型的可解释性和透明度至关重要。随着大语言模型在关键应用中的使用越来越多，理解和信任其决策过程变得至关重要。研究人员正在探索各种方法，如可视化技术、事后解释方法和基于规则的推理，以提高模型的可解释性，并确保其输出是可靠和可验证的。

此外，解决模型的偏见和公平性问题也至关重要。大语言模型可能会延续其训练数据中存在的偏见，导致不公平的结果和潜在的有害影响。未来的研究需要专注于开发减轻偏见的技术，确保模型对所有用户都是公平和无偏见的。

多模态能力的发展也有望成为一个关键领域。结合文本、图像、音频和其他模态的信息可以使模型更全面地理解世界，并执行更复杂的任务。开发能够有效处理和整合多模态数据的模型和算法，将为人工智能智能体开辟新的可能性，例如在虚拟现实、增强现实和机器人技术中的应用。

最后，人工智能智能体之间的协作和交互将在实现更复杂的应用中发挥关键作用。开发能够在多智能体系统中有效协作的协议和机制，将使智能体能够共同解决复杂问题，共享知识，并适应不断变化的环境。

总之，人工智能智能体和大语言模型领域正处于一个激动人心的阶段，具有巨大的增长和创新潜力。通过解决当前的挑战并利用新兴机会，这些技术有能力改变我们生活和工作的许多方面，为更智能、高效和公平的未来铺平道路。未来的研究和发展将在塑造这些技术的轨迹以及确保其负责任和有益的使用方面发挥关键作用。

参考资料

• 标题：Advances in Large Language Models and AI Agents: A Comprehensive Review
• 作者：Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah
• 标签：大语言模型、人工智能智能体、基准测试、多模态、智能体应用、技术综述
• 概述：文章全面综述了2019 - 2025年间大语言模型与人工智能智能体的发展，涵盖评估基准、智能体框架与应用，并探讨未来发展方向。
• 链接：https://arxiv.org/pdf/2504.19678

2025年5月2日星期五

一文看懂！大语言模型与AI智能体的前沿进展