2026年6月25日星期四

Agent研究爆发期:190篇必读论文与500个开源项目源码免费获取

本文聚焦当前快速发展的Agent赛道,涵盖大模型智能体的决策逻辑、记忆机制、多智能体协作等前沿方向。适合从初学者到资深研究员,提供190篇必读论文、321个谷歌落地项目案例及500个开源AI智能体应用,扫描文末二维码回复指定关键词即可免费获取全部资源。

Tags:

今天给大家分享一个正在爆发,且发文难度不高的赛道——Agent!想快速出文章的伙伴,不要错过!

主要在于:一方面,其是连接大模型能力和实际落地的关键桥梁,且还在发展的早期阶段,待解决的问题还很多,创新空间广阔。比如Agent的自主决策逻辑、长期记忆机制、与多模态、具身智能等前沿技术的结合等。

另一方面,其不仅应用场景非常丰富,且研究维度也很多元,不管你是小白还是资深研究员,都能找到适合自己的方向。比如初学者,可以从应用层入手,结合特定行业,设计解决方案。想冲高区,则可以从理论机制入手。

为方便大家研究的进行,我也花了一个多月时间,给大家筛选了190篇必读论文和源码,最新前沿热门和经典必读。此外,还给大家准备了321个谷歌发布的落地项目案例,及500个开源的AI Agent智能体应用,方便大家应用!

图片

扫描下方二维码,回复「agent合集

免费获取全部论文合集及项目代码

图片

Collaborative Tree Search for Enhancing Embodied Multi-Agent Collaboration

内容:这篇论文针对大语言模型驱动的具身多智能体协作难题,指出CoELA、RoCo等现有方法存在独立决策缺乏长远规划、单一线性推理路径易受LLM随机性干扰、频繁更新方案打乱智能体执行节奏等缺陷,提出协同树搜索框架CoTS;该框架基于改进蒙特卡洛树搜索搭建协同规划模块,让智能体分工完成方案生成、互评打分,采用无需环境仿真的LLM奖励函数评估任务分配与移动开销,通过选择、扩展、评估、反向传播多分支推演筛选最优长期协作策略,同时新增方案评估模块动态判断当前方案有效性,仅在方案失效时触发重规划,避免频繁调整带来的动作混乱,整套框架配套感知、记忆、方案解析执行模块,新增扩展记忆存储协作方案并将空间距离纳入感知维度。

图片

AGENTGYM-RL: AN OPEN-SOURCE FRAMEWORK TO TRAIN LLM AGENTS FOR LONG-HORIZON DECISION MAKING VIA MULTI-TURN RL 

内容:该文章提出了AgentGym-RL这一开源框架,专门用于借助多轮强化学习训练大语言模型智能体以解决长时序决策问题,针对现有LLM智能体训练缺少标准化、可复现长周期交互环境、多轮试错式RL训练流程不完善、难以稳定优化长期链式任务策略等痛点,框架搭建了统一交互仿真环境,支持自定义多步骤复杂决策任务,设计适配大模型的多回合强化学习训练管线,能够完整记录智能体多轮交互轨迹、生成时序奖励信号并完成梯度优化,同时配套标准化评估指标体系用于量化长程任务完成效果、路径冗余度与策略稳定性。

图片

PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents

内容:本文提出PlugMem,一款面向大模型智能体、与任务无关的插件式记忆模块,针对现有LLM智能体记忆机制绑定特定任务、无法灵活插拔复用、历史交互信息检索低效、长期上下文易丢失关键信息、拓展成本高等问题,该模块作为独立可嵌入组件,不改动原有大模型主体与任务逻辑,通过分层存储结构区分短期瞬时上下文、中长期任务交互记忆与通用知识库,搭配轻量化相似度检索机制快速匹配相关历史记录,同时设计自适应记忆更新与遗忘策略过滤冗余无效信息,兼容各类工具插件与多类型智能体任务。


图片

Reliable and Efficient Multi-Agent Coordination via Graph Neural Network Variational Autoencoders

内容:该研究针对多智能体协同场景中存在通信噪声、信息冗余、协同策略计算开销大、局部观测导致全局协作失效等问题,提出基于图神经网络变分自编码器的可靠高效多智能体协同框架;框架利用图结构建模智能体间的关联交互关系,借助变分自编码器对各智能体局部观测与通信信息进行压缩降维,学习低维稳定的全局协同隐表征,在大幅削减通信传输量与计算成本的同时,通过概率建模缓解观测不确定性带来的决策偏差,保障协同鲁棒性。

图片

开源AI合同审查系统 中小企业合同风险分析与在线审阅平台

这是一款专为小微企业打造的开源AI合同审查平台,支持DOCX和PDF合同风险自动分析、OnlyOffice在线协同批注与修改采纳,内置法律知识库和智能问答功能,可关联裁判文书增强审查。系统提供Docker一键私有化部署,企业免费使用,仅需服务器成本,有效降低法务支出并提升审核效率。

Tags:

AI合同系统开源!小微企业福音:基于 AI 的中文合同审查与知识库增强平台
源代码

https://www.gitcc.com/masususu/ai-contract-system

律师太贵?中小企业合同没法审核?

基于 AI 的中文合同审查与知识库增强平台,支持合同风险分析、OnlyOffice 在线审阅、法律知识检索与智能问答

图片


图片


图片


专为小微企业打造的开源 AI 合同审查与知识库增强平台,旨在通过 AI 技术降低合同审核成本,解决中小企业缺乏专业法务支持的难题。

🚀 项目简介


AI 合同系统是一个集成了合同风险分析、在线协同编辑与法律知识检索的智能平台。它利用 AI 技术自动识别合同风险并提供修改建议,同时内置法律知识库与智能问答功能,帮助企业高效、安全地处理合同事务。系统支持通过 Docker 一键部署,包含 PostgreSQL、Milvus、MinIO 和 OnlyOffice 等核心组件。

✨ 核心功能


  • 合同上传与 AI 预分析:支持上传 DOCX 和 PDF 格式的合同文件,系统能自动识别合同类型、主体信息及审查范围,进行初步分析。
  • 合同风险审查:自动输出合同中的风险点、修改建议、相关法律条文及审查理由。支持关联裁判文书进行增强分析,提升审查的准确性。
  • OnlyOffice 在线协同编辑:集成 OnlyOffice,支持在文档内精准定位条款,添加批注与修改建议。用户可一键采纳建议,系统会自动高亮变更内容,实现高效的在线审阅。
  • 法律知识库:支持导入法律法规、裁判文书和审查规则。提供向量检索功能,方便用户快速查找相关法律信息,并支持模板下载。
  • 智能问答:支持 SSE 流式输出,提供流畅的对话体验。系统能携带上下文会话历史,并结合知识库检索与受控联网搜索,提供精准的法律问题解答。


🛠️ 技术架构



  • AI 能力:支持 Embedding 和 Rerank 模型,使用 Milvus 作为向量数据库,并兼容 OpenAI API。
  • 部署方式:提供 Docker 一键部署方案,简化安装与配置流程。
  • 核心组件
    • 数据库:PostgreSQL
    • 向量数据库:Milvus
    • 对象存储:MinIO
    • 在线编辑:OnlyOffice



这套 AI 合同系统正是为了解决小微企业在合同处理上“请律师太贵,自己审又没把握”的核心痛点而生的。它通过开源和 AI 技术,为中小企业提供了一个低成本、高效率的专业法务解决方案。

💸 痛点:小微企业的法务困境


对于许多小微企业而言,合同审核是一个两难的选择:

  • 成本高昂:聘请专业律师或法务团队费用不菲,对于合同量不大的中小企业来说是沉重的负担。
  • 风险难控:自行审核合同缺乏专业法律知识,容易忽略潜在的法律风险,可能导致未来产生纠纷和经济损失。
  • 效率低下:查找法律法规、比对历史案例耗时耗力,严重拖慢业务进展。


✨ 解决方案优势:AI 赋能,专业高效


该系统将 AI 技术与合同审查流程深度融合,提供了一站式的智能解决方案,其优势在于:

  • 自动化风险审查:系统能自动分析上传的合同(支持 DOCX/PDF),精准识别风险点,并提供具体的修改建议、相关法律条文和审查理由,相当于为每份合同配备了一位 AI 法务专家。
  • 在线协同审阅:集成 OnlyOffice,支持在文档内直接定位问题条款、添加批注。用户可以一键采纳 AI 的修改建议,系统会自动高亮变更内容,让审阅和修改过程变得直观高效。
  • 增强分析能力:不仅能进行基础审查,还能关联裁判文书进行增强分析,让风险评估更有依据,更具说服力。
  • 智能知识问答:内置法律知识库和智能问答机器人,支持流式对话和上下文理解。无论是查询法条还是咨询法律问题,都能获得快速、精准的解答。


🚀 对小微企业的好处:降本增效,安全可控


采用这套开源系统,能为小微企业带来实实在在的价值:

  1. 极大降低成本:作为开源平台,企业可以免费使用,无需支付昂贵的律师费或 SaaS 订阅费,仅需承担基础的服务器部署成本。
  2. 显著提升效率:AI 能在几分钟内完成一份合同的初步审查,将原本需要数小时甚至数天的工作大大缩短,加速业务流转。
  3. 有效规避风险:通过 AI 的专业分析和法律知识库的支持,能系统性地发现并规避合同中的“陷阱”和漏洞,保障企业合法权益。
  4. 数据自主可控:系统支持 Docker 一键私有化部署,所有合同数据、审查记录都存储在企业自己的服务器上,确保了核心商业信息的安全与私密


图片


AI合同系统开源!小微企业福音:基于 AI 的中文合同审查与知识库增强平台
源代码

https://www.gitcc.com/masususu/ai-contract-system

律师太贵?中小企业合同没法审核?

基于 AI 的中文合同审查与知识库增强平台,支持合同风险分析、OnlyOffice 在线审阅、法律知识检索与智能问答


AI改图新方法:用无限画布标注需求让Codex精准修改教程

本文介绍利用Codex结合无限画布进行图片修改的实操流程。适合经常改图的设计师或运营人员。核心亮点是将文字需求转化为可视化标注,通过箭头和旁注明确修改位置,大幅降低AI理解偏差。提醒:此方法适合快速改稿,但最终交付图需人工检查,不适合精密UI或证件类图片。

Tags:

Codex + 无限画布:改图需求不用再反复讲

Codex 加无限画布改图
Codex 加无限画布改图

最近我看到一个特别适合做图的人用的 Codex 玩法:

把图片拖进无限画布,在画布上直接标注修改位置,再让 Codex 读取画布内容去改图。

它解决的不是“AI 会不会生成图片”这个问题。

它解决的是另一个更烦的问题:

你明明知道哪里要改,但用文字跟 AI 讲半天,它还是理解错位置。

比如一张课程海报里有 3 处文字要改,你如果只写:

“把 AI 工作流提效改成 Agent 工作流提效。”

AI 很可能不知道你说的是哪一行、哪一块、哪个标题。

但如果你把原图放到画布里,用箭头把“原文字”和“目标文字”连起来,它就清楚多了。

这就是这个方法最爽的地方:

不是把需求讲给 AI 听,而是把需求画给 AI 看。

先建立操作入口

从 Codex 打开浏览器入口
从 Codex 打开浏览器入口

第一步,在 Codex 里打开右侧面板。

里面可以进入内置浏览器。

这个内置浏览器很关键,因为后面 Codex 要看的不是你口头描述的画面,而是浏览器里正在展示的画布。

进入浏览器后,打开一个白板类网页工具。

你可以把它理解成一个无限画布:

• 可以拖入图片
• 可以写文字
• 可以画箭头
• 可以圈出重点区域
• 可以把改图逻辑摆在同一个画面里

这一步的价值,是先给 Codex 准备一个“视觉上下文容器”。

以前我们写 prompt,只能一行一行解释。

现在可以把图片、文字、箭头、修改关系都放到同一张画布上。

把原图拖进画布

把图片拖进无限画布
把图片拖进无限画布

第二步,把你要改的图片直接拖进去。

比如你有一张课程目录图,里面有几处标题需要替换。

不要急着让 Codex 生成。

先把原图放好,让它成为画布里的核心素材。

这里有一个小技巧:

原图不要放得太小。

如果图太小,模型读取文字和细节会更吃力。

最好让原图在画布里占据比较明显的位置,旁边留出空白区域,用来写修改目标。

把修改意图变成视觉标注

把修改意图写到画布上
把修改意图写到画布上

第三步,把你要改的内容直接写在图旁边。

比如:

• “课程大纲目录”改成“课程部分目录”
• “AI 工作流提效”改成“Agent 工作流提效”
• “AI 工作流”改成“Agent 工作流”

光写文字还不够。

最好再用箭头把目标文字指向原图里的对应位置。

这样 Codex 看到的就不是一段孤立的命令,而是一组明确的视觉关系:

画布元素
作用
原图
告诉模型要改哪张图
新文字
告诉模型改成什么
箭头
告诉模型对应哪个位置
多处标注
告诉模型这不是单点修改
空白区域
给提示词和修改目标留出阅读空间

这一步很像你在给设计师改稿。

你不会只说“这里改一下”。

你会圈出来、写旁注、画箭头。

现在 AI 也需要同样的上下文。

让 Codex 读取画布并调用生图

让 Codex 读取画布并调用生图
让 Codex 读取画布并调用生图

第四步,回到 Codex 的输入框,把提示词写清楚。

你可以直接这样写:

请读取内置浏览器里的画布内容。

画布中有一张原始图片,还有我用文字和箭头标出的修改目标。

请理解每个箭头对应的修改位置,根据标注把原图重新生成一版。

要求:
1. 只改我标注出来的文字内容。
2. 尽量保持原图的版式、配色、字体风格和层级关系。
3. 不要改动没有标注的区域。
4. 输出一张可直接使用的新图片。

这段提示词的重点不是“写得多高级”。

重点是让 Codex 明确 3 件事:

先看画布,再理解标注,最后生成新图。

很多人失败,是因为只把图扔给模型,然后说“帮我改一下”。

这太模糊了。

Codex 不知道你要改哪里,也不知道哪些部分不能动。

画布 + 箭头 + 文字,就是在帮模型降低理解成本。

关键是证明模型真的读懂了

Codex 读取到多处改动
Codex 读取到多处改动

第五步,看 Codex 的反馈。

如果它能说出“读取到 3 处改动”,基本就代表它已经理解了画布上的关系。

这一步很重要。

不要一看到它开始生成就立刻相信结果。

你要先确认它有没有读懂:

需要确认
为什么
它是否识别到原图
否则可能只是在凭空生图
它是否识别到箭头
否则位置容易错
它是否识别到新文字
否则改出来还是旧内容
它是否知道有几处改动
否则可能漏改
它是否保留其他区域
否则容易把整张图改花

如果 Codex 的反馈里没有提到这些关键点,可以先让它复述一次画布上的修改计划。

确认无误后,再让它正式生成。

这个方法好用,但不要神化

降低预期避免神化
降低预期避免神化

这个流程不是 100% 稳。

因为它本质上还是让图片生成模型重新生成一张图。

只要重新生成,就有概率带来一些不可控变化。

比如:

• 字体可能不完全一致
• 边距可能轻微变化
• 图里的小字可能变形
• 没标注的区域也可能被影响
• 复杂排版可能需要多跑几次

所以更适合这些场景:

场景
适合程度
海报标题替换
很适合
课程封面改字
很适合
信息图局部改文案
适合
社群宣传图快速改版
适合
精密 UI 截图改字
谨慎
合同、证件、票据类图片
不建议

我的建议是:

把它当成“快速改稿工具”,不要当成“精修设计工具”。

它特别适合帮你把第一版、第二版、第三版快速跑出来。

但如果是最终交付图,还是要人工检查一遍。

最值得学的是这个思路

把方法变成可复用流程
把方法变成可复用流程

这套方法真正值得学的,不只是 Codex 会改图。

而是它把“改图需求”从纯文字,变成了可视化流程。

以前我们跟 AI 沟通,经常卡在一句话:

“你怎么又理解错了?”

但问题可能不是 AI 太笨,而是我们给它的信息太抽象。

一张图里有那么多文字、模块、层级和视觉关系,光靠一句 prompt 很难讲清楚。

无限画布的价值,就是让你把需求拆开摆出来:

• 哪张图要改
• 哪一处要改
• 原来是什么
• 目标是什么
• 哪些地方不要动
• 修改后希望保持什么风格

这比单纯写 prompt 稳很多。

一句话总结:

复杂图片修改,能画就别只讲。

把“我想怎么改”画给 AI 看,往往比讲给 AI 听更靠谱。


国内 Codex 使用教程:
https://my.feishu.cn/wiki/Vjulwif06izNiMkPor0cM9uYn1e

国内官网入口(开了 Cloudflare,打不开需要挂梯子,适合国外用户使用):
https://codex.chatgpt-plus.top/login

购买入口:
https://maynorai.jichiyun.sbs/buy/30


Agent研究爆发期:190篇必读论文与500个开源项目源码免费获取

本文聚焦当前快速发展的Agent赛道,涵盖大模型智能体的决策逻辑、记忆机制、多智能体协作等前沿方向。适合从初学者到资深研究员,提供190篇必读论文、321个谷歌落地项目案例及500个开源AI智能体应用,扫描文末二维码回复指定关键词即可免费获取全部资源。 Tags: Agent ...