2026年1月14日星期三

持续暴涨!这个开源神器目测要火!

数月前,一款名为 BettaFish (微舆) 在开源圈悄然崛起,凭借其惊艳的多智能体分析系统,打破了互联网信息茧房,随后连续多日霸榜 GitHub Trending。

在持续多轮的暴涨后,项目已累积斩获 34000+ Star,成为当之无愧的现象级爆款项目。

img

在项目爆火之后,这位 20 岁的开发者仍不满足此。

基于 BettaFish 拥有看清当下的能力,作者希望更进一步,让 AI 实现「推演未来」的能力。

于是,他建造了开源项目的「数据分析三板斧」:

MindSpider:内容自动化抓取,信息收集与整理;

BettaFish:数据情感解析,数据智能化分析;

以及最后登场的最强王者,也是我们今天的介绍重点:MiroFish。

GitHub:https://github.com/666ghj/MiroFish

图片

倘若 BettaFish 的存在,是为了告诉你 "发生了什么",那 MiroFish 的现世,则是要成为那个能"推导未来"的超级大脑

它不再依赖死板的数据拟合,而是试图通过构建成千上万个 AI 智能体,在虚拟世界中疯狂博弈、推演,最终"涌现"出未来的不同模样。

这里无需任何复杂参数,只需给它一颗"现实种子"(一份报告),就能生长出无数种可能性结局。

img

正好,本月 28 号特斯拉发布财报,全网多空博弈正激烈。

下面我们就拿 MiroFish 做个硬核实验,让它帮我们提前算一卦:"发布财报当日,股价究竟是涨是跌?"

上手实测

打开 MiroFish,可以看到界面操作逻辑非常直观,支持上传 PDF、MD、TXT 等格式的报告。

我们要做的,就是把一份特斯拉最近的分析报告作为种子扔进去,简单描述一下想让它预测的事情,然后直接启动引擎:

img

没过多久,它便完成对报告的分析与理解,并帮我们理清报告里各种角色的复杂关系,同时在左侧生成一张直观的知识图谱为我们展示:

img

点击图谱中的任意节点,还能看到各自角色对特斯拉的最新看法和总结。

环境搭建成功后,MiroFish 会基于图谱关系,生成华尔街、分析师、Elon Musk 等 26 个不同人设的 Agent。

为这些 Agent 配置活跃度、影响力等信息,即可同时构建出两个模拟世界,让它们平台上对相关的热点话题,展开热烈的讨论:

img

一切准备就绪之后,即可开始模拟。

此时,右侧会显示一条清晰行动路线,我们可观察到不同 Agent 在模拟世界中的活跃状态。

比如会有模拟散户说:「只要马斯克说一句 "Cybercab 四月开造",股价立刻起飞」。

img

每个 Agent 的所有行动,都会实时记录更新到其各自的知识图谱当中。

等待两个模拟世界的所有行动完成,MiroFish 会进行总结复盘,并生成一份详细的预测报告。

如果觉得报告太长,懒得看,也可以用「深度互动」功能来对话:

img

进入到互动环节,与 Report Agent 深入对话,让它一句话为我们总结结果:

img

除此之外,我们还可以与不同的 Agent 角色进行互动对话,比如问华尔街 Agent:「各大机构对特斯拉股价持有乐观还是悲观的态度?」

它的回答是:根据目前的数据来看,多家机构对特斯拉股价的态度转为了悲观态度。

img

对于本次预测结果仅供参考,是否应验就让我们拭目以待吧,大家有什么看法也可以在评论区留言讨论。

看到这里,相信已有不少朋友想亲自体验一下了。

其实,MiroFish 的部署门槛非常低,只需要简单三步:

1、克隆代码到本地并配置环境变量:

git clone https://github.com/666ghj/MiroFishcp .env.example .env

2、在 .env 配置文件里,填入必要的 API Key ,支持 OpenAI、阿里等平台的大模型:

img

3、在项目根目录下运行下面命令,一键安装所有依赖:

npm run setup:all

最后,即可启动服务:

npm run dev

成功之后,在浏览器访问 http://localhost:3000 就可以使用 MiroFish 了。

img

写在最后

2026,新年伊始,MiroFish 的出现,让我们看到了 AI 应用有了一个全新风向。

过去,我们习惯用 AI 来编写代码、生成图片、解答问题,但这仅仅是 "大脑" 的初级形态。

这一次,MiroFish 的问世告诉我们,AI 的潜力远不止于此,它还可以是一个 "平行世界"。

正如作者在项目文档里写的那样:"让每一个如果都能看见结果,让预测万物成为可能。"

试想一下,如果我们真的拥有了这个平行世界引擎,除了预测股价,你最想推演什么?

是正在追的那本小说接下来的剧情走向?还是那个令我们捉摸不透的恋爱对象,会怎么回复你的那条消息?

把这些不确定性交给 MiroFish,让它在虚拟世界里跑一跑,说不定能发现意想不到的答案。

GitHub 项目地址:https://github.com/666ghj/MiroFish

今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!

Qwen3-VL-Flash提升13。62%!浙大等首创CoV :多步推理具身问答Agent,通用提点神器

点击下方卡片,关注"AI生成未来"

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

图片

作者:CoV团队

解读:AI生成未来
图片

开源仓库:https://github.com/ziplab/CoV 
arXiv链接:https://arxiv.org/abs/2601.05172 

亮点直击

  • CoV 框架:首创"视链提示"(Chain-of-View, CoV),一个免训练测试时(test-time)的具身问答智能体框架。
  • 主动视觉推理:将传统被动的视觉语言模型(VLM)转变为主动的视点搜索者,使其能够像人类一样通过移动视角来探索环境。
  • 验证测试时扩展性(Test-Time Scaling):通过增加推理时的"行动预算"(即允许模型多走几步、多看几次),可以持续提升模型性能,而无需重新训练模型。
  • 显著的通用提升:该方法是模型无关的(Model-Agnostic),在多个主流 VLM(如 GPT-4o, Gemini, Qwen)上均取得了显著的性能提升。

从宇树机器人登上春晚舞台,到首届"世界人形机器人运动会"火遍全球,"具身智能"可谓是今年AI领域最出圈的关键词之一。人工智能正大举从数字领域迈向物理现实,在这一背景下,具身问答任务(EQA) 显得愈发重要。EQA任务的核心挑战在于,智能体必须像人类一样,在复杂的物理空间中定位关键信息,并生成准确答案。

传统方法往往依赖有限且视角固定的图像输入,这使得VLM难以获取足够多与问题相关的视觉线索。在复杂的具身问答场景中,答案并非一目了然,大多数问题都需要经过多步推理才能解决。

例如,面对"哪里可以找到汽水?"这样的问题,场景中可能并未直接出现汽水。智能体不仅需要调用"汽水通常存放在冰箱里"这类常识知识,还需自主规划路径,在环境中搜寻冰箱等关联物体。这类问题的解答,依赖VLM在充分、相关的上下文信息中进行连续推理,而无法通过单次的生成步骤来完成。

研究人员提出了一种多步推理的具身问答智能体框架:Chain of View(CoV),旨在实现从被动观察到迭代式自主探索的转变。应用CoV框架后,模型整体性能在最新的EQA基准测试上平均提升了10.82% 。其中,Qwen3-VL-Flash模型提升达到了13.62% 。

图片

粗粒度筛选,快速确定视角锚点

CoV的整体流程包含两个阶段:粗粒度视角筛选(Coarse-grained View Selection)与细粒度视角调整(Fine-grained View Adjustment)。

在实际场景中,智能体获取的视觉输入通常来源于一段连续的视频片段。这些原始帧往往包含大量冗余信息。对于任何一个具体问题,通常只有少数几帧图像与其相关。而过多的无关视觉信息,反而会干扰模型的判断。

为此,CoV引入了视角粗选智能体,其核心任务是从原始可用的视角中,主动筛选出与当前问题最相关的关键视角,从而为后续的推理步骤提供与问题强相关的视角基础。

细粒度调整,精确锁定问题相关视角

以往的方法通常将智能体置于被动,它只能从一组预先给定的、有限的固定图像中寻找答案。这种"一步生成"的模式,放弃了进一步搜寻相关环境细节的可能性,也因此限制了模型进行深度、多步思考的能力。

受思维链(CoT)启发,研究人员提出细粒度的视角调整机制。该方法能为模型动态补充与问题相关的环境信息,让智能体在持续的观察与思考中逐步逼近答案。对粗粒度视角筛选阶段得到的视觉锚点,VLM会规划并执行一系列视角调整动作,包括平移、旋转以及在不同视角间切换三类操作。

这一系列视角调整使得智能体能够主动地、有目的地调整其观察位置与朝向,从而获取对解答问题至关重要的环境细节,提升EQA表现。 当智能体认为已经获取到足够的信息回答问题时,停止视角调整,并基于精心构建的视觉上下文给出最终答案。

图片

刷新EQA基准测试

研究人员在包括OpenEQA、ScanQA、SQA3D等最新的EQA基准测试上进行了大量实验。在反映生成文本与人类回答相似度的CIDEr指标上,CoV得分达到116;在ScanQA数据集上的首次回答准确率(EM@1)也达到31.9%。应用CoV框架后,VLM整体性能在OpenEQA测试基准上平均提升了10.82%。

图片
图片

强大的Test-time Scaling性能

图片
图片

研究人员还发现,智能体自主行动步数越多,获取的信息越多,EQA任务的表现也会呈现上升趋势。在不限制行动步数的情况下,绝大多数问题所涉及的行动步数偏少,集中在1到3步。随着动作步数的增加,模型在相应问题上的得分呈现出明显的上升趋势。

通过在提示词中限制VLM的最小行动步数,与仅允许单步行动的设置相比,提升动作步数上限后VLM性能平均提高了2.51%。这一结果表明,多步推理能有效增强智能体在具身问答任务中的表现。CoV无需额外训练,仅通过增加行动步数即可实现性能增益,展现出显著的"无需训练,测试扩展"潜力。

总的来讲,CoV是一个多步推理具身问答Agent框架,能允许VLM自主获取更多和问题相关的视角。这项工作有效提升了VLM在EQA任务上的表现,并且具备test-time scaling的潜力,为通向在复杂空间中行动、适应并探索的具身智能系统,提供了新的可能性。

参考文献

[1] CoV: Chain-of-View Prompting for Spatial Reasoning

技术交流社区免费开放

这是一个高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

图片
欢迎扫码加入
图片



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

持续暴涨!这个开源神器目测要火!

数月前,一款名为 BettaFish (微舆) 在开源圈悄然崛起,凭借其惊艳的多智能体分析系统,打破了互联网信息茧房,随后连续多日霸榜 GitHub Trending。 在持续多轮的暴涨后,项目已累积斩获 34000+ Star,成为当之无愧的现象级爆款项目。 在项目爆火之后...