2025年6月6日星期五

4位图灵奖得主布道,2大冠军机器人登台,“AI春晚”果然又高又硬

还有悟界系列模型首次亮相

白交 发自 北京
量子位 | 公众号 QbitAI

什么?人形机器人冠军们竟然同台了——

此前荣获半程马拉松长跑冠军天工、拳击冠军宇树G1,首次在智源大会相遇,并且各自还秀上了一波技能。

首先来看宇树,虽然身形小巧,但是打拳动作十分灵活,感觉多日不见技艺精进了不少。

图片

而这边天工机器人迎来了2.0版本,「长腿」运动员已经成为过去式,转而到室内做起家务来,现场为大家准备起甜点来。

图片

没想到天工你,还有另外一幅面孔?!

此外,还遇上了银河通用的机器人在现场取货送货。仅需你的一句语音指令,它就完成这些操作。

图片

如果不看大会名字,可能还以为这又是在哪里举办的机器人盛会。

而这,就是一年一度的"AI春晚"启幕现场,跟往届一样规格拉满~

刚刚官宣再次创业后首次亮相的Bengio,谈到了AI安全,面对当前大模型已经呈现出类生物主体行为,他提出了双重解决方案:

一是研发以无私科学家为原型的非代理性、可信赖人工智能系统,专注于理解世界而非自主行动;二是推动全球协同治理,建立国际监管框架与技术验证机制。

图片

此外,强化学习之父Richard Sutton姚期智Joseph Sifakis在内四位图灵奖得主坐镇,Physical Intelligence创始人以及Linux执行董事都来了。

而国内当前最受瞩目的明星公司和明星机器人也都一一亮相。

这边大佬们思想碰撞,那边机器人摩拳擦掌,看点多多,干货也满满。

每次智源大会都会有重磅发布,此次首次亮相的"悟界"系列大模型,它包括四款模型——

  • 原生多模态世界模型Emu3
  • 全球首个脑科学多模态通用基础模型见微Brainμ
  • 具身大脑RoboBrain 2.0
  • 全原子微观生命模型OpenComplex2。

可以看到,不仅有世界模型、还有脑科学模型,跨度从宏观世界到微观世界……咱就是说已经有点眼花缭乱了。

图片

悟界系列大模型

此次智源大会一大亮点是重磅发布了"悟界"系列大模型。这是悟界的首次亮相,也是智源正式从悟道到悟界的跨越,此前悟道系列模型已经来到了3.0版本。

对于此次「跨越」,智源研究院院长王仲远表示,这是件水到渠成的的事情,背后源于对于技术趋势的判断:

大模型正在从大语言模型向原生多模态大模型,向世界模型方向演进。悟道的"道"代表了大语言模型系统化方法和路径的探索,而悟界的"界"则代表了虚实世界边界的不断突破。

图片

核心变化在于两个方面:

从数字世界迈向物理世界,过去的"悟道"系列大模型主要利用互联网数据进行训练,从而掌握了理解数字世界知识的能力而"悟界"的目标是旨在让人工智能能够感知和理解物理世界,首先推进与物理世界的交互,解决实际生产生活中的问题。

从理解宏观世界到探索微观世界,在进入物理世界后,模型也就不仅仅关注宏观层面,比如具身智能,同样也关注微观层面,比如帮助进一步揭示世界以及生命的本质。

因此,基于这样的判断,整个"悟界"系列其实是围绕"物理AGI"方向的探索。

具体来看。

第一款模型就是去年10月份就发布的全球首个原生多模态世界模型Emu3。它实现了三个「统一」,包括统一了多模态学习,统一了文字、图像、视频等这些原生模态,统一了理解和生成能力。

图片

它无需扩散模型或组合式架构的复杂性,通过研发新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列,构建模态无关的统一表征空间,实现文本、图像、视频的任意组合理解与生成

基于Emu3下一个token预测这种极简的思想以及自回归架构,模态容易扩展,同时进行可控的交互。

比如拓展脑信号这种模态。这也就是悟界第二款模型:全球首个脑科学多模态通用基础模型见微Brainμ

基于Emu3的底层架构,将fMRIEEG、双光子等神经科学与脑医学相关的脑信号统一token,利用预训练模型多模态对齐的优势,可以实现多模态脑信号与文本、图像等模态的多向映射,并实现跨任务、跨模态、跨个体的统一通用建模,以单一模型完成多种神经科学的下游任务

图片

作为神经科学领域跨任务、跨模态、跨个体的基础通用模型,Brainμ可同步处理多类编解码任务,兼容多物种动物模型(包括小鼠狨猴猕猴)与人类数据,实现科学数据注释、交互式科学结论解读、大脑感觉信号重建及模拟刺激信号生成

自动化睡眠分型、感官信号重建与多种脑疾病诊断等任务中,作为单一模型其性能显著超越现有的专有模型,实现了SOTA。

最终以单一模型完成多种神经科学的下游任务,比如科学数据注释、交互式科学结论解读、大脑感觉信号重建及模拟刺激信号生成。

图片

目前,智源正在与国内前沿的基础神经科学实验室、脑疾病研究团队和脑机接口团队深入合作,包括北京生命科学研究所、清华大学、北京大学、复旦大学与强脑科技BrainCO,拓展Brainμ的科学与工业应用。

以上就是智源研究院在多模态基础模型上面的探索。通过多模态基础模型,可以让AI真正感知、理解世界,进一步与这个世界进行交互,这就推动了具身智能的发展。

王仲远谈到了当前具身智能发展面临的四大瓶颈,包括硬件不成熟、数据短缺、模型能力弱、以及落地应用难。

这其实构成了一种循环悖论,那么如何破局?

图片

智源研究院选择的突破口是模型。当前具身智能模型仍然面临着不好用、不通用以及不易用的特点。

不好用指的是具身大模型还远没有到ChatGPT的时刻;不通用指的是具身大模型很多都只能用于一个本体,或者同一品牌的本体;不易用指的是大小脑本体的适配难度比较高。

随着跨本体具身大小脑协作框架RoboOS 2.0具身大脑RoboBrain 2.0的发布,这些痛点都得到了一一解决。

图片

相较于1.0版本,2.0在很多能力方面都有升级。

据介绍,RoboOS 2.0是全球首个基于具身智能SaaS平台的开源框架,它支持无服务器一站式轻量化机器人本体部署,同时,RoboOS 2.0也是全球首个支持MCP的跨本体具身大小脑协作框架,旨在构建具身智能领域的"应用商店"生态。

图片

在该框架下,可一键下载并部署来自全球开发者创建的相同型号机器人本体的小脑技能,完成大小脑的无缝整合。RoboOS 2.0实现了小脑技能的免适配注册机制,显著降低开发门槛,典型场景下,相关代码量仅为传统手动注册方式的1/10

相较于1.0RoboOS 2.0对端到端推理链路进行了系统级优化,整体性能提升达30%,全链路平均响应时延低至3ms以下,端云通信效率提升27

在功能层面,新增了多本体时空记忆场景图(Scene Graph)共享机制,支持动态环境下的实时感知与建模;同时引入多粒度任务监控模块,实现任务闭环反馈,有效提升机器人任务执行的稳定性与成功率。

再来看具身大脑RoboBrain 2.0,相比1.0,在多项空间推理与任务规划指标上超越主流大模型。

图片

实验数据显示,RoboBrain 2.0的任务规划准确率相较RoboBrain 1.0实现了74%的效果提升。

在空间智能方面,RoboBrain 2.0在原有可操作区域(Affordance)感知与操作轨迹(Trajectory)生成能力的基础上,实现了17%的性能提升。同时,RoboBrain 2.0增加了空间推理能力(Spatial Referring,既包含机器人对相对空间位置(如前后、左右、远近)及绝对距离的基础感知与理解能力,也实现了对复杂空间的多步推理能力。

此外,RoboBrain 2.0还新增了闭环反馈以及具身智能的深度思考能力——

闭环反馈使机器人能够根据当前环境感知和任务状态,实时调整任务规划与操作策略,以应对复杂环境中的突发变化和扰动;深度思考能力则支持机器人对复杂任务进行推理分解,进一步提升整体执行准确率与任务完成的可靠性。

图片

现在,RoboOS 2.0与RoboBrain 2.0已全面开源,包括框架代码、模型权重、数据集与评测基准。目前,智源研究院已与全球20多家具身智能企业建立战略合作关系。

图片

真实的物理世界不仅包括宏观世界,还包括微观世界。如果说具身智能解决的是宏观世界的各种需求,那么AI在微观世界的赋能,就可以是生命科学。

悟界系列第四个模型是OpenComplex2全原子微观生命模型

当下AI模型对蛋白质结构的预测就像一张张静态的幻灯片,但自然界的相互作用更像是持续变化的动态视频。

OpenComplex2基于FloydNetwork图扩散框架以及多尺度原子精度表示两大关键技术创新,有效突破了生物分子在功能活动中可及的动态构象分布预测的瓶颈,从而能够建模生物分子系统中各种原子组分之间复杂的依赖关系,且无需对构象空间施加先验约束,更加真实地还原生物分子的构象多样性和动态特性

此外,还能同时捕捉原子级、残基级和基序级(motif level)的相关性,从而在建模过程中兼顾关键的局部结构细节与全局构象变化,为揭示生物功能提供更加全面的结构基础。

图片

基于这种能力,OpenComplex2在生物分子动态特性预测、柔性系统及超大型复合物建模、生物分子相互作用精细化分析等关键任务中性能卓越,突破了静态结构预测的瓶颈。

图片

以上就是悟界系列模型的全部亮相,可以清晰地看到智源研究院的技术路径以及在这路径上的相关探索。

除了悟界系列模型之外,在开源模型方面,王仲远还分享了通用向量模型BGE系列、小时级开源轻量长视频理解模型Video-XL-2、开源全能视觉生成模型OmniGen模型进展。

下一代AI如何发展?

本届智源大会在现场议程和嘉宾设置上,均与往届有些不同。

大会规格依然顶级,但显著的变化在于更多产业新锐力量的深度参与。例如,首次设立的大模型产业CEO论坛,就汇聚了面壁、爱诗、生数、智谱等前沿企业的创始人与掌舵者,同台论道。

这侧面印证了大模型技术正加速向产业纵深落地,这些身处一线的玩家走向舞台中央,释放其产业势能。

图片

不仅嘉宾阵容顶级,机器人展示同样规格拉满,除了开幕式上的人机同台,会场还设置了AI科研体验区,让人们感知这些技术如何从实验室来到我们身边。

图片

下一代AI如何发展似乎已经具象化了,不过具体怎么做?如何做?还得看各方大佬们的观点和探索。

在本届智源大会开幕式上,其实已经有了不少答案,比如像Bengio提出的安全隐忧需要解决,以及"悟界"所呈现出来对物理世界的感知理解与交互上的探索……

还有强化学习之父Richard Sutton谈到了当前正热的智能体这一形态的发展。他表示AI正从依赖人类静态数据的 "人类数据时代" 迈入通过互动与经验学习的 "体验时代",强调智能体需像人类和动物一样从动态交互中生成新知识,而强化学习是实现这一目标的核心路径。

图片

此外,他还倡导去中心化合作替代中心化控制,通过信任、协调和市场机制引导AI与人类共生。

还有Linux基金会执行董事Jim Zemlin到开源的必要性,2025年是开源AI元年,开源正成为全球AI创新核心驱动力中国企业,如DeepSeek发布开源大模型,引发技术生态变革,印证开源打破垄断、加速迭代的作用。

图片

面对当前市场氛围正酣的具身智能,Physical Intelligence联合创始人兼CEO Karol Hausman认为,VLA模型是关键突破,可让机器人通过互联网数据学习,无需体验每个场景,还能与其他机器人连接获取数据。

图片

此外他还与宇树科技创始人王兴兴,银河通用创始人兼CTO、北京大学助理教授、智源具身智能研究中心主任王鹤,穹彻智能联合创始人、上海交通大学教授卢策吾,北京人形机器人创新中心总经理熊友军,就具身智能的不同技术路线、商业化路径探索、典型应用场景拓展、产业生态构建等议题展开深度讨论。

他们认为短期内人形机器人因数据采集、人机交互和环境适应优势是重要载体,长期看随着AGI发展会多样化。对于VLA模型泛化性,虽面临机器人环境复杂等挑战,但通过合成数据、多场景训练等可提升适应性。

图片

能够看到的是,多模态、强化学习、智能体、具身智能都成为了下一代AI发展的关键词。

这离不开产业界和学术界等多方探索,其中智源研究院所在的生态位就很关键。

从成立之初,智源研究院定位就是"做高校做不了,企业不愿意做的事情"。如今这一定位其实得以更加具象体现。

一方面,它承担起基础研究的资源投入和风险。高校拥有顶尖人才,但在大模型时代,基础研究需要庞大的工程团队、计算资源和企业化的运作方式,这是高校难以承担的;而企业这边面临着巨大的资金压力和业务压力,对于风险高的前沿探索往往不愿意参与。

比如就像原生多模态这个方面的探索,与企业为快速落地而先强化语言模型增添模态的方式不同,智源选择在基础架构上实现模态的统一和泛化,挖掘模型的通用性潜力。

而具身智能目前也是在技术路线不收敛的早期阶段,智源的跨本体具身大脑探索也是其中一条高风险路径。

另一方面,智源研究院通过链接产业与高校、以及技术开源的方式来完善整个AI产业的生态。

智源打造的覆盖模型、算法、数据、评测、系统的大模型开源技术体系FlagOpen,截至目前,已开源约200个模型160个数据集

其中,模型全球总下载量超6.4亿次,开源数据集下载量113万次,开源项目代码下载量140万次

此次智源大会有30余位AI公司创始人/CEO,100余位全球青年科学家、200余位人工智能顶尖学者和产业专家在此汇聚,也是智源研究院生态影响力的体现。

好了,本届"AI春晚"还在继续。这两天围绕多模态、深度推理、下一代AI路径、Agent智能体、具身智能、AI4S、AI产业、AI安全、AI开源等热门话题,总共有20个论坛180余场报告。

感兴趣的朋友可以继续关注哦~

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见


没有评论:

发表评论

开源:基于计算机视觉的交通路口智能监控系统

基于计算机视觉的交通路口智能监控系统 源代码 https://www.gitpp.com/lerobot/projects06078009 项目主要由三个模块组成,分别是:SRS流媒体服务器,云端GPU服务器,本地客户端. 首先,网络摄像机将交通路口的监控视频实时上传到 SR...