2026年4月26日星期日

医疗视频理解大模型开源,6k+精标测试集与英雄榜上线

联影智能开源全球首个医疗视频理解大模型uAI Nexus MedVLM,支持单卡部署,覆盖内镜、腹腔镜等8个手术数据集。同步发布6245个视频-指令对测试集MedVidBench及公开英雄榜,性能超越GPT-5.4等通用模型。适合开发者、医疗AI研究人员参与评测与应用。

Tags:

田晏林 发自 凹非寺
量子位 | 公众号 QbitAI

手术视频的“黑盒”,被一脚踢爆了!

就在这两天,GitHub和Hugging Face社区上线了一枚医疗大模型领域的“核弹”。

全球规模最大性能最强的医疗视频理解大模型——uAI Nexus MedVLM(中文名:元智医疗视频理解大模型)开源!

最惊人的是,这玩意儿是真的能看懂手术。

论文已经被CVPR 2026收录,团队还同步甩出了一套由6245个视频-指令对构成的标准测试集。

啥概念?医疗视频理解,终于有了一把“公共标尺”。

而如此兼具规模与精度的医疗视频数据开源,在业内尚属首次

小编第一时间冲到Hugging Face,把模型拉下来实测了一波。

到底有多能打?

先交代一下uAI Nexus MedVLM的硬指标:

  • 汇聚超53万条视频-指令数据;
  • 支持4B/7B参数规模,单卡就能部署(对,一张卡就能跑);
  • 整合8个专业医学数据集,覆盖内镜、腹腔镜、开放手术、机器人手术、护理操作……几乎你能想到的手术场景,它全包了。

实测效果咋样?

Demo的体验设计非常友好:界面核心模块清晰;支持上传手术视频文件。

图片

你可以上传自己的医疗视频,也可以用预置示例直接测试。

我尝试用示例的腹腔镜胆囊切除术视频,测试了三个临床核心维度,并对比了通用大模型(GPT-5.4、Gemini-3.1、某国产大模型)和uAI Nexus MedVLM的输出差异。

定量实测的数据太残暴了!手术安全评估:准确率89.7%。

啥概念?GPT-5.4只有16.4%,Gemini-3.1是24.2%,某国产大模型是30.9%。

也就是说,uAI Nexus MedVLM的准确率是GPT-5.4的近5.5倍,是Gemini-3.1的3.7倍,是国产大模型的近3倍。

时空动作定位:uAI Nexus MedVLM的mIoU是Gemini-3.1的3.2倍,是国产大模型的3.7倍,是GPT-5.4的47倍,

视频报告生成(5分制):uAI Nexus MedVLM 拿到4.24分,GPT-5.4只有3.98分,某国产大模型只有3.5分,Gemini-3.1只有3.7分。

而通过MedGRPO强化学习优化后,相比基座模型,uAI Nexus MedVLM的器械定位能力提升14%;手术步骤识别能力暴涨52%;手术描述质量提升16%~25%。

图片

uAI Nexus MedVLM覆盖内镜腔镜手术、开放式手术、机器人手术、护理操作等多类临床场景,涵盖了8个手术数据集中的8个任务:

视频摘要(VS)、关键安全视野评估(CVS)、下一步操作预测(NAP)、技能评估(SA)、时间动作定位(TAG)、密集视频描述(DVC)、区域级描述(RC)和时空基础化(STG)。

每项任务的表现都超越了GPT和Gemini。

再看定性实测的结果,把一段被标记了绿色框的手术视频发给大模型,让它描述。

输入问题:你是一名专攻微创手术的外科分析专家。这段视频展示了腹腔镜胆囊切除术的内镜画面。请描述0.0秒时,边界框内物体的状态,以及在0.0~29.0秒时间段内的操作。

图片

标准答案是:钳持续夹持并将胆囊向手术视野的左上方牵拉,提供反向牵引和暴露。

GPT-5.4这边呢,它只能给出笼统的描述,未能识别出具体器械。

Gemini-3.1则将工具错误识别为“电凝钩”,描述成了不正确的操作。

某国产大模型:则无法识别出正确的手术操作步骤。

只有uAI Nexus MedVLM,给出了接近标准答案的描述:

位于左上方的抓钳持续向上并朝中央牵引胆囊,保持张力并为钩子暴露分离平面。

随后,我看了下示例给出的8个任务表现,一个比一个令人震撼。

为避免真实手术场景带来的观感不适,我们选取了一段温和的示例视频,内容是护士给患者监测身体指标。

视频涵盖了护士查看血压计、查看体温计、护理记录、洗手、测量血压、测量体温、脉搏测量、呼吸测量等工作。

图片

现在,我们随机考察8个任务中的一个,比如「时间动作定位」。

输入问题:脉搏测量动作发生在什么时间?

标准答案是:46.0-61.8seconds。

模型给出的预测是:43.0-65.0seconds。前后误差不超过4秒,且正确答案就在预测范围内。

为什么手术视频是AI最难啃的骨头?

在AI医疗领域,将AI用于影像辅助诊断、病历书写、质控管理等场景早已不是新鲜事,在不少医院已经落地。

但有一个方向,至今仍是公认的“无人区”,那就是手术视频理解

之前没人敢碰,为啥?三重地狱级难度,和静态影像完全不是一个量级:

第一关:数据极难获取。临床手术视频涉及患者隐私与医学伦理,获取本身就困难重重。

即便拿到了原始视频,你让专业医生逐帧标注?成本高到可以劝退99%的团队。

第二关:没有统一评测标准。这是行业里一个很尴尬的现实:各家用自己的数据集、自己的指标,模型效果根本没法横向比较。

你说你强,他说他强,谁说了都不算,严重阻碍整个赛道的发展。

图片

第三关:任务本身极端复杂。手术视频的难就难在对空间、时序、语义的理解要高度专业。

比如,它需要精准识别毫米级的器械位置和解剖结构。稍微偏一点,可能就认错了。

而且胆囊得先分离再切除,不能反过来。AI如果看不懂时序,就根本无法理解手术进程。

各种约束叠加,再顶级的模型也只能歇菜。

但现在,这个无人区被uAI Nexus MedVLM一脚踩穿

它不只是“炫技”,是真的能救命。

好了,说点实际的。这模型具体能干嘛?

术前:分析主刀老师上万台手术视频,挖掘临床规律、辅助优化方案。

想象你是一位刚站上手术台的临床医生,即将做一台胆结石微创手术。

以前你只能靠记忆和经验;现在AI把成千上万台顶级专家的手术经验沉淀下来,相当于有了最强的大脑,来辅助你完成这台手术。

图片

术中在分离胆囊管、显露安全视野等关键步骤,实时给出指引;对违规操作、动作偏差进行毫秒级预警,成为你的 “第三只眼”

术后:自动完成总结与结构化记录,这通常会占用医生大量时间,但现在,一键生成标准化报告。这台手术的经验,也能成为下一位医生的“决策依据”

手术质控、术中安全、报告自动化、医学教学……uAI Nexus MedVLM的价值,远不止于技术突破。

在中国,优质医疗资源集中在三甲医院,基层医院医生成长周期长、手术经验积累慢。

而uAI Nexus MedVLM可以把顶级专家的手术经验“沉淀”下来,基层医院的医生也能获得“专家级”的术中辅助。

这或许才是AI真正理解手术视频的意义所在。

全球开发者,新机遇来了

这次发布,最值得关注的不仅是uAI Nexus MedVLM本身。

开发这一模型的背后玩家联影智能(联影集团旗下一家专注于AI医疗的创新公司),首次向全球开源大规模高质量医疗视频标注数据和模型,并提供了一个更具可比性的评测基准。

这意味着什么?终于有了一个手术视频理解垂直领域的“全球公共测评体系”了。

以前,各家模型各说各话,效果没法比。

现在,拉出来在同一个数据集上跑一跑,谁强谁弱,一目了然。

而这,还只是开始。

这支研发团队不想唱独角戏,上线了医疗视频理解大模型榜单,面向全世界开发者发出挑战。

图片

这是一个综合基准测试,用于评估视频语言模型在医疗和外科视频理解方面的表现。

开发者可提交自有模型结果,由系统基于标准自动评分,形成动态更新的统一排行榜。

当全球开发者都能下载模型、使用数据集、上传自己的成果时,看谁能把对医疗视频理解的能力边界,再往前推一步了。

这个过程中,医生上传的罕见病例、复杂手术视频,尤其是现有模型表现不足的案例,都会成为极为珍贵的真实数据,持续驱动技术迭代。

医疗视频AI正在迎来面向全球开发者的黄金时代。

未来,uAI Nexus MedVLM将与具身智能融合,完善感知-推理-执行的能力闭环。从手术室拓展到更多临床场景,推动医疗全流程智能化。

数据开放、模型共享、全球协同……这条路,才刚刚开始。

开发者们,是时候上车了~

彩蛋:链接在此,请自取

1.在线Demo: https://huggingface.co/spaces/UII-AI/MedGRPO-Demo 

2.推理代码: https://github.com/UII-AI/MedGRPO-Code

3.MedVidBench数据集: https://huggingface.co/datasets/UII-AI/MedVidBench

4.公开榜单: https://huggingface.co/spaces/UII-AI/MedVidBench-Leaderboard

5.论文: https://arxiv.org/abs/2512.06581 

6. 项目介绍:https://uii-ai.github.io/MedGRPO/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见

飞书多维表格AI升级:自然语言问数据,一键生成图表和H5页面

飞书多维表格新增AI问数据、AI生成图表、AI搭页面、AI生成问卷四大功能。用户无需懂SQL或代码,用自然语言即可完成数据分析和可视化,一键生成可分享的H5级项目战报页。适合制造业工人、内容创作者、项目团队等非技术人员,支持语音录入(含方言),实时生成专业表单和图表。

Tags:

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

说真的,学SQL这件事,可以先放一放了。

因为现在,一个汽车点巡检的师傅,左手拿着扳手🔧,右手拿着飞书,就能搞专业的数据分析!

图片
图片由AI生成

例如面对密密麻麻、图文兼并的海量数据,对计算机技术一窍不通的师傅,现在要做的动作就是一个导入+一句话

这是一组汽车和工业设备的核心部件数据,请基于这张图表生成一个清晰可分享的产品目录页。

图片

然后在稍等片刻过后,一个产品目录页面就这么水灵灵地诞生了!

图片

除此之外,这位师傅也可以先用语音的方式,给飞书下达这样的指令:

帮我创建一个工厂数显扭力扳手的专属点检表单。这个扳手是用来拧紧轮胎的,但我不知道该点检哪些内容。直接帮我生成一个专业、详细的表单。

同样是稍等片刻,一个专业的表单就搞定了:

图片

然后往这个扳手上贴上一张飞书生成的二维码,再用手机上的飞书去扫它,就能实现在点巡检现场直接上传数据:

图片

更有意思的来了,一位河南工友,甚至可以把点巡检结果,通过说方言的形式,直接录入结果!

从过程中我们不难发现,飞书是会在河南工友说话的期间,实时地去识别,实时地去填写表单。

即便期间信息有误,它也能自行回头校正并做出修改。

由此可见,现在的AI能力已经无缝衔接了线上系统与线下物理世界,解决了制造业一线非常实际的录入难、不懂数据等问题。

这证明了即使是在最传统的制造业,AI也能通过极低的门槛,赋能一线工人,实现真正的数字化落地。

那这到底是怎么做到的?

答案是,飞书多维表格,又升级了。

在3月份一句话搭建系统的功能之上,它又补齐了四项能力:

  • AI问数据:用自然语言就能直接对表格数据提问,AI会自动完成数据检索、统计和多维度的分析,快速给出专业结论和业务洞察;
  • AI生成图表:只需一句指令,就可以生成矩形树图、热力图等原生表格布局的专业BI图表;
  • AI搭页面:基于表格内部的结构化数据,一键生成带交互效果、可分享的H5级专业页面,数据也能实时同步更新;
  • AI生成问卷:即便不清楚具体收集项目,也能快速生成专业完整的表单问卷等。

刚才的演示,正是由飞书产品市场经理王大仙和北汽福田流程与数字化部高级经理文伟共同呈现的AI生成问卷AI搭页面功能。

上午更新功能,晚上直接让客户带着真实业务难题来实战直播,有一说一,这在业界也实属罕见。

而在看完整个直播之后的感受,正如飞书CEO谢欣所说的那般:

我觉得AI时代就是把原本的这个专业的分类给打破了。你只要有想法,就能把它做出来。

影视飓风在用,编导变身分析师

如果你觉得传统制造业离你有点远,那我们来看看内容创作者是怎么玩的。

作为坐拥多个频道、一年产出200多期节目的头部内容团队,影视飓风对数据复盘的依赖程度,远超普通团队。一条视频能不能爆、一个系列有没有破圈、哪些指标真正影响粉丝增长,都要靠数据说话。

但现实的困境是,整个团队只有2名数据分析师,全公司70多个内容创作者的数据分析需求,根本排不过来……

不过在这场直播中,影视飓风的项目中台负责人文君,现场展示了什么是把AI当赛博分析师。

图片

面对仪表盘上海量的数据,文君直接用自然语言,通过AI问数功能,向飞书多维表格抛出了一个问题:

分析不同频道在各个平台中,点赞量、收藏、分享与粉丝增长的相关性,给出结论。

图片

但飞书AI只思考了片刻,就给出了克制且准确的结论:点赞量与粉丝增长始终保持强正相关,而收藏和分享的影响存在差异。

文君当场盖章认证:

这个结论和人工数据分析师出来的是一致的。

不过数据分析光有结论还是不够的,还得有直观的可视化结果才行,于是文君继续用说的方式提需求:

画一个矩形树图,看不同频道下不同系列的播放情况。

画一个热力图,看看每周几不同时段发布的作品播放量有什么特征。

图片

片刻过后,飞书多维表格就调用了自己的AI图表生成功能,把需求对应的图表给生成了出来。

对于这个功能,王大仙也在现场展示了他之前给电商客户做的桑基图和热力图的效果:

图片

当然,对于图表的颜色和风格,也是可以自定义修改的:

图片

由此可见,AI确实把数据分析的门槛,结结实实地下放给了每一位内容创作者。

就像文君感慨的那样:

这一定程度上改变了团队内的交互方式。

得到也在用,几分钟生成H5级战报

如果说影视飓风的案例,是AI让普通人拥有了专业的数据分析能力,那得到的实战演示,则让我们看到,AI能把从数据到精美呈现的路径,缩短到什么程度。

得到团队的痛点,或许很多做项目、做电商的人也都能感同身受。

得到电商业务总经理罗砚回忆2025年跨年演讲,为了能在演讲结束的第一时间就给全网用户呈现实时数据复盘,她和团队只能在后台手绘4页纸的系统草图,再找飞书团队连夜赶制数据复盘看板……可以说全程都在和时间赛跑。

而在传统工作模式里,想要做一个能对外分享、带交互动效、设计精美的数据战报页,更是需要前端工程师、设计师、数据分析师组成的专业团队,花上一周时间,还要付出不菲的成本。

但今年,完全不需要这么肝了。

面对一张密密麻麻的数据表,罗砚在现场只是提了一个要求:

这是一组跨年演讲数据,帮我生成一个数据亮点突出、可分享的项目战报页,主题色用橙色。

多维表格的AI搭页面功能开始自动运转,几分钟后,一个带有3D滚动动画、数据可实时交互、甚至连文案都自带高情商(例如自动总结出“平均观看时长20分钟,深度内容依然被需要”)的H5级项目战报页诞生了!

要知道,在过去,要做出这样一个H5,你需要文案策划、UI设计、前端工程师开几天会,然后再花一周时间开发,成本极高。

但现在?只需一杯咖啡的时间。

不仅仅是跨年演讲,在得到的电商场景里,飞书多维表格也能起到作用。

罗砚在现场再次用AI生成图表AI问数,秒出了不同主播带货品类的销量表现热力图,并对不同账号的直播效率进行了多维度归因。

图片

由此可见,从海量数据到精美的H5页面呈现,再到深度的业务洞察,AI把这条路径缩短到了极致,让团队终于能把精力从做表转移到做业务本身。

AI工具,好用才是硬道理

看完这三个来自不同行业的真实案例,我们就能明白,飞书这波多维表格的升级,到底厉害在哪里。

从产品本身来看,3月份飞书刚发布了一句话搭系统的能力,让普通人不用写一行代码,就能搭出一套完整的业务系统。

而这次升级,又补齐了AI问数据、AI生成图表、AI搭页面、AI生成问卷四大核心能力,让飞书多维表格的AI能力,完整覆盖了从搭系统到对外呈现、收集信息、分析数据和表达结果的一整条业务链路。

这意味着,AI的角色,已经从一个帮你改改文字、做做辅助的提效工具,变成了一个能独立完成复杂任务的Agent同事。

过去,你做一件事,要先想表结构、再搭表单、再录数据、再写公式分析、再做图表可视化、最后做页面呈现,每一步都有门槛,每一步都要花时间。

而现在,你的工作,只需要从一个想法、一个问题开始,剩下的所有事,AI都能帮你搞定。

更重要的是,和市面上需要反复导入导出数据的AI分析工具不同,飞书多维表格本身就是企业业务数据的天然沉淀载体,业务从搭建系统、收集信息到流程流转的全链路数据,都沉淀在此。

这也让它的内置AI分析能力显得顺理成章,既避免了数据流转中的安全风险,也解决了数据割裂、分析与业务脱节的痛点,也是飞书作为企业AI基础设置底座的核心意义所在了。

从行业的角度来看,飞书这波升级,更是直接掀翻了职场人二十年的能力评判标准。

过去二十年,职场人的核心竞争力之一,就是对专业工具的掌握。会写SQL的人,比只会用Excel的人拥有更多职场机会;会用BI工具、会写代码的人,能拿到更高的薪资。我们花了大量的时间,去学习工具的用法、去啃专业的技术知识,只是为了跨过那道专业门槛,把自己的业务想法落地。

但现在,飞书用AI,把这些专业工具的门槛彻底抹平了。

你不需要懂任何技术,不用背复杂的Excel 函数,不用学枯燥的SQL语法,不用懂前端代码,甚至哪怕你说河南话、湖南话,哪怕你是拿着扳手的一线工人,哪怕你是只会拍视频的编导,只要你能用自然语言说清你的业务目标、讲明白你的需求,AI就能帮你完成剩下的所有技术工作。

因此,职场人的核心竞争力,从此被彻底重构。

从会用工具,转向了 懂业务、会提问、能决策。正如直播中嘉宾们反复强调的核心观点:AI解决了工具的门槛,而往上浮的,是生而为人的能力和价值。

现在的AI浪潮,或许已经快到让每个人都多少有跟不上的FOMO感,总怕自己学的技能过时,怕自己被 AI 淘汰。但真正好的 AI 产品,从来不是制造焦虑,而是化繁为简。

它把最难的技术、最复杂的逻辑,全都自己消化融合,留给用户的,是最简单的操作,和以前只有高门槛学习、高额成本投入才能掌握的能力。

悲观者永远正确,乐观者永远前行。

在汹涌的AI浪潮面前,与其焦虑自己会不会写代码、会不会敲SQL,不如成为那个懂得利用先进工具放大自身潜能、推动业务前行的乐观者。

是的,你的SQL、Excel或许可以先放一放。但你的业务思维,正迎来前所未有的黄金时代。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见

医疗视频理解大模型开源,6k+精标测试集与英雄榜上线

联影智能开源全球首个医疗视频理解大模型uAI Nexus MedVLM,支持单卡部署,覆盖内镜、腹腔镜等8个手术数据集。同步发布6245个视频-指令对测试集MedVidBench及公开英雄榜,性能超越GPT-5.4等通用模型。适合开发者、医疗AI研究人员参与评测与应用。 Tag...