2025年11月21日星期五

太疯狂了,2。4万亿参数大模型实测!

最近国外新模型连发,好不热闹。霸榜的 Gemini 3 pro 在我们上期实测中的表现不错,但翻车也不少,并没达到预期。

图片

错过的小伙伴可以去补阅一下~

国外搞"三国杀"的同时,国内大厂也没闲着,就在上周,百度新发布了文心 5.0 大模型。

图片

官方称主打原生全模态统一理解与生成,并且在创意写作、智能体理解和指令遵循等方面均有突破。

各方面的跑分成绩也不错。

图片

特别是在文本方面,预览版直接在 LMArena 文本排行榜全球并列第二、国内第一。

图片

在 X 上刷到了不少好评。

图片
图片
图片

刷了这么多,最让我好奇的还是它主打的全模态理解能力。

图片

闲来无事,我立刻接着对它和 Gemini 3 pro 对比实测了一波,看看在全模态能力上,谷歌屠榜的模型和我们的国产模型到底有多少差距。

一、文心 5.0 Preview VS 哈基米3

地理位置推理

光看下面这段视频,你能猜出来这是国内哪座城市吗?

文心 5.0 Preview

图片
图片

文心不仅判断出了是成都,还给出了各个画面在成都的具体位置,并附上介绍。

Gemini 3 pro

我把相同的视频和提示词喂给 Gemini 3 pro ,它还是一样,并不是直接给出结果,而是给出一个工具,然后你可以通过该工具识别视频位置。

图片

Gemini 3 pro 虽然快不少,判断出是成都,但是出现了幻觉说视频里有太古里、鹤鸣茶社。

有这种差别,可能是国内外的训练数据不同导致的。

情节推理+情绪识别

再上点难度。

我把《甜蜜蜜》中张曼玉笑场却成就经典的片段发给它,让它分析情节和人物情绪。

文心 5.0 Preview

图片

来看看文心的回答。

首先场景和事件理解准确。

图片

让我非常惊喜的一个点是:它还根据一段米老鼠纹身镜头的特写推断出这个片段之前可能发生过什么情节。

图片

至于"为什么哭之前会笑"这个经典谜点,它也给出了合理解释。

图片

像我这种经常需要找影视解说的追剧选手,再遇到看不懂的直接找文心就够了。

Gemini 3 pro

在这个任务上 Gemini 3 pro 的表现就稍显逊色。

它将这个片段归于一个韩国电影,还编造出了一个龙的纹身。

但它对视频其他画面内容的解读还算准确,人物的情绪分析也没问题。

图片
图片
图片

名场面解读

接着我又测试了电视剧《伪装者》里面最出圈的片段,看看在多角色、多台词的情况下它的理解效果。

文心 5.0

图片

文心总结的非常到位:"小学生吵架方式"和持枪对峙形成严肃气氛的反差感是其好笑、出圈的关键。

来看看对视频内容的分析,台词、动作、神态都能条分缕析地梳理清楚。

图片
图片

但不足的是,这里文心将角色数量误判为两个,可能是因为画面经过裁剪处理,没有足够的背景差异信息,加上三人着装发型相似导致了偏差。

Gemini 3 pro

来看看 Gemini 3 pro 的输出。

图片
图片

同样,它一如往常给出了一个出圈场景分析器。

不得不吐槽一句这个页面有点不好看…无中生有弄了个图片组件,还把文本输出的位置挤到第二页的角落。

这种工具输出的方式在需要重复使用的场景下会有用,但是我更偏向于它能够直接给我一个文本形式的回答。

截图中的文本翻译如下:

场景总结:

一场紧张激烈的三方对峙正在上演,A 持枪指向 B,而 C 则持枪指向 A。他们陷入了一轮又一轮循环往复且愈发荒诞的争吵,彼此挑衅对方开枪或放下武器,最终以一声惊心动魄的枪响收场。

为什么出圈:

这一幕因将不断升级的戏剧性和内在荒诞巧妙融合而成为热门梗图。角色间循环往复的对话——"你敢开枪吗?""你先放下枪!"——形成了一个荒诞的僵局,让人立刻联想到任何琐碎或不合逻辑的争论。对峙的紧张气氛与近乎幼稚的来回叫板形成鲜明对比,使其极具趣味性和分享性。它以一种夸张至极的方式完美地捕捉了"僵局"或"无法解决的争论"的精髓,非常适合用于各种描绘荒诞分歧或权力斗争的梗图。

Gemini 3 pro 准确识别到了有三个角色,但场景分析略显简洁,比如没有指明三人在什么场景下。

这 3 个 case 对比下来,虽然不能直接敲定这两个模型的全模态能力孰强孰弱,但也能一观二者的大体实力。

二、更多文心实测

vlog思路拆解

每次看到别人做出爆款视频的时候我都很羡慕,但是如果是不了解的新赛道,光自己去揣摩复刻会遗漏掉很多细节,影响最后的成片效果。

于是我也试了试看文心能不能帮我拆解视频的拍摄思路。

我找了一个点赞上万的学习 vlog 发了过去。

文心回答非常详细且全面,视频的核心逻辑、关键步骤、拍摄细节、场景的切换和设置、复刻的技巧等等都总结出来了。

梗图解释

来点有趣的。

著名的《William Shakespeare》,看看文心能不能 get 到我的笑点。

图片

解读的很准确。

图片
图片

导游解说

我还把之前旅游的照片发给它,使用简单的 prompt 就能得到一个免费的导游。

图片

即使只拍到一个背景它也能准确识别。

图片
图片

象征意义、历史故事、文化典故等都能说得清清楚楚,以后去博物馆再也不用租讲解器了。

书架找书

在网上找了张书架的图片,书架的布局并不规整,书籍的摆放也比较随意,横的竖的都有。

图片

看看文心能不能帮我们迅速找到想要的书。

图片

它不仅能迅速定位《灯塔》在右侧书架中间层,还能用更加显眼的《 MAUS 》周边书籍作为参考物,方便用户更快找到。

emoji 猜词

还有前段时间很火的看 emoji 猜词。

图片

文心也能秒答。

图片

图出菜谱

更离谱的来了,我把随手拍的一道菜发给它,它不仅识别食材,还能推测这是什么菜,并直接给出详细做法。

图片
图片
图片
图片

整体测下来,文心 5.0 的全模态理解与推理能力确实有让我惊艳到。

这也让我好奇,文心 5.0 到底有什么不一样?

三、全模态能力的背后

技术亮点

作为一个原生全模态模型,文心 5.0 融合语言、图像、视频、音频在内的全模态数据,实现了原生的全模态统一理解与生成。

它采用自回归统一架构,拥有 2.4T 级别的参数,但推理时激活率仅为 3% 。

采用多模态统一 MoE 架构,具备超稀疏激活参数,在保持模型强大能力的同时降低计算与推理成本。

为了提升长程任务的智能体能力,它基于大量任务轨迹数据进行了数据增强,并使用端到端多轮强化学习训练。

大家可以到下面的链接体验,抓紧去试试吧~

图片

指路链接:

https://ernie.baidu.com/

>/ 本期作者:Tashi  & JackCui

>/ JackCui:AI领域从业者,毕业于东北大学,大厂算法工程师,热爱技术分享。

没有评论:

发表评论

开源!数据治理平台,可以二开,可以商业化

数据治理平台 源代码 https://www.gitpp.com/essay/project-data-quality 可以商业化,市场巨大 PKU协议 数据治理平台「智数管家」功能、价值、场景与推广全解析 核心功能体系 数据资产全生命周期管理 数据源中枢 :支持MySQL、...