2025年4月18日星期五

昨天,豆包1。5·深度思考模型上线,视觉能力绝了,开启新时代!

火山引擎上线了最新发布的豆包 1.5·深度思考模型!

我实际测试了一下,上传数学高考真题的照片,8道选择题,竟然都对了。

解析发票,接入 API 一键统计公司账:

一、豆包 1.5·深度思考模型

豆包1.5·深度思考模型包含两个版本:

  • 主线版本:Doubao-1.5-thinking-pro,推理能力更强;
  • 多模态能力的视觉版:Doubao-1.5-thinking-pro-vision,支持视觉推理。

参数量仅是 DeepSeek R1 的 1/3,延时更低,却给我带来了 DeepSeek 上不曾有过的神奇体验,准确率竟然还这么高。

性能上基本全面超越 DeepSeek R1,在权威的 AIME 2024 数学榜单上追平了 OpenAI 推理模型 o3-mini-high,编程得分接近 Gemini 2.5 pro,而在常识推理,难度极高的通用任务上,直接秒杀全场,成为全场最靓的仔。

在保证专业推理能力的同时,豆包 1.5·深度思考模型采用 MoE 架构。

总参数量仅有 200 B 和 20B 的激活参数,相比 DeepSeek R1,具有明显的训练和推理成本优势,基于高效算法和高性能推理系统,模型在提供行业极高并发承载能力的同时,实现 20 毫秒的极低延迟。

像创意写作、人文知识阐述这些都是小菜一碟:

不过最惊艳,应该是多模态能力了。

新上线的豆包 1.5·深度思考模型,能处理 DeepSeek R1 不能处理的视觉任务

1、数学

看到它这么强的视觉能力,我是想难为一下它的,所以找来了 2024 年数学高考真题让它解答。直接上传一张完整的照片,我连题目都没做拆分,直接整张图上传。

经过反复的思考推理,得出了最终结果,竟然 8 道选择题全对

以后辅导小孩子写作业的任务,就交给豆包 1.5·深度思考模型吧。

你曾经理解的豆包大模型,主打的就是一个陪伴,提供无可替代的情绪价值,而未来的豆包大模型,专业性的内容可能会更强大。

2、发票

对我来说还有一个痛点就是,公司的发票真是太令人头大了,零零碎碎的发票整理起来很费时间,如果有一个 AI 帮我处理这样的琐事,是不是能释放很大的人力?

可以看到,对于发票的处理,它依然很能打,我测试了各种各样的发票,它都能堪此大任。

3、金融

最近的贸易战,看到了很多梗图,试试让 AI 分析一下这张图:

你别说,总结的,还挺到位:

再比如这张图:

它告诉我,这张图表展示了美国政府债务按到期年份的分布情况,核心信息集中在2025年到期的巨额债务上。

主要核心问题在于,2025 年偿债压力空前巨大,以及债务结构失衡,短期风险集中。

我又看到了美国 10 年期国债收益率图片,我不知道它们有着什么样的关系,继续提问。

看着这些文字显而易见能够明白,美国 10 年期国债收益率上涨,并不是好事。国债收益率上涨,意味着美国偿还这些即将到期的债务,要支付更高的利息。

美国正面临 "高债务→高利率→更高债务" 的恶性循环。

瞧,新的知识就这么学到了。

二、豆包 1.5·视觉理解模型升级

火山引擎还升级了豆包 · 视觉理解模型。

像普通的物体识别更是不在话下,移动端设备可以通过 API 的形式接入这些通用识别能力,比如智能眼镜识别一下各种物体。

多目标定位、快速定位并计数,都不在话下。

企业利用这些能力,能很打造有趣的商业化应用,比如看看监控视频里的小猫今天都干什么了。

企业用户开通豆包最新模型,还可以享受最新模型 5 折优惠和总价值 600 万 tokens 额度代金券。

这个时代真好,任何你想了解的东西,想要学的东西,都可以低成本地送到你面前,拜师学艺的流程都省了。

三、总结

整体体验下来,豆包 1.5·深度思考模型,很强,非常强,对于国内用户来说,现在又多了一个非常强大的 AI 工具。

上述内容,我也做成了视频,感兴趣的小伙伴可以查看:

https://www.bilibili.com/video/BV1Ye5kzcEXq

好了,今天的内容就是这么多,下期再见~

·················END·················

没有评论:

发表评论

一文看懂!大语言模型与AI智能体的前沿进展

点击下方卡片,关注"AI生成未来"如您有工作需要分享,欢迎联系:aigc_to_future近年来,大语言   点击下方 卡片 ,关注" AI生成未来 " 如您有工作需要分享,欢迎联系: aigc_to_future 近年来,大语言模型...