2025年4月18日星期五

昨天，豆包1。5·深度思考模型上线，视觉能力绝了，开启新时代！

火山引擎上线了最新发布的豆包 1.5·深度思考模型！

我实际测试了一下，上传数学高考真题的照片，8道选择题，竟然都对了。

解析发票，接入 API 一键统计公司账:

一、豆包 1.5·深度思考模型

豆包1.5·深度思考模型包含两个版本：

主线版本：Doubao-1.5-thinking-pro，推理能力更强；
多模态能力的视觉版：Doubao-1.5-thinking-pro-vision，支持视觉推理。

参数量仅是 DeepSeek R1 的 1/3，延时更低，却给我带来了 DeepSeek 上不曾有过的神奇体验，准确率竟然还这么高。

性能上基本全面超越 DeepSeek R1，在权威的 AIME 2024 数学榜单上追平了 OpenAI 推理模型 o3-mini-high，编程得分接近 Gemini 2.5 pro，而在常识推理，难度极高的通用任务上，直接秒杀全场，成为全场最靓的仔。

在保证专业推理能力的同时，豆包 1.5·深度思考模型采用 MoE 架构。

总参数量仅有 200 B 和 20B 的激活参数，相比 DeepSeek R1，具有明显的训练和推理成本优势，基于高效算法和高性能推理系统，模型在提供行业极高并发承载能力的同时，实现 20 毫秒的极低延迟。

像创意写作、人文知识阐述这些都是小菜一碟：

不过最惊艳，应该是多模态能力了。

新上线的豆包 1.5·深度思考模型，能处理 DeepSeek R1 不能处理的视觉任务

1、数学

看到它这么强的视觉能力，我是想难为一下它的，所以找来了 2024 年数学高考真题让它解答。直接上传一张完整的照片，我连题目都没做拆分，直接整张图上传。

经过反复的思考推理，得出了最终结果，竟然 8 道选择题全对。

以后辅导小孩子写作业的任务，就交给豆包 1.5·深度思考模型吧。

你曾经理解的豆包大模型，主打的就是一个陪伴，提供无可替代的情绪价值，而未来的豆包大模型，专业性的内容可能会更强大。

2、发票

对我来说还有一个痛点就是，公司的发票真是太令人头大了，零零碎碎的发票整理起来很费时间，如果有一个 AI 帮我处理这样的琐事，是不是能释放很大的人力？

可以看到，对于发票的处理，它依然很能打，我测试了各种各样的发票，它都能堪此大任。

3、金融

最近的贸易战，看到了很多梗图，试试让 AI 分析一下这张图：

你别说，总结的，还挺到位：

再比如这张图：

它告诉我，这张图表展示了美国政府债务按到期年份的分布情况，核心信息集中在2025年到期的巨额债务上。

主要核心问题在于，2025 年偿债压力空前巨大，以及债务结构失衡，短期风险集中。

我又看到了美国 10 年期国债收益率图片，我不知道它们有着什么样的关系，继续提问。

看着这些文字显而易见能够明白，美国 10 年期国债收益率上涨，并不是好事。国债收益率上涨，意味着美国偿还这些即将到期的债务，要支付更高的利息。

美国正面临 "高债务→高利率→更高债务" 的恶性循环。

瞧，新的知识就这么学到了。

二、豆包 1.5·视觉理解模型升级

火山引擎还升级了豆包 · 视觉理解模型。

像普通的物体识别更是不在话下，移动端设备可以通过 API 的形式接入这些通用识别能力，比如智能眼镜识别一下各种物体。

多目标定位、快速定位并计数，都不在话下。

企业利用这些能力，能很打造有趣的商业化应用，比如看看监控视频里的小猫今天都干什么了。

企业用户开通豆包最新模型，还可以享受最新模型 5 折优惠和总价值 600 万 tokens 额度代金券。

这个时代真好，任何你想了解的东西，想要学的东西，都可以低成本地送到你面前，拜师学艺的流程都省了。

三、总结

整体体验下来，豆包 1.5·深度思考模型，很强，非常强，对于国内用户来说，现在又多了一个非常强大的 AI 工具。

上述内容，我也做成了视频，感兴趣的小伙伴可以查看：

https://www.bilibili.com/video/BV1Ye5kzcEXq

好了，今天的内容就是这么多，下期再见~

·················END·················

没有评论:

发表评论

订阅：博文评论 (Atom)

AI I024