最近,豆包模型上新了,作为重度使用者,第一时间测试了一番,模型效果确实提升不少
Doubao-Seed-1.6-thinking|250715:思考能力强化、支持多模态、256K长上下文
Doubao-Seed-1.6-thinking模型思考能力大幅强化, 对比Doubao-1.5-thinking-pro,在Coding、Math、 逻辑推理等基础能力上进一步提升, 支持视觉理解。 支持 256k 上下文窗口,输出长度支持最大 16k tokens。
Doubao-Seed-1.6-flash|250715:极致速度、支持多模态、256K长上下文,纯文本能力大幅提升近10%
Doubao-Seed-1.6-flash推理速度极致的多模态深度思考模型,TPOT仅需10ms; 同时支持文本和视觉理解,文本理解能力超过上一代lite,纯文本能力大幅提升近10%。支持 256k 上下文窗口,输出长度支持最大 16k tokens。
实践测评
一、在线体验
后期想要使用最新的豆包大模型,可以在模型体验中心使用,链接如下(目前处于内侧阶段):
https://www.volcengine.com/experience/ark?model=doubao-seed-1-6-flash-250715
想要切换可以看图上的切换标志,你可以使用Doubao-Seed-1.6-thinking|250715或者Doubao-Seed-1.6-flash|250715
我们来试试Doubao-Seed-1.6-thinking-250715的深度思考能力+多模态识别能力
思考过程及结果
<thinking>用户现在需要我详细描述四张图片的内容,然后分类。首先看第一张图,是一只鹿的特写,毛色棕白相间,耳朵内侧粉红色,背景模糊的绿色和深色,应该是自然环境。第二张是小熊猫,红棕色毛发,白色面部斑纹,周围有树枝、石头和绿色植物,环境是森林或栖息地。第三张是三个人背对着看雪山,远处雪山连绵,天空有云,前景是山坡和植被,属于风景类。第四张是三朵雏菊花,白色花瓣,黄色花心,花瓣上有水珠,背景模糊的绿色,是花卉特写。然后分类的话,参考参考内容里的自然科学类,比如动植物、地质地貌。第一张是动物(鹿),第二张动物(小熊猫),第三张地质地貌(雪山风景),第四张植物(雏菊)。现在组织语言详细描述每一张,然后分类。
首先第一张图片:这是一张鹿的头部特写照片。鹿的毛色以浅棕色为主,面部、耳朵内侧及颈部有明显的白色毛发;耳朵竖立,内侧呈粉红色,耳尖微微泛白;眼睛半眯,眼周有浅色毛发环绕;黑色的鼻子小巧,嘴角微微收拢,脸颊两侧长着细密的白色胡须。背景是模糊的深绿色与浅褐色渐变,可能是森林或灌木丛的环境,突出主体鹿的细节。
第二张图片:画面主体是一只小熊猫。它有着浓密的红棕色毛发,面部中间从额头到鼻尖覆盖着白色毛发,脸颊两侧的白色毛发向两侧延伸,形成类似"八字眉"的斑纹;眼睛大而圆,呈深棕色,眼神明亮;耳朵竖立,耳尖和耳内侧为白色。小熊猫身处由深色石头、枯树枝及绿色小枝叶构成的环境中,背景还有模糊的浅色树干,整体氛围像是它的自然栖息地或动物园的模拟环境。
第三张图片:展现的是三个人背对镜头眺望雪山的场景。画面下方偏左是一位穿白色短袖的人,中间是穿黑色连帽衫的人,右侧是穿黑色衣服戴眼镜的人;三人前方是连绵的雪山,山顶覆盖着洁白的积雪,山体部分呈深灰色与浅褐色,山间有一些绿色的植被;天空湛蓝,飘着几缕白色的云,远处的雪山在蓝天映衬下显得格外壮丽;前景的山坡上有稀疏的树木和草地,整体画面开阔,充满自然景观的震撼力。
第四张图片:是三朵雏菊花的特写。花朵有着白色的花瓣,花瓣上沾有细小的水珠,显得清新透亮;花心是呈放射状的黄色管状花,颜色鲜艳。三朵花的花茎是绿色的,略微弯曲,相互交错。背景是模糊的深绿色与浅绿色渐变,可能是草地或树叶的背景,采用浅景深效果,突出了花朵的细节和立体感,整体画面清新雅致。
然后分类,根据参考内容中的"自然科学类图片"分类(包含动植物、地质地貌等):
1. 第一张图片:自然科学类-动物(鹿);
2. 第二张图片:自然科学类-动物(小熊猫);
3. 第三张图片:自然科学类-地质地貌(雪山景观);
4. 第四张图片:自然科学类-植物(雏菊)。</thinking>
### 图片内容详细描述及分类
#### **1. 第一张图片**
**内容描述**:这是一张**鹿的头部特写**。鹿的毛色以柔和的浅棕色为主,面部、耳朵内侧及颈部边缘分布着干净的白色毛发;耳朵竖立,内侧呈粉嫩的淡红色,耳尖微微泛白;眼睛半眯,眼周环绕着浅色绒毛,眼神温和;黑色的小鼻子湿润光滑,嘴角轻抿,脸颊两侧长着细密的白色胡须。背景是模糊的深绿与浅褐渐变(推测为森林或灌木丛),通过浅景深效果突出鹿的细腻质感与生动神态。
**分类**:自然科学类-动物(鹿)
#### **2. 第二张图片**
**内容描述**:画面主体是一只**小熊猫**。它拥有浓密的红棕色毛发,面部从额头到鼻尖覆盖着纯白色毛发,脸颊两侧的白毛向耳侧延伸,形成类似"八字眉"的可爱斑纹;眼睛大而圆,呈深棕色,眼神灵动警觉;耳朵竖立,耳尖与内侧为白色。小熊猫身处由深色岩石、枯树枝和绿色小枝叶构成的环境中,背景还有模糊的浅色树干,整体场景模拟了其原生栖息地(如山地森林)。
**分类**:自然科学类-动物(小熊猫)
#### **3. 第三张图片**
**内容描述**:这是一幅**雪山景观图**,以"人景互动"的视角呈现。画面下方有三个人背对镜头:左侧穿白色短袖,中间穿黑色连帽衫,右侧穿黑色上衣戴眼镜;三人共同眺望远处连绵的雪山——山顶覆盖着纯净的积雪,山体呈深灰与浅褐的岩石质感,山间点缀着稀疏的绿色植被;天空湛蓝,飘着几缕薄云,阳光洒在雪山上,增强了画面的层次感。前景是起伏的山坡,覆盖着干枯的草地与低矮灌木,整体氛围开阔壮丽。
**分类**:自然科学类-地质地貌(雪山景观)
#### **4. 第四张图片**
**内容描述**:画面聚焦于**三朵雏菊的特写**。花朵的白色花瓣层层展开,花瓣上沾着细小的水珠,显得清新透亮;花心是密集的黄色管状花,呈放射状排列,颜色鲜艳饱满。三朵花的绿色花茎纤细弯曲,相互交错,展现出自然的生长姿态。背景是模糊的深绿与浅绿渐变(推测为草地或树叶),通过浅景深效果将视觉焦点完全集中在花朵上,整体画面清新雅致,充满生机。
**分类**:自然科学类-植物(雏菊)
### 分类说明
所有图片均属于**自然科学类**(参考摘要1中"自然科学类图片"的定义:包含动植物、地质地貌等自然事物),具体细分至"动物""地质地貌""植物"子类,符合自然科学类图片"展示自然生态、地质特征"的核心属性。
对四张图的描述还是很全面的,分类也做了层级,后期一些图片分类的任务可以使用api做一些前期的标注了;整体的图像描述非常详细,可以做图像的提示词反推。
二、PromtPilot 操作实践
作为一个nlp工程师,之前使用大模型的场景还是很多的,比如微调大模型做分类任务、内容提取任务等。做任务前需要对数据做简单的整理,然后构建prompt,拼接数据做微调。模型微调的效果很受prompt质量的影响,一次构建不好,需要反复尝试。
Prompt(提示词)作为大模型的核心输入指令,直接影响模型的理解准确性和输出质量。优质的 Prompt 能显著提升大语言模型处理复杂任务的能力,如逻辑推理、步骤分解等。PromptPilot 提供全流程智能优化,涵盖生成、调优、评估和管理全阶段,帮助您高效获得更优 Prompt 方案。
独立使用地址如下
https://promptpilot.volcengine.com
PromptPilot 用户手册:https://www.volcengine.com/docs/82379/1399495
1、生成Prompt
step1: 点击链接后边,进入如下界面
step2: 在"你的任务"栏内输入任务描述,点击"生成Prompt"
在互联网上,有很多客户发布的关于我们"脱敏品牌1"产品的内容和一些评价,有说我们这个面好吃的,有说这个饮料价格贵之类的,好的坏的都有,我们比较希望把这些内容能用大模型识别和格式化整理一下。首先要看一下,这些客户说的是正面评价还是负面评价;如果是负面的,就再分个类,看看是价格问题还是口味口感还是什么其他问题,然后看看对应的是哪个产品名,是牙膏还是饮料还是什么其他产品,给出来产品名称。我目前想到的是以下问题分类:
包装不当:产品包装相关的评价;
价格:产品价格相关的评价;
口味口感:食品类产品的口味、口感相关的内容;
食品安全:关于食品类产品卫生、安全性的内容;
售后维权:退换货等售后相关的内容;
其他:无法归类为前述标签的内容;
以JSON格式输出,字段是情感判断、评价维度、产品名称。
step3: 反馈和调试Prompt
对生成的prompt不满意?你可以手动修改,也可以在页面右下角直接点击"优化你的Prompt",在对话框内输入你的反馈/优化要求。
比如:你需要关注模型的规则和输出结果格式。比如"最终的输出json里面产品名称可能涉及到多个,因此需要是一个list结构;不需要思考标签和output标签,最终直接输出json即可"。
只输出json格式的数据即可,不需要分析过程
注意:这一步的达成,也可以直接通过手动修改生成后的prompt,不通过Feedback的形式
最终结果:
你的任务是对客户发布的关于"脱敏品牌1"产品的评价内容进行识别和格式化整理。请仔细阅读以下客户评价内容:
<客户评价>
{{CUSTOMER_REVIEWS}}
</客户评价>
以下是可能的问题分类:
- 包装不当:产品包装相关的评价;
- 价格:产品价格相关的评价;
- 口味口感:食品类产品的口味、口感相关的内容;
- 食品安全:关于食品类产品卫生、安全性的内容;
- 售后维权:退换货等售后相关的内容;
- 其他:无法归类为前述标签的内容。
请对每条评价进行分析,判断其情感倾向(正面或负面),如果是负面评价,确定其所属的问题分类,同时找出评价对应的产品名称。
最终输出应为JSON格式,包含以下字段:
{
"情感判断": "正面" 或 "负面",
"评价维度": "包装不当" 或 "价格" 或 "口味口感" 或 "食品安全" 或 "售后维权" 或 "其他",
"产品名称": "具体产品名称"
}
[
{
"情感判断": "正面",
"评价维度": "其他",
"产品名称": "产品A"
},
{
"情感判断": "负面",
"评价维度": "价格",
"产品名称": "产品B"
}
// 其他评价结果
]
2、单case调试:接上一步,点击"验证Prompt",进入Prompt调试页
step1: 填写变量
变量:就是客户给的输入case,可以从客户给的case集当中,随机取一条case,输入"变量内容对话框",进行调试和生成回答。
step2: 选择target model(doubao-seed-1.6-flash),并生成模型回答
这里以【seesion_id=1】的case举例,复制粘贴入对应的query后,点击"生成模型回答"
#[脱敏品牌1]饮料
不知道是[脱敏品牌1]业务员黑还是[脱敏品牌1]领导黑心,我们商家在
你们在那里下了那么多钱的货,你们送货过来日期不是最新的,而且下货
多过期了,打电话催到你们[脱敏品牌1]消费中心那边半个月了终于过来
一个业务员,结果说把这些过期饮料全部换成白开水换,真是无语死了
调试完成之后,将case"添加至评测集":
step3[Option]: 对于复杂场景,如果模型回答不满意,可以准备理想回答
点击 基于模型回答改写 -> 更多模型回答参考 ->参考答案反馈
3、准备评测数据
接下来,进行批量测试和智能优化。
你需要上传case集、配置评估标准、进行智能优化
step1:上传case集文件
首先,需要适配格式(修改两个列名),把原case文件当中的query列,重命名为:CUSTOMER_CONTENT(因为prompt中的变量名称叫CUSTOMER_CONTENT,即{{}}中的名字);把原case文件中的reference_response重命名为:理想回答; 修改之后,上传case集合。修改之后的批量文件如下(可下载使用):
Case集文件处理好后,点击"批量",再点击"上传文件"
最终效果:
step2:确定评分标准
promptPilot平台是5分制,因此需要按照5分制来进行适配,评分标准如下:
每题总分 5 分:
1. 输出JSON和参考答案JSON完全一致,没有冗余字段和内容,得 5 分
2. 相比参考答案有多余字段,得 1 分
3. 字段取值内容和参考答案不一致,得 1 分
4. "产品名称" 取值不是 List,得 1 分
5. 参考答案为"{}"时,输出任何字段都直接判为 1 分
6. 输出结果格式不是合法JSON直接得 1 分
复制以上评分标准,点击右上角"评分标准"对话框处的[编辑]icon,粘贴评分标准,点"保存"
step3:生成全部回答(生成需要几分钟时间,请耐心等待);
tep4:所有回答生成完毕后,点击"为所有回答评分",开始自动为所有case自动打分
此时:评测集准备完毕,可以review下评分是否正确,然后手动调整下不符合预期的评分,并开始优化
4、进入智能优化
step1: 点击"智能优化"切换界面,点击 "已准备好数据,开始智能优化"(需要耐心等待几分钟)
step2: 查看优化报告
step3: 优化报告页面的中段位置有综合得分对比
5、假如优化结果不满足要求
step1:继续优化,直到获得满意的得分
实验通过的基本要求:"综合得分"需达到"4.0分及以上"
3.9分不满足要求,回到"智能优化"界面,在最新的Prompt基础上继续上面的优化流程,直到满足实验通过要求
本步骤可以重复多次,通过更多的迭代次数,利用更多的算力来拿到更好的效果。在多次重复过程中,promptPilot会自动基于最新的prompt版本进行下一步迭代更新。
step2:如果经过多次,依然不提升,promptPilot提供联动精调的能力
注意:这个能力目前是在方舟平台,仅通过方舟平台登录可体验(免费智能精调)
没有评论:
发表评论