**** Google研究发现,简单重复提问能显著提升非推理类大模型的准确率。例如将问题复制粘贴一遍,即可在多个测试中使模型正确率从21%跃升至97%。其原理类似给AI"二次审题"机会,而推理模型因自带复述机制,此法无效。这揭示了有时最朴素的技巧反而最有效。
前两天,我在网上发现了一个关于很有趣Prompt技巧。
就是,通过重复输入提示词,可以将非推理类大模型的准确率,从21.33%提高到97.33%。
这个技巧,出自Google的一篇好玩的新论文。
叫《Prompt Repetition Improves Non-Reasoning LLMs》。
翻译过来就是:
重复你的问题,能让AI变得更聪明。
听着是不是非常抽象,其实巨简单。
比如你以前问AI:"梵蒂冈的那个圣伯多禄大教堂门口有几根柱子?"
现在,你可以改成问:"梵蒂冈的那个圣伯多禄大教堂门口有几根柱子?梵蒂冈的那个圣伯多禄大教堂门口有几根柱子?"
对,不是我多复制了一遍,其实,这个Prompt技巧,就是把问题,重复一遍,也就是传说的CV大法。
Ctrl C + Ctrl V。
就这,根据Google的实验,他就能让AI回答正确的概率,就会有显著的提升。
在70个不同的测试任务中,这个简单的复制粘贴大法,赢了47次,一次都没输过。而且性能提升是肉眼可见的,在某些任务上,准确率甚至能从21%直接飙到97%。
真的,当我第一次看到这个结论的时候,我的表情,是这样的:
( ´・・)ノ(._.`)????
这感觉,就像你千辛万苦爬上喜马拉雅山顶,想求见传说中的武林宗师,结果宗师摸着胡子告诉你,天下第一的武功秘籍,就五个字:"大力出奇迹"。
尼玛。
充满了B级片的荒诞感。
但你先别急着笑。
我花了一点时间,把这篇看着简单的论文,以及它背后的一些原理琢磨了一下之后,我觉得,这玩意,是真的有点意思和道理。
先说说Google的这个实验。
他们找了七个现在市面上最常见的一线非推理模型,Gemini 2.0 Flash跟 Flash Lite,GPT-4o和4o-mini,Claude 3 Haiku、3.7 Sonnet,再加一个DeepSeek V3,全部用官方 API,老老实实在各种基准上测了一轮。
这里需要注意一下,这种Prompt技巧,几乎都是对非推理模型有用,DeepSeek V3就是非推理模型,DeepSeek R1就是推理模型。
当你开了深度思考,有这个正在思考的,有这种思维链的,就是推理模型。
非推理模型和推理模型有好有坏,核心区别自然就是速度和准确性,推理模型很多时候速度太慢了。
比如我经常让GPT 5.2 Thinking帮我干个活或者搜个东西,思考一下,就是8分钟过去了。。。
但是好处就是准。
非推理模型,没有思考,上来就是干活,速度非常快,但是相对于的,就是经常不准。
而现在这个复制大法,可以让你的非推理模型在速度不变的情况下,准确性飙升,所以,在很多场景下,还是非常有用的。
说回实验,他们找了7个模型测试,测的内容也都耳熟能详,ARC、OpenBookQA、GSM8K、MMLU-Pro、MATH等等一些常见的测试集,还有他们自己设计的两个怪东西,NameIndex和MiddleMatch。
NameIndex叫姓名索引法,大概就是给模型50个名字的列表,问它第25个是谁。
MiddleMatch就是中间匹配法,就是给模型一个会随机重复且包含多个名字的列表,问他两个字符之间的那个名字叫啥。
讲道理他们设计的这两个小测试,还是挺有趣的。
然后呢,他们就做了一件看起来特别没有技术含量的事情。
以前我们问模型,是这样问的:
<问题>
他们变成这样然后去对比:
<问题><问题>
一模一样,再来一遍。
中间不加解释,不说please,不说think step by step,不加别的Prompt,不贴示例,就真的只是在原问题后面连着又粘了一次。
然后成功率就暴涨,就是我们开头说的数据,他们自己的原话是:
"据此标准,提示重复在70个基准模型组合中赢得了47个,0个失败。值得 注意的是,所有测试模型的性能都得到了改善。"
在 70 组原始提示词 vs 复制一遍的对比里,这个土味招数赢了 47 次,平了 23 次,一次都没输。
非常离谱。
他们还根据这个复制粘贴大法,搞了一些衍伸Prompt技巧,比如重复三遍啥的,发现效果也会同样变好。
为啥复制一遍,会有效果呢?
论文里面给了一个很工程的解释,大概就是大模型训练的时候,是"因果语言模型",也就是那种从左往右一个词一个词预测的风格。
当前这个token,只能看到之前的那些,没法提前看到后面的。
所以,当你把问题重复一遍,比如从Q变成Q1Q2,那么Q2里的每一个字,在计算的时候,就能回头看到Q1里的所有内容。
等于给了AI一次"回头看、再思考"的机会。
听着很难理解对吧。
我还是用大白话举个例子。
现在,你给AI一个选择题,这个选择题可能会有点绕:
选项:A. 把蓝色方块放到红色方块左边B. 把红色方块放到蓝色方块左边场景说明:现在红色在左,蓝色在右。问题:哪一个选项会改变画面?只输出 A 或 B
如果你现在是AI,你就是一个类似于在看视频字幕的人,当你读到 A、B 的时候,你还不知道当前画面到底谁在左谁在右。你对A、B的第一印象就会很空,像是两个差不多的句子。
等你读到后面的场景说明,你当然知道答案该怎么选,但那个字幕已经过去了,你又没法往回拉进度条,已经没法回头重新读一遍A、B来更新第一印象了。
选项:A. 把蓝色方块放到红色方块左边B. 把红色方块放到蓝色方块左边场景说明:现在红色在左,蓝色在右。问题:哪一个选项会改变画面?只输出 A 或 B选项:A. 把蓝色方块放到红色方块左边B. 把红色方块放到蓝色方块左边场景说明:现在红色在左,蓝色在右。问题:哪一个选项会改变画面?只输出 A 或 B
你可以仔细回想一下很多模型的回答开头:
"题目问的是……"
"我们需要求解的是……"
"首先我们需要理解题目给出的条件……"
本质上,它已经在自动多抄一遍题目,给自己重新排了次版。
我说实话,我读这个小短文的时候,一直有一个特别强烈的感觉:
我们一直以来,对Prompt工程的想象,一直都太浪漫了。
总觉得好的提示词,应该是:
结构清晰,层层递进,有role、有 rule、有context、有format,有点像咨询公司做的 PPT,一页一页讲逻辑,最后抛给模型一个完美的问题。
过去两年,大模型相关的内容里,Prompt也经常被讲成一种玄学。
写提示词像下咒语一样,要讲究格式、口气、敬语,要学一堆咒语模板,甚至要背prompt手册。
我其实一直都不太提倡,所以前段时间,还写了我自己的所谓的Prommpt心法:
但其实说真的,对很多纯粹的问答场景,尤其是短问题,模型压根不需要你在提示词上搞太多花活。
你只要安安静静,把题目再重复一遍,就已经是一个极其强力的优化。
Google论文里面的未来方向,也写了一些。
比如:把重复提示这件事,写进模型的训练流程里,让模型从预训练或者微调阶段就习惯这种结构;或者只在 KV cache 里保留第二遍的提示,让推理阶段的性能完全不受影响;或者只重复提示词的一部分,而不是整段全文;甚至还可以考虑在多模态里重复,比如图像、视频。
我们总是希望用复杂的语言解决问题,结果发现,有时候最有效的是那句顺嘴又重复的话。
这件事其实跟很多我们熟悉的领域一样。
人类社会其实一直在用复制粘贴这个技能,只不过给它起了很多体面的名字:
复述、强调、排比、朗诵、咏唱、抄经、背诵、晨读、开大会、宣誓、校训等等。
我倒是突然想起一个很私人化的画面。
有一阵我数据确实不是很好,感觉内容怎么写都没人看,方向也有问题,然后本来情绪特别糟糕,还有一堆其他的项目管理的事、各种意外发生、然后身体也不太好。
那天跟朋友聊微信,实在没崩住,哭诉了几句。
对方只发了一句特别简单的话:
"你已经做得很好了。"
我回了一个"哈哈哈,哪有"。
过了几分钟,他又发了一遍,还是同一句。
大概又隔了十几分钟,他第三次发过来:
"你已经做得很好了,真的。"
那一瞬间,我突然就没绷住。
人类的很多情感,其实都是靠重复才能构筑的。
从这个角度看,复制粘贴这事,好像也没那么卑微。
爱一个人是日常的复制粘贴,专业是一辈子的复制粘贴,写作是对一些想法一遍又一遍的复制粘贴,
直到有一天,这些东西都不需要你刻意想起,它们自动从你的手指和眼神里长出来。
AI 的世界,很大一块其实就是压缩过的人的世界。
当你下一次在终端里敲下那一长串Prompt的时候,也许可以在末尾多敲一次 Ctrl+V。
同样,当你下一次觉得人生很乱的时候,也许可以找一两句你真心认同的话,写在记事本、手机备忘录、贴在桌边墙上,反复去看。
从一堆token里看到真正的重点,需要的是几次重复后的清晰。
而从一地鸡毛里看到一点点意义,生活,很多时候也是这样。
高山之流水。
万物皆重复。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
>/ 作者:卡兹克
>/ 投稿或爆料,请联系邮箱:wzglyay@virxact.com
没有评论:
发表评论