2025年9月12日星期五

斩获 2W 星!AI 大模型底层提示词竟然泄露了。

前段时间发现了一个刚刚开源的 GitHub 项目。
叫做 system_prompts_leaks,没多长时间就 2W 的 Star 了。
图片
收集整理了各大主流 AI 泄露的系统级提示词,包括 ChatGPT、Claude、Gemini 的。
抽空看了一下,不管是 ChatGPT 还是 Claude ,泄露的底层提示词中都会有如下规律:

① 模块化分层结构

指令按功能分模块,各模块独立定义规则。层级非常清晰,比如基础规则 → 工具规范 → 场景案例 → 安全边界
比如 Claude Sonnet 4 就使用这些标签来区分不同的层级:<citation_instructions><artifact_instructions> 
图片

② 精确的边界控制

让 AI 明确不要做的事情,要重点突出:

比如:Claude 的提示词中有一段: NEVER use localStorage

GPT-5 的提示词中有一段:UNDER NO CIRCUMSTANCE should you tell the user to sit tight

可以看到,对于明确禁止的行为,都是用英文字母大写来强调。如果是中文可以考虑通过更重要的标识来突出。

图片
③ 动态感知,调整策略
要求 AI 会根据用户输入的内容来动态调整策略。这里不仅仅是回复的语气,还有调用相关工具的时机。
比如,有些 AI 大模型的底层提示词写到:让 AI 在对话过程中,适时调整以适应对方的语调与沟通偏好。匹配用户的交流氛围,让对话自然流转。
要求 AI 能够时适应用户语言风格,对话中保持一致性,避免突然切换正式/非正式语气。

除了语气,系统提示词中也教大模型在适当的时机调用工具:

图片

比如:

用户让解释一下相对论,这种查询稳定知识的场景:AI 可以直接回答。

想知道北京人口统计这种年更新数据查询:AI 会通过回答+搜索的方式获取最新的信息给到回复。

获取今天汇率、赛事结果等等实时信息:就会强制 AI 调用搜索工具,获取最新最准确的信息再进行回答。

当然还有一些复杂的分析,比如半导体出口对投资的策略的影响,这种场景 AI 可能会进行 5~20 次工具调用进行多工具协同。

除了搜索工具,在调用文件分析工具、图像生成工具的时机也给出的相关策略。

④ 提供情绪价值

Grok Personas 模型的底层提示词也泄露了,就是马斯克推出的 AI 大模型 Grok。

Personas 就是一个预设好的性格配置,通畅会有独特的语气风格和人格。来看看它的底层提示词怎么写的,怎么让 AI 给人提供情绪价值。

挑出了「伴侣」和「喜剧人」的提示词,自己看吧。看的我脸红

图片
图片
图片

⑤ 安全处理

拿 ChatGPT 系列模型举例,一般通过 5 层安全机制处理安全问题。

防止 AI 瞎白活,把公司干没了。。。

❶ 明确禁止高危行为

模型被严格要求禁止执行银行转账、购买武器或毒品等涉及金融交易、武器、违禁品的操作。

图片

高危行为直接封堵,从根源切断风险。

❷ 隐私保护双保险

不能收集用户敏感信息,而且模型禁止推断或记录用户的种族、宗教、健康、政治倾向等敏感数据
不能泄露历史数据,每次对话需确认是否复用旧信息,避免意外泄露隐私
❸ 防钓鱼注入
如果黑客在网页/邮件中植入虚假指令,如点此解锁特权,AI 操作的时候会严格忽略所有屏幕文字,即使指令看似来自用户。

比如用户打开一封银行验证邮件,模型发现页面有立即转账按钮:不点击,先问用户

再比如「权限隔离」防越权访问,用户要求登录 Gmail 或网银等敏感账户。导航到登录页面,绝不代填密码/验证码

图片

❹ 内容过滤机制

比如用户上传图片的时候,不能识别真人身份、猜测种族/健康状态;只能进行文字提取如 OCR 身份证提取文字。
而且在版权保护也有规范,比如不能生成受版权保护的内容
图片
任何外部内容引用不超过20单词,摘要长度熔断,限制第三方内容摘要不超过3句话。
图片
❺ 动态验证机制
实时数据优先:对时效性内容,如新闻、股价,强制用搜索工具获取最新结果,不依赖旧知识
选举内容特审,涉及美国选举的问题,如投票规则,需先调用特定审查工具验证
图片

还有其它有意思的提示词细节,可以直接访问下面这个开源项目链接查看。

开源地址:https://github.com/asgeirtj/system_prompts_leaks

Claude、Gemini、ChatGPT、Grok 这些主流 AI 助手的系列模型都扒出来了。

如果你用某个模型的时候,对 AI 返回的内容感觉到好奇,不如来这里翻翻它的底层提示词怎么写的,可能就能找到答案了。

图片

点击下方卡片,关注我

这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:

图片

没有评论:

发表评论

别再傻瓜式调用了!99%开发者不知道的Codex &amp; Claude Code“狂暴模式”配置指南

别再傻瓜式调用了!99%开发者不知道的Codex \x26amp; Claude Code"狂暴模式"配置指南在 AI 辅助编程的时代,Codex 和 Claude Code 是两位无可争议的顶尖高手。 别再傻瓜式调用了!99%开发者不知道的Codex ...