AI I024: 斩获 2W 星！AI 大模型底层提示词竟然泄露了。

2025年9月12日星期五

斩获 2W 星！AI 大模型底层提示词竟然泄露了。

前段时间发现了一个刚刚开源的 GitHub 项目。

叫做 system_prompts_leaks，没多长时间就 2W 的 Star 了。

它收集整理了各大主流 AI 泄露的系统级提示词，包括 ChatGPT、Claude、Gemini 的。

抽空看了一下，不管是 ChatGPT 还是 Claude ，泄露的底层提示词中都会有如下规律：

① 模块化分层结构

指令按功能分模块，各模块独立定义规则。层级非常清晰，比如基础规则 → 工具规范 → 场景案例 → 安全边界

比如 Claude Sonnet 4 就使用这些标签来区分不同的层级：<citation_instructions>、<artifact_instructions> 等

② 精确的边界控制

让 AI 明确不要做的事情，要重点突出：

比如：Claude 的提示词中有一段： NEVER use localStorage

GPT-5 的提示词中有一段：UNDER NO CIRCUMSTANCE should you tell the user to sit tight

可以看到，对于明确禁止的行为，都是用英文字母大写来强调。如果是中文可以考虑通过更重要的标识来突出。

③ 动态感知，调整策略

要求 AI 会根据用户输入的内容来动态调整策略。这里不仅仅是回复的语气，还有调用相关工具的时机。

比如，有些 AI 大模型的底层提示词写到：让 AI 在对话过程中，适时调整以适应对方的语调与沟通偏好。匹配用户的交流氛围，让对话自然流转。

要求 AI 能够时适应用户语言风格，对话中保持一致性，避免突然切换正式/非正式语气。

除了语气，系统提示词中也教大模型在适当的时机调用工具：

比如：

用户让解释一下相对论，这种查询稳定知识的场景：AI 可以直接回答。

想知道北京人口统计这种年更新数据查询：AI 会通过回答+搜索的方式获取最新的信息给到回复。

获取今天汇率、赛事结果等等实时信息：就会强制 AI 调用搜索工具，获取最新最准确的信息再进行回答。

当然还有一些复杂的分析，比如半导体出口对投资的策略的影响，这种场景 AI 可能会进行 5～20 次工具调用进行多工具协同。

除了搜索工具，在调用文件分析工具、图像生成工具的时机也给出的相关策略。

④ 提供情绪价值

Grok Personas 模型的底层提示词也泄露了，就是马斯克推出的 AI 大模型 Grok。

Personas 就是一个预设好的性格配置，通畅会有独特的语气风格和人格。来看看它的底层提示词怎么写的，怎么让 AI 给人提供情绪价值。

挑出了「伴侣」和「喜剧人」的提示词，自己看吧。看的我脸红

⑤ 安全处理

拿 ChatGPT 系列模型举例，一般通过 5 层安全机制处理安全问题。

防止 AI 瞎白活，把公司干没了。。。

❶ 明确禁止高危行为

模型被严格要求禁止执行银行转账、购买武器或毒品等涉及金融交易、武器、违禁品的操作。

高危行为直接封堵，从根源切断风险。

❷ 隐私保护双保险

不能收集用户敏感信息，而且模型禁止推断或记录用户的种族、宗教、健康、政治倾向等敏感数据

不能泄露历史数据，每次对话需确认是否复用旧信息，避免意外泄露隐私

❸ 防钓鱼注入

如果黑客在网页/邮件中植入虚假指令，如点此解锁特权，AI 操作的时候会严格忽略所有屏幕文字，即使指令看似来自用户。

比如用户打开一封银行验证邮件，模型发现页面有立即转账按钮：不点击，先问用户。

再比如「权限隔离」防越权访问，用户要求登录 Gmail 或网银等敏感账户。导航到登录页面，绝不代填密码/验证码

❹ 内容过滤机制

比如用户上传图片的时候，不能识别真人身份、猜测种族/健康状态；只能进行文字提取如 OCR 身份证提取文字。

而且在版权保护也有规范，比如不能生成受版权保护的内容

任何外部内容引用不超过20单词，摘要长度熔断，限制第三方内容摘要不超过3句话。

❺ 动态验证机制

实时数据优先：对时效性内容，如新闻、股价，强制用搜索工具获取最新结果，不依赖旧知识

选举内容特审，涉及美国选举的问题，如投票规则，需先调用特定审查工具验证

还有其它有意思的提示词细节，可以直接访问下面这个开源项目链接查看。

开源地址：https://github.com/asgeirtj/system_prompts_leaks

Claude、Gemini、ChatGPT、Grok 这些主流 AI 助手的系列模型都扒出来了。

如果你用某个模型的时候，对 AI 返回的内容感觉到好奇，不如来这里翻翻它的底层提示词怎么写的，可能就能找到答案了。

点击下方卡片，关注我

这个公众号历史发布过很多有趣的开源项目，如果你懒得翻文章一个个找，你直接关注微信公众号：逛逛 GitHub ，后台对话聊天就行了：

AI I024

2025年9月12日星期五

斩获 2W 星！AI 大模型底层提示词竟然泄露了。

❹ 内容过滤机制

没有评论:

发表评论

别再傻瓜式调用了！99%开发者不知道的Codex & Claude Code“狂暴模式”配置指南

2025年9月12日星期五

斩获 2W 星！AI 大模型底层提示词竟然泄露了。

❹ 内容过滤机制

没有评论:

发表评论

别再傻瓜式调用了！99%开发者不知道的Codex &amp; Claude Code“狂暴模式”配置指南

别再傻瓜式调用了！99%开发者不知道的Codex & Claude Code“狂暴模式”配置指南