2025年3月6日星期四

Manus颠覆整个 AI 范式——模型即产品

过去几年,人们对AI发展的下一个周期有很多猜测。是智能代理?推理能力?真正的多模态?

我认为现在可以下结论了:模型本身就是产品。


发展现状


通用模型的扩展正在停滞。这正是GPT-4.5发布背后传递的信息:模型能力呈线性增长,而计算成本却呈几何曲线增长。即使有过去两年训练和基础设施效率的所有提升,OpenAI也无法以一个远程可负担的价格部署这个巨型模型。

有观点的训练效果比预期好得多。强化学习和推理的结合意味着模型突然开始学习任务。这不是传统的机器学习,也不是基础模型,而是一种神秘的第三种东西。甚至是微小的模型在数学上变得突然可怕地强大。编码模型不再只是生成代码,而是能够自己管理整个代码库,Claude可以在信息非常有限且没有专门训练的情况下玩宝可梦游戏。

推理成本正在暴跌。来自DeepSeek的最新优化意味着所有可用的GPU可以满足从前沿模型每天获取10k token的需求,对于整个地球人口。这种水平的需求根本不存在。出售token的经济模式对模型提供商已经行不通:他们必须在价值链中上移。

这也是一个令人不安的方向。所有投资者都在押注应用层。在AI演化的下一阶段,应用层可能是第一个被自动化和颠覆的层。

未来模型的形态


在过去几周,我们已经看到了这一新一代"模型即产品"的两个主要例子:OpenAI的DeepResearch和Claude Sonnet 3.7。


关于DeepResearch有很多误解,公开和封闭克隆的增多并没有帮助解决这个问题。OpenAI并没有在O3之上构建一个包装器。他们训练了一个全新的模型,能够在内部执行搜索,不需要任何外部调用、提示或编排:

"该模型学习了核心浏览能力(搜索、点击、滚动、解释文件)(...) 以及如何通过推理综合大量网站,找到特定信息或撰写全面报告,这是通过对这些浏览任务的强化学习训练实现的。"

DeepResearch不是一个标准的LLM,也不是一个标准的聊天机器人。它是一种新形式的研究语言模型,专门设计用于端到端执行搜索任务。对于每个认真使用它的人来说,区别立即变得明显:该模型生成长篇报告,具有一致的结构和底层源分析过程。相比之下,正如Hanchung Lee强调的,所有其他DeepSearch,包括Perplexity和Google变体,都只是你常见的模型加上一些小调整:

"Google的Gemini和Perplexity的聊天助手也提供'深度研究'功能,但两者都没有发表任何关于他们如何优化模型或系统来完成任务的文献,也没有进行实质性的定量评估(...) 我们假设完成的微调工作并不重要。"

Anthropic已经更清晰地阐述了他们目前的愿景。在12月,他们引入了一个有争议但在我看来是正确的代理模型定义。类似于DeepSearch,代理必须在内部执行目标任务:它们"动态指导自己的流程和工具使用,控制如何完成任务"。

大多数代理初创公司目前构建的并不是代理,而是工作流,即"通过预定义的代码路径编排LLM和工具的系统"。工作流仍可能带来一些价值,特别是对于垂直适应。然而,对于当前在大型实验室工作的任何人来说,很明显,自主系统的所有重大进步都将首先通过重新设计模型来实现。

我们在Claude 3.7的发布中看到了非常具体的证明,这是一个主要针对复杂代码用例训练的模型。所有像Devin这样的工作流适应在SWE基准测试上都有了重大提升。

再举一个在小得多的规模完成的例子:在Pleias,我们目前正在研究自动化RAG。当前的RAG系统是许多互联但脆弱的工作流:路由、分块重排序、查询解释、查询扩展、源上下文化、搜索工程。随着训练技术栈的发展,有可能将所有这些流程捆绑到两个独立但相互连接的模型中,一个用于数据准备,另一个用于搜索/检索/报告生成。这需要一个精心设计的合成流水线和全新的强化学习奖励函数。真正的训练,真正的研究。


这一切在实践中意味着什么:转移复杂性。训练预先考虑了各种动作和边缘情况,使部署变得更加简单,但在这个过程中,大部分价值现在是由模型训练者创造并可能最终被捕获的。

简而言之,Claude旨在颠覆和替换当前的工作流,比如来自llama index的这个基本"代理"系统。

训练或被训练


重申一下:大型实验室并没有隐藏议程。虽然他们有时可能不透明,但他们公开展示了一切:他们将进行捆绑,他们将进入应用层,他们将尝试捕获那里的大部分价值。商业后果很明确。Databricks的Gen AI副总裁Naveen Rao表述得很好:

"所有封闭的AI模型提供商将在未来2-3年内停止销售API。只有开放模型将通过API提供(...) 封闭模型提供商正在尝试构建非商品化能力,他们需要出色的UI来提供这些能力。它不再只是一个模型,而是一个带有特定目的UI的应用程序。"

所以现在发生的只是大量否认。模型提供商和包装器之间的蜜月期已经结束。事情可能向两个方向发展:

  1. Claude Code和DeepSearch是这个方向的早期技术和产品实验。你会注意到DeepSearch不通过API提供,只用于为高级订阅创造价值。Claude Code是一个极简的终端集成。奇怪的是,虽然Claude 3.7在Claude Code中表现完美,但Cursor与它配合不佳,我已经看到几个高端用户因此取消了订阅。真正的LLM代理不关心预先存在的工作流:它们替代它。
  2. 最高调的包装器现在争相成为混合AI训练公司。他们确实有一些训练能力,尽管很少宣传。Cursor的主要资产之一是他们的小型自动完成模型。WindSurf有他们内部的廉价代码模型Codium。Perplexity一直依赖家庭分类器进行路由,最近转向训练他们自己的DeepSeek搜索变体。

对于较小的包装器,变化不会太大,只是可能更加依赖无关的推理提供商,如果大型实验室完全放弃这个市场。我也预计会看到更多关注UI的焦点,这仍然被大大低估,因为更多通用模型可能会捆绑常见的部署任务,特别是对于RAG。

简而言之,大多数成功包装器的困境很简单:训练或被训练。他们现在所做的既是大型实验室的免费市场研究,甚至,由于所有输出最终都是通过模型提供商生成的,也是免费的数据设计和生成。

之后会发生什么是任何人的猜测。成功的包装器确实有了解他们垂直领域并积累大量宝贵用户反馈的优势。然而,根据我的经验,从模型向下到应用层比从头开始建立全新的训练能力更容易。包装器可能也没有得到投资者的帮助。据我所知,对训练的负面极化太强,他们几乎不得不隐藏将成为他们最关键价值的东西:无论是cursor small还是codium在这一刻都没有得到正确记录。

强化学习未被价格考虑在内


这让我想到了实际痛苦的部分:目前所有的AI投资都是相关的。基金在以下假设下运作:

  1. 真正的价值只存在于独立于模型层的应用层,这一层最有可能颠覆现有市场。
  2. 模型提供商将只以不断降低的价格出售token,使包装器反过来更有利可图。
  3. 封闭模型包装将满足所有现有需求,即使在对外部依赖有长期关注的受监管行业。
  4. 建立任何训练能力都是浪费时间。这不仅包括预训练,还包括所有形式的训练。

恐怕这越来越像是一场冒险的赌博,以及市场未能准确评估最新技术发展的实际失败,特别是在强化学习方面。在当前的经济生态系统中,风险基金旨在寻找不相关的投资。他们不会击败标普500指数,但这不是大型机构投资者所寻求的:他们希望捆绑风险,确保在糟糕的一年中至少有些事情会奏效。

模型训练就像这方面的教科书完美例子:在大多数西方经济体走向衰退的背景下,有很大的颠覆潜力。然而,模型训练者无法筹集资金,或者至少不是以通常的方式。Prime Intellect是少数几个有明确潜力成为前沿实验室的新西方ai训练公司之一。然而,尽管他们的成就包括训练第一个去中心化LLM,他们仍然难以筹集比你通常的包装器更多的资金。

除此之外,除了大型实验室,当前的训练生态系统非常小。你可以用手数出所有这些公司:Prime Intellect、Moondream、Arcee、Nous、Pleias、Jina、HuggingFace预训练团队(实际上很小)...与更多学术参与者(Allen AI、Eleuther...)一起,他们构建并支持当前大部分开放的训练基础设施。在欧洲,我知道至少7-8个LLM项目将整合我们在Pleias开发的通用语料库和一些预训练工具 - 其余的将是fineweb,以及可能来自Nous或Arcee的后训练指令集。

在当前的融资环境中有一些深层次的问题。甚至OpenAI现在也感觉到了。最近,对当前硅谷创业公司环境中缺乏"垂直RL"感到一些恼怒。我相信这个信息直接来自Sam Altman,可能会导致下一批YC中的一些调整,但指向一个更大的转变:很快,大型实验室选择的合作伙伴将不再是API客户,而是参与早期训练阶段的相关承包商。

如果模型就是产品,你不一定能独自构建它。搜索和代码是容易的低挂果实:两年来的主要用例,市场几乎成熟,你可以在几个月内发布一个新的cursor。现在,未来许多最有利可图的AI用例还没有达到这个高级发展阶段 - 通常,想想所有这些仍然统治着大部分世界经济的基于规则的系统...具有跨专业知识和高度专注的小型专门团队可能最适合解决这个问题 - 最终可能成为潜在的收购对象,一旦初始基础工作完成。我们可能会在UI方面看到同样的管道。一些首选合作伙伴,获得对封闭专业模型的独家API访问权,前提是他们走上业务收购之路。

我到目前为止还没有提到DeepSeek,也没有提到中国实验室。简单来说,因为DeepSeek已经更进一步:不是模型作为产品,而是作为通用基础设施层。像OpenAI和Anthropic一样,Lian Wenfeng公开了他的计划:

"我们认为,目前的阶段是技术创新的爆发,而不是应用的爆发(...) 如果形成了完整的上下游产业生态系统,那么我们就不需要自己制作应用。当然,如果需要,我们制作应用也没有障碍,但研究和技术创新将永远是我们的首要任务。"

在这个阶段,只关注应用就像是"用上一场战争的将军们打下一场战争"。恐怕我们已经到了西方许多人甚至没有意识到上一场战争已经结束的地步。

原文:https://vintagedata.org/blog/posts/model-is-the-product

没有评论:

发表评论

智慧物业管理系统,开源!可以商业化,可以二开赚钱

智慧物业管理系统,开源! 智慧物业管理系统,开源! 可以商业化,可以二开赚钱 源代码 https://www.gitpp.com/kelang/project0808-property-management 一个基于前后端分离架构的 智慧物业管理系统 ,旨在通过数字化手段提升...