2025年5月22日星期四

性能碾压GPT-4。1-mini!Mistral开源Devstral,还能在笔记本上跑

点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future

转载自:机器之心

如有侵权,联系删稿

Devstral 是本地部署和设备端使用的理想之选。


法国 AI 初创公司 Mistral 强势回归,再次大力投身开源 AI 社区。先前,其因未开源 Medium 3 大模型而受到开发者广泛批评。


刚刚,该公司宣布,他们与开源初创公司 All Hands AI(Open Devin 的创建者)合作,发布了 全新的开源语言模型 Devstral,拥有 240 亿个参数 —— 比许多竞争对手的模型小得多,所需的算力也低得多。


因而,Devstral 可在单块 RTX 4090 显卡或配备 32GB RAM 的 Mac 上运行,是本地部署和设备端使用的理想之选。


image.png


值得一提的是,该模型现已根据宽松的 Apache 2.0 许可证免费提供,允许开发者和组织不受限制地部署、修改和商业化。


Mistral 表示,虽然典型的 LLM 擅长编码任务,例如编写独立函数或代码补全,但它们难以解决现实世界的软件工程问题。在现实世界中,需要在大型代码库中对代码进行上下文关联,以识别不同组件之间的关系,并识别复杂函数中的细微错误。


Devstral 的设计初衷就是为了解决这个问题。它能解决真实的 GitHub 问题;还能运行在 OpenHands 或 SWE-Agent 等代码智能体框架上。


在顶级 SWE 基准测试中,Devstral 表现优于其他大型模型。


具体而言,Devstral 在 SWE-Bench Verified 基准测试中取得了 46.8% 的得分,领先于先前发布的所有开源模型,并领先于包括 GPT-4.1-mini 在内的多个闭源模型,它比 GPT-4.1-mini 高出 20 多个百分点。


注:SWE-Bench Verified 是一个专门用于评估 AI 编程能力的基准测试,主要测试 AI 模型在真实 GitHub 代码库问题(如 bug 修复、功能实现)上的表现。


image.png


在相同的测试框架(OpenHands,由 All Hands AI 提供)下进行评估时,Devstral 的表现远超 Deepseek-V3-0324 (671B) 和 Qwen3 232B-A22B 等规模更大的模型。 


image.png


最后,Devstral 可通过 Mistral 的 Le Platforme API 访问,型号为 devstral-small-2505,定价为每百万输入 Token 0.10 美元,每百万输出 Token 0.30 美元。


很多网友已经用起来了!


图片

图片


大家使用效果如何,欢迎评论区留言。


参考链接:

https://venturebeat.com/ai/mistral-ai-launches-devstral-powerful-new-open-source-swe-agent-model-that-runs-on-laptops/

https://x.com/dani_avila7/status/1925276890840900087


技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

OpenAI发布史上最强编程AI,连送外卖的美团都坐不住了!

AI虽然不会来消灭程序员这个职业,但会重新来定义什么是AI时代的程序员。掌握了AI工具、理解了业务本质、具备创新思维的开发者,注定会成为这个时代最稀缺的人才。   点击下方,关注后台回复 【666】 ,免费领取 【DeepSeek学习礼包】       大家好,我是凡人。 又...