AI I024: 性能碾压GPT-4。1-mini！Mistral开源Devstral，还能在笔记本上跑

2025年5月22日星期四

点击下方卡片，关注"AI生成未来"

如您有工作需要分享，欢迎联系：aigc_to_future

转载自：机器之心

如有侵权，联系删稿

Devstral 是本地部署和设备端使用的理想之选。

法国 AI 初创公司 Mistral 强势回归，再次大力投身开源 AI 社区。先前，其因未开源 Medium 3 大模型而受到开发者广泛批评。

刚刚，该公司宣布，他们与开源初创公司 All Hands AI（Open Devin 的创建者）合作，发布了全新的开源语言模型 Devstral，拥有 240 亿个参数 —— 比许多竞争对手的模型小得多，所需的算力也低得多。

因而，Devstral 可在单块 RTX 4090 显卡或配备 32GB RAM 的 Mac 上运行，是本地部署和设备端使用的理想之选。

值得一提的是，该模型现已根据宽松的 Apache 2.0 许可证免费提供，允许开发者和组织不受限制地部署、修改和商业化。

Mistral 表示，虽然典型的 LLM 擅长编码任务，例如编写独立函数或代码补全，但它们难以解决现实世界的软件工程问题。在现实世界中，需要在大型代码库中对代码进行上下文关联，以识别不同组件之间的关系，并识别复杂函数中的细微错误。

Devstral 的设计初衷就是为了解决这个问题。它能解决真实的 GitHub 问题；还能运行在 OpenHands 或 SWE-Agent 等代码智能体框架上。

在顶级 SWE 基准测试中，Devstral 表现优于其他大型模型。

具体而言，Devstral 在 SWE-Bench Verified 基准测试中取得了 46.8% 的得分，领先于先前发布的所有开源模型，并领先于包括 GPT-4.1-mini 在内的多个闭源模型，它比 GPT-4.1-mini 高出 20 多个百分点。

注：SWE-Bench Verified 是一个专门用于评估 AI 编程能力的基准测试，主要测试 AI 模型在真实 GitHub 代码库问题（如 bug 修复、功能实现）上的表现。

在相同的测试框架（OpenHands，由 All Hands AI 提供）下进行评估时，Devstral 的表现远超 Deepseek-V3-0324 (671B) 和 Qwen3 232B-A22B 等规模更大的模型。

最后，Devstral 可通过 Mistral 的 Le Platforme API 访问，型号为 devstral-small-2505，定价为每百万输入 Token 0.10 美元，每百万输出 Token 0.30 美元。

很多网友已经用起来了！

大家使用效果如何，欢迎评论区留言。

参考链接：

https://venturebeat.com/ai/mistral-ai-launches-devstral-powerful-new-open-source-swe-agent-model-that-runs-on-laptops/

https://x.com/dani_avila7/status/1925276890840900087

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！