2026年2月11日星期三

清华大学联合发布UltraData,开源2。4T数据与分级治理体系,推动AI迈向数据-模型协同演进新范式

纵观人工智能的发展历程,本质上是一部"数据驱动策略与利用方式"的演进史。

每一次范式跃迁,既延伸和重构了前一阶段的数据驱动策略,又演进出新的数据利用方式,从而推动模型能力的跃升与涌现。

图片数据驱动策略与利用方式演进示意图

当前通用人工智能发展经历了符号学习、有监督学习、无监督学习、反馈学习四个阶段。回顾这四个阶段,现有的主流范式为"数据驱动学习"(Data-Driven Learning),即通过数据规模的扩张单向驱动模型能力的提升。

随着模型能力的增强,人工智能的发展正迈向一个新的阶段:"数据-模型协同演进"(Data-Model Co-Evolution),形成模型反哺数据治理、高质量数据进一步优化模型的良性闭环。

为适应这一范式转变,清华大学自然语言处理实验室、面壁智能、OpenBMB 联合正式发布模型驱动的 L0-L4 数据分级治理(Tiered Data Management)体系,旨在为迈向通用人工智能提供系统化的数据科学支撑。

为验证分级数据治理体系的有效性,该技术团队在英文网页、中文网页、数学、代码四个领域上开展了系统性实验,并观察到:模型性能随着数据质量从 L1 向 L3 的逐级提升而持续增强。

在实验过程中,系统构建了 UltraData-Math:一个面向数学领域的大规模、高质量预训练数据集。该数据包含当前 最大规模开源高质量L3数学合成数据,在评测基准上优于其他开源数据,为数学垂直领域数据提供了新的前沿治理范式。

为进一步构建数据治理社区生态,他们推出了 UltraData 开放社区网站。网站系统整理了 UltraChat、UltraFeedback 等前期高质量数据工作,并开源了实验过程中的 2.4T Tokens 数据与 4 项数据治理工具。

图片开源数据与工具

UltraData 数据分级治理体系

已有数据治理方法往往关注于特定的数据处理任务(如数据过滤、筛选和编辑),但这些方法无法满足大语言模型全生命周期训练的系统性要求。

构建基于模型训练需求的系统性数据治理体系,有三大主要动机:

  • 高质量公开数据资源正逐渐逼近枯竭点,未来的模型演进无法继续单纯依赖数据规模的增长,这迫使数据科学必须从粗放式的规模扩张迈向精细化的数据治理与利用,以挖掘存量数据的深层价值;

  • 模型不同训练阶段(如预训练知识注入、微调指令对齐)对于数据的质量、数量及分布特征存在显著的差异化需求,亟需根据不同阶段的学习需求构建不同的训练数据;

  • 数据治理必须在成本投入与模型收益之间构建最优的动态平衡。在数据治理前期阶段,应使用轻量化低成本的治理方法(如启发式过滤),而在深度治理阶段使用更精细化、成本更高的方法(如使用 LLM 打标)。将高价值数据战略性地配置于训练中后期(Mid-Training)或学习率衰减(Decay)等关键节点,能够在控制总成本的前提下最大化数据的边际效应。

基于上述动机,通过构建 L0-L4 五级数据分级体系,让数据处理更具针对性。从原始数据(L0)经基础过滤(L1)、模型精筛(L2)、合成与增强(L3),到最终可直接用于编排的数据(L4),每一级都对应明确的处理标准和应用场景,避免 "一刀切" 的粗放式加工,最大化单位数据的训练价值。

各层级核心定义、处理方式与应用场景如下:

  • L0 - 原始数据(Raw Data):未经实质性处理的初始数据(PB 级),含大量噪声与重复内容,经采集、解析后作为底层储备(代表:Common Crawl 网页、PDF 文档等),不直接用于训练;

  • L1 - 过滤数据(Filtered Data):经启发式规则过滤、去重的基础清洗数据,格式规范但语义质量不均(代表:FineWeb、DCAD),为后续处理提供基础资源;

  • L2 - 精筛数据(Selected Data):通过模型打分、标签标注筛选的高信息密度数据,领域明确、逻辑连贯(代表:Ultra-FineWeb、FineWeb-edu),对模型能力提升贡献显著;

  • L3 - 合成与增强数据(Refined Data):经改写、合成、人工标注的结构化数据,语义清晰、质量优异(代表:Ultra-Chat、UltraFeedback 等),适配 Mid-Training、SFT、RL 等高阶训练;

  • L4 - 编排数据(Organized Data):经整理、可信校验、统一编排的有序数据,结构清晰、可检索(代表:wikidata、UltraData-Arxiv),直接支持 RAG 应用。

图片分级治理体系示意图

01 分级体系有效性验证

技术团队在进行了充分实验来证明分级体系的有效性后,选择英文网页、中文网页、数学、代码四个领域的 L1 至 L3 级代表数据,在 MiniCPM-1.2B 上分别使用快速验证策略对单一数据源采样 10B Tokens,进行数据质量验证。

图片L1-L3 实验数据选择(标*为开源数据)

实验结果如下表,在不同领域中,模型性能从 L1 到 L3 层呈现出清晰且一致的提升趋势,验证了所提出的分级数据治理体系能够有效刻画具有实际意义的数据质量分层。

L3 > L2 > L1 的严格性能层级关系在所有实验中均一致成立,这些结果验证了分级数据治理体系在构建高质量数据方面的有效性,即使在训练预算受限的验证设置下,依然能够产生清晰且稳定的性能提升信号。

图片L1-L3 数据分别在英语网页、中文网页、数学和代码领域训练结果

02 基于分级治理体系的多阶段模型训练

为验证分级治理体系对模型训练的动态影响,技术团队设计了一组对比实验来评估混合训练(mix training)分级训练(tiered training)两种策略的性能差异。

并混合了四个领域的数据,固定配比为 50% 英文网页,25% 中文网页,7% 数学和 18% 代码,均在 MiniCPM-1.2B 上从头训练 120B Tokens。

混合训练策略采用单阶段训练方式,按照 L1、L2、L3 的 1:1:1 比例混合为统一数据池进行训练。分级训练策略将训练划分为三个连续的 40B Tokens 训练阶段,依次使用 L1、L2 、L3 进行训练。

图片混合训练与分级训练结果对比

上表给出了两种训练策略在各评测基准上的详细对比结果。与混合训练相比,分级训练在整体平均性能上提升了 1.49 个百分点,并且在英文、中文、数学和代码四个主要评测领域中均取得了显著提升。

图片混合训练与分级训练在各训练节点的平均得分对比

上图从训练过程的动态视角进一步揭示了分级数据治理的优势。在训练的早期阶段,两种训练策略表现出相似的增长趋势,性能从约 24.7pp 提升至约 28.3pp。

此阶段,分级训练主要使用 L1 数据。在训练的后期阶段,分级训练策略逐步引入经过 L2 模型筛选及 L3 合成优化的高质量数据,性能曲线呈现持续且稳定的上升趋势,从 28.35pp 提升至 31.66pp,增长 3.31pp。相比之下,混合训练的增长明显放缓,仅从 28.26pp 提升至 30.17pp,增幅约为 1.91pp

实验结果表明,将 120B Tokens 的训练数据按 L1、L2 和 L3 分级组织,可更有效提升模型在知识理解、逻辑推理及领域能力等多维度的综合性能,为数据管理的分级治理提供了坚实实验支持。

UltraData-Math 高质量数学预训练数据

基于 UltraData 数据分级治理体系,技术团队在数学数据上进行了深入的数据治理与严格的实验分析,构建了当前最大规模的 L3 数学合成数据。

相关实验结果证明了该方法的有效性。团队将全量数据与分级治理工具在 OpenBMB、HuggingFace 等社区开源。

具体来说,主要采用以下治理方法:

  • L0 层: 基于 magic-html 开发了数学解析器 UltraData-Math-Parser,结合 w3m 布局保留渲染和多级回退策略,将 MathML、KaTeX 和 AsciiMath 等格式标准化为 LaTeX 格式。

  • L1 层:通过启发式规则清洗噪声数据,并进行文档级去重处理。

  • L2 层:使用闭源大模型对种子数据进行标注,并蒸馏成轻量级 Embedding 分类器,实现对整个语料库的高效质量分级。

  • L3 层: 构建 UltraData-Math-Generator,通过多种形式的数据改写、合成和精修(如问答、多人对话、多风格重写及知识支撑教材)生成结构化内容,确保推理清晰且知识可学。

图片UltraData-Math Parser 解析效果

经过全链路清洗与重构,数据实现了从"广度覆盖"到"深度聚焦"的转变:最终得到了 290B 数学分级数据。

UltraData-Math-L1 包含 170.5B Tokens 的网页数学语料;经过质量模型筛选的高质量数学数据 UltraData-Math-L2 包含 33.7B Tokens 语料;高质量合成数学数据 UltraData-Math-L3 包含 88B Tokens 的多格式数据(如问答、多轮对话、知识教材等)。

实验验证与结果分析

为验证数据质量,团队基于 MiniCPM-1.2B 模型设计了一系列控制变量实验。所有实验模型均在 100B Tokens 的训练量下进行。

实验数据显示,通过在 L0 层使用 UltraData-Math 解析器,模型在下游任务上的表现产生了显著分化:技术团队的解析方案在 MATH 数据集上达到了 28.72 分,优于 trafilatura (28.08pp)和 magic-html (26.58pp)。这直接证明了解析数据的完整性对于模型理解复杂数学逻辑至关重要。

图片L0 解析器实验结果对比

技术团队将最终数据 UltraData-Math-L3 与当前最先进的开源数学数据集(Nemotron-CC、MegaMath、FineMath)进行了独立训练对比。

结果表明,UltraData-Math 在多个核心基准上刷新了同规模模型的性能纪录。得益于 L0-L3 的分级治理,模型不仅在 MATH 基准上大幅领先 Nemotron-CC 4plus (+3.62分),更在 GSM8KMath-Bench 以及 R-Bench-T 等多维数学评测中展现了卓越的推理性能,有力验证了 L3 合成数据对复杂数学思维链(CoT)的显著增益。

与此同时,模型在 MBPP 代码生成任务上收益显著 (49.27pp),并保持了稳健的通用知识水平(MMLU),实现了数学深度与逻辑广度的双重突破。

图片数学 L3 数据实验结果对比

UltraData 开放社区网站

技术团队隆重推出 UltraData 开放社区与官方网站,同时将在官方网站及时发布最新推出的治理工具、数据集与研究动态。

01 全链路治理工具

平台聚合了每一层级的数据治理工具,从 L0 的 UltraData-Parser(支持网页、PDF 等异构内容解析),到 L1 过滤数据的 UltraData-Cleaner(动态组合启发式规则过滤、去重等算子)。

接着 L2 精筛数据的 UltraData-Selector(通过模型打标筛选高价值样本),L3 合成增强数据的 UltraData-Generator(实现多样化数据改写与合成)。

再到 L4 编排数据的 UltraData-Organizer(构建结构化知识库并校验),每一类工具都对应明确的治理手段与数据类型,完整覆盖从原始数据到经过统一编排与规范化校验的有序数据全流程。

图片UltraData-Math-L0-Parser 在线试用 Demo

团队还将这些治理工具部署在 HuggingFace Spaces 等平台,开发者无需自行部署,即可快速体验数据治理工具效果。

02 全层级数据集

网站整合 OpenBMB 社区数据治理往期成果与最新实践,如 L1 级多语言基础数据 DCAD-2000,L2 级预训练核心数据 Ultra-FineWeb,L3 级 SFT/RL 专用数据 UltraChatUltraFeedback,以及 UltraData-Math 系列数据集。

所有入选的数据集均经开源社区验证,获得广泛好评。

  • DCAD-2000:累计下载 222k,覆盖 2282 种语言、159 种文字系统

  • Ultra-FineWeb:累计下载 406k,连续 2 周登顶 HuggingFace Datasets Trending 第一名

  • UltraChat:据 HuggingFace 统计全球 500+ 模型使用,位列第 7 位

  • UltraFeedback:据 HuggingFace 统计全球 1000+ 模型使用,位列第 4 位

写在最后

从论文提出科学方法,到平台落地工具,再到数据集提供可用资源,该技术团队构建了 "理论→实践→应用" 的完整闭环。团队深知,数据科学的未来不在于孤岛式的积累,而在于开放式的协作。

未来该团队还将团结更多学术界、工业界合作伙伴。同时也邀请全球开发者共同发展 UltraData 生态,共享 UltraData 优质数据、共建科学治理体系、共创面向 AGI 实践的新可能,共同期待高质量的数据在更加开放的协作中迸发出更大的价值。

  • UltraData 网站:https://ultradata.openbmb.cn

  • HuggingFace:https://huggingface.co/collections/openbmb/ultradata

  • UltraData-Math:https://huggingface.co/datasets/openbmb/UltraData-Math

  • 分级体系论文:https://ultradata.openbmb.cn/blog/position-paper

今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!

没有评论:

发表评论

1元体验AI视频神器,制作成本骤降效率飙升!

概括:字节跳动Seeddance 2.0模型震撼发布,可生成电影级视频,运镜、调度全自动。国内"即梦"平台新用户1元享7天会员,实测效果逼真。AI工具颠覆传统制作,成本从数万降至几乎零,为创业与内容创作带来革命性机遇。 公众号:元小二学AI 为大家分享最新...