2025年9月11日星期四

一部爆燃MV,窥见国产大模型的天花板:音乐界DeepSeek背后的“思维链”核心技术解读

点击下方卡片,关注"AI生成未来"

如您有工作需要分享,欢迎联系:aigc_to_future

这两天发现一个超燃MV作品《Digital Heartbeat》,歌曲和画面的适配度非常高,一开始就被它震撼的音乐节奏和极具未来感的画面所吸引。其中最惊艳我的是,整首歌竟然使用了10种不同语言演唱,歌词之间自然切换却毫无违和感,展现出一种跨文化、无国界的融合之美,仿佛是数字时代的"地球之歌"。

更让我震撼的是,当我好奇地去查了创作者,才发现整个作品竟然是由AI完成的!音乐部分是由AI音乐生成模型 Mureka创作的,旋律流畅、节奏感强、情绪层次丰富,完全不输给人类音乐制作人。

不得不感叹,如今AI的创造力在音乐领域已经不仅仅局限于辅助工具,而是真正具备了独立创作优秀作品的能力。

这首单曲的MV由昆仑万维8月15日上线的Mureka V7.5模型生成而来。不到一个月时间,新版模型在V7基础上全面升级——支持10种语言、参考歌曲、自定义歌手与音频编辑等多项功能。

不仅如此,Mureka V7.5显著提升了中文歌曲的演绎水准。如今生成的中文歌曲,在音色质感、演奏技法上实现了跨越式进步,连咬字细节与情感表达也愈加真切动人,令人耳目一新。

Mureka从V6到V7,再到现在的V7.5,每次升级都有惊喜,很多指标已经超越海外AI音乐平台Suno(V4.5),妥妥的AI音乐领域的国货之光。Mureka作为全球领先的AI音乐生成平台,全球流量份额仅次于Suno。

图片

竞品对比

  • Mureka在中文音乐生成效果方面超越Suno及其他所有竞品,包括:

    • 中文歌曲音色、演奏技法提升,基于对中文曲风和元素的强大理解,Mureka的模型对从传统民歌、戏曲到经典华语流行金曲乃至当代民谣音乐类型的音乐,都拥有深刻认知;
    • 对中文的情感理解和对中文歌词发音咬字效果超越所有竞品,不仅能精准识别唱词,更能通过分析真实演唱中的气息运用、情感起伏和唱法细节,智能划分出符合演唱规律的乐句,并确定自然的换气与停顿位置,显著提升了生成人声的段落清晰度与结构真实感;
  • 生成的音乐与输入的文本 Prompt 一致性更高,能够准确匹配用户在曲风、情绪等维度的设定(例如,当指令要求生成流行风格歌曲时,产出结果会严格符合该风格,而非混入其他无关元素;当设定为"悲伤"情绪时,旋律、编曲与演唱情感均会保持与该情绪一致,避免出现风格或情绪偏差);

产品功能

在Mureka中,主要有创作音乐以及创作语音等核心功能。

创作音乐

在创作音乐中,支持歌曲纯音乐的创作。分别支持简单模式和高级模式。

歌曲创作

简单模式
只需一句话描述你想要的歌曲,不用写歌词、不用找参考,Mureka 秒出完整原创新歌!例如输入 "星空下的民谣弹唱",转瞬就能收获一首满是故事感的专属曲目;

图片

效果展示

高级模式
实践发现,平台使用步骤简单易操作,只需三步,无太多需要设置的参数,非常人性化。好用易用的产品才是值得推广的产品

图片

可以自己写歌词,也可以提供标题,辅助生成歌词,生成的词非常诗情画意,辅以自己的创意描述,旋律和歌词相呼应,可以过一把创作型音乐人的瘾啦!

图片

效果展示: 

纯音乐生成

纯音乐也分为简单模式和高级模式,简单模式可以通过输入提示词,高级模式可以通过上传音频视频提取音频的方式,即可一键生成高品质纯音乐。

纯音乐的生成在很多场景下都很实用,例如:

  • 自媒体 / Vlog:一键生成「海边假日」「城市夜景」等风格配乐,完美适配 AI 画作与实拍画面,轻松提升视频质感;
  • 影视 / 剪辑后期:快速定制电影级原声,科幻史诗、悬疑氛围、治愈小清新等风格随心选,精准匹配剧情情绪;
  • 说唱音乐制作:上传任意 Beats 片段,批量生成同风格 Trap/Drill/Lo-Fi 伴奏,瞬间扩充创作素材库。
使用简单模式 - 文本描述,生成纯音乐
使用简单模式 - 文本描述,生成纯音乐
使用高级模式 - 参考音乐,生成纯音乐
使用高级模式 - 参考音乐,生成纯音乐

效果展示: 

创作语音

Mureka 最新版本还上线了 TTS(Text To Speech,即文本转语音),轻松搞定多元创作!支持音色克隆与风格自定义,短视频配音、虚拟角色发声、内容解说等需求全适配,让文字开口更自然。

图片

文字转语音,生成速度很快,几秒钟就可以得到自己想要的语音了!

图片

语音库的选择,有默认支持的一些声音,以及热门声音,也可以使用音色克隆,制作我的声音

图片
图片

效果展示

感兴趣的小伙伴抓紧体验下。官网体验直通车:https://www.mureka.cn/

对于更高需求的用户,比如开发者、专业创作者和音乐平台,Mureka V7.5 推出了API服务,可以方便的将Mureka集成到自己平台中,碰撞出更多商业火花。

Mureka V7.5所生成的歌曲,不仅能够精准捕捉旋律与节奏的制作意图,更难得的是,它深谙中文演唱的独特韵味——从清晰的咬字发声,到细腻的情感铺陈,再到深层的艺术表达,皆能娓娓道来。这一切让每首作品既富有艺术的感染力,也不失真实的情感温度。

图片

Mureka 最新版本还上线了 TTS(Text To Speech,即文本转语音)功能,用户可以在 Mureka 同时体验 AI 音乐与 AI 语音生成,AI 语音生成功能支持用户输入文字描述定制音色,也支持直接克隆用户上传的音色;

图片

Mureka为什么这么强

Mureka 使用了昆仑万维自主研发的音乐思维链大模型 MusiCoT(Chain-of-Musical-Thought),堪称AI音乐领域的"DeepSeek",以思维链推理重塑音乐生成进程。

不同于传统自回归(AR)模型局限于片段生成、缺乏整体视野的局限,MusiCoT 在生成每一个音符之前,率先构建出一幅全局性的音乐架构蓝图——从段落铺陈、情绪起伏到配器编排,皆在此规划中得以明晰。这一机制显著增强了大模型对音乐宏观脉络的掌控力,令作品呈现出更富逻辑的乐章推进与更为自然的情感流动。

MusiCoT核心竞争力

MusiCoT——一种专为音乐创作设计的思维链(CoT)提示技术。如下图所示,MusiCoT使自回归模型能够在生成音频令牌前先构建出可分析的整体音乐结构。通过对比语言-音频预训练(CLAP)模型,定义出连贯的"音乐思维链"。MusiCoT的核心竞争力可归纳为4S框架:

  • 可扩展性:基于独立预训练的CLAP模型构建,无需人工标注数据即可随基础自回归模型灵活扩展;
  • 结构可分析性:依托CLAP技术实现音乐结构的可解析性,助力乐器编排等音乐元素的深度分析(如图1所示);
  • 音乐参考支持:通过微调推理策略,无缝支持可变长度音频输入作为可选风格参考。实验表明该方法有效避免复制问题,在抽象化音乐参考方面具有显著优势;
  • 卓越生成性能:实证研究表明,将MusiCoT集成于MeLoDy框架后,无论是客观指标还是主观评估均持续展现出优异的生成性能,其音乐品质可与当前最先进的音乐生成模型相媲美。
MusiCoT在音乐生成中的推理过程,重点关注乐器编排。箭头采用颜色编码系统表示各乐器强度:颜色越深代表强度越高,颜色越浅则表示强度越低。
图1:MusiCoT在音乐生成中的推理过程,重点关注乐器编排。箭头采用颜色编码系统表示各乐器强度:颜色越深代表强度越高,颜色越浅则表示强度越低。

架构详解

"音乐思维"(musical thought)是音乐制作人创造力的基础。在创作或即兴演奏时,制作人会投入一种独特的决策过程,有效地"以音乐的方式思考"。这一创作旅程通常涉及将过程分解为多个中间决策,在最终定稿前对每个选择进行精炼。本框架的目标是为音乐生成模型配备复制这种音乐思维链的能力——即创建一系列连贯的推理与决策步骤,最终生成一个成熟、精炼的音乐样本。

将 CLAP 音频嵌入视为可分析的音乐思维

利用经过对比训练的跨模态嵌入模型——CLAP 模型——来表示中间音乐思维,而非依赖自然语言描述。使用连续特征进行推理并非新概念;前人研究发现在隐空间中进行推理通常比使用自然语言更有效。神经成像研究进一步支持了这一观点,该研究表明人类语言主要优化用于沟通,而非推理任务。具体而言,CLAP 模型将每 10 秒的音乐音频片段编码为连续值嵌入向量。对于一首典型的 3 分钟歌曲,这将生成一个音频嵌入序列,记为 。每个对应于 10 秒片段的嵌入向量都是可分析的,允许与任何相关文本进行余弦相似度计算。

预测从粗到细的扁平化 RVQ 以实现更稳定的 MusiCoT 训练

随着音乐思维链的建立,遇到了一个重大挑战。CLAP 音频嵌入的连续性使得传统的训练目标(例如均方误差(MSE)损失、L1 损失和对比 infoNCE 损失)对于音乐生成无效。前人工作并未明确解决连续思维的预测问题,而是依赖于自然语言中的标准思维链(CoT)训练。

为了在 MusiCoT 中解决此问题,本工作引入了一种基于残差向量量化(RVQ)的从粗到细的标记化方法,如下图 2 所示。

图2:说明了给定音频的扁平化 CLAP RVQ tokens的计算
图2:说明了给定音频的扁平化 CLAP RVQ tokens的计算

该 RVQ 模型包含L个码本,由参数  参数化,并使用基于重建的量化损失进行训练。每一帧音频嵌入,记为 ,被离散化为标记 ,从而产生一个量化向量,其定义如下:

图片

其中  是第 k 个码本的第 k 个残差标记嵌入器, 表示前 k 个量化向量的累积和, 是第 k 个码本的索引集。

在 MusiCoT 中,将 RVQ 标记按从粗到细的顺序扁平化排列以供语言模型(LM)预测,确保较粗的标记先于较细的标记被预测。与将复杂任务分解为更小步骤的传统 CoT 推理不同,音乐生成需要一种整体性的方法。我们的中间音乐思维旨在保持这种完整性,每个标记序列都直接对应于整个生成的音乐,并具有精确的时间对齐。L 个码本代表了不同粒度级别,使得这些中间标记的生成类似于从宏观到细节的结构化音乐过程。

在训练期间,语义语言模型利用扁平化的 CLAP RVQ 标记作为额外的预测目标,如图 3 所示。与标准 CoT 训练类似,这些预测出的标记被视为音频标记一样用于交叉熵(CE)损失计算,并添加了两个特殊标记——<cot_bos> 和 <cot_eos>——以指示何时从生成 MusiCoT 标记转换到生成音频标记。CLAP 嵌入的固有结构允许在联合语言-音频潜空间内分析预测的 RVQ 标记,使我们能够探索每个 10 秒音频片段的音乐特征。例如,可以通过计算生成嵌入与各种乐器的文本嵌入之间的余弦相似度来分析乐器编排,从而洞察不同乐器在生成音乐中随时间推移的交互方式。

图3:显示基于MusiCoT的自回归模型中的标记排列以及从CLAP RVQ标记预测中获得的结构可分析性的图表
图3:显示基于MusiCoT的自回归模型中的标记排列以及从CLAP RVQ标记预测中获得的结构可分析性的图表

MusiCoT 的双重采样策略

在 MusiCoT 中,我们将来自三个域的标记:文本标记、扁平化 CLAP RVQ 标记和音频标记,整合到单个语言模型中。这就提出了一个关于采样策略的重要问题:应该对扁平化 CLAP RVQ 标记和音频标记使用相同的采样方法,还是应该采用不同的策略?这个问题在现有文献中相对较少探索。提出了两种专门为 MusiCoT 设计的新型双重采样策略。

双温度采样最近的一项研究强调了温度选择作为采样超参数在增强语言模型(LM)性能方面的关键作用。在音乐生成方面的实验结果进一步支持了其重要性。为了利用这一见解,为 MusiCoT 引入了一种双温度采样方法。该方法涉及为语义语言模型配置两组不同的采样温度:一组用于扁平化 CLAP RVQ 标记,另一组用于音频标记。

双尺度无分类器引导无分类器引导(CFG)是一种最初为扩散生成模型开发的通用技术。其有效性也在语言建模应用中得到证明,包括 AudioGen和 MusicGen。在我们的研究中,发现即使在语义语言模型中也采用 CFG 能带来显著好处,尽管 MeLoDy的作者未探索基于 CFG 的语义语言模型采样。对于 MusiCoT,引入了一种双尺度 CFG 采样策略,其按如下方式修改对数概率:

图片

经广泛实验验证,MusiCoT 不仅在客观指标上表现突出,更在主观听感上赢得高度认可。其生成音乐在结构完整性、旋律连贯性与整体艺术性方面,均超越传统生成方法,目前已跻身行业领先水平,展现出接近人类创作的音乐表达能力。

Mureka产品的升级之路得到启示,真正的创新,还得是修炼内功,核心算法的进化让上层应用可以给到用户更好的体验,用户的反馈又能反哺算法进行模型的迭代,良性循环下国产大模型的路将越走越宽!

参考资料

[1] Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation 
[2] https://www.mureka.cn/

致谢

如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

图片

没有评论:

发表评论

鸿蒙的全面进击:“天工计划”十亿重磅加码,打造AI全场景新生态

鸿蒙正在消融设备壁垒、让AI成为无处不在的生态级能力。 克雷西 梦瑶 发自 凹非寺 量子位 | 公众号 QbitAI 在AI重塑操作系统的关键赛道上,鸿蒙再次亮出颠覆性进展。 在华为全联接大会2025上,鸿蒙操作系统5展示了其更强大的AI全场景能力, 包括"小艺任务...