AI音乐模型双雄登场,开源与授权成新焦点

两大AI音乐模型同步升级,技术边界持续拓展

本周,AI音乐领域迎来两场关键性更新。波兰语音技术企业ElevenLabs在完成5亿美元融资后,估值攀升至110亿美元,正式发布其第二代音乐生成模型Music v2。与此同时,Stable Diffusion母公司Stability AI也推出Stable Audio 3.0,该系列包含四个独立模型,支持生成超六分钟音频内容,并开放部分权重供开源社区使用。

版权合规成为核心竞争壁垒

此次更新背景源于2024年针对Suno与Udio的集体版权诉讼事件,促使行业将“基于授权数据训练”作为产品可信度的关键指标。ElevenLabs与Stability AI均在声明中强化了其数据来源合法性,明确用户生成内容不涉及侵权风险,以应对法律与市场双重压力。

Music v2:实现跨风格无缝衔接与精准控制

作为继初代模型发布十个月后的迭代成果,Music v2聚焦于复杂指令下的整体连贯性表现。官方演示显示,单首作品可实现从歌剧风格过渡至重金属,再回归原调,过程中说唱段落结构稳定,且能自然融入环境音效,整体未出现断裂或失真现象。

该模型引入实用化的局部重绘功能,允许用户对特定片段进行重新生成,其余部分保持不变;同时支持分段创作模式,确保章节间逻辑连贯。多语言处理能力进一步增强,但具体实现细节尚未披露。

当前,该模型已部署于三大服务渠道:面向创作者的ElevenMusic、面向开发者的ElevenAPI及面向品牌的ElevenCreative。其中前两者已开放使用,API接入需经销售团队审批。公司同时宣布下调v1与v2版本定价,并透露音乐业务年度经常性收入已达5亿美元。尽管占比仍较小,但新推出的ElevenMusic消费者应用已直接切入Suno用户群体。

Stable Audio 3.0:四模型架构覆盖全场景需求

相较此前最长仅支持三分钟生成的Stable Audio 2.0,新版引入四个层级模型:小型音效模型(可在设备端运行)、小型全曲模型(支持本地作曲)、中型模型(最长6分20秒,依赖高性能硬件)以及大型模型(仅限高收入组织通过API调用)。

其中三个模型提供开源权重。小型模型参数量为4.59亿,无需GPU即可运行;中型模型达14亿参数,在专业显卡上生成6分20秒音频耗时约1.31秒;大型模型则拥有27亿参数,仅向年营收超百万美元的企业开放服务。

全新语义声学自动编码器设计保障长音频旋律一致性。系统支持LoRA微调,艺术家可利用自有录音数据定制专属模型。局部重绘功能支持单段或多段修改,并具备因果延续扩展能力。凭借与主流音乐集团的合作协议,其版权授权体系清晰度达到历史峰值。

格局重塑:挑战Suno的绝对领导地位

若将ChatGPT视为文本生成领域的标杆,那么Suno便是当前AI音乐赛道的领军者。据公开信息,其母公司在2025年11月估值已达24.5亿美元,年经常性收入突破3亿美元,用户规模接近1亿,日均生成歌曲逾700万首。

为规避法律风险,ElevenLabs已与多家版权方达成数据授权协议,而Stability AI则获得两大国际音乐集团背书。此前涉诉的Udio已转向封闭生态运营。目前,Stable Audio 3.0的中小型模型已在开源平台上线,ElevenMusic用户可免费使用基础功能,商业用途则可通过对应平台获取服务权限。