AI音乐模型双雄登场，开源与授权成新焦点

2026-05-28 05:46:27

两大AI音乐模型同步升级，技术边界持续拓展

本周，AI音乐领域迎来两场关键性更新。波兰语音技术企业ElevenLabs在完成5亿美元融资后，估值攀升至110亿美元，正式发布其第二代音乐生成模型Music v2。与此同时，Stable Diffusion母公司Stability AI也推出Stable Audio 3.0，该系列包含四个独立模型，支持生成超六分钟音频内容，并开放部分权重供开源社区使用。

版权合规成为核心竞争壁垒

此次更新背景源于2024年针对Suno与Udio的集体版权诉讼事件，促使行业将“基于授权数据训练”作为产品可信度的关键指标。ElevenLabs与Stability AI均在声明中强化了其数据来源合法性，明确用户生成内容不涉及侵权风险，以应对法律与市场双重压力。

Music v2：实现跨风格无缝衔接与精准控制

作为继初代模型发布十个月后的迭代成果，Music v2聚焦于复杂指令下的整体连贯性表现。官方演示显示，单首作品可实现从歌剧风格过渡至重金属，再回归原调，过程中说唱段落结构稳定，且能自然融入环境音效，整体未出现断裂或失真现象。

该模型引入实用化的局部重绘功能，允许用户对特定片段进行重新生成，其余部分保持不变；同时支持分段创作模式，确保章节间逻辑连贯。多语言处理能力进一步增强，但具体实现细节尚未披露。

当前，该模型已部署于三大服务渠道：面向创作者的ElevenMusic、面向开发者的ElevenAPI及面向品牌的ElevenCreative。其中前两者已开放使用，API接入需经销售团队审批。公司同时宣布下调v1与v2版本定价，并透露音乐业务年度经常性收入已达5亿美元。尽管占比仍较小，但新推出的ElevenMusic消费者应用已直接切入Suno用户群体。

Stable Audio 3.0：四模型架构覆盖全场景需求

相较此前最长仅支持三分钟生成的Stable Audio 2.0，新版引入四个层级模型：小型音效模型（可在设备端运行）、小型全曲模型（支持本地作曲）、中型模型（最长6分20秒，依赖高性能硬件）以及大型模型（仅限高收入组织通过API调用）。

其中三个模型提供开源权重。小型模型参数量为4.59亿，无需GPU即可运行；中型模型达14亿参数，在专业显卡上生成6分20秒音频耗时约1.31秒；大型模型则拥有27亿参数，仅向年营收超百万美元的企业开放服务。

全新语义声学自动编码器设计保障长音频旋律一致性。系统支持LoRA微调，艺术家可利用自有录音数据定制专属模型。局部重绘功能支持单段或多段修改，并具备因果延续扩展能力。凭借与主流音乐集团的合作协议，其版权授权体系清晰度达到历史峰值。

格局重塑：挑战Suno的绝对领导地位

若将ChatGPT视为文本生成领域的标杆，那么Suno便是当前AI音乐赛道的领军者。据公开信息，其母公司在2025年11月估值已达24.5亿美元，年经常性收入突破3亿美元，用户规模接近1亿，日均生成歌曲逾700万首。

为规避法律风险，ElevenLabs已与多家版权方达成数据授权协议，而Stability AI则获得两大国际音乐集团背书。此前涉诉的Udio已转向封闭生态运营。目前，Stable Audio 3.0的中小型模型已在开源平台上线，ElevenMusic用户可免费使用基础功能，商业用途则可通过对应平台获取服务权限。

一分钟读懂：ElevenLabs推出Music v2模型，Stability AI发布Stable Audio 3.0系列，两大平台在长音频生成、开源策略与版权合规方面展开新角逐，共同挑战Suno的市场主导地位。

AI音乐模型双雄登场，开源与授权成新焦点

两大AI音乐模型同步升级，技术边界持续拓展

版权合规成为核心竞争壁垒

Music v2：实现跨风格无缝衔接与精准控制

Stable Audio 3.0：四模型架构覆盖全场景需求

格局重塑：挑战Suno的绝对领导地位

猜你喜欢

深度关联