快来听!4分钟、人声自然饱满、乐器层次丰富!“一人即乐队”,不是梦!

资讯 » 科技头条 2025-09-12


今天(9月12日),大模型“六小虎”之一、上海AI“北斗七星”之一的MiniMax发布新一代音乐生成模型Music 1.5,为国产AI音乐创作技术带来新变革。

Music 1.5在音乐生成时长、控制精度、编曲表现等多个维度实现显著提升,生成时长升至4分钟,开启了”一人即乐队”的新时代。

四大技术突破重新定义AI音乐

相较于前一代产品,MiniMax Music 1.5在技术层面实现了四大核心突破,每一项都直指当前AI音乐生成领域的痛点。

首先是歌曲强控制力的提升。Music 1.5支持长达4分钟的音乐创作,出品即成品,不再仅是“小样”。简单模式下,用户仅需几个关键词或一句自然语言描述,Music 1.5即能交付超高完成度的歌曲作品。在高级模式下,通过“16种风格×11种情绪×10个场景”自定义音乐特征,对歌曲的前奏、主歌、副歌等不同段落歌词编排,极大丰富的用户创作体验。

例如,用户输入“温柔女声嘻哈唱首流行歌曲”简单描述,一首AI填词作曲的女声作品《甜甜圈》便跃入眼前。输入一首创作好的完整歌词,选中“爵士、浪漫、深夜酒吧”,一首动听的《回眸》即可创作。



Music 1.5原创音乐《回眸》播放界面

其次是人声自然饱满的表现。模型对人声唱腔发音技巧进行深度建模,可以生成不同声线、唱腔的音色。相比于同类产品,Music 1.5生成的声音更具通透感和真实感,音色自然饱满,转音顺畅无断层,能够极大丰富歌曲的情感表现力。这一技术突破解决了此前AI生成音乐中人声机械化、缺乏情感表达的问题。

第三是乐器层次丰富的编曲能力。模型对乐器进行细粒度建模,使得编曲丰富、乐器层次清晰、演奏技巧富于变化。特别值得一提的是,Music 1.5还支持中国小众及民族乐器的生成,这为传统文化与现代AI技术的结合提供了新的可能性。

最后是歌曲结构清晰的完整性。好的结构能让一首歌的情感表达层层递进、动人心魄。过往的音乐模型,段落与段落之间的界限往往并不明显。Music 1.5真正实现了Intro/Verse/Chorus段落间的明显区别,副歌爆点明显,尾奏收束自然,带来真正的”叙事级”听觉体验。


MiniMax Music创作界面

技术实力背后的多模态积累

Music 1.5的技术突破基于MiniMax在文本、语音、视觉等多模态领域的自研能力积累。今年6月,公司发布的视频生成模型Hailuo 02在全球范围内获得广泛关注,该模型采用NCR架构创新,实现了1080p原生生成能力。此外,公司的语音生成模型Speech 2.5也在全球范围内刷新了语音模型的性能上限。

通过利用文本模型的能力,Music 1.5对文本描述有更强的理解力和控制力,不仅可对歌曲风格、情感色彩和适用场景进行整体控制,也可对人声特征进行细粒度控制,生成不同声线特质的人声音色。

新民晚报记者了解到,MiniMax Music 1.5的发布为多个行业带来了新的机遇——在专业音乐创作领域,该产品可以为音乐人提供AI辅助灵感激发;在影视、游戏、短视频等内容产业,可以快速定制背景音乐;在虚拟偶像和数字娱乐领域,可以量身打造单曲与MV;在企业营销层面,可以为品牌生成专属音频内容。更重要的是,Music 1.5的易用性使得音乐创作不再是专业人士的专利。普通用户甚至可以“只是为此刻的心情写一首歌”,这种创作门槛的降低,有望激发更多人的音乐创作热情。

值得注意的是,MiniMax Music 1.5不仅面向C端用户,还同步面向全球开发者提供API接口。MiniMax表示,将延续“全球最高性价比”的定价策略,让更多开发者能够轻松接入AI音乐生成能力,构建自己的应用、工具或创作工作流。

原标题:《快来听!4分钟、人声自然饱满、乐器层次丰富!“一人即乐队”,不是梦!》

栏目编辑:陆梓华 MiniMax

作者:新民晚报 郜阳



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。