领跑AI音乐生成新赛道,自由量级全链路自研音乐模型“音潮音乐”通过备案
国内AI音乐领域迎来突破性进展。日前,自由量级0到1全自研的音乐大模型——“音潮音乐”已成功通过国家互联网信息办公室的生成式人工智能服务备案(备案号:Shanghai-YinChaoYinYue-202507160059)。这标志着该模型在合规性、安全性及可靠性方面均达到国家要求。音潮音乐的横空出世,打破了此前国内面向消费者的商业级音乐模型匮乏的现状,也为自由量级深耕音乐垂直领域生态奠定了坚实的底层基础。
全链路自研:攻克“超长上下文”与“非线性结构”难题
与业界普遍采用开源模型进行微调的路径截然不同,音潮音乐模型从最底层架构起便坚持完全独立研发。音乐生成不同于一般的文本或图片生成,它面临两大核心挑战:一是“超长上下文”,一首几分钟的歌曲包含多达数十万个数据点;二是“非线性结构”,旋律、和声、节奏、音色等元素复杂交织、相互影响,依赖简单的线性预测模型难以生成真正连贯、富有乐感的音乐。
为此,自由量级的研发团队摒弃传统思路,首创性地采用了AR+NAR混合架构。这一领先设计使模型兼具了卓越的长期结构连贯性和精细的局部细节生成能力,能够有效捕捉音乐中的全局动态变化并进行高保真重建。算法负责人Justin坦言,要做到这一点并不容易,在研发过程中遇到了很多的坎坷。团队在最初的模型调教中,也曾有过一些激进的想法,试图一次性达到预期效果,但结果却发现音乐模型的训练中,有大量需要平衡的内容,像跷跷板一样。“于是开始老老实实的做消融实验,一个个变量往上加,最终才在保持优点的同时尽量去除了缺点。”他说。
融合到重建:实现从“模仿”到“创作”的跨越
音潮音乐模型的强大能力源于其核心的多模态表征技术。模型能够接受并理解声音、文字、图片乃至视频等多种模态的输入信息,并在统一的高维空间中进行表征与对齐,这极大地拓宽了音乐创作的想象边界和触发方式。
更重要的是,研发团队深度携手专业音乐人与作曲家,将底层语言模型的训练与专业的音乐制作逻辑、乐理知识深度融合。这使得模型的“创作”过程不再是简单的数据模仿或风格复制,而是内化了音乐的本质规律,能够进行真正意义上的创造性生成,确保了输出作品在音乐逻辑上的正确性与艺术性。
在重建环节,模型创新性地对音乐信号与其他类型信息的结构性差异进行了独立且深入的建模学习,并建立了复合多维度的评价体系。这一技术突破有效克服了传统方案中常见的细节模糊、质感生硬等问题,使得生成作品的编曲层次丰富、混音听感细腻,整体质量达到了工业级制作水准,实现了从“用户意图理解”到“高品质音乐表达”的精准转化。
此外,为了极致追求生成音乐的沉浸感,团队还自主研发了能直接对双声道信号进行联合建模的扩散型变换器模型(DiT)。该模型凭借其独特的注意力机制,能够精准捕捉并同步左右声道之间细微的相位差、强度差与时间延迟。因此,模型生成的不再是扁平的单声道扩展,而是具备了真实、自然空间感的立体声音频,能为听者构建出具有宽度、深度和定位感的可信声场,带来真正的沉浸式听觉体验。
获专业音乐人高度评价 整体效果稳居国内领先
在前期的小范围盲测中,音潮音乐模型生成的作品获得了众多资深音乐人、制作人的高度认可,普遍认为从混音听感、旋律织体与段落结构方面,都已达到专业编曲水平,整体效果更是达到了国内的领先水平。上海音乐学院音乐工程系副教授、音乐科技与艺术教研室主任陈世哲在多次使用“音潮”后表示,创作的歌曲从编曲成熟度、人声与音色的自然程度上已经超越了大部分职业音乐人的制作水准。
此次音潮音乐模型成功通过国家网信办备案,意味着模型在合规性与安全性上获得国家级认可,拿到了面向市场规模化商用的“通行证”未来,依托该模型打造的同名,“音潮”AI音乐生成和消费一体化平台,将为用户提供前所未有的体验,颠覆原有音乐行业的底层逻辑,开拓全新的蓝海市场。“我们坚信,只有真正掌握从底层算法到应用创新的全链路核心技术,才能在这场AI浪潮中为音乐产业带来实质性的变革。未来,我们将持续探索AI与音乐结合的无限可能,让每个人都能享受到科技赋能带来的创作自由。”自由量级CTO兼执行CEO姜涛表示。