程序员用AI写歌还赚钱了,用AI 批量生产“爆款”,这个副业“杀疯了”?

AI前线·2025年10月17日 13:48
“人解决的是剩下 10% 的错漏和 10% 的画龙点睛。”

今年,AI 参与创作的不少作品频繁出圈。

1 月份时,有原神玩家用游戏台词做歌词、用 Suno 作曲的《奥奇坎竟是我自己》在 B 站爆火,至今已经有了近 640 万的播放量,“看看抖音那些裁缝们剪辑的金曲,再看看这个 AI 制作编曲,我觉得这完全就是 AI 碾压。”有网友评价道。

彼时就有网友称,“AI 给我的感觉就是:你尽管想创意想点子,剩下的交给 AI 来办。”这是当时网友的评价,不知不觉间也逐渐成为大家的共识。

今年 3 月,程序员 Yapie 使用 DeepSeek 和 Make Best Music 工具,以 “暗恋到分手” 的七天情感叙事为核心提示词,仅用数小时完成《七天爱人》的词曲创作。歌曲上线网易云音乐后,播放量迅速突破 200 万次,评论超 4600 条,跻身飙升榜、赏音榜等主流榜单,与毛不易、陈奕迅等明星作品同框。

“十八线音乐人努力写歌拼尽全力无法战胜 AI。”当时有网友评价。重要的是,《七天爱人》还取得了商业上的突破,歌曲版权最后卖出了数万元,这给大众做 AI 音乐变现带来了启发。

在不被告知的情况下,大众如今几乎很难分辨是否是 AI 音乐。今年 7 月,Spotify 上每月听众超过百万的迷幻摇滚乐队 Velvet Sundown,被曝其音乐是由 Suno 等生成式音乐创作工具制作后,大众才恍然大悟。

人类就找 bug 和画龙点睛

“创作者对 AI 的态度已经有了很大的转变。”专注内容的 AI 创业公司火星电波创始人徐文健说道。

网友 Chaosprint 分享了他的心路变化:

我大概在 2017 年就开始接触 AI 音乐,那时候主要是被 AlphaGo 激起了兴趣。最开始是研究机器听觉相关的东西,比如 Nick Collins 的一些工作。我一直对 AI 能不能进行实时音乐编程(live coding)特别好奇。2019 年,我做了个项目,叫 RaveForce,算是一个挺有意思的小实验。那时候 GANsynth 特别火,看起来很惊艳,但声音质量总感觉有点“糊”。至于 MIDI 生成,我认为也不太像是真正的“音乐生成”。

现在,我对这些事情的看法有点变了。或许音质问题会像当年的 MP3 一样,刚开始差点意思,但后来就变成了“够好”的标准,扩散模型似乎正在推动这种趋势。而 MIDI,如果用得好,其实是个很有潜力的工具。人声合成和转换现在也特别酷,感觉像“插件”,但更高级、更实用。

2023 年时,大家担心被替代,对 AI 创作充满不屑和排斥;到了 2024 年,头部创作者开始将 AI 作为助手和灵感来源,发现了提效和突破创意的可能性;时至今日,创作者们变得更加务实,大家已经不再争论“用不用”,而是讨论“怎么用好 AI”。

有报道称,截至 2023 年,AI 已经生成了超过一亿首乐曲。有业界人士预计,AI 音乐的市场收益将会在 2026 年达到 70 亿美元;到 2030 年,AI 音乐将占据 50% 的音乐市场份额。

从艺术家的角度看,音乐之所以迷人,恰恰在于不同的乐器在某一刻的和谐共鸣,无论是节奏、音调还是音色。但另一方面,AI 音乐也有一些偏商业用途的实用场景,比如广告配乐、短视频背景音等,这类内容更注重“功能性”,只需要有点氛围感,人们也不想花大量时间搞创作。在这类场景下,AI 音乐是合适的。

“AI 是执行者,是人能力边界的延伸。人是老板,负责定义问题与目标,去指挥 AI 干活。”徐文健强调。

根据他的经验,当前创作者在创作环节中,主要需要定义“美”是什么,通过不断反馈迭代、个性化记忆、设置创作目标和边界来引导模型。此外,技术为主、再编辑为辅。“把人想象成总监, 技术能解决 80% 的工作,人解决的是剩下 10% 的错漏和 10% 的画龙点睛。”

整体来看,AI 当前在创作方面的核心价值是 “补位”:帮普通人实现创作,无需花费几万、几年学乐理,仅需输入情感经历、个人感悟等,即可生成专属风格音乐等;对于专业创作者而言则是提升效率,而非取代其做产出。

对于此前讨论很多的 AI 致人类失业的问题,徐文健坦言称,“工作被替代这种顾虑是现实存在的,但这和每次工业革命发生时的情形一致,AI 在取代一些旧岗位的同时也在创作很多新机会,善于利用 AI 的人会获得前所未有的生产力。”

“需要统一的创作平台”

在早期,AI 创作规则简单、输出粗糙,依赖大量人工筛选和后期处理。如今,大模型基于文本就能深刻理解情感与语义关系,并生成完整的音乐作品。

“目前 AI 音频很大程度上已经可以取代中低端和标准化需求的传统音频制作。”徐文健说道,“但在情感叙事、高端真人感、互动和实时上还有优化空间。”

“音乐生成和文本生成差别很大。”Suno 联合创始人兼 CEO Mikey Shulman 表示,文本、代码等的生成,解决的是客观问题,比如提高 SOTA 分数、优化基准测试成绩,但音乐完全是主观的。因此,Shulman 认为,音乐生成领域的模型会保持相对小巧,但需要用其他技术来让模型具备“好品味”。

Suno 采用了 Transformer 架构,但 Shulman 称其竞争优势不在于模型架构创新,而在于音频表征创新。比如,音频该如何“分词”(tokenize)并没有标准答案,但如果一直钻研,再借鉴开源社区里的经验,就能找到很好的方法。

对于 Suno 这类工具来说,生成速度是重要指标,确保用户创作第一首歌时就能有惊艳体验非常重要。“我们试过在产品里做一些‘人工延迟,发现用户的好感度会下降。虽然有时候‘加载中’的提示会让人觉得‘正在生成有价值的东西’,但 10 秒就是比 8 秒差。”

创作过程中,虽然单个 AI 工具很强,但创作者通常需要将不同工具串联成整体的工作流程,比如用 DeepSeek、ChatGPT 作词,Suno、Udio 作曲等。在徐文健看来,未来一定会出现“AI 创作操作系统”或者全能平台,这类平台有两个特征:

统一创作者的工作空间。比如在一个界面内无缝切换文本、图像、音频、视频的创作,素材和数据可以自由流转,无需在不同软件间导入导出。

有全局的理解和任务协作。系统自动理解用户指令,然后调用内部的各种 Agent 来协同完成任务。

徐文健指出,当前 AI 创作工具链中,每个环节都很重要,结合在一起的真正核心就是:Agent 构成的自动化工作流。

此外,业内也有资深专家表示,用户需求越来越多元,AI 创作工具需提供低时延的多元能力,包括图片、视频、音乐生成,长视频生成等。因此,集成业界优质 AI 能力,优化工具流与工作流、降低成本,让创作流程简单高效,对工具提供方来说是十分重要的。

GPU 开销通常是 AI 创作工具的很大支出项,虽然厂商们希望 GPU 价格能降下来,但大概率只会用更多 GPU,因为大家仍在持续做高质量研究和实验,不停做技术迭代。

人类创作者的壁垒在“道”

AI 很快能掌握“爆款公式”,但真正打动人心的作品,往往来自个体的情感偏差。

徐文健表示,“人类创作者的壁垒在‘道’,而不是在‘术’。技法都将变得没那么重要,人类怎么去理解这个世界、怎么去解构和定义一个问题,怎么去把真实生活中属于自己独一份的感悟表达出来会将是人类的壁垒。”

Shulman 也提到,未来音乐创作的趋势是“品味比技能更重要”。“AI 让创作大量内容变得容易,而能从海量内容中筛选出好作品、用耳朵判断出谁好谁坏的人,会越来越受认可。”

“未来的音乐创作者,可能不会弹钢琴、不会弹吉他,但需要能从 Suno 生成的内容中选出好的、调整到符合预期的作品。”他认为这个趋势一直在加速,比如之前有人靠“做歌单”成名,他们只是“有好品味”,把别人的歌整理起来,就能吸引听众。

Shulman 认为,让模型契合人类品味是很难的,当前他们用的技术和 “基于人类反馈的强化学习(RLHF)” 类似,但他并不确定这就是未来的方向。“让音乐模型契合人类品味,不一定能用和大模型一样的方法。”

当前,对普通人而言,AI 创作工具已能生成 “60 分水平” 的合格作品,保证有个人特色、能满足基础创作需求。对专业人士来说,则需优化 AI 音乐 Agent 能力,学习全网优秀曲风、词曲设计、音乐人表达习惯。AI 还难以实现创新性词曲创造、复杂多曲风节拍设计等,未来这些难点需要突破,以便提供更高的价值。

“我真正想看到的,是 AI 能从底层真正‘理解’音乐。比如,机器人能自己学会合成器参数是怎么影响声音的,那时我们就能像深度强化学习打破 8bit 游戏那样,创造出全新的音乐形式,而不是现在这样,拿一堆有版权的音乐去训练,改来改去再卖出去,这种方式太廉价了。”Chaosprint 说道。

本文来自微信公众号“AI前线”(ID:ai-front),作者:褚杏娟,36氪经授权发布。

+1
4

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

正式交棒。

4小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业