Speech LLM 的下一个突破口：你的语音大模型可以是个「带韵律的文本模型」

机器之心·2026年05月27日 18:49

仅仅需要约 1000 小时的语音训练数据，就可以在 3B 和 7B 参数规模上，实现业界最低 Modality Gap！

语音大模型的最大瓶颈：“模型降智”

相信大家都有过这样的体验：同一个系列的模型，使用文本交互的时候，模型就像开启了 “最强大脑”，数学代码等各种复杂推理任务样样精通，可是一旦将其改造成语音对话模型之后，性能就猛烈下降，严重 “降智”，经常会犯很多基本的逻辑错误。

这个让整个行业十分头疼的现象，学术界将其定义为 “模态代沟”（Modality Gap）。

为了降低 Modality Gap，整个 Speech AI 行业在过去几年里进行了两波主要的改进。

第一波改进，大家发现应该 “换模态”。 既然传统端到端的语音大模型严重降智，那就通过文本模态进行缓冲，也就是让模型先 “想” 出文本，再将文本转换成对应的语音输出。这便催生了目前语音大模型的主流架构：Thinker-Talker。大家发现让 Thinker 输出文本的模式可以一定程度上拉高模型的性能上限。

第二波改进，大家开始在模型的输出端对齐（Output Alignment）上面下功夫。即使是用 Thinker 做文本输出，还是有相当一部分的 Modality Gap。于是大家希望大模型在面对文本输入和语音输入的时候能 “一模一样” 的输出，从而拉高智商。于是行业中出现了各种各样专门缓解 Modality Gap 的文章。他们大多数通过知识蒸馏（Knowledge Distillation），表示对齐（Representation Alignment）等方法来拉近两个模式下输出的距离。

然而，我们发现，在这两波改进之后，即使语音预训练数据被拉到了百万小时甚至千万小时的级别，降智问题依旧存在。强如 Qwen2.5-Omni，在复杂的数学推理任务上依然会面临超过 15% 的性能下降。

这让我们思考：这些方法为什么无法从根本上解决问题？我们是不是要换一个角度来思考降智的问题？🤔

Figure 1 以往的架构死磕输出端，而 TextPro-SLM 选择从输入端破局

最近，一篇来自香港中文大学的最新力作，一下子戳破了重点：“为什么 Speech LLM 还是做的不够好？因为真正的瓶颈，已经不在输出端，而在输入端！”

这篇论文名为《Minimizing Modality Gap from the Input Side: Your Speech LLM can be a Prosody-Aware Text LLM》。研究者们提出了一种极其反直觉却又非常优雅的新架构 ——TextPro-SLM。他们发现在这种新架构下，仅仅需要约 1000 小时 的语音训练数据，就可以在 3B 和 7B 参数规模上，实现业界最低 Modality Gap！

论文标题：Minimizing Modality Gap from the Input Side: Your Speech LLM can be a Prosody-Aware Text LLM
论文链接：https://arxiv.org/abs/2605.05927

重点中的重点：你的语音大模型何必是一个 “语音” 大模型？

我们知道，现在的语音大模型都是从文本大模型的基础上训练而来。想象一下，如果你是一个文本大模型（TLM），你最习惯的输入是什么？是干净纯洁、高度浓缩而有效的，带有人类语义逻辑的文本 tokens。

但现在的主流的语音大模型，也就是 Thinker-Talker 架构中，它的输入是什么样的？我们把输入语音变成一长串连续的，但语义缺极其稀疏的向量表示（Speech Embeddings），然后一下子的强行塞进大模型里。

这种表征之中，无论是语义信息，副语言信息等等，都在这个极度庞杂的声学信号中被瞬间稀释。在这样的输入下，大模型连听清你具体在问什么，都要消耗巨量的脑细胞，这让模型哪还有功夫去做深度逻辑推理？

基于这个观察，香港中文大学的研究人员提出了一个极其犀利的 insight ：

既然现在 Speech LLM 的输出端已经和文本大模型保持了一致（Thinker-Talker 中 Thinker 只输出文本 tokens），那为什么输入端不能也像文本大模型来靠拢呢？从架构设计的角度来讲，我们不需要逼着大模型去理解原声杂乱的语音信号，我们只需要把它变成一个 “听得懂语气的文本大模型（Prosody-Aware Text LLM）！”。

想想看，人类的语音其实核心就包含两个维度的信息：说了什么（语义内容，semantics） 和 怎么说的（韵律 / 副语言信息，Prosody）。

主流做法是把这两个信息揉在同一批 Speech Embedding 中，而 TextPro-SLM 则将两种信息彻底解耦。它在输入端直接把语音拆分成两路：纯粹的文本 Token（保留大模型最爱的极致语义。是的，不用任何语音 semantic embedding），和高度浓缩的韵律 Embedding（如情绪、口音、年龄、音色等）。

核心方法：1000 小时训练数据干翻百万小时商业模型

Figure 2 WhisperPro 加上重构损失，实现文本与韵律的双流输出。

研究团队设计了两个十分优雅的模块来实现语义与韵律的彻底解耦：

1. 文本声音双全的统一的 Speech Encoder：WhisperPro。研究团队通过改造强大的语音识别（ASR）模型来实现大一统：让 Whisper-large-v3 在文本转录的同时保留韵律特征。核心做法是在 Whisper 后面额外加入了一个 decoder 模块，并使用重构损失（Reconstruction Loss）让 Whisper 学会语音还原。这逼着 Whisper 的底层特征不仅要准确输出文字，还必须把情绪、语气等信息高度保留在 hidden states 中。最终模型输出对齐的 Text Token + Prosody Embedding。

2. 让 LLM 同时理解文本语义与韵律特征：如何把 Speech Encoder 的两路输出喂给大模型？文章中提出了两种极其巧妙的投喂方式，将语音信息完美伪装成大模型最熟悉的形态：

模式一：全局前置（Global Prepending），极度极简却异常有效的注入方式。这个方法把一整个用户语音中的 Prosody Embedding 压缩成一个单一的浓缩向量，并将其直接放在整个输入序列的最前面。这就相当于输入层面提供了一个高效的 < 情绪标签 >。这种注入方式极其简单轻量。大模型只是感受到了一个小小的额外信息，完全不影响 LLM 激发起强大逻辑推理能力。
模式二：交织注入（Interleaving），照顾细粒度情绪特征。有时候，用户可能会在一段输入中同时展现多种情绪（比如先笑后哭）。这该怎么办呢？交织模式按照一定比例（文章中采用 5:1），将压缩后的韵律 Embedding 均匀地穿插在文本 Token 之间。这种模式使得细粒度（fine-grained）的韵律得以保留，即使有非常复杂的副语言理解任务，模型也能轻松拿捏。

这种数据输入方式完美匹配了文本大模型的舒适区，因此整个训练过程极其省数据：仅仅用了约 1000 小时的音频做知识蒸馏和副语言训练。对比目前主流的商业模型，动不动就需要几百万甚至几千万小时训练数据，TextPro-SLM 简直是降维打击。

实验结果：代沟消失了？？

一句话来形容 TextPro-SLM，那就是 “四两拨千斤”。它在多个 benchmark 上展现出了近乎消失的 Modality Gap：

🏆 最最最低的 Modality Gap：TextPro-SLM 在 3B 和 7B 参数下的语义表现远超 baseline 模型。TextPro-SLM-7B 的平均代沟低至惊人的 0.7%，远超 Qwen2.5-Omni (3.1%) 和 SALAD (7.1%)。

🧮 数学推理能力碾压 baseline： 研究人员采用 VoxEval 中的语音复杂数学题进行测试。Baseline 模型都在严重降智：公认拥有超高水准的 Kimi-Audio-7B，在高中数学（High School）上的 Modality Gap 竟达到了惊人的 17.5%。反观 TextPro-SLM，凭借优雅的模型设计与训练，Modality Gap 仅为不可思议的 1.8%！

👂 副语言理解任务的性能同样是统治级的：虽然 TextPro-SLM 中 Prosody Embedding 采用了高度压缩的方式，但在众多副语言理解任务上超越了所有基线模型。并且交织注入（Interleaving 5:1）进一步拔高了副语言性能的上限。这反映出，在语音大模型的设计中，文字以外的信息 “给一点” 就够了，重中之重还是语义理解。这也是 TextPro-SLM 能在各项任务中表现的如此优异的原因。

行业意义：对于 Speech LLM 下半场的思考

TextPro-SLM 的出现，不仅仅是为了解决 Modality Gap，它对整个多模态模型设计具有极强的启发意义。

当全行业都在用无尽算力和海量数据强行连接各个极度差异的模态时，这篇论文提出了一个不同的声音：有时候，巧妙的特征解耦（Decoupling），比暴力的特征融合更符合第一性原理。

对于正在 Speech LLM 行业深耕的创业者和开发者来说，TextPro-SLM 指出了一条明路：与其说暴力的消耗算力和疯狂的采集数据，不如深入思考下究竟目前的 gap 在哪里。当你利用输入端的巧妙设计，只需 1000 小时便可让你的语音 Agent 同时实现天花板级别的文本能力和超高的共情能力。