语义编码器
语义层不是去重建波形,而是先把"说了什么"压稳。 真正有效的语义编码器,应该尽量抑制说话人、信道和细碎声学纹理, 把内容、边界和长时间结构留在一个低速率、可继续建模的中间表示里。
三个核心问题
怎样从波形里得到"内容单位"
最早的路线先做离散单元发现,把连续语音表示压成一套可索引的 unit。关键不是 unit 看起来像不像音素,而是它能否在说话人变化和噪声扰动下仍保住内容边界。
怎样让表示变得上下文化、可读
光有局部离散单位还不够,后续模型还需要更长时间范围的上下文表示。因此 masked prediction、上下文 encoder 和更稳的 teacher 逐渐成为主线。
怎样和声学层真正分工
理想状态不是语义层把一切都学完,而是它只保住内容、节奏和结构,把音色、细节和自然度留给声学层的 residual 建模去完成。
公开路线 / 2019-2023
这几条公开研究基本就把语义编码器的主干脉络交代出来了:从离散单元发现,到 masked prediction 形成稳定 hidden units,再到更强的上下文 teacher 和直接面向 speech language model 的分层 tokenizer。
先学连续 speech representation,再用 Gumbel-Softmax 或 online k-means 量化成离散 units。意义在于它第一次比较明确地把语音前端压成可供后续序列模型消费的离散表示。
先离线聚类出 hidden-unit 伪标签,再只对 masked 区域做预测。它最关键的洞见是:标签不必一开始就完美,但必须在时间上足够一致,才能稳定学出更强的语义表示。
在 masked speech prediction 之外加入 denoising,并引入 gated relative position bias。它常被当作更强的内容 teacher,因为对说话人变化、噪声和副语言因素的鲁棒性更好。
这条线把 random-projection quantizer 固定住,不再把量化器也一起训练。它的意义是把更多学习能力留给 encoder 本身,让语义预训练不必过度依赖可学习量化器。
它把 speech token 分层组织到不同 RVQ 层里,前面的量化层更偏语义,后面的层继续补声学细节。这一步的意义非常大,因为语义层和声学层的分工第一次开始像真正系统接口。
技术断面 / 我当前最关心的四件事
如果把语义编码器当成真正要放进压缩链路里的模块来看,下面这四件事比"参数量多大"更关键。它们决定了语义层到底是在帮后面减负,还是把系统重新做回一个混乱的大模型。
unit discovery 不等于做一套音素字典
离散单元的目标不是和人工音素表一一对应,而是找到一组对内容稳定、对说话人和信道变化更不敏感的中间单位。只要这组单位能稳定承载内容,它就已经足够有工程意义。
训练目标正在从对比学习转向 masked prediction
对比学习很适合先把局部离散单位挖出来,但真正让表示变得"上下文化、可读、可接语言模型"的,往往是后续 masked prediction 这条线。HuBERT、WavLM 都在说明这一点。
语义层的 token rate 应该明显低于声学层
如果语义层 token 太密,它就会把音色和局部纹理一起背回去;如果太稀,又会伤到对齐和内容边界。理想情况是语义层先给出一个更粗、更稳的时间骨架,声学层再做 residual 补全。
最好的接口不是谁替谁兜底,而是清楚分工
语义编码器负责内容和长时间结构,声学编码器负责音色、自然度和细节。像 SpeechTokenizer、Mimi、DualCodec 这些工作之所以值得看,就是因为它们已经开始显式处理这层分工。
论文来源
Unsupervised Learning of Discrete Speech Representations,对应离散 speech units 这条起点路线。
Source 02 HuBERTHidden-Unit BERT via Offline Clustering,对应 masked prediction 与伪标签路线。
Source 03 WavLMLarge-Scale Self-Supervised Pre-Training for Full Stack Speech Processing,对应更强上下文 teacher。
Source 04 BEST-RQSelf-Supervised Learning with Random-Projection Quantizer,对应固定 quantizer 语义预训练路线。
Source 05 SpeechTokenizerUnified Speech Tokenizer for Speech Language Models,对应 semantic / acoustic 分层 token 路线。