[ DIRECTION 01 / SEMANTIC ENCODER ]

语义编码器

语义层不是去重建波形，而是先把"说了什么"压稳。真正有效的语义编码器，应该尽量抑制说话人、信道和细碎声学纹理，把内容、边界和长时间结构留在一个低速率、可继续建模的中间表示里。

5routes public research lines

2019→ 2023 unit discovery → hierarchy

4cuts technical judgments

Semantic Token Unit Discovery Masked Prediction Speaker Invariance Semantic-Acoustic Bridge

Layer Role 这一层先保住"说了什么"，尽量把说话人、信道和细碎纹理压到更低权重。

Token Goal 理想 token 应该更粗、更稳、可继续建模，而不是重新把整段波形细节背回来。

Current Trend 从 unit discovery 到 masked prediction，再到分层 tokenizer，语义层正在长成独立接口。

[ QUESTIONS · 01 ]

三个核心问题

怎样从波形里得到"内容单位"

最早的路线先做离散单元发现，把连续语音表示压成一套可索引的 unit。关键不是 unit 看起来像不像音素，而是它能否在说话人变化和噪声扰动下仍保住内容边界。

怎样让表示变得上下文化、可读

光有局部离散单位还不够，后续模型还需要更长时间范围的上下文表示。因此 masked prediction、上下文 encoder 和更稳的 teacher 逐渐成为主线。

怎样和声学层真正分工

理想状态不是语义层把一切都学完，而是它只保住内容、节奏和结构，把音色、细节和自然度留给声学层的 residual 建模去完成。

[ PUBLIC ROUTES · 02 ]

公开路线 / 2019-2023

这几条公开研究基本就把语义编码器的主干脉络交代出来了：从离散单元发现，到 masked prediction 形成稳定 hidden units，再到更强的上下文 teacher 和直接面向 speech language model 的分层 tokenizer。

2019

vq-wav2vec 离散单元发现

先学连续 speech representation，再用 Gumbel-Softmax 或 online k-means 量化成离散 units。意义在于它第一次比较明确地把语音前端压成可供后续序列模型消费的离散表示。

Contrastive Discrete Units Gumbel / k-means

2021

HuBERT 伪标签 masked prediction

先离线聚类出 hidden-unit 伪标签，再只对 masked 区域做预测。它最关键的洞见是：标签不必一开始就完美，但必须在时间上足够一致，才能稳定学出更强的语义表示。

Offline Clustering Masked Prediction Hidden Units

2021

WavLM 更强 teacher encoder

在 masked speech prediction 之外加入 denoising，并引入 gated relative position bias。它常被当作更强的内容 teacher，因为对说话人变化、噪声和副语言因素的鲁棒性更好。

Denoising Context Encoder GRPB

2022

BEST-RQ 固定 quantizer

这条线把 random-projection quantizer 固定住，不再把量化器也一起训练。它的意义是把更多学习能力留给 encoder 本身，让语义预训练不必过度依赖可学习量化器。

Random Projection Fixed Codebook SSL

2023

SpeechTokenizer 分层 semantic / acoustic token

它把 speech token 分层组织到不同 RVQ 层里，前面的量化层更偏语义，后面的层继续补声学细节。这一步的意义非常大，因为语义层和声学层的分工第一次开始像真正系统接口。

RVQ Hierarchy Speech LM

[ TECHNICAL CUT · 03 ]

技术断面 / 我当前最关心的四件事

如果把语义编码器当成真正要放进压缩链路里的模块来看，下面这四件事比"参数量多大"更关键。它们决定了语义层到底是在帮后面减负，还是把系统重新做回一个混乱的大模型。

Cut 01

unit discovery 不等于做一套音素字典

离散单元的目标不是和人工音素表一一对应，而是找到一组对内容稳定、对说话人和信道变化更不敏感的中间单位。只要这组单位能稳定承载内容，它就已经足够有工程意义。

Cut 02

训练目标正在从对比学习转向 masked prediction

对比学习很适合先把局部离散单位挖出来，但真正让表示变得"上下文化、可读、可接语言模型"的，往往是后续 masked prediction 这条线。HuBERT、WavLM 都在说明这一点。

Cut 03

语义层的 token rate 应该明显低于声学层

如果语义层 token 太密，它就会把音色和局部纹理一起背回去；如果太稀，又会伤到对齐和内容边界。理想情况是语义层先给出一个更粗、更稳的时间骨架，声学层再做 residual 补全。

Cut 04

最好的接口不是谁替谁兜底，而是清楚分工

语义编码器负责内容和长时间结构，声学编码器负责音色、自然度和细节。像 SpeechTokenizer、Mimi、DualCodec 这些工作之所以值得看，就是因为它们已经开始显式处理这层分工。

[ SOURCES · 04 ]

论文来源

Source 01 vq-wav2vec

Unsupervised Learning of Discrete Speech Representations，对应离散 speech units 这条起点路线。

Source 02 HuBERT

Hidden-Unit BERT via Offline Clustering，对应 masked prediction 与伪标签路线。

Source 03 WavLM

Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing，对应更强上下文 teacher。

Source 04 BEST-RQ

Self-Supervised Learning with Random-Projection Quantizer，对应固定 quantizer 语义预训练路线。

Source 05 SpeechTokenizer

Unified Speech Tokenizer for Speech Language Models，对应 semantic / acoustic 分层 token 路线。

Next Reading 声学编码器

看完语义层如何保住内容，接下来看声学层如何恢复自然度、音色和细节。