2021 Microsoft

WavLM

WavLM 之所以成了语义编码器主线，不是因为它把标签做得更"真"，而是因为它抓住了一个更重要的点：预训练阶段最需要的是时间上足够一致的 hidden-unit 目标，再通过 masked prediction 把内容和上下文真正学出来。

Teacher

先有一个粗 teacher，就足以让模型开始学更稳的内容结构，不必等标签一开始就完美。

Loss

这一步强迫模型真正利用上下文，而不是仅靠局部声学相似性去偷答案。

Refine

它的重点不在标签"像不像真音素"，而在于 teacher 是否足够一致，能否支撑下一轮表示继续变好。

[ CORE ROUTE ]

核心路线

WavLM 真正解决的是一个长期卡住语义预训练的问题：如果没有显式 lexicon，也没有天然切分，模型到底该靠什么稳定学到内容单位。它给出的回答是，一致的 hidden units 加 masked prediction 就够了。

WavLM 的论文明确指出，预训练阶段最重要的不是伪标签绝对正确，而是它们在时间上足够一致。只要 teacher 的边界和模式足够稳定，模型就能持续学出更强的内容表示；如果标签每次都乱跳，再"精确"也很难形成稳定语义层。

这一步等于把模型从"局部复制器"强制推成上下文建模器。只有被遮掉的部分需要预测时，模型才会真的去整合前后文的信息，因此输出会更像 combined acoustic + language model，而不只是局部声学对齐器。

第一轮 teacher 往往很粗，但已经足够把模型带到比原始特征更好的表示上。接着再用新表示去重新聚类，teacher 就会更稳定，下一轮模型也更强。WavLM 的迭代路线说明：语义层可以是逐轮长出来的，而不是一开始就被精确规定死。

因为 WavLM 输出的 hidden representation 相对更稳、更上下文化，也更适合作为后续 tokenizer 或分层语义前端的 teacher。SpeechTokenizer 用 WavLM 层表示做 semantic teacher，本质上就是沿着这条逻辑继续往系统接口上走。