离线 clustering 产出 hidden-unit 伪标签
先有一个粗 teacher,就足以让模型开始学更稳的内容结构,不必等标签一开始就完美。
图里真正关键的关系是:先用离线 clustering 产出 hidden-unit targets,再只对 masked 区域做预测。WavLM 的创新点,不是把 quantizer 做得更复杂,而是把 teacher 和 prediction loss 的分工重新理顺了。
先有一个粗 teacher,就足以让模型开始学更稳的内容结构,不必等标签一开始就完美。
这一步强迫模型真正利用上下文,而不是仅靠局部声学相似性去偷答案。
它的重点不在标签"像不像真音素",而在于 teacher 是否足够一致,能否支撑下一轮表示继续变好。
WavLM 真正解决的是一个长期卡住语义预训练的问题:如果没有显式 lexicon,也没有天然切分,模型到底该靠什么稳定学到内容单位。它给出的回答是,一致的 hidden units 加 masked prediction 就够了。
WavLM 的论文明确指出,预训练阶段最重要的不是伪标签绝对正确,而是它们在时间上足够一致。只要 teacher 的边界和模式足够稳定,模型就能持续学出更强的内容表示;如果标签每次都乱跳,再"精确"也很难形成稳定语义层。
这一步等于把模型从"局部复制器"强制推成上下文建模器。只有被遮掉的部分需要预测时,模型才会真的去整合前后文的信息,因此输出会更像 combined acoustic + language model,而不只是局部声学对齐器。
第一轮 teacher 往往很粗,但已经足够把模型带到比原始特征更好的表示上。接着再用新表示去重新聚类,teacher 就会更稳定,下一轮模型也更强。WavLM 的迭代路线说明:语义层可以是逐轮长出来的,而不是一开始就被精确规定死。
因为 WavLM 输出的 hidden representation 相对更稳、更上下文化,也更适合作为后续 tokenizer 或分层语义前端的 teacher。SpeechTokenizer 用 WavLM 层表示做 semantic teacher,本质上就是沿着这条逻辑继续往系统接口上走。