量化器既不训练随机矩阵,也不训练 codebook,本身只是一个固定标签生成器。
2022 / Google Research
BEST-RQ
BEST-RQ 的路线很有代表性,因为它反过来质疑了一件事:语义预训练到底需不需要一个可学习 quantizer。它给出的答案很干脆,先把 random-projection quantizer 固定住,把量化器从学习过程里拿掉,让 encoder 自己去承担表示学习。
这条线依旧是 BERT 风格 masked prediction,但学习重点被更明确地收回到 encoder 本身。
它的设计天然更兼容 streaming 和通用 ASR 架构,不必被复杂 quantizer 绑住。
BEST-RQ 重要的地方,不在于 random projection 本身多神奇,而在于它明确提出:语义预训练未必要把 quantizer 也训进来,固定离散前端反而可能让系统更简单、更稳、更通用。
为什么作者要把 quantizer 完全固定住
很多前代方法会把表示学习和量化器学习缠在一起,训练起来更复杂,也更依赖特定架构。BEST-RQ 把 random projection matrix 和 codebook 都固定住,相当于先把标签生成这件事彻底外包出去,让 encoder 自己专注于学会预测 masked 区域。
这条路线和 HuBERT 的最大差别是什么
HuBERT 更强调离线 clustering teacher 的时间一致性,而 BEST-RQ 则连 teacher 也尽量做成固定机制,不让它参与表示学习。两者都是 masked prediction,但一个靠更稳的伪标签迭代,一个靠更简洁的固定 quantizer 解耦问题。
为什么它对 streaming ASR 更友好
论文摘要里明确强调:这套设计兼容通用 speech recognition 架构,并在 streaming 模型上取得更低 latency。原因也很直接,固定 quantizer 不会额外引入复杂的联动训练和部署约束,所以更适合被整合进实时语音识别系统。
它在语义编码器这条线上意味着什么
BEST-RQ 说明语义层未必要沿着“更复杂 quantizer”一路走下去。相反,把离散标签生成机制简化甚至固定下来,也可能让语义 encoder 更纯粹地学到内容结构。这对后面要不要把语义层做成轻量稳定接口,是很有价值的提醒。