2022 / Google Research

BEST-RQ

BEST-RQ 的路线很有代表性，因为它反过来质疑了一件事：语义预训练到底需不需要一个可学习 quantizer。它给出的答案很干脆，先把 random-projection quantizer 固定住，把量化器从学习过程里拿掉，让 encoder 自己去承担表示学习。

Quantizer random projection + fixed codebook

量化器既不训练随机矩阵，也不训练 codebook，本身只是一个固定标签生成器。

Objective masked speech 上预测离散标签

这条线依旧是 BERT 风格 masked prediction，但学习重点被更明确地收回到 encoder 本身。

Role 更轻、更灵活的语义预训练接口

它的设计天然更兼容 streaming 和通用 ASR 架构，不必被复杂 quantizer 绑住。

Core Route

BEST-RQ 重要的地方，不在于 random projection 本身多神奇，而在于它明确提出：语义预训练未必要把 quantizer 也训进来，固定离散前端反而可能让系统更简单、更稳、更通用。

为什么作者要把 quantizer 完全固定住

很多前代方法会把表示学习和量化器学习缠在一起，训练起来更复杂，也更依赖特定架构。BEST-RQ 把 random projection matrix 和 codebook 都固定住，相当于先把标签生成这件事彻底外包出去，让 encoder 自己专注于学会预测 masked 区域。

HuBERT 更强调离线 clustering teacher 的时间一致性，而 BEST-RQ 则连 teacher 也尽量做成固定机制，不让它参与表示学习。两者都是 masked prediction，但一个靠更稳的伪标签迭代，一个靠更简洁的固定 quantizer 解耦问题。

论文摘要里明确强调：这套设计兼容通用 speech recognition 架构，并在 streaming 模型上取得更低 latency。原因也很直接，固定 quantizer 不会额外引入复杂的联动训练和部署约束，所以更适合被整合进实时语音识别系统。

BEST-RQ 说明语义层未必要沿着“更复杂 quantizer”一路走下去。相反，把离散标签生成机制简化甚至固定下来，也可能让语义 encoder 更纯粹地学到内容结构。这对后面要不要把语义层做成轻量稳定接口，是很有价值的提醒。