2024 / Stability AI

Stable Codec

Stable Codec 代表的是另一条明显的推进方向：把低码率 speech codec 更彻底地做成 Transformer 系统，并用 FSQ 这类更规整的离散瓶颈来替代传统 RVQ 叙事。

Backbone Patch + Transformer + FSQ + Decoder

结构从一开始就为 Transformer 化的表示学习服务，而不是只在旧主干上做小修小补。

Bitrate 16 kHz speech、400 / 700 bps

它瞄准的是更低码率的语音链路，目标非常明确，不想在高码率区间里做模糊叙事。

Extension latent semantics 继续增强

官方仓库还给出了带 CTC phoneme regression 微调的版本，说明作者很在意 latent 里的语义可读性。

Core Route

Stable Codec 把“codec 也可以按大模型思路重写”这件事讲得很直接：Transformer 负责建模，FSQ 负责离散瓶颈，目标则锁定低码率 speech coding。

为什么这里要走 Transformer codec

如果说 SoundStream / EnCodec 时代更重视低时延和工程稳定性，那么 Stable Codec 更像是在问：当我们愿意把 codec 本身做成更强的序列建模系统时，低码率 speech coding 能被推进到什么程度。

RVQ 的长处是残差逐层补细节，FSQ 则更强调规则化、因子化的离散表示方式。Stable Codec 把 FSQ 放到系统正中央，说明作者不是在沿袭旧骨架，而是在重新组织离散瓶颈的设计语言。

这反而让路线更清楚。它不试图用一个叙事同时覆盖所有域，而是明确针对低码率语音场景，把模型容量、离散瓶颈和重建目标都往同一个方向收紧。

这说明作者已经不满足于“听起来像”了，还想让 latent 更容易携带可读的语音内容结构。换句话说，这条线也在慢慢向语义增强前端靠过去。