2025 / Low-Bitrate Speech Codec

FocalCodec

FocalCodec 这页最值得看的，是它把极低码率 speech codec 做得非常坚决：single-codebook、focal modulation、12.5 / 25 / 50 Hz 三档 token rate，再加上后续 streaming causal 版本，明显是在压极限。

Codebook single-codebook 而不是多级 RVQ

这是一个很强的取舍：用更简洁的离散结构换更低码率和更清晰的部署路径。

Rate 12.5 / 25 / 50 Hz，0.16-0.80 kbps

目标直接对准极低码率区间，而不是在更宽松的码率上做保守优化。

Extension 后续有 streaming causal 版本

这说明它不是停在离线实验，而是在继续把极低码率路线推向实时链路。

Core Route

FocalCodec 的重要性在于它不是顺着传统多级 RVQ 继续加细节，而是试图用更简洁的离散结构，把极低码率 speech codec 直接做成一条清晰的路线。

为什么 single-codebook 是一个强信号

过去很多 codec 习惯用多级 RVQ 来逐层补残差。FocalCodec 反过来做了更激进的取舍：用单码本结构去逼近极低码率目标。这让整个系统的接口更干净，但也意味着编码器必须更会把关键信息压进有限表示里。

它不是一个点缀性模块，而是为了让单码本路线仍然有足够表达能力。换句话说，FocalCodec 不是简单减少 codebook 数量，而是同步重做了表示调制方式，避免信息损失过快。

因为到了这个量级，很多常规做法都会失效。模型必须更精准地决定哪些内容要留、哪些细节可以舍弃，这正好逼出了 codec 与更高层语音内容表示之间的真实边界。

这说明作者不是只做一个离线低码率结果，而是在继续处理实时场景。极低码率、可流式、还能保持可懂度，这几个约束一起出现时，这条路线的工程价值就会明显上升。