[ DIRECTION 02 / ACOUSTIC ENCODER ]

声学编码器

这里不再只是论文索引,而是我当前在用的声学研究空间。核心问题很明确: 怎样把 codec 从"重建器"推进成真正可供上层模型读取的前端, 同时又不把音色、自然度和细节彻底丢掉。

11routes public research lines
2021→ 2025 streaming → semantic bridge
3stages evolution phases
RVQ Acoustic Tokenizer Low Frame Rate Streaming Speech LLM Frontend
Layer Role 这一层主要负责自然度、音色和局部细节,不再承担全部内容建模。
Token Goal token 既要能重建音频,也越来越需要被 speech / audio 模型直接读取。
Current Trend 低帧率、语义增强、streaming detokenizer,正在把 codec 推成真正的系统前端。

三段演进

Stage 01

先把流式 neural codec 的骨架立住

这一段主要解决"端到端 codec 能否稳定成立"这个问题。关键字是流式结构、RVQ、多码率训练、感知损失,以及可真正部署的推理链路。代表模型:SoundStream、EnCodec。

Stage 02

把 codec 推成统一离散前端

到了这里,重点已经不再只是听感,而是 token 本身是否适合作为后续生成模型接口。统一音频域、高保真和多时间尺度 token 都是这一段的核心词。代表模型:DAC、SNAC。

Stage 03

向 speech / audio 模型接口继续收紧

新路线已经不满足于"做一个更好 codec"。它们更关心更低 token 速率、语义增强、单码本极低码率,以及 tokenizer / detokenizer 怎样直接服务 speech LLM。代表模型:Mimi、DualCodec、HH-Codec、LongCat。

主干骨架 / 2021-2024

这四个模型负责把主线讲清楚。它们不是并列的"热门模型",而是把这条路线从可运行 codec、可复用基线、统一离散前端,再到多时间尺度 token 设计,一步步推进下去。

前沿路线 / 2024-2025

这些路线已经不再只是"改进 codec",而是在重新定义 codec 和语义层的边界。语义蒸馏、极低帧率、流式 detokenizer 和单码本设计,都在说明声学编码器正在长成真正的系统前端接口。

Related Reading 语义编码器

看完声学层如何恢复细节,回到语义层看它如何保住内容。