声学编码器
这里不再只是论文索引,而是我当前在用的声学研究空间。核心问题很明确: 怎样把 codec 从"重建器"推进成真正可供上层模型读取的前端, 同时又不把音色、自然度和细节彻底丢掉。
三段演进
先把流式 neural codec 的骨架立住
这一段主要解决"端到端 codec 能否稳定成立"这个问题。关键字是流式结构、RVQ、多码率训练、感知损失,以及可真正部署的推理链路。代表模型:SoundStream、EnCodec。
把 codec 推成统一离散前端
到了这里,重点已经不再只是听感,而是 token 本身是否适合作为后续生成模型接口。统一音频域、高保真和多时间尺度 token 都是这一段的核心词。代表模型:DAC、SNAC。
向 speech / audio 模型接口继续收紧
新路线已经不满足于"做一个更好 codec"。它们更关心更低 token 速率、语义增强、单码本极低码率,以及 tokenizer / detokenizer 怎样直接服务 speech LLM。代表模型:Mimi、DualCodec、HH-Codec、LongCat。
主干骨架 / 2021-2024
这四个模型负责把主线讲清楚。它们不是并列的"热门模型",而是把这条路线从可运行 codec、可复用基线、统一离散前端,再到多时间尺度 token 设计,一步步推进下去。
前沿路线 / 2024-2025
这些路线已经不再只是"改进 codec",而是在重新定义 codec 和语义层的边界。语义蒸馏、极低帧率、流式 detokenizer 和单码本设计,都在说明声学编码器正在长成真正的系统前端接口。
把 WavLM 的语义表示蒸馏进 codec,让声学层不再只是"重建器",而是开始承担部分语义稳定性。
不再把语义和声学混在一个 RVQ 里,而是用两个独立 codec 分别建模,接口更清晰,分工更明确。
用单码本就能做到 0.5 kbps,证明在极低码率下,codec 仍然可以保住基本可懂度和音色轮廓。
把 detokenizer 也做成流式,让 codec 不再只是训练时工具,而是真正可以放进实时系统的前后端接口。