[ DIRECTION 02 / ACOUSTIC ENCODER ]

声学编码器

这里不再只是论文索引，而是我当前在用的声学研究空间。核心问题很明确：怎样把 codec 从"重建器"推进成真正可供上层模型读取的前端，同时又不把音色、自然度和细节彻底丢掉。

11routes public research lines

2021→ 2025 streaming → semantic bridge

3stages evolution phases

RVQ Acoustic Tokenizer Low Frame Rate Streaming Speech LLM Frontend

Layer Role 这一层主要负责自然度、音色和局部细节，不再承担全部内容建模。

Token Goal token 既要能重建音频，也越来越需要被 speech / audio 模型直接读取。

Current Trend 低帧率、语义增强、streaming detokenizer，正在把 codec 推成真正的系统前端。

[ EVOLUTION · 01 ]

三段演进

Stage 01

先把流式 neural codec 的骨架立住

这一段主要解决"端到端 codec 能否稳定成立"这个问题。关键字是流式结构、RVQ、多码率训练、感知损失，以及可真正部署的推理链路。代表模型：SoundStream、EnCodec。

Stage 02

把 codec 推成统一离散前端

到了这里，重点已经不再只是听感，而是 token 本身是否适合作为后续生成模型接口。统一音频域、高保真和多时间尺度 token 都是这一段的核心词。代表模型：DAC、SNAC。

Stage 03

向 speech / audio 模型接口继续收紧

新路线已经不满足于"做一个更好 codec"。它们更关心更低 token 速率、语义增强、单码本极低码率，以及 tokenizer / detokenizer 怎样直接服务 speech LLM。代表模型：Mimi、DualCodec、HH-Codec、LongCat。

[ BACKBONE · 02 ]

主干骨架 / 2021-2024

这四个模型负责把主线讲清楚。它们不是并列的"热门模型"，而是把这条路线从可运行 codec、可复用基线、统一离散前端，再到多时间尺度 token 设计，一步步推进下去。

2021

SoundStream 起点骨架

全卷积流式结构、RVQ、多码率训练和感知优化在这里第一次被放进同一条完整链路里。

Streaming RVQ Multi-bitrate

2022

EnCodec 工程基线

更稳的训练配方、MS-STFT 判别器和离散码后接语言模型支路，让 codec 真正变成可复用前端。

MS-STFT Entropy Model Speech / Music

2023

DAC 统一音频前端

44.1kHz 高采样率、周期性激活和更强判别器，把 codec 推成真正统一的音频离散前端，不再只是语音工具。

44.1kHz Periodic Activation Universal Audio

2024

SNAC 多时间尺度 token

不再把所有 RVQ 层都放在同一帧率上，而是让粗层更慢、细层更快，token 结构开始真正对齐时间尺度。

Multi-scale Hierarchical Token Variable Rate

[ FRONTIER · 03 ]

前沿路线 / 2024-2025

这些路线已经不再只是"改进 codec"，而是在重新定义 codec 和语义层的边界。语义蒸馏、极低帧率、流式 detokenizer 和单码本设计，都在说明声学编码器正在长成真正的系统前端接口。

2024

Mimi 语义蒸馏 codec

把 WavLM 的语义表示蒸馏进 codec，让声学层不再只是"重建器"，而是开始承担部分语义稳定性。

Semantic Distillation 12.5Hz Streaming

2024

DualCodec 显式语义 / 声学分层

不再把语义和声学混在一个 RVQ 里，而是用两个独立 codec 分别建模，接口更清晰，分工更明确。

Dual Encoder Semantic + Acoustic Clean Interface

2024

HH-Codec 单码本极低码率

用单码本就能做到 0.5 kbps，证明在极低码率下，codec 仍然可以保住基本可懂度和音色轮廓。

Single Codebook 0.5 kbps Ultra-low Rate

2025

LongCat Audio Codec 流式 detokenizer

把 detokenizer 也做成流式，让 codec 不再只是训练时工具，而是真正可以放进实时系统的前后端接口。

Streaming Decoder Real-time System Interface