不再只从原始波形里硬挖语义,而是显式引入 self-supervised speech representation。
2025 / Dual-Stream Codec
DualCodec
DualCodec 的关键改动非常明确:它不再只从 waveform 一路硬压,而是把 SSL representation 和 waveform representation 作为双流一起喂进 codec。目的只有一个,让低帧率 token 先天带上更强的语义性。
第一层 RVQ token 不只是声学码,而是被专门加强成更适合 speech generation 的语义入口。
低 frame rate 提升生成效率,语义增强则尽量避免质量和内容理解同时掉下去。
Core Route
DualCodec 把一个长期存在的问题摆到明面上解决了:如果低帧率 codec 天生容易损失语义信息,那就别再只从 waveform 一路硬学,而是直接把 SSL 语义表示引进来。
为什么要做双流,而不是单一路 waveform
因为 waveform codec 在低帧率下很容易先丢掉高层内容结构。DualCodec 的想法是把“语义提取”这件事显式交给 SSL 分支,让 codec 不再被迫自己从底层波形里重新学习同样的信息。
第一层 token 为什么最重要
作者把第一层 RVQ token 视作整个系统的语义入口。只要第一层先有更强的语义可读性,后面的 speech generation 模型就能用更少的 token 获得更稳定的内容条件。
剩下的 codec 层在做什么
下游残差层并没有消失,它们继续负责补声学细节和重建质量。DualCodec 的重点不是舍弃声学层,而是把语义和声学的分工第一次在 codec 内部做得更明确。
额外的 SSL feature loss 起了什么作用
它让重建目标不只盯着波形或频谱是否接近,还要求 latent 和更高层表示对齐。这样做的结果是:首层 token 更不像普通压缩码,更像能被生成模型真正读懂的内容接口。