← 声学编码器 LongCat-Audio-Codec

2025 / Speech Large Language Models

LongCat-Audio-Codec

LongCat-Audio-Codec 已经把目标说得很清楚了:它是一套给 speech large language models 准备的 tokenizer / detokenizer 方案。最重要的结构动作,是 semantic token 和 acoustic token 并行生成,再接 streaming detokenizer。

LongCat-Audio-Codec 声学路线重绘视觉
站点重绘视觉。图里最重要的不是模块多少,而是 semantic tokens 和 acoustic tokens 被并行组织起来,后面再交给 streaming detokenizer 去恢复音频,这是一种明显贴着 speech LLM 链路设计的结构。
Token semantic / acoustic token 并行生成

它不再假定一套 token 统一承担所有层级信息,而是把内容和细节在结构上先拆开。

Rate 16.67 Hz,0.43-0.87 kbps

超低帧率说明它从一开始就在为长上下文和工业级 speech LLM 预算服务。

Decoding 低延迟 streaming detokenizer

不是只做一个 tokenizer 论文,而是把生成端的流式恢复也一起设计进来了。

LongCat-Audio-Codec 真正重要的地方,在于它已经不是“给 codec 找下游”了,而是直接按 speech LLM 的需求来反推 tokenizer / detokenizer 应该长什么样。

为什么要并行生成 semantic token 和 acoustic token

这等于在结构上承认了一件事:高层内容信息和低层声学细节不一定适合被同一套 token 完全承载。并行双 token 的好处,就是让上层模型和下层重建模块分别读取自己更关心的那部分信息。

16.67 Hz 的超低帧率在这里意味着什么

它意味着 speech LLM 在生成或理解时,可以用更小的 token 预算覆盖更长时间范围。这对多轮语音交互、长语音上下文和工业部署都非常实际,不是只对论文表格好看。

可调 acoustic codebook 代表了什么取舍

LongCat 不是用一种固定强度的声学细节恢复方案,而是允许 acoustic 侧的容量做调整。这样一来,同一条主线就可以针对不同质量预算、延迟预算和部署场景作更细的平衡。

streaming detokenizer 为什么值得单独看

很多工作停在 tokenizer 这一步,LongCat 则把解码端的流式恢复一并纳入设计。只有这一步也成立,speech LLM 的整条语音链路才算真正在工程上闭环。