在有限带宽内尽量保住可懂度和听感,不把码率优化变成单一数字游戏。
研究
聚焦基于深度学习的语音压缩定制,重点不在把语音压小本身,而在压缩后还能否保住自然度、清晰度、说话人特征和部署可行性。
压缩后的语音不应只是能听,还应尽量保持说话人的个体声音特征。
同时考虑推理延迟、端侧资源、稳定性和真实链路约束。
聚焦基于深度学习的语音压缩定制,重点不在把语音压小本身,而在压缩后还能否保住自然度、清晰度、说话人特征和部署可行性。
在有限带宽内尽量保住可懂度和听感,不把码率优化变成单一数字游戏。
压缩后的语音不应只是能听,还应尽量保持说话人的个体声音特征。
同时考虑推理延迟、端侧资源、稳定性和真实链路约束。