[ PROJECT 02 / SPEECH SUBTITLE ]

语音字幕识别

用语音识别模型把视频里的语音转成文字,翻译成中文字幕后压入成片。 整条链路在本地完成,服务器只负责收藏与放映

5stages processing pipeline
ASRdomain core technology
Localmode privacy first
ASR Subtitle Generation Translation Video Processing

处理流程

01

字幕源提取

优先提取内嵌文本字幕轨;没有则尝试 OCR 图片字幕;都没有才走语音识别。三条路自动降级。

02

语音识别

用 faster-whisper 对音轨做语音转文字,生成带时间戳的原文。支持多种模型规格和语言。

03

翻译润色

调用翻译接口把任意语言字幕转成简体中文,再做一次 AI 审核让表达更自然。

04

字幕压制

用 ffmpeg 把中文字幕烧录进 MP4,输出 H.264 + AAC 的浏览器友好格式。

05

上传归档

可选把成品上传到网站视频库,在放映室页面展示。支持批量处理和断点续传。

Loading articles...