[ PROJECT 02 / SPEECH SUBTITLE ]

语音字幕识别

用语音识别模型把视频里的语音转成文字，翻译成中文字幕后压入成片。整条链路在本地完成，服务器只负责收藏与放映。

5stages processing pipeline

ASRdomain core technology

Localmode privacy first

ASR Subtitle Generation Translation Video Processing

[ PIPELINE ]

处理流程

优先提取内嵌文本字幕轨；没有则尝试 OCR 图片字幕；都没有才走语音识别。三条路自动降级。

用 faster-whisper 对音轨做语音转文字，生成带时间戳的原文。支持多种模型规格和语言。

调用翻译接口把任意语言字幕转成简体中文，再做一次 AI 审核让表达更自然。

用 ffmpeg 把中文字幕烧录进 MP4，输出 H.264 + AAC 的浏览器友好格式。

可选把成品上传到网站视频库，在放映室页面展示。支持批量处理和断点续传。

Loading articles...