字幕源提取
优先提取内嵌文本字幕轨;没有则尝试 OCR 图片字幕;都没有才走语音识别。三条路自动降级。
用语音识别模型把视频里的语音转成文字,翻译成中文字幕后压入成片。 整条链路在本地完成,服务器只负责收藏与放映。
优先提取内嵌文本字幕轨;没有则尝试 OCR 图片字幕;都没有才走语音识别。三条路自动降级。
用 faster-whisper 对音轨做语音转文字,生成带时间戳的原文。支持多种模型规格和语言。
调用翻译接口把任意语言字幕转成简体中文,再做一次 AI 审核让表达更自然。
用 ffmpeg 把中文字幕烧录进 MP4,输出 H.264 + AAC 的浏览器友好格式。
可选把成品上传到网站视频库,在放映室页面展示。支持批量处理和断点续传。