基于PotPlayer实现实时字幕生成和AI翻译

 核心思路是利用PotPlayer内置功能,直接调用其整合的OpenAI Whisper语音识别模型,将视频语音实时转换为文字字幕,并进一步利用插件实现实时翻译功能,下面开始教程。

第一步:准备工作1.安装新版本的 PotPlayer (建议更新到最新稳定版),大家可以在官网(https://potplayer.daum.net/)下载。2.Whisper功能需要在线下载引擎及模型文件,请确保操作时梯子网络通畅。第二步:设置生成有声字幕(语音识别)
1.单击鼠标左键依次进入功能菜单:字幕 -> 生成有声字幕


2.进行功能配置。转换引擎推荐选择faster-whisper-xxl。A卡或者N卡用户都可以使用该引擎模型型号推荐使用large-v2模型。其他模型根据我的测试均容易出现幻听,重复识别,无法识别等BUG。语言根据大家需求自行选择。
其余选择均按照默认选择就行。
注:第一次使用时,系统会自动下载引擎和模型文件,故需要梯子网络

第三步:设置实时字幕翻译
1.单击鼠标左键依次进入功能菜单:字幕 -> 实时字幕翻译 -> 实时字幕翻译设置

2.翻译插件配置。PotPlayer内置了bing,Google,deepl等翻译插件,均为机翻,针对日语电影实用行较差。因此推荐大家安装OpenAI插件,利用人工智能进行翻译。具体配置方法如下:
(1)安装PotPlayer Translation OpenAI API插件。该项目在GitHub上已经开源,大家自行下载https://github.com/Fung-2025/potplayer-translation-openaiapi/blob/main/README-cn.md


进入项目地址后,点击release,下载potplayer-translation-openaiapi.7z文件,参考项目教程压缩到指定路径。
(2)配置API接口。以我使用的deepseek为例为大家演示,其他兼容OpenAI api接口的大语言模型可以参考,原理一样。
注册登录deepseekAPI开放平台https://platform.deepseek.com/usage。调用接口需要消耗Token,因此需要进行一波小氪,根据我的测试,翻译一部120min的日语影片大概费用在几毛钱。
根据官方使用文档进行Model和API URL的配置,这里我直接把调用API代码贴过来:
curl https://api.deepseek.com/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ${DEEPSEEK_API_KEY}" \
  -d '{
        "model": "deepseek-chat",
        "messages": [
          {"role": "system", "content": "You are a helpful assistant."},
          {"role": "user", "content": "Hello!"}
        ],
        "stream": false
      }'
需要用到的是标红部分
最后需要创建一个API keys

第一行填写[backcolor=rgba(129, 139, 152, 0.12)]Model&API URL。(注意:小写英文,没有空格,中间用&符号连接)
第二行填写[backcolor=rgba(129, 139, 152, 0.12)]API keys
[backcolor=rgba(129, 139, 152, 0.12)]

3.进行测试。如果出现下图提示,代表配置成功可以正常使用

最后展示一下运行画面


发表评论

0 评论