依星源码资源网,依星资源网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 18|回复: 0

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

[复制链接] 主动推送

9783

主题

9835

帖子

1万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
10723
发表于 昨天 11:29 | 显示全部楼层 |阅读模式
简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕
全自动视频翻译 项目!该项目旨在提供一个简单易用的自动识别、翻译工具和其他视频辅助工具,帮助快速识别视频字幕、翻译字幕
项目亮点
  • 支持 OpenAI API 和 Faster-Whisper、Open-Whisper、SenseVoiceSmall 识别后端。
  • 支持 GPU 加速、VAD辅助、FFmpeg加速。
  • 支持 本地部署模型、ChatGPT、KIMI、DeepSeek、ChatGLM、Claude等多种引擎翻译。
  • 支持识别、翻译 多种语言 和 多种文件格式 。
  • 支持对 一键生成、字幕微调、视频预览。
  • 支持对内容直接进行 AI总结、问答。
版本升级说明
  • v0.0.1 语音转文本模型使用开源的whisper模型,使用medium尺寸模型;大语言模型使用阿里Qwen2-7B-Instruct模型实现文本推理和翻译功能。
  • v0.0.2 升级模型语音转文本模型使用阿里SenseVoice模型,大语言模型切换到书生浦语internlm2_5-7b-chat模型实现文本推理和翻译功能。
技术架构部署架构图
本系统部署在云平台上,需要支持GPU或类似GPU加速推理的显卡等硬件资源支持,详细部署图见下图。

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕
应用架构图媒体识别
​ 用户上传音视频文件,系统将使用ffmpeg对上传文件进行流媒体处理(将不同音视频转换成统一格式音视频文件),然后程序会调用语音转文本模型,将音视频文件转化成文本信息,后面我们调用LLM 大语音模型对文本内容信息通过提示词要求让其转换对应的翻译内容,LLM模型收到消息进行处理,最后将处理的信息和ffmpeg在进行一次流媒体处理合成最后转换成翻译后的音视频文件。


简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

内容助手
用户上传音视频文件,系统将使用ffmpeg对上传文件进行流媒体处理(将不同音视频转换成统一格式音视频文件),然后程序会调用语音转文本模型,将音视频文件转化成文本信息。用户根据音视频内容进行相关提问,问题会发送给LLM模型。 LLM模型会根据音视频内容和用户的问题进行回答。

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕
字幕翻译
用户上传srt字幕文件,用户会根据自己需要翻译成中文、英文、其他国语言、双语等要求发送给系统,系统接受到信息发送给LLM大语音模型根据要求翻译成相应内容返回给用户。可以理解我们借助LLM大语言模型对文本内容进行翻译。

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕
技术栈
硬件: 显卡:
​ 英伟达GPU 3060、4060、4070、4080、4090、A100、V100 、A800
​ 天数智芯BI-V100
​ CPU:12核心
​ 内存:32GB
​ 存储:60GB
操作系统:Linux、widows
开发语言:python
主要依赖包:torch、torchaudio 、vllm(Linux平台)、streamlit、transformers、funasr
如何安装使用 Windows
  • 安装 Python,请确保Python版本大于3.8
  • 安装 FFmpeg,Release 中Full版本已经打包了FFmpeg库
  • 运行 install.bat
  • 使用代码运行

  1. streamlit run app.py --server.port=7860
复制代码
模型配置
在模型配置里面我们可以设置本地模型以及其他第三方模型。
本地设置,点击修改配置

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕
我们可以看到配置有3个参数
API 地址,这里填写本地访问的模型URL,URL请求地址兼容openAI标准接口,默认情况不需要修改即可 http://127.0.0.1:8000/v1
API密钥, 这里随便填写。因为我们使用本地模型,所以不需要key 可以保持默认即可。
模型名称,这里填写模型在服务端部署模型路径,我们使用了书生浦语 internlm2_5-7b-chat模型。默认/data/model/internlm2_5-7b-chat ,也可以默认不需要修改。
以上配置完成后本地模型配置就完成设置了。
其他第三方模型配置,东西比较类似我们这里以硅基智能为案例给大家介绍
点击修改配置

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕
API 地址,这里默认已经填写好硅基智能模型接口地址,默认是不需要修改的。
API密钥,这里填写硅基智能第三方模型厂商提供的api秘钥。关于硅基智能模型申请可以访问硅基智能官网注册申请,目前该网站提供部分7B左右的小模型给大家测试使用,目前是免费使用的。可以放这个地址了解他们模型收费情况

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕
预置提示词
这里主要是使用翻译功能所以将翻译的提示词预设模式实现配置,默认提供2种翻译预设提示词

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕
本地缓存
这里主要记录视频、字幕、音频等上传临时存储的信息。大家根据自己的需要保留和删除。


简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

2.功能模块
​ 这里是该系统主要功能区域,主要有3个功能模块。媒体识别、内容助手、字幕翻译 3个功能。
2.1媒体识别参数设置
​ 识别设置这块我们使用本地SenseVoiceSmall模型音视频转文本模型,本地模型选择smalll模型(这个模型只有一个小模型开源)

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕
​ 翻译引擎
​ 这里我们选择本地模型,当然你也可以根据自己的需要设置第三方LLM语言模型

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕
​ 下面的可以默认即可。
音频识别功能
​ 本功能可以通过上传音视频文件,通过FFmpeg 对音视频进行处理,提取音视频内容信息,然后后端自动调用本地LLM模型或者第三方模型实现语言翻译功能。

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕
等待文件上传后,我们点击右边窗体中“音视频识别”

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕
视频识别
​ 本功能可以通过上传视频文件,通过FFmpeg 对视频进行处理,提取视频内容信息,然后后端自动调用本地LLM模型或者第三方模型实现语言翻译功,将翻译的文字在使用FFmpeg进行合成这样就可以实现无字幕视频打上有字幕视频,单语言视频转换成双语视频,自动配置字幕功能了。

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕
上传视频文件后,点击一键生成视频功能。后端程序对视频做视频处理,提取视频内容信息然后调用后端本地LLM模型或者使用第三方LLM模型将视频内容转换成文本,然后将转换文字在使用FFmpeg进行视频合成,这样一下就能转换成翻译后的视频了。(包含单字幕,双语字幕)

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕
也可以分开实现,第一步生成字幕,然后调整生成的字幕在点击 合成字幕这样做出的字幕合成视频将更加友好。
先生成字幕,然后更加内容可以手工调整。

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕
2.2内容助手
​ 内容助手主要功能是用户通过上传音视频文件,后端程序使用FFmpeg 对音视频进行处理,提取音视频内容信息。然后使用本地LLM模型或者使用第三方LLM模型进行总结归纳 推理等功能。
参数设置
​ 这里我们使用SenseVoiceSmall模型音视频转文本模型。
​ SenseVoice模式 我们选择SenseVoiceSmall模型。

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕
本地模型配置,我们从下拉列表中选择SenseVoiceSmall模型.其他可以保持默认,以上设置完成后点击保存参数设置。

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕
内容问答
​ 这里面我们可以对上传的音视频文件进行解析,然后通过LLM大模型对识别的内容进行总结和推理。比如您参加一次培训课程,通过录音笔记录了培训的内容。我们就可以使用该功能实现音视频转录+音视频内容总结提炼等功能了。相当于阿里通义听悟功能(哈哈,当然是山寨版的)

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕
第一步,音频视频文件上传,参考上面步骤
第二步,点击开始识别。这个时候后端程序会使用ffmpeg对视频文件进行处理,处理后调用SenseVoiceSmall模型音视频转文本模型,将音视频文件转换成文本内容。

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕
视频解析完成后,我们就可以通过文本输入框使用llm语言模型进行推理了。

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕
2.3字幕翻译
​ 点击字幕翻译,左小角有个SRT上传器,这里主要是通过上传字幕文件srt文件上传后,然后通过本地模型或则第三方LLM模型实现字幕自动翻译

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕

简单易用的全自动视频翻译项目,快速识别视频字幕 翻译字幕


游客,本帖隐藏的内容需要积分高于 2 才可浏览,您当前积分为 0
提取码下载:
文件名称:提取码下载.txt 
下载次数:0  文件大小:13 Bytes  售价:99金钱 [记录]
下载权限: 不限 [购买VIP]   [充值]   [在线充值]   【VIP会员5折;永久VIP免费】
安全检测,请放心下载





相关帖子

扫码关注微信公众号,及时获取最新资源信息!下载附件优惠VIP会员5折;永久VIP免费
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

免责声明:
1、本站提供的所有资源仅供参考学习使用,版权归原著所有,禁止下载本站资源参与商业和非法行为,请在24小时之内自行删除!
2、本站所有内容均由互联网收集整理、网友上传,并且以计算机技术研究交流为目的,仅供大家参考、学习,请勿任何商业目的与商业用途。
3、若您需要商业运营或用于其他商业活动,请您购买正版授权并合法使用。
4、论坛的所有内容都不保证其准确性,完整性,有效性,由于源码具有复制性,一经售出,概不退换。阅读本站内容因误导等因素而造成的损失本站不承担连带责任。
5、用户使用本网站必须遵守适用的法律法规,对于用户违法使用本站非法运营而引起的一切责任,由用户自行承担
6、本站所有资源来自互联网转载,版权归原著所有,用户访问和使用本站的条件是必须接受本站“免责声明”,如果不遵守,请勿访问或使用本网站
7、本站使用者因为违反本声明的规定而触犯中华人民共和国法律的,一切后果自己负责,本站不承担任何责任。
8、凡以任何方式登陆本网站或直接、间接使用本网站资料者,视为自愿接受本网站声明的约束。
9、本站以《2013 中华人民共和国计算机软件保护条例》第二章 “软件著作权” 第十七条为原则:为了学习和研究软件内含的设计思想和原理,通过安装、显示、传输或者存储软件等方式使用软件的,可以不经软件著作权人许可,不向其支付报酬。若有学员需要商用本站资源,请务必联系版权方购买正版授权!
10、本网站如无意中侵犯了某个企业或个人的知识产权,请来信【站长信箱312337667@qq.com】告之,本站将立即删除。
郑重声明:
本站所有资源仅供用户本地电脑学习源代码的内含设计思想和原理,禁止任何其他用途!
本站所有资源、教程来自互联网转载,仅供学习交流,不得商业运营资源,不确保资源完整性,图片和资源仅供参考,不提供任何技术服务。
本站资源仅供本地编辑研究学习参考,禁止未经资源商正版授权参与任何商业行为,违法行为!如需商业请购买各资源商正版授权
本站仅收集资源,提供用户自学研究使用,本站不存在私自接受协助用户架设游戏或资源,非法运营资源行为。
 
在线客服
点击这里给我发消息 点击这里给我发消息 点击这里给我发消息
售前咨询热线
312337667

微信扫一扫,私享最新原创实用干货

QQ|免责声明|小黑屋|依星资源网 ( 鲁ICP备2021043233号-3 )|网站地图

GMT+8, 2024-9-30 16:17

Powered by Net188.com X3.4

邮箱:312337667@qq.com 客服QQ:312337667(工作时间:9:00~21:00)

快速回复 返回顶部 返回列表