推荐个语音识别字幕生成软件WhisperDesktop,无需联网,多语言且具有令人震惊的准确率

四级用户 kjaboshopainmw 1月前 1137

Whisper是由OpenAI创建的开源自动语音识别(ASR)模型,具有极为强大的开箱即用性能。它经过了680,000小时的标注音频数据训练,其中117,000小时的训练涵盖了除英语以外的96种语言,这意味着它可以在各种应用中发挥出色的表现。WhisperDesktop是基于该技术开发的适合于本地离线使用的软件。

它可以识别英语,中文,可能还包括日语以及其他很多语种的音频,可以识别英文歌词;识别效果特别好,甚至还可以翻译其他语言的语音到英文。而且不管多差的电脑,只要支持DX11,就能支持GPU硬件加速,我1060m用最大尺寸的模型识别一个小时的视频只要20多分钟

可以说有了这个,看视频基本不再需要英文字幕了(当然,不支持英文翻译成中文)

首先先下载主程序:https://github.com/Const-me/Whisper

然后下载模型:https://huggingface.co/ggerganov/whisper.cpp/tree/main

下不动的话把huggingface.co换成hf-mirror.com

不要下载任何带v3的模型,因为本程序还不支持,也不要下载结尾带q的量化模型,因为可能也不支持

显卡性能凑合的(960什么的就算凑合了)下载large模型,追求速度或者显卡过于垃圾的可以下载medium或者base模型,因为什么原因完全不支持硬件加速的下载small和tiny模型,文件名里带点en的意思是只支持英语,不支持识别其他语言

然后导入模型,软件自身可以直接打开常见的音视频文件,但是为了避免出现不断重复一句话无法继续识别的bug,建议进行以下操作:

1.将你要识别的音视频转换成mp3或者wav格式

2.用人声提取软件只保留视频中的人声(这个只保留人声的音频只作为中间步骤)

3.将只有人声的音频导入软件识别,输出字幕

4.加载原始音视频和识别后的字幕

以下是效果:(火纹皇女那个是直接识别的edge of dawn音乐)


Screenshot_2024-04-05-15-06-27-83_010925bd39fdc4bfa0e99fa1d4c2b790.jpg

70a50855bccd0a18ab1dfd9d1c26220e.jpeg

3c51ac2bda16bbcda6ae2eb2aa8dc3a8.jpeg

797b50da4beb36ca7355e97037c1be87.jpeg

eb8c32aad1bf6463bcbe86719e18cd53.jpeg

f6d595c52511d7b61fe6bad5faa561de.jpeg


上一篇:回乡下摘菜
下一篇:大老杨最终还是买了吃灰神器!!
最新回复 (14)
  • 四级用户 乌索坚 1月前
    0 2
    ai发展成我理解不了的样子了
  • 四级用户 kjaboshopainmw 1月前
    0 3
    乌索坚 ai发展成我理解不了的样子了
    关键是,这不是新技术,2022就有了
  • 四级用户 Kids语 1月前
    0 4
    感谢分享
  • 三级用户 hiok2000 1月前
    1 5
    现在都能够这样了:视频-》人声-》字幕-》翻译-》中文语音
  • 四级用户 543628310 1月前
    0 6
    帮个朋友问问, 有没日语转换中文字幕的识别软件😂😂
  • 五级用户 love18oe 1月前
    0 7
    以后会不会有这么个播放器,不管什么语言的视频,有这么个选项,选择后就会自动变成你听得懂的语音。
  • 四级用户 kjaboshopainmw 1月前
    0 8
    543628310 帮个朋友问问, 有没日语转换中文字幕的识别软件😂😂
    这个软件能把日语转换成英文,英文应该好懂一些,也更容易用第三方其他工具进一步翻译
  • 五级用户 110119diDI 1月前
    0 9
    543628310 帮个朋友问问, 有没日语转换中文字幕的识别软件😂😂
    有的,搜搜就有了,Whisper是其中的一步,但是这个Whisper有时候会大段地重复一个句子,不会调挺难受的
  • 四级用户 kjaboshopainmw 1月前
    0 10
    110119diDI 有的,搜搜就有了,Whisper是其中的一步,但是这个Whisper有时候会大段地重复一个句子,不会调挺难受的
    不断重复的部分解决方案就是先过滤只剩下人声
  • 五级用户 110119diDI 1月前
    0 11
    kjaboshopainmw 不断重复的部分解决方案就是先过滤只剩下人声
    提取人声了的,
  • 四级用户 kjaboshopainmw 1月前
    0 12
    110119diDI 提取人声了的,
    那提取人声只能降低概率,不能完全杜绝,只能说这个技术就这水平
  • 四级用户 hugofong 1月前
    0 13
    微软Azure最新的tts也是炸天
  • 四级用户 ma_er233 1月前
    0 14
    草,拖长音也能自动多加几个字母?
  • 四级用户 kjaboshopainmw 1月前
    0 15
    ma_er233 草,拖长音也能自动多加几个字母?
    没错,我当时也震惊了(虽然确实不排除训练集里有,然后过拟合的可能)
    • 老男人游戏网配套论坛
      16
        立即登录 立即注册
发新帖
本论坛禁止发布SWITCH和PS4相关资源,若有其他侵权内容,请致邮3360342659#qq.com(#替换成@)删除。