推荐个语音识别字幕生成软件WhisperDesktop，无需联网，多语言且具有令人震惊的准确率-灌水聊天-老男人游戏网配套论坛

推荐个语音识别字幕生成软件WhisperDesktop，无需联网，多语言且具有令人震惊的准确率

kjaboshopainmw 1月前 1137

Whisper是由OpenAI创建的开源自动语音识别（ASR）模型，具有极为强大的开箱即用性能。它经过了680,000小时的标注音频数据训练，其中117,000小时的训练涵盖了除英语以外的96种语言，这意味着它可以在各种应用中发挥出色的表现。WhisperDesktop是基于该技术开发的适合于本地离线使用的软件。

它可以识别英语，中文，可能还包括日语以及其他很多语种的音频，可以识别英文歌词；识别效果特别好，甚至还可以翻译其他语言的语音到英文。而且不管多差的电脑，只要支持DX11，就能支持GPU硬件加速，我1060m用最大尺寸的模型识别一个小时的视频只要20多分钟

可以说有了这个，看视频基本不再需要英文字幕了（当然，不支持英文翻译成中文）

首先先下载主程序：https://github.com/Const-me/Whisper

然后下载模型：https://huggingface.co/ggerganov/whisper.cpp/tree/main

下不动的话把huggingface.co换成hf-mirror.com

不要下载任何带v3的模型，因为本程序还不支持，也不要下载结尾带q的量化模型，因为可能也不支持

显卡性能凑合的（960什么的就算凑合了）下载large模型，追求速度或者显卡过于垃圾的可以下载medium或者base模型，因为什么原因完全不支持硬件加速的下载small和tiny模型，文件名里带点en的意思是只支持英语，不支持识别其他语言

然后导入模型，软件自身可以直接打开常见的音视频文件，但是为了避免出现不断重复一句话无法继续识别的bug，建议进行以下操作：

1.将你要识别的音视频转换成mp3或者wav格式

2.用人声提取软件只保留视频中的人声（这个只保留人声的音频只作为中间步骤）

3.将只有人声的音频导入软件识别，输出字幕

4.加载原始音视频和识别后的字幕

以下是效果：（火纹皇女那个是直接识别的edge of dawn音乐）

Screenshot_2024-04-05-15-06-27-83_010925bd39fdc4bfa0e99fa1d4c2b790.jpg

上一篇：回乡下摘菜
下一篇：大老杨最终还是买了吃灰神器！！

最新回复 (14)

乌索坚 1月前

0 2楼

ai发展成我理解不了的样子了
kjaboshopainmw 楼主 1月前

0 3楼

乌索坚 ai发展成我理解不了的样子了
关键是，这不是新技术，2022就有了
Kids语 1月前

0 4楼

感谢分享
hiok2000 1月前

1 5楼

现在都能够这样了：视频-》人声-》字幕-》翻译-》中文语音
543628310 1月前

0 6楼

帮个朋友问问，有没日语转换中文字幕的识别软件😂😂
love18oe 1月前

0 7楼

以后会不会有这么个播放器，不管什么语言的视频，有这么个选项，选择后就会自动变成你听得懂的语音。
kjaboshopainmw 楼主 1月前

0 8楼

543628310 帮个朋友问问，有没日语转换中文字幕的识别软件😂😂
这个软件能把日语转换成英文，英文应该好懂一些，也更容易用第三方其他工具进一步翻译
110119diDI 1月前

0 9楼

543628310 帮个朋友问问，有没日语转换中文字幕的识别软件😂😂
有的，搜搜就有了，Whisper是其中的一步，但是这个Whisper有时候会大段地重复一个句子，不会调挺难受的
kjaboshopainmw 楼主 1月前

0 10楼

110119diDI 有的，搜搜就有了，Whisper是其中的一步，但是这个Whisper有时候会大段地重复一个句子，不会调挺难受的
不断重复的部分解决方案就是先过滤只剩下人声
110119diDI 1月前

0 11楼

kjaboshopainmw 不断重复的部分解决方案就是先过滤只剩下人声
提取人声了的，
kjaboshopainmw 楼主 1月前

0 12楼

110119diDI 提取人声了的，
那提取人声只能降低概率，不能完全杜绝，只能说这个技术就这水平
hugofong 1月前

0 13楼

微软Azure最新的tts也是炸天
ma_er233 1月前

0 14楼

草，拖长音也能自动多加几个字母？
kjaboshopainmw 楼主 1月前

0 15楼

ma_er233 草，拖长音也能自动多加几个字母？
没错，我当时也震惊了（虽然确实不排除训练集里有，然后过拟合的可能）