WhisperX 一个更精确的开源自动语音识别(ASR)项目
嗯,是 WhisperX 而不是 Whisper, 之前介绍过Whisper项目了,见链接:https://www.mr-wu.cn/how-to-use-whisper-and-chatgpt/ 而WhisperX项目是基于 OpenAI 的 Whisper 模型,通过引入多项优化技术,提供高效、准确的语音转文字(STT)服务。
Whisper很好用,但字幕的时间轴有时不是很准,换WhisperX 之后就挺准了,对字幕制作非常友好。
广告
WhisperX 核心功能,或者说相对于Whisper的优势
-
快速转录:WhisperX 使用 faster-whisper 后端,支持批量推理,能够实现高达 70x 实时速度 的转录。
-
单词级时间戳:通过 wav2vec2.0 对齐技术,WhisperX 可以生成精确到单词级别的时间戳,这对于字幕制作、会议记录等场景非常有用。
-
说话人识别(Diarization):WhisperX 集成了 pyannote-audio 技术,能够自动识别不同说话人,并为转录文本添加说话人标签。
-
语音活动检测(VAD):通过 VAD 预处理,减少幻听现象,同时不影响转录准确性。
-
多语言支持:WhisperX 支持多种语言的语音识别和转录。
项目主页:https://github.com/m-bain/whisperX
命令举例
whisperx "/root/MP3/1.mp3" --output_dir "/root/MP3/" --model large-v2 -f all --language en --max_line_count 2 --align_model WAV2VEC2_ASR_LARGE_LV60K_960H --batch_size 4 whisperx "E:\mv\1.mp3" --model_dir "E:\whisper_model" --model large-v3-turbo -f all --language en --max_line_count 2 --align_model WAV2VEC2_ASR_LARGE_LV60K_960H --batch_size 4 --compute_type int8 whisperx "E:\Movies\1.mp4" --output_dir "E:\Movies\" --model_dir "E:\whisper_model" --model large-v2 -f all --language en --compute_type int8