目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程

作为一个程序员,对于AI项目我一直有关注,关于声音克隆从SoVITS到Bert-VITS也都用过,但都没有推荐分享过,有些虽然已经复刻的很完美,但推理多了,总有瑕疵,在试用了GPT-SoVITS项目后,我觉得这个效果可以做终极解决方案了,再优化也就是操作上与一些细节,克隆的声音已接近完美。

首先下载一键整合包:https://pan.quark.cn/s/e5365f0ef245

下载后解压,双击go-webui.bat文件启动,等待一会

图片[1]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享

第一次启动会有点慢,启动后会自动打开你的浏览器

图片[2]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享

首页就是这样的,其它的不用管,我们直接上传要克隆的音频,时长最好在一分钟以上,多了也没事

我这里用某真的演讲进行测试,各位比较熟悉的声音,这样大家最后直接看效果即可

图片[3]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享

如果你的原始音频有杂音,可以点击降噪处理,如果比较清楚,就直接切割音频。

这里注意,如果你之前复刻过一个声音,这里是复刻另一个人声音的话,在切割前需要把output/slicer_opt文件夹清空

图片[4]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享

切割结束我们点击下面的【开启Faster-Whisper离线ASR】按钮,这一步是对音频进行识别与标注,中英日都可自动识别

图片[5]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享

音频打标进度可以在控制台查看,完成后在ASR进程输出信息中会显示

图片[6]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享

ASR完成后,直接点击上方菜单GPT-SoVITS-TTS进入训练页面

图片[7]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享

这里给模型起个名字后,拉到页面最下面,点击【开启一键三连】进行训练集格式化

图片[8]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享

等待进程结束后,进行模型训练,点击微调训练

图片[9]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享

两个训练都进行一下,如果你的显卡比较好,可以将batch_size调高,测试是12G显存调8没问题,训练结束它自己会在进程框中显示。

图片[10]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享

训练完成后点击推理标签,这个页面其它不用管,直接选择开启TTS推理WebUI,稍等一会浏览器会打开一个新的推理页面。

图片[11]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享

在新的页面选择刚刚训练好的模型,就是你自己起的模型名,如果模型列表没有就点击刷新模型路径

然后上传引导音频,这个引导音频其实就是情绪控制的主要途径,比如你的引导音频中人物是哭腔说话,那么你合成的语音也是哭腔,其它同理

引导音频一般在音频切片中选一条,也就是output/slicer_opt文件夹中,选择好后点击【faster_whisper转写音频内容到文本】

图片[12]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享

转写完成后,用原本文生合成看下效果。

这个就是效果,因为高原识别错了,这里也读错了,我们再生成一段其它的文本。

效果相当好,要知道训练时间不到5分钟,最后使用的话只需要输入文本,点击合成语音即可等待生成。

但它也有缺陷,比如经常吞字,莫名的停顿,这些都与训练集与引导音频有关,但相信在以后的更新中都可以解决,目前来看他克隆的效果已经近乎完美。

图片[13]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享

下面的生成历史中,可以将一小段一小段合成的音频添加到记录,最后合成一大段,做出多人对话的效果,对于视频配音非常好用。

整合包下载地址:https://pan.quark.cn/s/e5365f0ef245

------本页内容已结束,喜欢请分享------

感谢您的来访,获取更多精彩文章请收藏本站。

© 版权声明
THE END
喜欢就支持一下吧
点赞12赞赏 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容