首先,小编想先问问大家,你们打开这篇文章目的是什么?是因为想了解AI声音克隆技术呢,还是因为想要在制作视频的时候减少配音工作呢?如果以上都是,那么恭喜你,这篇关于AI声音克隆的内容可以满足你的需求。因为,小编在接下来的内容里不仅会分享AI声音克隆工具,还会教给大家如何使用它。

AI声音克隆使用教程
由于今天66分享网(66fxw.com)小编分享的AI声音克隆工具需要用到一台搭配独立显卡的电脑,所以建议大家先准备一台配置不错的电脑,而且独立显卡尽量为中高端显卡,因为在声音模型训练中需要用到显卡。声音克隆工具支持Windows与MAC操作系统。
接下来,我们在Github下载声音克隆开源工具包,并解压。

AI声音克隆开源地址获取:点击这里
然后,我们在解压好的文件中找到“go-webui.bat”双击运行它,第一次打开可能有些慢,因为需要配置环境,大家稍作等待。

工具打开后,浏览器会弹出这样一个界面。这时,我们需要自己录制一段文件格式为Wav的音频原声,然后复制音频文件路径,并将其粘贴到语音切分工具的“音频自动切分输入路径,可文件可文件夹”中。接着在设置一个切分后的音频输出文件夹,并复制路径粘贴到“切分后的子音频的输出根目录”中。

这里需要提醒大家,尽量录制的音频文件时长在两分钟左右。然后我们点击“开启语音切割”按钮,将音频文件分割切片。
切割结束后,我们接下来对切割好的文件进行打标,复制刚才粘贴到“切分后的子音频的输出根目录”中的音频切割路径,然后将它粘贴进“批量ASR(中文only)输入文件夹路径”,最后点击“开启离线批量ASR”。
看到ASR任务完成后,我们在使用“语音文本校队标注工具”对打标文件文本校对一下,这里我们在声音克隆工具解压文件中依次找到asr_opt文件夹下的.list结尾的文件,并复制文件路径到.list标注文件的路径中。
然后,勾选“是否开启打标WebUI”,这里稍作等待,就可以弹出新的校对页面。

这里,我们依次对切割音频文件的文本进行校对,例如文本是否正确,标点符号是否合理。校对无误后,我们点击“Submit Text”,然后关闭该页面,并取消“是否开启打标WebUI”的勾选。
接着,我们点击“GPT-SoVITS-TTS”,然后创建一个“实验/模型名”,名字为英文或者数字。然后再将asr_opt文件夹下的.list结尾的文件路径复制到“文本标注文件”中,这里我们同时要把“切分后的音频输出文件夹”路径复制到“训练集音频文件目录”中。

最后,点击“开启一键三连”,并等待它训练结束。
下一步,对训练好的声音进行微调训练,这里我们先点击“开启SoVITS训练”,等待他训练完成后,我们再点击“开启GPT训练”并等待他完成。

训练完成后,我们来到最后一步TTS推理,这里我们需要先点击“刷新模型路径”,然后分别在“GPT模型列表”与“SoVITS模型列表”找到我们微调好的训练模型,这里小编选的都是最大轮数的。接下来,勾选“是否开启TTS推理WebUI”。

同样,稍作等待,就会来到声音推理界面 ,在这个界面我们需要先将一份切割好的音频文件与对应文本,分别填入到“请上传3-10秒内参考音频,超时会报错”与“参考音频的文本”中,注意,记得选择一下“参考音频的语种”,这里我选择的是中文。

然后把我们需要合成的文本复制粘贴进“需要合成的文本中”,注意如果你的文本特别长,可以使用下方的文本切分工具先进行切分。最后点击“合成语音”。
好了下面就是我们来看看效果吧。
结尾
怎么样?你们感觉这个AI声音克隆是不是很完美!教程已经分享给你们了,以后具体可以使用它做什么就不用我说了吧。不过,小编最后还是想提醒一下大家,我还是建议大家尽量使用它克隆自己的声音,来提升自己的效率,不要去克隆别人的声音,避免侵权。


微信扫一扫
支付宝扫一扫

