如何快速使用AI快速克隆自己的声音

sw

一、GPT-SoVITS介绍

GPT-SoVITS是一款是花儿不哭大佬研发的低成本AI音色克隆软件。主要实现TTS(文字转语音)功能

TTS是一种文字转语音的语音合成技术。类似的还有SVC(歌声转换)、SVS(歌声合成)等。目前GPT-SoVITS只有TTS功能,也就是不能唱歌。

GPT-SoVITS-V1实现了:

(1)由参考音频的情感、音色、语速控制合成音频的情感、音色、语速

(2)可以少量语音微调训练,也可不训练直接推理

(3)可以跨语种生成,即参考音频(训练集)和推理文本的语种为不同语种

GPT-SoVITS-V2新增特点:

(1)对低音质参考音频合成出来音质更好

(2)底模训练集增加到5k小时,zeroshot性能更好音色更像,所需数据集更少

(3)增加韩粤两种语言,中日英韩粤5个语种均可跨语种合成

(4)更好的文本前端:持续迭代更新。V2中英文加入多音字优化。

详细的内容可以参考说明文档:GPT-SoVITS指南·语雀:

二、通过网络服务器快速部署GPT-SoVITS

和大部分的AI模型一样,GPT-SoVITS对内存,显卡等要求都比较高,对于预算有限,但是又想体验GPT-SoVITS的小伙伴,采用网络服务器部署是一个不错的办法。

(一)星海智算服务器租用

网络上很多的服务器都可以租用,之所以选择星海智算,是因为他贴心的提供了Windows版本的GPT-SoVITS镜像。

1.注册

2.创建实例

(二)运行与登录服务器

1.服务器远程登录

启动服务器后如下图所示:

在windows开始windows附件远程桌面连接:在计算机(c):输入上面的图的IP:

密码选择复制启动服务器上的密码,完成后,便登录了服务器。

界面和平时的windows没有特别的区别。

2.运行GPT-SoVITS

提醒:打开的bat不可以关闭!这个黑色的bat框就是控制台,所有的日志都会在这上面呈现,所有的信息以控制台为准。

3.软件使用

软件包含两个部分,首先是数据的准备工作。

这是一个伴奏人声分离去混响去回声工作,除非你的语音文件质量特别好,否则很推荐你使用该模块。

模型可以选用
model_bs_roformer_ep_317_sdr_12.9755模型处理一遍,然后将输出的干声音频再用onnx_dereverb最后用DeEcho-Aggressive(去混响),输出格式选wav。输出的文件默认在GPT-SoVITS-beta\output\uvr5_opt这个文件夹下,建议不要改输出路径。处理完的音频(vocal)的是人声,(instrument)是伴奏,(_vocal_main_vocal)的没混响的,(others)的是混响。(vocal)(_vocal_main_vocal)才是要用的文件,其他都可以删除。结束后记得到WebUI关闭UVR5节省显存。

语音背景分离

在切割音频前建议把所有音频拖进音频软件(如au、剪映)调整音量,最大音量调整至-9dB到-6dB,过高的删除

首先,输入原音频文件夹的路径(警告:不包含中文字符)。如果音频已经经过UVR5处理,那么文件夹路径应为“uvr5_opt”。接下来,可以根据需要调整以下参数:min_length、min_interval和max_sil_kept,单位均为毫秒(ms)。其中,min_length应根据显存大小进行调整,显存越小,数值应设置得越小;min_interval应根据音频的平均间隔进行调整,如果音频间隔较密集,可以适当调低该值;max_sil_kept影响句子的连贯性,针对不同音频需要进行不同的调整,若不确定,可以保持默认设置。其他参数不建议进行调整。

切分完后文件在output\slicer_opt。打开切分文件夹,排序方式选大小,将时长超过显存数秒的音频手动切分至显存数秒以下。比如显卡是4090显存是24g,那么就要将超过24秒的音频手动切分至24s以下,音频时长太长的会爆显存。如果语音切割后还是一个文件,那是因为音频太密集了。可以调低min_interval,从300调到100基本能解决这问题。实在不行用au手动切分。

Oc.音频降噪

如果你觉得你的音频足够清晰可以跳过这步,降噪对音质的破坏挺大的,谨慎使用。

od.打标

打标就是给每个音频配上文字,这样才能让AI学习到每个字该怎么读。这是最稳复杂,也是工作量最大的一个工作。

如果在上一步中您已经完成了音频的切分或降噪,系统会自动填充路径。接下来,您可以选择使用“达摩ASR”或“FastWhisper”进行标注。达摩ASR仅支持识别汉语和粤语,且其识别效果最佳。FastWhisper支持标注99种语言,是目前最优秀的英语和日语识别工具。在选择模型时,建议使用“largeV3”版本,并将语种设置为“auto”以自动检测语种。在精度选项中,推荐选择float16格式,因为它比float32更快,而int8的速度几乎与float16相同。。然后点开启离线批量ASR就好了,默认输出是output/asr_opt这个路径。ASR需要一些时间,看着控制台有没有报错就好了

Oe.校对标注

1a.训练

来到第二个界面,先设置实验名也就是模型名,理论上可以是中文!打标结束会自动填写路径,只要点下一键三连就好了。

1.b微调

新手可以忽略并跳过。

1.c推理(也就是要的语音合成)

先点一下刷新模型,下拉选择模型推理,e代表轮数,s代表步数。不是轮数越高越好。选择好模型点开启TTS推理,自动弹出推理界面。如果没有弹出,复制。

开始推理

上传一段参考音频,建议选用数据集中的音频,时长约为5秒。参考音频非常关键,系统会根据该音频的语速和语气进行学习,因此需要特别认真地选择。参考音频的文本内容应与音频中的语音完全匹配,并且语种必须一致。在0217版本之后,虽然支持选择无参考文本模式,但强烈不建议使用,因为效果较差。参考音频是必须的,无论是什么情况,都不应忽略。

最后!工作完成后,记得回到控制台关机:

三、用途与风险

语音合成的用途有很多,主要的总结起来有这几个:

1.个性化的客服和语言助手,目前的AI客服的语音一般都是一个语调,如果你想让你公司的自动客服没有那么单调,可以试一试自己训练的个性化自动语音客服。个性化语音助手目前市面上比较多的是各类导航软件的个性语音导航包,个性化的声音能让你的客户耳目一新。

其他的使用还包括语音学习,克隆历史人物语言用于教学等方面。

存在分风险:

和肖像权不同,语音权的立法和人们的认识都很大的差距。而真假难辨的语言合成技术被很多的诈骗分子利用,编造一些虚假的信息骗取亲人的财产。

因此,我们在使用AI语音克隆技术时,不但要提高警惕意识,还要对技术保有敬畏,合理的使用相关的技术。

文章版权声明:除非注明,否则均为纵投光影网原创文章,转载或复制请以超链接形式并注明出处。

上一个 私房钱花值了没?宝华B&W Pi7 S2 蓝牙真无线主动降噪耳机测评报告

下一个 枯木逢春——记老机改造升级硬盘焕发新春