sovit-4.0 合成音乐模型
Sovits模型介绍
- So-vits-svc(也称Sovits)是由是中国民间歌声合成爱好者Rcell基于VITS、soft-vc、VISinger2等一系列项目开发的一款开源免费AI语音转换软件,通过SoftVC内容编码器提取源音频语音特征,与F0同时输入VITS替换原本的文本输入达到歌声转换的效果
- 介绍视频(关注这个up谢谢喵😋):
具体使用方法视频中已经写的很清楚了,这里讲一下我使用此模型的经验:
- 训练集起码需要20分钟才能有相对比较好的效果
- 参数中可以调整每多少个epoch输出一次模型,如果你的数据集过小,请把输出的epoch数也改小(比如调成200),防止过拟合
- 这个模型跑的真的很慢,并且很耗算力,碰到迟迟不输出不要着急,等一会再看看有没有输出结果
- 数据集过小非常容易过拟合,如果你的数据集只有5~10分钟,那么epoch为200时效果应该是最好的,请感谢强大的底模
- 最好部署在云端跑项目,现行电脑跑这个模型是比较吃力的
- 大家可以用这个网站体验一下Sovits模型的效果:网站链接,传入20s内的音频,可以转成网站内置的角色音色
不要问为什么都是赛马娘角色
- 我利用这个模型训练了一个高桥李依的音色,训练集1小时,800epoch
- 可以听出很明显的李依李个人音色,但是训练效果算不上好,主要是当时模型刚刚出来,没有均值滤波等功能,容易出现气声,加上我epoch确实跑的太少了,后续羽毛布团大佬经过改进,我们已经可以完成不错的声音训练了
- 我使用一个同学的几段录音文稿,数据集7分钟左右,训练了200epoch的模型,并套在春物主题曲上,使用au和原声合成
这位同学很满意
- 在数据集较小的情况下,不要训练太多次数,7~8轮已经很够了,不然你会听到大量的电音
中国有嘻哈