sovit-4.0 合成音乐模型

sovit-4.0 合成音乐模型

2023年09月13日 658 字大概 2 分钟

Sovits模型介绍

So-vits-svc（也称Sovits）是由是中国民间歌声合成爱好者Rcell基于VITS、soft-vc、VISinger2等一系列项目开发的一款开源免费AI语音转换软件，通过SoftVC内容编码器提取源音频语音特征，与F0同时输入VITS替换原本的文本输入达到歌声转换的效果
介绍视频（关注这个up谢谢喵😋）：

具体使用方法视频中已经写的很清楚了，这里讲一下我使用此模型的经验：

训练集起码需要20分钟才能有相对比较好的效果
参数中可以调整每多少个epoch输出一次模型，如果你的数据集过小，请把输出的epoch数也改小（比如调成200），防止过拟合
这个模型跑的真的很慢，并且很耗算力，碰到迟迟不输出不要着急，等一会再看看有没有输出结果
数据集过小非常容易过拟合，如果你的数据集只有5~10分钟，那么epoch为200时效果应该是最好的，请感谢强大的底模
最好部署在云端跑项目，现行电脑跑这个模型是比较吃力的

大家可以用这个网站体验一下Sovits模型的效果：网站链接，传入20s内的音频，可以转成网站内置的角色音色~~不要问为什么都是赛马娘角色~~
我利用这个模型训练了一个高桥李依的音色，训练集1小时，800epoch

可以听出很明显的李依李个人音色，但是训练效果算不上好，主要是当时模型刚刚出来，没有均值滤波等功能，容易出现气声，加上我epoch确实跑的太少了，后续羽毛布团大佬经过改进，我们已经可以完成不错的声音训练了
我使用一个同学的几段录音文稿，数据集7分钟左右，训练了200epoch的模型，并套在春物主题曲上，使用au和原声合成~~这位同学很满意~~

在数据集较小的情况下，不要训练太多次数，7~8轮已经很够了，不然你会听到大量的电音~~中国有嘻哈~~

本文作者：kalipolis
本文链接：https://kalipolis.gitee.io/2023/09/13/sovit-4-0-合成音乐模型/
版权声明：本文采用 CC BY-NC-SA 3.0 CN 协议进行许可

整活 blog sovit