kalipolis
sovit-4.0 合成音乐模型

sovit-4.0 合成音乐模型

Sovits模型介绍

  • So-vits-svc(也称Sovits)是由是中国民间歌声合成爱好者Rcell基于VITS、soft-vc、VISinger2等一系列项目开发的一款开源免费AI语音转换软件,通过SoftVC内容编码器提取源音频语音特征,与F0同时输入VITS替换原本的文本输入达到歌声转换的效果
  • 介绍视频(关注这个up谢谢喵😋):
具体使用方法视频中已经写的很清楚了,这里讲一下我使用此模型的经验:
  1. 训练集起码需要20分钟才能有相对比较好的效果
  2. 参数中可以调整每多少个epoch输出一次模型,如果你的数据集过小,请把输出的epoch数也改小(比如调成200),防止过拟合
  3. 这个模型跑的真的很慢,并且很耗算力,碰到迟迟不输出不要着急,等一会再看看有没有输出结果
  4. 数据集过小非常容易过拟合,如果你的数据集只有5~10分钟,那么epoch为200时效果应该是最好的,请感谢强大的底模
  5. 最好部署在云端跑项目,现行电脑跑这个模型是比较吃力的
  • 大家可以用这个网站体验一下Sovits模型的效果:网站链接,传入20s内的音频,可以转成网站内置的角色音色不要问为什么都是赛马娘角色
  • 我利用这个模型训练了一个高桥李依的音色,训练集1小时,800epoch

        
  • 可以听出很明显的李依李个人音色,但是训练效果算不上好,主要是当时模型刚刚出来,没有均值滤波等功能,容易出现气声,加上我epoch确实跑的太少了,后续羽毛布团大佬经过改进,我们已经可以完成不错的声音训练了
  • 我使用一个同学的几段录音文稿,数据集7分钟左右,训练了200epoch的模型,并套在春物主题曲上,使用au和原声合成这位同学很满意

        
  • 在数据集较小的情况下,不要训练太多次数,7~8轮已经很够了,不然你会听到大量的电音中国有嘻哈
本文作者:kalipolis
本文链接:https://kalipolis.gitee.io/2023/09/13/sovit-4-0-合成音乐模型/
版权声明:本文采用 CC BY-NC-SA 3.0 CN 协议进行许可