小白教程 谨慎科学食用

本文所使用的网站&软件

素材收集

被AI者的声音素材

  • 因为被AI者母语不是中文,但演绎歌曲为中文,所以准备了4个3-10分钟的音频,分别是1个采访音频、2个唱歌音频(最好是Live版)、1个被AI者中文音频

演绎歌曲

  • 《最后一页》【最好不要合唱歌曲】

TIPS:Youtube或B站的视频不支持页面直接下载,可借用下面两个网站下载。
Youtube视频下载网站:https://yt1ss.pro/zh-cn199/
B站视频下载网站:https://snapany.com/zh/bilibili

音频分离

本教程使用的音频分离模型MSST-WebUI,是B站开源UP主花儿不哭基于原UVR5的基础融合迭代更新,是目前最新最有用的音频分离模型。

云端训练:Colab需要挂梯子且每天只能白嫖2小时,AutoDL网站的4090主机每小时2块钱左右。

Colab云端音频分离教程

第一步:打开WebUI界面。

  • 直接打开项目地址即可进入项目,登入Gmail邮箱帐号,其余内容参考MSST云端使用教程,逐一运行所有代码,点击出现的WebUI链接即可进入操作界面。

    PS:如果运行一次后WebUI界面不出现,重新再运行一次即可。两个压缩包input.zip和Outputs.zip需要上传在MyDrive下面(好像也可以不上传,反正我传了)

第二步:上传文件进行音频分离

MSST模型

  • 普通去除:Kim_MelBandRoformer + deverb_bs_roformer_8_256dim_8depth
  • 中间加入去和声模型使用模型(觉得普通去除不够好):Kim_MelBandRoformer + mel_band_roformer_karaoke_aufr33_viperx_sdr_10.1956 + deverb_bs_roformer_8_256dim_8depth
  • Select model category处选择对应的模型项目,Select Model处选择对应的模型。
  • Output format处可选择三种类型【wav高质但内存大(4分钟的歌曲70M左右),下载分离文件时会比较慢;mp3一般但内存小(4分钟的歌曲8M左右),flac暂时没试,建议选wav】
  • 点击Input audio将文件拖拽上传,点击音频分离。

第三步:下载分离好的音频

  • 完成后分离的音频会被放在WebUI的results下面,点击下载即可。

第四步:重复第二步第三步的步骤

  • 将上述第三步得到的人声音频重复第二步去和音去混响。若试听分离音频已经没有和音混音,则不需要进行分离,一般进行三次分离后就可以得到很干净的干声音频。

AutoDL云端音频分离教程

第一步:创建训练主机

  • 打开网站地址,选择一台空闲的主机,点击社区镜像,搜索框输入MSST后,选择其中一个【开源UP说哪个都可以,所以选了个最新的】,点击立即创建。

第二步:音频分离

  • 点击JupyterLab进入操作台,运行前面2段代码代开WebUI界面,后续操作与上述Colab一致,不再阐述。
  • 分离音频被放在autodl-tmp/MSST/results文件夹下。

    与Colab不同,分离音频无需重新下载上传步骤,后续音频清洗可直接将音频从results处粘到input处进行批量清洗。

花儿不哭说Colab平台上的代码是他自己维护的,但AutoDL平台社区镜像的代码不是他维护的,两边我都尝试了,目前都可以使用。

音频分离网站

MVSEP网

  • MVSEP网址:https://mvsep.com/zh/home
  • 该网址模型也很多,但是免费模型分离出来的音频杂音比较多,不够纯净。

Vocalremover网

模型训练

因目前收集的Colab平台模型代码bug比较多,模型训练及推理只在AutoDL平台进行。

AutoDL教程

第一步:创建主机

  • 选择一台空闲的主机,点击社区镜像,搜索框输入RVC后,选择RVC-Project的V4版本,点击立即创建。【V3和V4版本需要适配4090主机】

第二步:打开模型训练界面

  • 在终端输入命令打开训练界面:cd /root/Retrieval-based-Voice-Conversion-WebUI && python infer-web.py –port 6006

第三步:上传训练素材

  • 在界面创建一个名为train的文件夹,上传干声模型训练素材。

第四步:定义训练参数

  • 实验名可以自定义,输入训练文件路径/root/train
  • 修改总训练轮数&保存频率【此处将训练轮数定为200,保存频率为20,因为轮数比较少的时候模型还是会带点口音,开源UP主说十几分钟的素材200-300轮即可】
  • 最后点击一键训练,出现成功提示即可。

模型推理

  • 创建test文件夹,上传需要翻唱的歌曲干声素材
  • 推理页面输入干声文件路径,选择rmvpe格式,点击转换
  • 试听并点击下载推理结果

音频合成

安装破解版Au2025

  • 详细安装教程:https://mp.weixin.qq.com/s/ab8utKqmKHI6iQnKlZ276Q

    因为安装包中有破解补丁,所以安装前最好断网。其次,解压缩安装包后可能找不到破解补丁,应该是已经被系统的安全管家拦截,所以需要在 Windows安全中心-病毒和威胁防护-保护历史记录 中 查看以保护的威胁,将其进行还原。

合成音频

  • 将演绎的音频伴奏,AI推理结果拖入Au
  • 增加音频效果:效果-混响-室内混响;效果-滤波与均衡-参数均衡器-人声增强

AI翻唱效果

Taeyeon中文原声

训练了100步的模型推理音频

训练了200步的模型推理音频

Huggingface上别人训练的模型推理音频

整体音色上是有点像的,我自己训练的模型和Huggingface模型推理音频相比,我自己训练的模型好像音调要更尖一点,主要是训练素材不同,感觉是我的训练素材里面有首比较高音的歌。最后整体效果AI翻唱的声音感觉还是有点生硬,一方面是模型训练问题,也可能是最后合成音频的时候技术加工不够。