低配置电脑AI翻唱全教程

小白教程谨慎科学食用

本文所使用的网站&软件

音乐免费下载平台（MyFreeMP3）：https://www.myfreemp3.com.cn/
Google的Colab实验平台：https://colab.research.google.com/
AutoDL算力平台：https://www.autodl.com/
Adobe Audition 2025版

素材收集

被AI者的声音素材

因为被AI者母语不是中文，但演绎歌曲为中文，所以准备了4个3-10分钟的音频，分别是1个采访音频、2个唱歌音频（最好是Live版）、1个被AI者中文音频

演绎歌曲

《最后一页》【最好不要合唱歌曲】

TIPS：Youtube或B站的视频不支持页面直接下载，可借用下面两个网站下载。
Youtube视频下载网站：https://yt1ss.pro/zh-cn199/
B站视频下载网站：https://snapany.com/zh/bilibili

音频分离

本教程使用的音频分离模型MSST-WebUI，是B站开源UP主花儿不哭基于原UVR5的基础融合迭代更新，是目前最新最有用的音频分离模型。

MSST-WebUI项目开源地址：https://github.com/SUC-DriverOld/MSST-WebUI
开源UP主超详细零帧起手教程：https://r1kc63iz15l.feishu.cn/wiki/JSp3wk7zuinvIXkIqSUcCXY1nKc

云端训练：Colab需要挂梯子且每天只能白嫖2小时，AutoDL网站的4090主机每小时2块钱左右。

Colab云端音频分离教程

MSST云端使用教程：https://r1kc63iz15l.feishu.cn/wiki/IupAwjospiOQVLkQOsRcpGVznAg
Colab项目地址：https://colab.research.google.com/github/SUC-DriverOld/MSST-WebUI/blob/main/webUI_for_colab.ipynb

第一步：打开WebUI界面。

直接打开项目地址即可进入项目，登入Gmail邮箱帐号，其余内容参考MSST云端使用教程，逐一运行所有代码，点击出现的WebUI链接即可进入操作界面。

PS：如果运行一次后WebUI界面不出现，重新再运行一次即可。两个压缩包input.zip和Outputs.zip需要上传在MyDrive下面（好像也可以不上传，反正我传了）

第二步：上传文件进行音频分离

MSST模型

普通去除：Kim_MelBandRoformer + deverb_bs_roformer_8_256dim_8depth

中间加入去和声模型使用模型(觉得普通去除不够好)：Kim_MelBandRoformer + mel_band_roformer_karaoke_aufr33_viperx_sdr_10.1956 + deverb_bs_roformer_8_256dim_8depth

Select model category处选择对应的模型项目，Select Model处选择对应的模型。
Output format处可选择三种类型【wav高质但内存大(4分钟的歌曲70M左右)，下载分离文件时会比较慢；mp3一般但内存小（4分钟的歌曲8M左右），flac暂时没试，建议选wav】
点击Input audio将文件拖拽上传，点击音频分离。

第三步：下载分离好的音频

完成后分离的音频会被放在WebUI的results下面，点击下载即可。

第四步：重复第二步第三步的步骤

将上述第三步得到的人声音频重复第二步去和音去混响。若试听分离音频已经没有和音混音，则不需要进行分离，一般进行三次分离后就可以得到很干净的干声音频。

AutoDL云端音频分离教程

第一步：创建训练主机

打开网站地址，选择一台空闲的主机，点击社区镜像，搜索框输入MSST后，选择其中一个【开源UP说哪个都可以，所以选了个最新的】，点击立即创建。

第二步：音频分离

点击JupyterLab进入操作台，运行前面2段代码代开WebUI界面，后续操作与上述Colab一致，不再阐述。
分离音频被放在autodl-tmp/MSST/results文件夹下。

与Colab不同，分离音频无需重新下载上传步骤，后续音频清洗可直接将音频从results处粘到input处进行批量清洗。

花儿不哭说Colab平台上的代码是他自己维护的，但AutoDL平台社区镜像的代码不是他维护的，两边我都尝试了，目前都可以使用。

音频分离网站

MVSEP网

MVSEP网址：https://mvsep.com/zh/home
该网址模型也很多，但是免费模型分离出来的音频杂音比较多，不够纯净。

Vocalremover网

音频分离网站：https://vocalremover.org/zh/

模型训练

因目前收集的Colab平台模型代码bug比较多，模型训练及推理只在AutoDL平台进行。

AutoDL教程

第一步：创建主机

选择一台空闲的主机，点击社区镜像，搜索框输入RVC后，选择RVC-Project的V4版本，点击立即创建。【V3和V4版本需要适配4090主机】

第二步：打开模型训练界面

在终端输入命令打开训练界面：cd /root/Retrieval-based-Voice-Conversion-WebUI && python infer-web.py –port 6006

第三步：上传训练素材

在界面创建一个名为train的文件夹，上传干声模型训练素材。

第四步：定义训练参数

实验名可以自定义，输入训练文件路径/root/train
修改总训练轮数&保存频率【此处将训练轮数定为200，保存频率为20，因为轮数比较少的时候模型还是会带点口音，开源UP主说十几分钟的素材200-300轮即可】
最后点击一键训练，出现成功提示即可。

模型推理

创建test文件夹，上传需要翻唱的歌曲干声素材
推理页面输入干声文件路径，选择rmvpe格式，点击转换
试听并点击下载推理结果

音频合成

安装破解版Au2025

详细安装教程：https://mp.weixin.qq.com/s/ab8utKqmKHI6iQnKlZ276Q

因为安装包中有破解补丁，所以安装前最好断网。其次，解压缩安装包后可能找不到破解补丁，应该是已经被系统的安全管家拦截，所以需要在 Windows安全中心-病毒和威胁防护-保护历史记录中查看以保护的威胁，将其进行还原。