賀水鄉！將AI進行到底，【Perfect】與AI對對碰 + AI替聲教學幹貨

來源: 白宮發言人於 2024-01-19 18:17:47 [檔案] [舊帖] [給我悄悄話] 閱讀數 : (30589 bytes)

恭喜水鄉榮任版主
新春對對碰，何不與自己的AI碰一碰

01. 真人 and AI 對唱
02. AI 仿聲獨唱
03. 真人獨唱
04. 這個最牛叉 - Ed Sheeran的原唱

00:00

如果您是電腦小白，對電腦一無所知，謝謝聽歌。請點讚並退出
你可能會問，全民還有大把平台提供AI仿聲，點解還要費勁巴拉自己整。。別急，把整篇讀完再問不遲。。不過這幹貨啊通常都是裹腳布

下麵是幹貨，如何用你的聲紋替換大明星們的原唱 - 完全免費，完全免費，完全免費
首先你得有台電腦，配備Nvidia或AMD或Intel的顯卡。
下載Retrieval-based-Voice-Conversion-WebUI軟件:
用Nvidia顯卡的用以下鏈接：
https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/RVC1006Nvidia.7z
用AMD或Intel的用以下鏈接：
https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/RVC1006AMD_Intel.7z
文件較大，解壓後大概10G+。然後用command line/終端窗口進入該解壓目錄並運行一個叫“go-web.bat”的程序，整個過程不要關閉此終端窗口：

稍等片刻係統會打開這個界麵，就可以開始操作了：

界麵看似複雜，上方一共有6個子界麵，我們隻需要用到前3個。

在開始訓練AI之前，你首先要準備足夠的個人幹聲，10-50分鍾的純淨幹聲 - 沒有配樂，沒有混響的那種，可以是你以前錄歌時的幹聲。如果你天生五音不全，也沒關係，毛語錄或習思想，念個二三十分鍾就成。然後把幹聲文件放在一個文件夾下，下麵的步驟會用到。這些文件可以是一個個單獨文件，也可以把這些單獨文件拚接成一個大文件，大小及形式（mp3/wav）不限 - 例如，我把我的幹聲拚接成一個文件，並放在C:\Users\click\Downloads\RVC\myvocal 文件夾下：

以上準備工作完成後，我們可以正式開工咧。

Step1. 想用AI幫你替換聲音，首先當然要訓練AI來提取你的聲紋特征，所以我們先點選第三個子界麵“Train/訓練”：
1a. 給這個聲優起個名字，比如"nidaye"。
1b. 輸入你存放幹聲的文件夾路徑。
1c. 點擊“Process data”, 稍等片刻右側“Output infomation”會顯示結果。
1d. 點擊“Feature extraction”, 稍等片刻右側“Output infomation”會顯示結果。
1e. 這個因人而異，訓練的世代“Epochs”越多，AI會對你的聲紋特質掌握的更精確，當然耗時也更長。“Batch size per GPU”通常是“8”，除非電腦配備高端GPU。
1f. 點擊“One click traing”。這一步耗時取決於上一步的Epoch數量，及電腦配置。我的筆電是i9 Gen13/128GB RAM/4090的頂配，200個Epochs耗時75分鍾；基於電腦配置，這一步AI學舌有可能耗時數小時，甚至整晚。

當你的終端窗口出現類似如下字樣時，恭喜你，你已經獲得了一隻用你的聲紋發音幾乎可以亂真的AI聲優咧。

Step2. 接下來就是取得目標歌手的原始幹聲。這一步可以通過第2子界麵所提供的工具來剝離原聲及伴奏音樂。網上也有不少免費的AI聲樂剝離服務，效果近似，所以我在這裏就不贅述。
然鵝，不論是本地或線上剝離的幹聲，或多或少都會有少許漏音，從而影響AI的替因效果。除非你是專業人士，否則很難去除這些漏音。那麽有什麽辦法可以獲取大牌歌手們的純淨幹聲呢？答案就是盡可能搜到他們的官方原聲。
許多大牌歌手在打歌同時會釋出錄音棚原聲，我們隻需要搜索“Studio Acapella”或者“Offical Acapella”就會跳出很多資源。這裏我們以歌手蕾哈娜為例：

我們下載她的“Don't stop the music”原聲。需要注意的是，大部分“studio acapella”是帶混響效果的，對AI來講帶混響的原聲會產生部分失真，所以最好是對歌手原聲進行去混響處理。但如果你對最後作品的要求不是很苛刻，可以省掉去混響的步驟，直接跳到Step 3。
下麵我簡單介紹下通過第2子界麵所提供的工具來去除混響。該界麵很簡單，包含需要被處理的原聲所在文件夾路徑，幹聲輸出路徑，伴奏輸出路徑，及工具包選項：HP2/HP3/HP5用於剝離聲音及伴奏，“onnx_dereverb"去混響，"VR-DeEchoAggressive"加強去回聲，"VR-DeEchoDeReverb"即去混響又去回聲，"VR-DeEchoNormal"普通去回聲。軟件作者建議是先“onnx_dereverb"去混響，再用"VR-DeEchoAggressive"加強去回聲。個人建議是每處理一次聽一下輸出的幹聲，如果覺得可接受，就沒必要再處理：

我對蕾哈娜的原聲隻做了"onnx_dereverb"去混響處理，效果聽起來是這樣滴：

我認為沒必要再處理，可以執行最後的Step3了。

Step3. 下麵就是用咱們剛剛馴化的AI聲優來替換蕾哈娜的環節，我們點選子界麵1，“Model Inference”：
3a. 刷新聲優目錄。
3b. 在下拉菜單中點選剛剛創建的聲優 - nidaye。
3c. 輸入經處理過的蕾哈娜幹聲的路徑。
3d. 在下拉菜單中點選nidaye相應的索引文件。
3e. 男替女通常得降12個key。
3f. 點擊“替換”

幾秒後，蕾哈娜就變成了你雷大爺