AI孫燕姿成今年爆火歌手,這一時代眼見不實,耳聽為虛
(圖片來源:攝圖網(wǎng))
作者|黃山明 來源|電子發(fā)燒友網(wǎng)(ID:elecfans)
就在近期,華語樂壇的不少歌迷喜氣洋洋,認為目前的歌壇回到了20年前,歌迷們又享受到了許多動聽的歌聲。不過與以往不同的是,這些演唱者并非真人,而是一個個訓練出來的AI。
這些AI足以以假亂真,通過技術(shù)將一首音樂以更換演唱者的方式來進行不同的演繹,不僅為歌壇帶來了不一樣的視聽體驗,同時也引發(fā)了行業(yè)對AI技術(shù)應(yīng)用的思考。在AI時代,我們的所見所聞,或許都是由AI創(chuàng)造的。
光怪陸離的AI時代
如今的網(wǎng)絡(luò)上有一個梗,要問今年哪個歌手最火,答案可能會出乎許多人意料,并不是某位歌手,而是一些由AI所制作出來的語音,如AI孫燕姿、AI周杰倫等。通過將原來歌手的聲音進行采集訓練,從而替換另一首歌的原唱。
通過這種方式,實現(xiàn)了讓自己喜歡的歌手唱另一首自己喜歡但非歌手的歌,比如用孫燕姿的聲音演唱周杰倫的《晴天》。關(guān)鍵在于,不論是演唱語調(diào)、技巧乃至音色,幾乎都與孫燕姿相差無幾。
實現(xiàn)這一技術(shù)目前已經(jīng)有一套標準流程,先通過收集大量的音樂和歌詞,并對這些數(shù)據(jù)進行清洗和標注,以便訓練算法和模型。再選擇合適的算法和模型,并進行優(yōu)化和調(diào)整,以提高虛擬人物的歌唱和表演能力。
通過語音合成技術(shù)將文字轉(zhuǎn)換為聲音,并對聲音進行處理和優(yōu)化,以達到更加自然和流暢的效果。最后將原來歌曲的聲音替換成語音合成的聲音,再進行調(diào)試,就能得到一首全新演唱的歌曲。
既然都已經(jīng)可以替換聲音演唱歌曲了,那么更進一步替換視頻畫面進行演繹也就不太難了。近期谷歌的I/O大會上,便公布了一項Universal Translator技術(shù),該工具旨在將視頻從一種語言翻譯成另一種語言,同時保留整體基調(diào)和氛圍。
這意味著該技術(shù)不僅可以將音頻從一種語言翻譯成另一種語言,還可以模仿說話者的聲音、語氣和面部表情,人物說話視頻會根據(jù)目標語言的發(fā)音同步改變口型。
當然,為了避免這項技術(shù)被用來制作虛假視頻,谷歌將這項技術(shù)只授權(quán)給少部分的合作廠商使用,普通人是無法接觸到的。但市場上如今已經(jīng)有許多類似的AI出現(xiàn),谷歌的此舉不過是略作限制,但無法阻止這股趨勢。
更有甚者,如一位美國網(wǎng)紅發(fā)布了AI版本的自己“Caryn AI”,這個應(yīng)用是一款聊天機器人,可以作為用戶的虛擬伴侶,目前正在內(nèi)部測試階段,每分鐘收費一美元。
據(jù)美國雜志《財富》披露,就在過去一周的時間內(nèi),這款軟件已經(jīng)為其創(chuàng)造了7.16萬美元(約合人民幣50萬元)的收入,已經(jīng)吸引了超過1000名付費粉絲。
這種模式或許也將沖擊未來的娛樂行業(yè),想象每一位追星的粉絲,只要付費,都將擁有與自己偶像一對一聊天的機會,其所創(chuàng)造的價值潛力將是巨大的。
但這種由AI所創(chuàng)造出來的音樂、視頻、伴侶或者偶像,真的可以提供人們所需要的情緒價值嗎?這是個值得思考的問題。
AI之后的隱憂
盡管這些AI應(yīng)用的落地前景非常誘人,比如采用AI替換歌曲中的聲音,就能夠?qū)崿F(xiàn)歌手只需要提供聲音的模板,便可以進行批量的音樂制作。甚至不用自己演唱,也能夠推行相關(guān)專輯。
技術(shù)上主要通過機器學習技術(shù),訓練機器模仿一個特定的歌手的音樂風格、聲音和唱腔,然后將這些技能應(yīng)用于其他歌曲的錄制中。這種技術(shù)在一定程度上提高了錄制歌曲的效率和質(zhì)量,并且可以節(jié)省制作成本。
但如果使用他人的聲音進行創(chuàng)作,就可能有侵權(quán)的風險。尤其在數(shù)據(jù)采集階段,以語音替換為例,首先需要收集大量的語音數(shù)據(jù),并對這些數(shù)據(jù)進行標注和處理。標注可以包括音素、語調(diào)、語速等信息,以便訓練模型能夠準確地識別和替換語音。
這一過程便可能涉及到對用戶隱私數(shù)據(jù)的采用,甚至對用戶的隱私和數(shù)據(jù)安全造成威脅,還有可能進一步造成財產(chǎn)安全。因為語音合成就可能被犯罪分子用于詐騙,通過合成親屬或者熟人的聲音來謀取資金。
如果用AI更改視頻畫面甚至進一步篡改其中的對話,則可能造成更多的風險。比如將會遇到即便是用視頻聊天,也無法確定對面的是不是真的想要聯(lián)系的那個人。這項技術(shù)目前甚至已經(jīng)應(yīng)用在許多的直播平臺中,比如一些虛擬主播、虛擬偶像等,如果一旦濫用,可能會造成更多的危害。
為了避免這一情況的發(fā)生,除了加強對AI技術(shù)的監(jiān)管,建立相應(yīng)的法律制度和規(guī)范,還可以通過一些技術(shù)手段來避免自身的數(shù)據(jù)被采集,從而造成侵權(quán)以及侵犯隱私的風險。比如采用區(qū)塊鏈技術(shù)來保護數(shù)據(jù)的安全性和隱私性,采用人工智能算法來檢測和識別惡意行為等手段。
以區(qū)塊鏈技術(shù)為例,其去中心化和不可變性特點能夠確保數(shù)據(jù)的安全和完整性,因此可以用于AI技術(shù)的安全驗證和認證。基于區(qū)塊鏈技術(shù),數(shù)據(jù)交互和交流的過程被保護,因此可以授權(quán)AI對數(shù)據(jù)的操作并確保AI數(shù)據(jù)訪問權(quán)限受到限制。
同時,區(qū)塊鏈技術(shù)還可以幫助人們更好地控制AI技術(shù)的使用,并提高AI的公正和透明性。例如,以基于區(qū)塊鏈技術(shù)的智能合約的方式來控制AI的使用,可以加強對AI系統(tǒng)的監(jiān)督,并確保其行為符合人類的期望和價值。
當然,區(qū)塊鏈技術(shù)還面臨著可擴展性、隱私保護等問題,同時在操作成本和技術(shù)難度方面也存在一定的限制,還無法完全避免AI濫用的問題。
我們還可以運用數(shù)字簽名技術(shù)檢測音頻和視頻是否被AI修改,數(shù)字簽名是指在文件中包含數(shù)字代碼的技術(shù),在將文件傳輸或轉(zhuǎn)發(fā)給其他人時,可以驗證文件的完整性和真實性?;蛘呤褂脵C器學習算法來檢測這些變化,例如,可以使用深度神經(jīng)網(wǎng)絡(luò)來對音頻或視頻進行分析,以檢測其中的模式和結(jié)構(gòu)是否與人類創(chuàng)作者的作品相似。如果發(fā)現(xiàn)有明顯的差異,則可能表明該作品是由AI生成的。
但隨著未來AI技術(shù)的發(fā)展,這些差異化和容易被檢測出來的問題都有可能被AI克服,使得我們最終很難分辨哪些產(chǎn)品是由AI制作,哪些才是由人所原創(chuàng)的。
寫在最后
隨著生成式AI技術(shù)的大爆發(fā),如ChatGPT、文心一言、訊飛星火等聊天機器人的出現(xiàn),讓人們工作效率得以極大地提高,Stable Diffusion、Midjourney等AI的出現(xiàn),讓圖片制作成本大幅降低,Universal Translator、Video Dubbing AI等,讓視頻也開始變得容易制作。
這些AI技術(shù)的出現(xiàn)顯然極大的解放了人們的生產(chǎn)力,讓人類發(fā)展走上快車道。當然有人會說以上這些AI都是通過收集大量數(shù)據(jù)之后,輸出縫合之后的產(chǎn)品,根本不能稱得上是原創(chuàng)。
但就像我們的學習過程一樣,最開始都是模仿,后來才開始擁有自己的獨立風格,但這些風格或多或少都會有之前學習過的影子,而這就是創(chuàng)造的過程,AI也是如此。
更值得關(guān)注的是,隨著AI技術(shù)的快速發(fā)展,其所帶來的風險也在與日俱增。如何更好的處理AI所引發(fā)的風險,將是我們未來所面對的主要問題。
編者按:本文轉(zhuǎn)載自微信公眾號:電子發(fā)燒友網(wǎng)(ID:elecfans),作者:黃山明
前瞻經(jīng)濟學人
專注于中國各行業(yè)市場分析、未來發(fā)展趨勢等。掃一掃立即關(guān)注。