文 | 觀察未來科技
聲音是一個(gè)人獨(dú)特的標(biāo)識(shí),而在人工智能的快速發(fā)展下,這一獨(dú)特標(biāo)識(shí)卻又有了越來越多可代替的選項(xiàng)——語(yǔ)音合成作為人工智能的一個(gè)重要分支,旨在通過輸入文字,經(jīng)由人工智能的算法,合成像真人語(yǔ)音一樣自然的音頻。
現(xiàn)在,機(jī)器已經(jīng)可以輕松又準(zhǔn)確地模仿人類講話,并被廣泛的應(yīng)用于音視頻創(chuàng)作場(chǎng)景中,甚至機(jī)器也可以克隆特定人的聲音。給算法輸入某個(gè)人的一個(gè)聲音片段,算法會(huì)學(xué)習(xí)這個(gè)人的方式,然后再把這種說話方式跟其他的人聲相結(jié)合,不過問題或許也隨之而來。
語(yǔ)音合成還將超越預(yù)想
語(yǔ)音合成涉及創(chuàng)建特定的聲音模型,不僅可以將文字轉(zhuǎn)化成聲音,而且可以轉(zhuǎn)化為接近真人語(yǔ)調(diào)和節(jié)奏的聲音。語(yǔ)音合成雖然并不是一個(gè)新近的技術(shù),甚至已經(jīng)是一個(gè)廣泛應(yīng)用于各行各業(yè),以及出現(xiàn)在人們社會(huì)的生產(chǎn)和生活的技術(shù),但語(yǔ)音合成能帶來的未來,實(shí)際上仍然超越人們的想象。
語(yǔ)音合成應(yīng)用中最為人們所熟悉的就是人工智能的語(yǔ)音電話、語(yǔ)音導(dǎo)航、語(yǔ)音助手以及配音等。
比如,配音方面,在過去的幾十年里,許多經(jīng)典的 TVB 影視片都離不開配音。并且,動(dòng)漫等影視中最逼真的聲音合成,也大多通過配音演員的聲音錄制來實(shí)現(xiàn)的,然后將他們的聲音剪切成不同的片段,像做拼圖一樣,將這些聲音“拼接”在一起,形成一整段聲音。語(yǔ)音合成則讓昔日繁瑣且枯燥的配音工作有望被取代。配音將不再是專業(yè)人士的標(biāo)配,任何人都可以自主且簡(jiǎn)單地克隆自己的聲音,而克隆出來的聲音近乎逼真。
直到不久前,語(yǔ)音克隆,即過去所說的“語(yǔ)音銀行”,還只是個(gè)定制業(yè)務(wù),為那些有可能因癌癥或手術(shù)喪失語(yǔ)言能力的人服務(wù)。過去,模仿并合成語(yǔ)音耗時(shí)漫長(zhǎng),花費(fèi)不菲。過程中要錄制許多短句,每一句都要以不同的情感側(cè)重及根據(jù)不同的語(yǔ)境(陳述、疑問、命令等)重復(fù)多次,為的是涵蓋所有可能的發(fā)音。比利時(shí)語(yǔ)音銀行公司阿卡貝拉集團(tuán)(Acapela Group)對(duì)需耗時(shí)八小時(shí)的錄制過程收取3000歐元(3200美元)的費(fèi)用。其他公司收費(fèi)更高,還需要顧客在錄音室里花上好幾天的時(shí)間。
現(xiàn)在,神經(jīng)網(wǎng)絡(luò)可以對(duì)目標(biāo)聲音的未排序數(shù)據(jù)進(jìn)行訓(xùn)練,最終以簡(jiǎn)單快速、容易的方式,生成一段完整的音頻。當(dāng)人們將克隆的音頻從設(shè)備中導(dǎo)出時(shí),音色和音質(zhì)幾乎不會(huì)受到壓縮和影響。
不過,當(dāng)前人們所應(yīng)用或者預(yù)想的語(yǔ)音合成還只是語(yǔ)音合成的一部分場(chǎng)景,而放眼語(yǔ)音合成更廣闊的未來,還將成為人類一種全新的交流設(shè)備。
當(dāng)前,許多工程師都致力研發(fā)將人腦和電腦進(jìn)行聯(lián)系的精密系統(tǒng),并且這項(xiàng)工作也在不斷地改進(jìn)。盡管現(xiàn)在的系統(tǒng)主要是基于注視和視覺注意——這對(duì)于許多患者來說都很難做到,但是解碼聽覺注意和運(yùn)動(dòng)想象的系統(tǒng)也在不斷研發(fā)中。
未來,通過使用這樣的設(shè)備,一位四肢癱瘓的患者可以成功地用思維控制機(jī)械手臂。如果將這種裝置植入大腦的語(yǔ)言區(qū),或許有一天語(yǔ)音合成器就能把患者想說的話真實(shí)地傳遞出來。更進(jìn)一步說,完全癱瘓了的中風(fēng)患者或許能夠通過一部可以識(shí)別個(gè)體語(yǔ)言大腦模式的語(yǔ)音合成器“開口說話”。
2019年4月,加州大學(xué)舊金山分校的華裔教授愛德華·錢(Edward Chang)及同事開發(fā)出一種將腦活動(dòng)轉(zhuǎn)為語(yǔ)音的解碼器,這套人類語(yǔ)音合成系統(tǒng),通過解碼與人類下頜、喉頭、嘴唇和舌頭動(dòng)作相關(guān)的腦信號(hào),合成被試想要表達(dá)的語(yǔ)音。
可以說,過去人類聲音所到達(dá)的地方,現(xiàn)在語(yǔ)音合成都在一步步到達(dá),語(yǔ)音合成的應(yīng)用越發(fā)深入地融入人們的生產(chǎn)和生活,也在不經(jīng)意間改變著人們的生活。
關(guān)于真實(shí)的博弈
現(xiàn)在,幾近成熟的語(yǔ)音合成已經(jīng)可以輕松又準(zhǔn)確地模仿人類講話,不過問題或許也隨之而來。
2014 年,電影《永遠(yuǎn)的蝙蝠俠》中知名演員瓦爾·基爾默(Val Kilmer),因患喉癌被迫做氣管切開手術(shù),導(dǎo)致聲音受損。至此,瓦爾·基爾默與許多優(yōu)秀影片擦肩而過,演藝生涯近乎跌入谷底。而利用語(yǔ)音合成技術(shù)就能夠創(chuàng)造出了瓦爾·基爾默的“原聲”。2021年 8 月,一家名為奏鳴曲(Sonantic)的初創(chuàng)公司聲稱,他們已經(jīng)通過人工智能語(yǔ)音克隆技術(shù)創(chuàng)造出了瓦爾·基爾默的“原聲”。
這種聲音克隆技術(shù)使用起來并不復(fù)雜,人們只需要拿著事先準(zhǔn)備好的臺(tái)詞,對(duì)著麥克風(fēng)仔細(xì)錄制 30 分鐘左右,即可完成第一步克隆工序。錄制的過程中讀錯(cuò)字,或者有發(fā)音沒有很清晰等情況,只要停下來重新錄制這部分即可。
全部錄制完之后,將生成的音頻文件導(dǎo)出并做一定的處理,幾個(gè)小時(shí)以后人們克隆的聲音就做好了。此刻,人們可以互動(dòng)界面中輸入各種想表達(dá)話語(yǔ),人工智能克隆技術(shù)就可以在較短的時(shí)間內(nèi)生成專屬自己的“逼真聲音”。
巴黎一家新公司CandyVoice開發(fā)了一款手機(jī)應(yīng)用,只要對(duì)著它說出約160個(gè)法語(yǔ)或英語(yǔ)短語(yǔ),程序就能將這些發(fā)音的片段重組,念出之后打字輸入的任何字句,聽起來和我們自己的聲音頗為神似。這個(gè)應(yīng)用其實(shí)是克隆了我們的語(yǔ)音。拼合出的語(yǔ)音聽起來還是有點(diǎn)合成的味道,但CandyVoice的老板讓·呂克·克萊伯(Jean-Luc Crébouw)認(rèn)為,公司算法的改進(jìn)會(huì)令聲音變得越來越自然。
此外還有一款類似的軟件Festvox,由卡內(nèi)基梅隆大學(xué)的語(yǔ)言技術(shù)研究所針對(duì)英語(yǔ)及四種廣泛使用的印度語(yǔ)言開發(fā)。而百度則表示,其開發(fā)的軟件僅憑50句話就可以模擬一個(gè)人的聲音。
不過,在越來越逼真的語(yǔ)音合成下,也出現(xiàn)了越來越多的擔(dān)憂和質(zhì)疑——假的東西越真,辨別假的成本也越大。從語(yǔ)音合成到視頻合成,其中一個(gè)嚴(yán)重后果,就是對(duì)于信息的真實(shí)性形成的嚴(yán)峻挑戰(zhàn)。
自從攝影術(shù)、視頻、射線掃描技術(shù)出現(xiàn)以來,視覺文本的客觀性就在法律、新聞以及其他社會(huì)領(lǐng)域被慢慢建立起來,成為真相的存在,或者說,是建構(gòu)真相的最有力證據(jù)?!把垡姙閷?shí)”成為這一認(rèn)識(shí)論權(quán)威的最通俗表達(dá)。在這個(gè)意義上,視覺客觀性產(chǎn)自一種特定的專業(yè)權(quán)威體制,聲音更是作為一個(gè)人獨(dú)特的標(biāo)識(shí)存在。
然而,合成的技術(shù)優(yōu)勢(shì)和游獵特征,使得這一專業(yè)權(quán)威體制遭遇前所未有的挑戰(zhàn)。借助這一體制生產(chǎn)的視覺文本,深度造假者替換了不同乃至相反的文本內(nèi)容和意涵,造成了文本的自我顛覆,也就從根本上顛覆了這一客觀性或者真相的生產(chǎn)體制。PS 發(fā)明后,有圖不再有真相;而深度偽造技術(shù)的出現(xiàn),則讓視頻也開始變得鏡花水月了起來,再加上聲音也不再可信,這對(duì)于本來就假消息滿天飛的互聯(lián)網(wǎng)來說,這無(wú)疑會(huì)造成進(jìn)一步的信任崩壞。
比如,2021年,一位銀行經(jīng)理接到公司董事打來的電話:公司安排了一項(xiàng)收購(gòu),要從賬戶里轉(zhuǎn)出巨額資金,希望他批準(zhǔn)這道流程,還附上了相關(guān)律師的電子郵件,以確認(rèn)金額和轉(zhuǎn)入賬戶。
這次交易合法合規(guī),流程也并無(wú)問題,況且還是老板親自打的電話,他就按要求將3500萬(wàn)美元如數(shù)轉(zhuǎn)出。直到轉(zhuǎn)完賬之后,這位迪拜高管也萬(wàn)萬(wàn)沒有想到,電話那頭熟悉的老板的聲音,其實(shí)是用語(yǔ)音克隆技術(shù)合成的。這樁詐騙案由福布斯報(bào)道,但受害者的名字和其他更多細(xì)節(jié)沒有透露。據(jù)估計(jì),這項(xiàng)精密的計(jì)劃至少涉及17人,自去年年初,騙取的資金已經(jīng)發(fā)往全球各地的銀行賬戶。
總的來說,語(yǔ)音合成的可能性真實(shí)存在,也被人們清晰地看見,但語(yǔ)音合成的風(fēng)險(xiǎn)也需要人們重視——要知道,一個(gè)失去了“真實(shí)感”的世界,將會(huì)比沒有語(yǔ)音合成的世界更加可怕。