洋老外米糕国产一区二区,花季传染媒,国产精品厕所偷窥盗摄

文 | 觀察未來科技

聲音是一個人獨特的標(biāo)識，而在人工智能的快速發(fā)展下，這一獨特標(biāo)識卻又有了越來越多可代替的選項——語音合成作為人工智能的一個重要分支，旨在通過輸入文字，經(jīng)由人工智能的算法，合成像真人語音一樣自然的音頻。

現(xiàn)在，機(jī)器已經(jīng)可以輕松又準(zhǔn)確地模仿人類講話，并被廣泛的應(yīng)用于音視頻創(chuàng)作場景中，甚至機(jī)器也可以克隆特定人的聲音。給算法輸入某個人的一個聲音片段，算法會學(xué)習(xí)這個人的方式，然后再把這種說話方式跟其他的人聲相結(jié)合，不過問題或許也隨之而來。

語音合成還將超越預(yù)想

語音合成涉及創(chuàng)建特定的聲音模型，不僅可以將文字轉(zhuǎn)化成聲音，而且可以轉(zhuǎn)化為接近真人語調(diào)和節(jié)奏的聲音。語音合成雖然并不是一個新近的技術(shù)，甚至已經(jīng)是一個廣泛應(yīng)用于各行各業(yè)，以及出現(xiàn)在人們社會的生產(chǎn)和生活的技術(shù)，但語音合成能帶來的未來，實際上仍然超越人們的想象。

語音合成應(yīng)用中最為人們所熟悉的就是人工智能的語音電話、語音導(dǎo)航、語音助手以及配音等。

比如，配音方面，在過去的幾十年里，許多經(jīng)典的 TVB 影視片都離不開配音。并且，動漫等影視中最逼真的聲音合成，也大多通過配音演員的聲音錄制來實現(xiàn)的，然后將他們的聲音剪切成不同的片段，像做拼圖一樣，將這些聲音“拼接”在一起，形成一整段聲音。語音合成則讓昔日繁瑣且枯燥的配音工作有望被取代。配音將不再是專業(yè)人士的標(biāo)配，任何人都可以自主且簡單地克隆自己的聲音，而克隆出來的聲音近乎逼真。

直到不久前，語音克隆，即過去所說的“語音銀行”，還只是個定制業(yè)務(wù)，為那些有可能因癌癥或手術(shù)喪失語言能力的人服務(wù)。過去，模仿并合成語音耗時漫長，花費(fèi)不菲。過程中要錄制許多短句，每一句都要以不同的情感側(cè)重及根據(jù)不同的語境（陳述、疑問、命令等）重復(fù)多次，為的是涵蓋所有可能的發(fā)音。比利時語音銀行公司阿卡貝拉集團(tuán)（Acapela Group）對需耗時八小時的錄制過程收取3000歐元（3200美元）的費(fèi)用。其他公司收費(fèi)更高，還需要顧客在錄音室里花上好幾天的時間。

現(xiàn)在，神經(jīng)網(wǎng)絡(luò)可以對目標(biāo)聲音的未排序數(shù)據(jù)進(jìn)行訓(xùn)練，最終以簡單快速、容易的方式，生成一段完整的音頻。當(dāng)人們將克隆的音頻從設(shè)備中導(dǎo)出時，音色和音質(zhì)幾乎不會受到壓縮和影響。

不過，當(dāng)前人們所應(yīng)用或者預(yù)想的語音合成還只是語音合成的一部分場景，而放眼語音合成更廣闊的未來，還將成為人類一種全新的交流設(shè)備。

當(dāng)前，許多工程師都致力研發(fā)將人腦和電腦進(jìn)行聯(lián)系的精密系統(tǒng)，并且這項工作也在不斷地改進(jìn)。盡管現(xiàn)在的系統(tǒng)主要是基于注視和視覺注意——這對于許多患者來說都很難做到，但是解碼聽覺注意和運(yùn)動想象的系統(tǒng)也在不斷研發(fā)中。

未來，通過使用這樣的設(shè)備，一位四肢癱瘓的患者可以成功地用思維控制機(jī)械手臂。如果將這種裝置植入大腦的語言區(qū)，或許有一天語音合成器就能把患者想說的話真實地傳遞出來。更進(jìn)一步說，完全癱瘓了的中風(fēng)患者或許能夠通過一部可以識別個體語言大腦模式的語音合成器“開口說話”。

2019年4月，加州大學(xué)舊金山分校的華裔教授愛德華·錢（Edward Chang）及同事開發(fā)出一種將腦活動轉(zhuǎn)為語音的解碼器，這套人類語音合成系統(tǒng)，通過解碼與人類下頜、喉頭、嘴唇和舌頭動作相關(guān)的腦信號，合成被試想要表達(dá)的語音。

可以說，過去人類聲音所到達(dá)的地方，現(xiàn)在語音合成都在一步步到達(dá)，語音合成的應(yīng)用越發(fā)深入地融入人們的生產(chǎn)和生活，也在不經(jīng)意間改變著人們的生活。

關(guān)于真實的博弈

現(xiàn)在，幾近成熟的語音合成已經(jīng)可以輕松又準(zhǔn)確地模仿人類講話，不過問題或許也隨之而來。

2014 年，電影《永遠(yuǎn)的蝙蝠俠》中知名演員瓦爾·基爾默（Val Kilmer），因患喉癌被迫做氣管切開手術(shù)，導(dǎo)致聲音受損。至此，瓦爾·基爾默與許多優(yōu)秀影片擦肩而過，演藝生涯近乎跌入谷底。而利用語音合成技術(shù)就能夠創(chuàng)造出了瓦爾·基爾默的“原聲”。2021年 8 月，一家名為奏鳴曲（Sonantic）的初創(chuàng)公司聲稱，他們已經(jīng)通過人工智能語音克隆技術(shù)創(chuàng)造出了瓦爾·基爾默的“原聲”。

這種聲音克隆技術(shù)使用起來并不復(fù)雜，人們只需要拿著事先準(zhǔn)備好的臺詞，對著麥克風(fēng)仔細(xì)錄制 30 分鐘左右，即可完成第一步克隆工序。錄制的過程中讀錯字，或者有發(fā)音沒有很清晰等情況，只要停下來重新錄制這部分即可。

全部錄制完之后，將生成的音頻文件導(dǎo)出并做一定的處理，幾個小時以后人們克隆的聲音就做好了。此刻，人們可以互動界面中輸入各種想表達(dá)話語，人工智能克隆技術(shù)就可以在較短的時間內(nèi)生成專屬自己的“逼真聲音”。

巴黎一家新公司CandyVoice開發(fā)了一款手機(jī)應(yīng)用，只要對著它說出約160個法語或英語短語，程序就能將這些發(fā)音的片段重組，念出之后打字輸入的任何字句，聽起來和我們自己的聲音頗為神似。這個應(yīng)用其實是克隆了我們的語音。拼合出的語音聽起來還是有點合成的味道，但CandyVoice的老板讓·呂克·克萊伯（Jean-Luc Crébouw）認(rèn)為，公司算法的改進(jìn)會令聲音變得越來越自然。

此外還有一款類似的軟件Festvox，由卡內(nèi)基梅隆大學(xué)的語言技術(shù)研究所針對英語及四種廣泛使用的印度語言開發(fā)。而百度則表示，其開發(fā)的軟件僅憑50句話就可以模擬一個人的聲音。

不過，在越來越逼真的語音合成下，也出現(xiàn)了越來越多的擔(dān)憂和質(zhì)疑——假的東西越真，辨別假的成本也越大。從語音合成到視頻合成，其中一個嚴(yán)重后果，就是對于信息的真實性形成的嚴(yán)峻挑戰(zhàn)。

自從攝影術(shù)、視頻、射線掃描技術(shù)出現(xiàn)以來，視覺文本的客觀性就在法律、新聞以及其他社會領(lǐng)域被慢慢建立起來，成為真相的存在，或者說，是建構(gòu)真相的最有力證據(jù)?！把垡姙閷崱背蔀檫@一認(rèn)識論權(quán)威的最通俗表達(dá)。在這個意義上，視覺客觀性產(chǎn)自一種特定的專業(yè)權(quán)威體制，聲音更是作為一個人獨特的標(biāo)識存在。

然而，合成的技術(shù)優(yōu)勢和游獵特征，使得這一專業(yè)權(quán)威體制遭遇前所未有的挑戰(zhàn)。借助這一體制生產(chǎn)的視覺文本，深度造假者替換了不同乃至相反的文本內(nèi)容和意涵，造成了文本的自我顛覆，也就從根本上顛覆了這一客觀性或者真相的生產(chǎn)體制。PS 發(fā)明后，有圖不再有真相；而深度偽造技術(shù)的出現(xiàn)，則讓視頻也開始變得鏡花水月了起來，再加上聲音也不再可信，這對于本來就假消息滿天飛的互聯(lián)網(wǎng)來說，這無疑會造成進(jìn)一步的信任崩壞。

比如，2021年，一位銀行經(jīng)理接到公司董事打來的電話：公司安排了一項收購，要從賬戶里轉(zhuǎn)出巨額資金，希望他批準(zhǔn)這道流程，還附上了相關(guān)律師的電子郵件，以確認(rèn)金額和轉(zhuǎn)入賬戶。

這次交易合法合規(guī)，流程也并無問題，況且還是老板親自打的電話，他就按要求將3500萬美元如數(shù)轉(zhuǎn)出。直到轉(zhuǎn)完賬之后，這位迪拜高管也萬萬沒有想到，電話那頭熟悉的老板的聲音，其實是用語音克隆技術(shù)合成的。這樁詐騙案由福布斯報道，但受害者的名字和其他更多細(xì)節(jié)沒有透露。據(jù)估計，這項精密的計劃至少涉及17人，自去年年初，騙取的資金已經(jīng)發(fā)往全球各地的銀行賬戶。

總的來說，語音合成的可能性真實存在，也被人們清晰地看見，但語音合成的風(fēng)險也需要人們重視——要知道，一個失去了“真實感”的世界，將會比沒有語音合成的世界更加可怕。

文 | 觀察未來科技

語音合成還將超越預(yù)想

語音合成應(yīng)用中最為人們所熟悉的就是人工智能的語音電話、語音導(dǎo)航、語音助手以及配音等。

關(guān)于真實的博弈

現(xiàn)在，幾近成熟的語音合成已經(jīng)可以輕松又準(zhǔn)確地模仿人類講話，不過問題或許也隨之而來。

自從攝影術(shù)、視頻、射線掃描技術(shù)出現(xiàn)以來，視覺文本的客觀性就在法律、新聞以及其他社會領(lǐng)域被慢慢建立起來，成為真相的存在，或者說，是建構(gòu)真相的最有力證據(jù)。“眼見為實”成為這一認(rèn)識論權(quán)威的最通俗表達(dá)。在這個意義上，視覺客觀性產(chǎn)自一種特定的專業(yè)權(quán)威體制，聲音更是作為一個人獨特的標(biāo)識存在。

歷史搜索全部刪除

熱門搜索

越真實的語音合成，越會面臨的問題是什么？

語音合成還將超越預(yù)想

關(guān)于真實的博弈

評論

越真實的語音合成，越會面臨的問題是什么？

語音合成還將超越預(yù)想

關(guān)于真實的博弈

越真實的語音合成，越會面臨的問題是什么？

語音合成還將超越預(yù)想

關(guān)于真實的博弈

評論

越真實的語音合成，越會面臨的問題是什么？

語音合成還將超越預(yù)想

關(guān)于真實的博弈

越真實的語音合成，越會面臨的問題是什么？

越真實的語音合成，越會面臨的問題是什么？