文|智東西 ZeR0
編輯|漠影
智東西2月24日報道,近年來,視頻換臉、合成語音、修復影像、虛擬數(shù)字人等越來越頻繁的出現(xiàn)在社交娛樂、影視制作、教育、廣告營銷等領(lǐng)域,發(fā)展出多元化的商業(yè)應(yīng)用。
這些應(yīng)用的背后,是深度合成技術(shù)在發(fā)揮作用。
深度合成技術(shù),是指用以深度學習、虛擬現(xiàn)實為代表的生成合成類算法,制作文本、圖像、音頻、視頻、虛擬場景等信息的技術(shù)。
而在使用需求不斷涌現(xiàn)的同時,部分惡意利用該技術(shù)生成的音視頻,如篡改人臉的色情視頻、偽造人臉視頻破解身份核驗等應(yīng)用,不僅給個人、企業(yè)造成了聲譽損害和財產(chǎn)損失,也對社會、國家安全造成威脅。
為了對人工智能和深度合成技術(shù)的健康發(fā)展提供參考和指引,清華大學人工智能研究院、北京瑞萊智慧科技有限公司、清華大學智媒研究中心、國家工業(yè)信息安全發(fā)展研究中心、北京市大數(shù)據(jù)中心近日聯(lián)合發(fā)布《深度合成十大趨勢報告(2022)》(以下簡稱《報告》)。
《報告》從技術(shù)研究、領(lǐng)域應(yīng)用、發(fā)展趨勢等多個方面,全面深入地介紹和研判深度合成技術(shù)及應(yīng)用帶來的機遇與挑戰(zhàn),并就其發(fā)展與治理給出切實可行的建議和措施。
01.落地多領(lǐng)域,深度合成內(nèi)容迎爆發(fā)式增長
深度合成的圖像、視頻、音頻、文本等內(nèi)容,例如熱門影視劇片段、話題明星的換臉視頻等等,具有極強的娛樂性與傳播性。
隨著技術(shù)日臻成熟,越來越多創(chuàng)作者在互聯(lián)網(wǎng)上發(fā)布和分享深度合成內(nèi)容,數(shù)量逐年高速增長。
《報告》顯示,在國內(nèi)外主流音視頻網(wǎng)站、社交媒體平臺上,2021年新發(fā)布的深度合成視頻數(shù)量較2017年已增長10倍以上。
其中,深度合成視頻數(shù)量最多的類型是影視音樂,涉及電影、電視劇、音樂等內(nèi)容;第二是科技教育,此類視頻關(guān)注對深度合成技術(shù)的講解和討論,分享最新的研究成果等。排名第三到第五的視頻類型分別是生活、娛樂和資訊類。
用流暢手語解說北京冬奧會谷愛凌奪冠的手語AI合成主播“小聰”、登上2021年央視春晚的虛擬偶像洛天依等虛擬數(shù)字人均應(yīng)用了深度合成技術(shù)。
在影視制作領(lǐng)域,深度合成技術(shù)已經(jīng)成為受劣跡藝人行為拖累的作品的救場工具,《長安十二時辰》、《光榮時代》等影視作品均采用這一技術(shù)。
與此同時,深度合成內(nèi)容的關(guān)注度也呈指數(shù)級增長,通過對互動數(shù)據(jù)進行統(tǒng)計,2021年新發(fā)布的深度合成視頻的點贊數(shù)已超過3億。
此前“英國女王發(fā)表圣誕賀詞”、“阿湯哥表演硬件魔術(shù)”等一系列深度合成視頻曾火爆“出圈”,引發(fā)平臺用戶大量熱討。
瑞萊智慧CEO田天表示,研究論文的持續(xù)增加、開源技術(shù)工具和大量代表性方法的涌現(xiàn),令深度合成內(nèi)容的效果更加逼真、制作也更加高效,尤其是生成對抗網(wǎng)絡(luò)(GAN)等算法的出現(xiàn),讓合成內(nèi)容達到了“真假難辨”的程度。
相關(guān)數(shù)據(jù)顯示,2017年以來深度合成領(lǐng)域的論文數(shù)量正持續(xù)增長。其中針對圖像類生成視頻的研究占比最高,達到64%,音頻和文本占比分別為12%和24%。
一些面向公眾開發(fā)的合成類產(chǎn)品也陸續(xù)推出,視頻、語音和文本形式的服務(wù)最為普遍。
例如支持風格定制的特效視頻制作軟件等風靡網(wǎng)絡(luò);語音方向衍生出了語音導航、有聲讀物、自動新聞播報等應(yīng)用;文本合成則在新聞報道、詩文創(chuàng)作、聊天問答等方面發(fā)揮著重要作用。
深度合成技術(shù)還極大地豐富了虛擬數(shù)字空間的信息內(nèi)容,為“元宇宙”等新商業(yè)思維提供支撐。
阿里巴巴安全感知與認知智能部負責人薛輝說,比如虛擬人、數(shù)字人即是深度合成的主要應(yīng)用,也是“元宇宙”的重要組成部分。
清華大學新聞與傳播學院常務(wù)副院長陳昌鳳認為,深度合成將重新定義虛擬數(shù)字化空間,從傳播社會學意義上看,一個新的人類生存場景將以深度合成技術(shù)為基石展開。
02.風險加劇,技術(shù)檢測成重要應(yīng)對舉措
深度合成激發(fā)了新內(nèi)容創(chuàng)造力的同時,也帶來了新的威脅。
2017年。名為“Deepfakes”的用戶利用深度合成技術(shù)制作的成人視頻在Reddit社區(qū)中瘋狂傳播,迫于公眾輿論壓力,Reddit網(wǎng)站將該用戶封號。
該用戶隨即在全球最大代碼開源平臺GitHub上公開了實現(xiàn)該技術(shù)的源代碼,瞬時引發(fā)了技術(shù)愛好者的廣泛關(guān)注與討論,并引爆了創(chuàng)造和豐富深度合成相關(guān)技術(shù)項目及代碼的風潮。
統(tǒng)計數(shù)據(jù)顯示,2017年以來,深度合成領(lǐng)域的開源項目發(fā)布數(shù)量持續(xù)增長。
以圖像、音頻、文本方向中具有代表性的5個開源項目(分別可實現(xiàn)面部替換、動作或表情操縱、圖像生成、聲音復刻、文本生成)為例,其Star數(shù)量在2021年均已突破1萬。
隨著技術(shù)普及,不法分子可輕易偽造音頻、視頻,實施誣陷、誹謗、詐騙、勒索等違法行為,甚至捏造國家政要言論擾亂社會與政治秩序。
例如在2018年4月,有技術(shù)團隊制作了美國前總統(tǒng)奧巴馬的換臉視頻,視頻中的假“奧巴馬”罵當時任美國總統(tǒng)的特朗普是“徹頭徹尾的白癡”。
2021年10月,安徽合肥警方曾查獲一起非法利用深度合成技術(shù)偽造手機用戶人臉動態(tài)視頻破解身份核驗,為黑灰產(chǎn)業(yè)提供注冊虛擬手機卡等技術(shù)支撐的案件。近年來,類似事件開始更多的進入公眾視野。
深度合成內(nèi)容模糊了真實和虛假的邊界,將對社會信任、媒體信任、政治信任產(chǎn)生巨大的影響。
陳昌鳳認為,虛假內(nèi)容的高難度甄別影響了事實核查的有效性,在社會重大事件或政治事件節(jié)點上,深度合成技術(shù)可能被用于操作輿論意見,借助社交媒體,使虛假信息短時間內(nèi)引發(fā)產(chǎn)生病毒式擴散,激化社會矛盾。
負面風險不斷加劇,如何有效甄別深度合成內(nèi)容就成為了關(guān)鍵,但隨著合成質(zhì)量的不斷提升,傳統(tǒng)基于生物特征的鑒別方式越來越難發(fā)揮作用。
在浙江大學網(wǎng)絡(luò)空間安全學院院長任奎看來,目前對深度合成的檢測主要依賴于人工智能模型,依賴于訓練數(shù)據(jù)的完備性,包括檢測器泛用性低、公開數(shù)據(jù)集適用性、數(shù)據(jù)敏感等,這些都將帶來諸多挑戰(zhàn)。
中國工程院院士鄔賀銓認為,深度合成的治理有兩項要點。第一,要持續(xù)發(fā)展技術(shù),不能“一刀切”地禁止,避免阻礙正向應(yīng)用與創(chuàng)新。第二,衍生出的安全問題要從源頭上解決,利用技術(shù)創(chuàng)新、技術(shù)對抗等方式,持續(xù)提升和迭代檢測技術(shù)的能力。
田天也談道,新型偽造方法層出不窮、網(wǎng)絡(luò)傳播環(huán)境的日趨復雜,加上基于檢測算法存在漏洞缺陷等,反深偽檢測技術(shù)面臨“強對抗性”,需要持續(xù)更新與迭代。
《報告》顯示,目前學術(shù)界和產(chǎn)業(yè)界均已對反深偽檢測投入了大量研究,Meta、谷歌、微軟等機構(gòu)均推出了深度合成視頻認證的方法或產(chǎn)品。
在國內(nèi),清華大學、中科大等高校在深度偽造內(nèi)容檢測方面取得顯著成果。
清華大學孵化團隊瑞萊智慧RealAI、騰訊優(yōu)圖實 驗室等企業(yè)機構(gòu)已構(gòu)建人臉合成檢測平臺并發(fā)布針對性的檢測產(chǎn)品,支持對多種換臉方法進行檢測。例如,瑞萊智慧推出的深度偽造內(nèi)容檢測平臺DeepReal擁有工業(yè)級的檢測性能和應(yīng)對實網(wǎng)環(huán)境對抗變化的檢測能力。
清華大學人工智能研究院基礎(chǔ)理論研究中心主任朱軍認為,深度合成檢測面臨持續(xù)的攻防和博弈,未來還需融合多模態(tài)內(nèi)容的取證分析、基于數(shù)字水印的溯源技術(shù)等多方面能力,實現(xiàn)精準識別。
03.構(gòu)建多維度治理機制,引導技術(shù)良性發(fā)展
深度合成技術(shù)的良性發(fā)展,離不開多維度治理機制的探索。
《報告》顯示,除了發(fā)展深度偽造內(nèi)容檢測技術(shù)以外,近幾年來,針對深度合成技術(shù)惡意使用所帶來的挑戰(zhàn),世界各國紛紛出臺相關(guān)法律法規(guī),探索深度合成的治理路徑。
國際方面,美國從聯(lián)邦和州層面進行專門立法,歐盟將深度合成納入《通用數(shù)據(jù)保護條例(GDPR)》等現(xiàn)有法律框架規(guī)制。此外,德國、新加坡、英國、韓國等國家,均有適用于深度合成技術(shù)相關(guān)犯罪案件審理的法律法規(guī)。
我國也在積極探尋有效的治理機制。
2019年11月起先后出臺的《網(wǎng)絡(luò)音視頻信息服務(wù)管理規(guī)定》、《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》、《中華人民共和國民法典》、《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》,均對生成合成類內(nèi)容等提出了不同程度的監(jiān)管要求。
今年1月,國家網(wǎng)信辦公布了《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定(征求意見稿)》,對深度合成內(nèi)容的用途、標記、使用范圍以及濫用處罰作出了具體規(guī)定。
對于深度合成內(nèi)容治理路徑的探索,陳昌鳳認為可以從技術(shù)、倫理與法制等幾個方面努力,技術(shù)方面,通過政府與社會組織參與、協(xié)同治理;倫理方面,確立和倡導相關(guān)的深度合成原則。
中國社科院哲學所科技哲學研究室主任段偉文建議,對深度合成技術(shù)引發(fā)的社會、法律和倫理問題,應(yīng)展開有系統(tǒng)性、前瞻性的跨學科研究,對其可能出現(xiàn)的高風險應(yīng)用場景,進行有針對性的治理與監(jiān)管。
中科院自動化所研究員、聯(lián)合國教科文組織AI倫理特設(shè)專家組專家曾毅則倡導產(chǎn)研發(fā)展自律自治,在他看來,在法律法規(guī)不完全成熟及體系化之前,產(chǎn)業(yè)界自身應(yīng)強化“理論先行”意識,作為產(chǎn)業(yè)共同體共同防范濫用、嚴禁惡用。
對外經(jīng)濟貿(mào)易大學法學院副教授許可談道,社會層面應(yīng)加大宣傳普及力度,強化公民對深度合成等人工智能技術(shù)的認識,提高全社會的防范意識,推動公民作為負責任的深度合成技術(shù)的使用者,主動標識合成內(nèi)容并積極踐行社會監(jiān)督。
對此,田天也有類似的觀點,深度偽造的本質(zhì)問題是透明度不足,因此提高公眾對深度合成技術(shù)的認知尤為重要,只有將門檻降低到所有受眾能夠在共同的框架下去認識、討論、理解這個問題的時候,深度合成技術(shù)才能健康良性發(fā)展。
04.結(jié)語:深度合成急需有法可依
總體來看,隨著深度合成技術(shù)逐漸成熟,合成過程更加高效、內(nèi)容更為逼真,越來越多的相關(guān)正向應(yīng)用正產(chǎn)生豐富的商用價值。同時面對當前技術(shù)仍存在的不安全隱患,檢測深度偽造的技術(shù)還需持續(xù)研究與迭代。
《報告》提出建議,監(jiān)管部門需提前進行前瞻布局,在保護深度合成技術(shù)良性發(fā)展的基礎(chǔ)上,制訂針對不良深度合成引用的配套法規(guī),管理條例;同時各方應(yīng)與時俱進落實好新的規(guī)范要求,并在此前提下不斷追求技術(shù)突破,不斷開拓深度合成技術(shù)應(yīng)用場景,創(chuàng)立示范標桿,形成對人工智能行業(yè)整體的帶動效應(yīng),從而促進新技術(shù)的持續(xù)健康發(fā)展。