文|觀察未來科技
就在這兩天,一直高歌前進的ChatGPT突然急轉直下,陷入了輿論之中。
上周末,先是意大利暫時封殺ChatGPT,限制OpenAI處理本國用戶信息。接著,據(jù)韓國媒體報道,三星導入ChatGPT不到20天,便曝出機密資料外泄。此后,又有消息傳出ChatGPT目前停止注冊,開始大面積封號,4月2日全面封亞洲登錄賬號。
關于ChatGPT的爭議還在繼續(xù),而接二連三的事件里——封殺、泄密、封號,都有一個共同的特征,就是涉及數(shù)據(jù)安全。實際上,ChatGPT走紅到今天,關于ChatGPT的數(shù)據(jù)安全一直是人們關心的一個問題,只是這一次,ChatGPT再也無法逃避關于數(shù)據(jù)保護的現(xiàn)實問題。
封殺、泄密、封號
意大利對于ChatGPT的封殺來得很突然。
3月31日,意大利個人數(shù)據(jù)保護局(Garante)于當?shù)貢r間 3 月 31 日宣布,即日起禁止使用聊天機器人 ChatGPT,并限制 OpenAl 處理意大利用戶信息。這是世界上第一個明令禁止“封殺”ChatGPT的西方國家。
做出這一限令的原因在于,意大利官方認為 OpenAI 沒有檢查 ChatGPT 用戶的年齡,這些用戶應該在 13 歲或以上,而且沒有就收集處理用戶信息進行告知,缺乏大量收集和存儲個人信息的法律依據(jù)。
事實也確實如此,ChatGPT并不冤枉。ChatGPT近期就出現(xiàn)了“用戶對話數(shù)據(jù)和付款服務支付信息丟失”的情況。這一消息也被OpenAI官方確認。
不僅如此,近期,ChatGPT在國際巨頭三星的應用上也出現(xiàn)了問題——三星引入ChatGPT不到20天,就爆出了3件半導體機密數(shù)據(jù)外泄,涉及半導體設備測量資料、產(chǎn)品良率等內容,網(wǎng)傳已經(jīng)被存入ChatGPT的數(shù)據(jù)庫中。
消息一經(jīng)發(fā)布立馬引發(fā)了各界熱議,韓媒方面甚至表示,因為三星員工直接將企業(yè)機密信息以提問的方式輸入到ChatGPT中,會導致相關內容進入學習數(shù)據(jù)庫,從而可能泄漏給更多人。據(jù)三星表示,為了避免這種情況再次發(fā)生,他們已經(jīng)告知員工謹慎使用ChatGPT。如果后面仍發(fā)生類似事故,將考慮禁止在公司內網(wǎng)上使用ChatGPT。
實際上,自從問世以來,人們對ChatGPT可能泄露企業(yè)數(shù)據(jù)的擔憂一直沒有聽停過。據(jù) Cyberhaven 統(tǒng)計結果顯示,近 160 萬名打工人中,有 8.2% 的員工在工作場所使用過它——許多人稱,因為使用 ChatGPT,他們的工作效率“提高了 10 倍”。同時,有 6.5% 的員工表示會將公司數(shù)據(jù)復制到 ChatGPT 中,更有 3.1% 的員工表示曾將公司的機密數(shù)據(jù)放入 ChatGPT。
與之相對應的,越來越多企業(yè)因擔心機密數(shù)據(jù)外泄,禁止員工訪問 ChatGPT還有摩根大通、美國銀行、花旗集團、高盛、德意志銀行等。近期軟銀也向全體員工通報了禁止向 ChatGPT 輸入機密信息等注意事項??雌饋?,ChatGPT提高工作效率是真的,但它會把對話內容作為訓練數(shù)據(jù)似乎也是真的。
就在ChatGPT遭遇封殺和泄密的同時,一場大規(guī)模的封號又忽然到來。4月2日,各個社交平臺都流傳著這樣的消息:ChatGPT官方大面積封號,尤其針對亞洲用戶。根據(jù)搜集反饋,并非所有賬號都受到影響:有些可以順利登錄,有些只能登錄手機端,有些手機和PC端都無法登錄。但ChatGPT的大規(guī)模封號行動似乎已經(jīng)開始了。據(jù)市場統(tǒng)計,已有數(shù)百萬用戶的賬號受到了影響。在新用戶注冊方面,目前注冊網(wǎng)頁已經(jīng)無法進入,更為關鍵的是很多收碼平臺近期已經(jīng)關閉。
不止ChatGPT,3 月 30 日,據(jù)外媒報道,當下最火的 AI 作畫神器 Midjourney也已暫停免費試用。其公司創(chuàng)始人兼 CEO David Holz 在采訪中表示,做出此舉的主要原因是新用戶的大量涌入。David Holz 在社交軟件 Discord 上發(fā)布消息時,提到了存在 “怪異需求和試用濫用”。
從封殺到泄密,再到封號,ChatGPT正在陷入一場又一場的爭議。
成于數(shù)據(jù),傷于數(shù)據(jù)
ChatGPT的成功,離不開大數(shù)據(jù)的幫助。ChatGPT模型使用從各種來源收集的大型對話數(shù)據(jù)集進行訓練,包括社交媒體、公共論壇以及其他我們暫未得知的渠道。龐大的數(shù)據(jù)訓練,才使得ChatGPT具有我們今天看到的優(yōu)秀性能。
但這也意味著,模型實際上在不斷地接觸各種對話,其中可能包含相關的敏感信息。每次升級都可能伴隨著新的對話和新的隱私泄露風險。為了保護數(shù)據(jù)安全,開發(fā)者必須采取措施確保用于訓練ChatGPT的數(shù)據(jù)隱私得到妥善保護。但現(xiàn)實卻并非如此。
ChatGPT引發(fā)的數(shù)據(jù)安全包括了三方面的隱患。首先就是ChatGPT獲取數(shù)據(jù)合法性的問題。訓練像ChatGPT這樣的大型語言模型需要海量自然語言數(shù)據(jù),其訓練數(shù)據(jù)的來源主要是互聯(lián)網(wǎng),但開發(fā)商OpenAI并沒有對數(shù)據(jù)來源做詳細說明,數(shù)據(jù)的合法性就成了一個問題。
歐洲數(shù)據(jù)保護委員會成員Alexander Hanff質疑,ChatGPT是一種商業(yè)產(chǎn)品,雖然互聯(lián)網(wǎng)上存在許多可以被訪問的信息,但從具有禁止第三方爬取數(shù)據(jù)條款的網(wǎng)站收集海量數(shù)據(jù)可能違反相關規(guī)定,不屬于合理使用。國際機器學習會議ICML表示,ChatGPT雖然接受公共數(shù)據(jù)的訓練,但這些數(shù)據(jù)通常是在未經(jīng)同意的情況下收集的。此外還要考慮到受GDPR等保護的個人信息,爬取這些信息并不合規(guī)。
其次,是ChatGPT使用過程造成的數(shù)據(jù)泄漏問題。目前ChatGPT對于用戶群體沒有多作篩選,滿足基本條件的都可以注冊成為用戶,而且用戶在使用ChatGPT前,亦不需要經(jīng)過特別的培訓,ChatGPT對于用戶的使用基本沒作限制。也就是說,用戶可以非常任意和開放地使用ChatGPT。
因此,用戶為了完成某項任務或達到某個目的,在使用ChatGPT過程中,可能會輸入一些敏感數(shù)據(jù)、商業(yè)秘密甚至是機密信息,稍不留神,就會造成數(shù)據(jù)泄漏。正如三星近日所擔憂的一樣,數(shù)據(jù)一旦輸入,就會被收集和使用,輸入的數(shù)據(jù)亦不能刪除和修改。
3月末,ChatGPT被曝出現(xiàn)bug會導致用戶對話數(shù)據(jù)、支付信息丟失泄露。這一度導致了ChatGPT短暫關閉。OpenAI的回應中表示,這一漏洞可能導致了1.2%ChatGPT Plus用戶的支付信息被暴露了約9個小時。漏洞還導致了用戶的對話主題及記錄能被別人看到,如果里面包含隱私信息,則有泄露的風險。
最后,是ChatGPT的數(shù)據(jù)可能被惡意使用。OpenAI首席技術官米拉·穆拉蒂(Mira Murati)曾表示,可能會有人利用ChatGPT自然語言編寫的能力,編寫惡意軟件,從而逃避防病毒軟件的檢測;利用ChatGPT的編寫功能,生成釣魚電子郵件;利用ChatGPT的對話功能,冒充真實的人或者組織騙取他人信息等。
如何防范數(shù)據(jù)安全風險
面對來勢洶洶的數(shù)據(jù)安全風險,從某種意義上講,要保證數(shù)據(jù)的絕對安全,就要將數(shù)據(jù)全部物理隔絕,變成“死”數(shù)據(jù),這樣顯然是最“安全”的,既拿不走,也不能破壞。但這樣做卻也損失了數(shù)據(jù)的價值——數(shù)據(jù)只有在流動、分享、加工處理過程中才能創(chuàng)造價值。
數(shù)據(jù)安全治理的核心正是保障數(shù)據(jù)在安全可控的情況下使用并發(fā)揮價值。換言之,數(shù)據(jù)本身無罪,有罪的是數(shù)據(jù)沒有被安全地保護或使用。也就是說,想要實現(xiàn)數(shù)據(jù)安全,關鍵要看具體實現(xiàn)的方法和管理措施。
因此,如何確保數(shù)據(jù)授權、界定數(shù)據(jù)安全的責任與科技公司的義務,規(guī)避隱私泄露、知識產(chǎn)權等風險,這些都將是以GPT技術為代表的人工智能在大規(guī)模介入公共領域后,必須首先解決的問題。
顯然,以數(shù)據(jù)為中心,是數(shù)據(jù)安全工作的核心技術思想。這意味著,將數(shù)據(jù)的防竊取、防濫用、防誤用作為主線,在數(shù)據(jù)的生命周期內各不同環(huán)節(jié)所涉及的信息系統(tǒng)、運行環(huán)境、業(yè)務場景和操作人員等作為圍繞數(shù)據(jù)安全保護的支撐。并且,數(shù)據(jù)要素的所有權、使用權、監(jiān)管權,以及信息保護和數(shù)據(jù)安全等都需要全新治理體系。這需要在法規(guī)制度方面“劃清紅線”。比如,明確ChatGPT的開發(fā)者和使用人等主體責任的劃分和承擔方式;落實數(shù)據(jù)分類分級,明確ChatGPT獲取數(shù)據(jù)的途徑和方法的相關法律規(guī)定。
其次,數(shù)據(jù)安全離不開“運用數(shù)字技術進行治理”,即運用數(shù)字與智能技術優(yōu)化治理技術體系,進而提升治理能力。比如,將ChatGPT的語言訓練方法及算法合規(guī)納入數(shù)據(jù)安全合規(guī)體系,加強技術監(jiān)管和定期進行安全審計。
事實上,在數(shù)據(jù)生命周期的不同階段,數(shù)據(jù)面臨的安全威脅、可以采用的安全手段也不一樣。在數(shù)據(jù)采集階段,可能存在采集數(shù)據(jù)被攻擊者直接竊取,或者個人生物特征數(shù)據(jù)不必要的存儲面臨泄露危險等;在數(shù)據(jù)存儲階段,可能存在存儲系統(tǒng)被入侵進而導致數(shù)據(jù)被竊取,或者存儲設備丟失導致數(shù)據(jù)泄露等;在數(shù)據(jù)處理階段,可能存在算法不當導致用戶個人信息泄露等。
面對不同階段不同角度的風險,對癥下藥,是技術治理的必要,改進治理技術、治理手段和治理模式,將有效實現(xiàn)復雜治理問題的超大范圍協(xié)同、精準滴灌、雙向觸達和超時空預判。
最后,數(shù)據(jù)安全的實現(xiàn)不僅要自上而下,更要自下而上。數(shù)據(jù)安全治理的核心目的,是實現(xiàn)安全與發(fā)展的平衡。這一方面,需要讓企業(yè)自己有提升和證明自身數(shù)據(jù)安全能力成熟度水平的積極性,讓數(shù)據(jù)安全能力成熟度高的企業(yè)擁有更大的發(fā)展空間和競爭優(yōu)勢。另一方面,還需要提高使用人數(shù)據(jù)安全的風險意識,制定ChatGPT的安全使用指南。
面對人工智能的迅速發(fā)展,數(shù)據(jù)的基礎性戰(zhàn)略資源屬性進一步突顯。ChatGPT只是數(shù)據(jù)安全治理的第一步,也是不可回避的重要一步。