文|經(jīng)緯創(chuàng)投
新一代AI浪潮正在席卷全球,從硅谷、華爾街、中關(guān)村,直至世界各個角落的辦公室和大學(xué)教室,人們都在熱烈討論著ChatGPT及人工智能的未來。
最近,OpenAI新發(fā)布了GPT-4,令A(yù)I達(dá)到了“歷史上前所未有的、不可逆轉(zhuǎn)的新高度”。GPT-4新增了接受圖像輸入,而之前的GPT-3.5只接受文本。并且“專業(yè)性”大大提升,在模擬律師考試中,GPT-4的成績超出了90%的人類考生,而上一版GPT-3.5的得分,僅僅超出10%左右。
圖像識別、高級推理、龐大的單詞掌握能力,是這次GPT迭代的核心,具備多模態(tài)能力的GPT-4可以根據(jù)用戶提供的信息,來生成視頻、音頻、圖片和文本。但這次OpenAI沒有公布模型參數(shù)和數(shù)據(jù)規(guī)模,也沒有涉及技術(shù)細(xì)節(jié)、訓(xùn)練方法等等,追趕者可能難以模仿。
而在幾周前,OpenAI還發(fā)布了ChatGPT API,將每輸出100萬個單詞的價格降低到2.7美元(約合18元人民幣),使用成本僅為此前GPT-3.5的十分之一,似乎在宣告“人手一個ChatGPT”時代的到來,也一舉奠定了OpenAI作為人工智能時代新基礎(chǔ)設(shè)施建設(shè)領(lǐng)域的重要地位,緊隨其后勢必涌現(xiàn)大量應(yīng)用中間層的新公司。
同期,OpenAI創(chuàng)始人Sam Altman又通過Twitter提出了“新摩爾定律”——宇宙中的智能總量(amount of intelligence)每18個月翻一倍。
面對這個AI時代的“iPhone時刻”,我們陸續(xù)邀請學(xué)界與業(yè)界的資深專家,以及行業(yè)投資人與創(chuàng)業(yè)者進(jìn)行深度交流。
本期特邀嘉賓北京銜遠(yuǎn)科技創(chuàng)始人周伯文先生,曾任IBM Research人工智能基礎(chǔ)研究院院長、IBM Watson Group首席科學(xué)家、IBM杰出工程師、京東集團(tuán)高級副總裁、集團(tuán)技術(shù)委員會主席、云與AI總裁;同時,擔(dān)任清華大學(xué)惠妍講席教授、清華大學(xué)電子工程系長聘教授。
周教授針對包括語音和自然語言處理、多模態(tài)知識表征與生成、人機(jī)對話、可信賴AI等領(lǐng)域擁有二十年多年的研究經(jīng)驗。早在2016年,由他提出的自注意力融合多頭機(jī)制的自然語言表征機(jī)理成為之后Transformer架構(gòu)的核心思想之一;此外,AIGC領(lǐng)域兩個被廣泛引用的自然語言生成模型架構(gòu)與算法也出自于他。
在產(chǎn)業(yè)層面,周教授2021年底創(chuàng)立銜遠(yuǎn)科技,采取垂直模式打通了自有基礎(chǔ)大模型、應(yīng)用場景和終端用戶,形成了垂直閉環(huán)。其核心產(chǎn)品是領(lǐng)銜CIP和基于其的ProductGPT,通過垂直數(shù)據(jù)集,并在訓(xùn)練中加入Instruction-tuning,令最終模型在不斷調(diào)優(yōu)迭代中越做越好,從而幫助企業(yè)實現(xiàn)產(chǎn)品創(chuàng)新,以期在垂直賽道上,以更具深度、精準(zhǔn)度的洞察與創(chuàng)新能力超越ChatGPT。
面對這一令人興奮的新趨勢,我們有太多問題想聊,所以這篇文章較長,不過由于這次采訪是在幾周前進(jìn)行的,對于GPT-4的相關(guān)內(nèi)容,本文僅做了有限補(bǔ)充,不做過多展開,有待日后再探討。以下,Enjoy:
1. ChatGPT背后有哪些核心突破?ChatGPT4有哪些核心迭代?
2. OpenAI為什么能堅持下去?Google為什么變成了那個“脆弱的大公司”?
3. 大模型時代的另一種模式:垂直閉環(huán)
4. 在ChatGPT的“數(shù)據(jù)飛輪效應(yīng)”下,中國公司應(yīng)該如何追趕?
5. 對ChatGPT的總結(jié):到來不吃驚、影響不低估、未來不可怕
1、ChatGPT背后有哪些核心突破?ChatGPT4有哪些核心迭代?
經(jīng)緯:OpenAI最近發(fā)布了GPT-4,并且此前還把ChatGPT API的價格下降了90%,這奠定了OpenAI作為AI時代基礎(chǔ)設(shè)施的地位,隨后勢必會涌現(xiàn)出大量應(yīng)用中間層的新公司,您認(rèn)為這將帶來哪些變化?
周伯文:GPT-4有三大變化:多模態(tài)、邏輯推理和可控性。
第一是多模態(tài),這帶來了人機(jī)協(xié)同交互的通道趨向統(tǒng)一。GPT-4具備十分強(qiáng)大的圖片理解能力,能夠支持像素級別的圖文處理,比如:可以根據(jù)設(shè)計圖寫代碼、對拍照題目寫解答過程、通過文檔圖片進(jìn)行摘要問答等。GPT-4多模態(tài)能力必將催生更加廣泛的下游應(yīng)用,智能體的“摩爾定律”時代已然到來。
第二是復(fù)雜長文本理解和生成能力大幅提升。GPT-4對文本長度的限制提升到32k字符,能處理超過25000個單詞的文本,并且可以使用長格式內(nèi)容創(chuàng)建、擴(kuò)展對話、文檔搜索和分析。GPT-4能夠融合更加復(fù)雜、多樣性的訓(xùn)練數(shù)據(jù)集,相較 ChatGPT在邏輯推理方面上獲得顯著提升。目前,其在各種專業(yè)及學(xué)術(shù)測評,像是美國律師資格考試(MBE)、美國大學(xué)預(yù)科考試(AP)和美國高考(SAT)等測試中,達(dá)到了和人類相當(dāng)?shù)乃健?/p>
第三是可控性,GPT-4具備創(chuàng)造性的寫作能力,包括:編歌曲、寫劇本、學(xué)習(xí)用戶寫作風(fēng)格等。在微調(diào)過程中OpenAI引入了大量的人力來確保監(jiān)督信號的高質(zhì)量。相比于InstructGPT和ChatGPT,可以猜測GPT-4中的RLHF可能是一個更加通用的范式,即覆蓋的任務(wù)和場景更為廣泛。
GPT-4存在一些局限性和改進(jìn)。GPT-3和GPT-3.5存在的問題也都基本存在于GPT-4之中,例如:數(shù)據(jù)時效性、“幻覺”等問題。GPT-4在評測的各種任務(wù)上效果優(yōu)異,但在一些簡單問題上難以運(yùn)用已有能力進(jìn)行解決,這與GPT-4在知識存儲、定位、修改等方面存在問題有關(guān)。目前的大模型還是基于全連通圖的Transformer架構(gòu),其中對于知識的可控存儲、定位以及修改、持續(xù)的演變機(jī)理等仍未知,對于知識信息的時變維度刻畫也存在缺失。
目前,GPT-4在公開的技術(shù)報告及System Card中僅展示了其對視覺輸入的支持和較為淺層的推理能力,在更困難和深層的推理任務(wù)上仍有待測評和驗證。同時,GPT-4缺乏對音頻、視頻及其他模態(tài)的理解和生成能力,或許這與Transformer預(yù)訓(xùn)練架構(gòu)有關(guān),未來在合并擴(kuò)散模型的圖像生成能力與構(gòu)建統(tǒng)一的多模態(tài)理解和生成模型上存在顯著的技術(shù)挑戰(zhàn)。當(dāng)下,AI學(xué)術(shù)研究社區(qū)正在推進(jìn)中的很多工作,都基于強(qiáng)大的語言模型結(jié)合多模態(tài)能力,通過語言智能撬動 AGI 值得期待。
ChatGPT開啟了協(xié)同交互的新階段,把交互作為了一種學(xué)習(xí)的手段。GPT-4則在此基礎(chǔ)上更進(jìn)一步,通過視覺信號能夠更好洞察、形成新知識并完成任務(wù)。由此,我們更加相信 AI 的新一輪創(chuàng)新必將逐漸從傳統(tǒng)的智能質(zhì)檢、客服等簡單場景,向產(chǎn)品創(chuàng)新、知識發(fā)現(xiàn)等復(fù)雜場景轉(zhuǎn)變。
GPT-4在去年8月已完成訓(xùn)練,現(xiàn)在看到的很多問題可能已經(jīng)被解決。不可否認(rèn),GPT-4 存在巨大的技術(shù)壁壘,在短期內(nèi)難以被超越。OpenAI通過“Scaling Law”來預(yù)測GPT-4的性能邊界,而GPT-4是我們可見的現(xiàn)有最強(qiáng)的AI性能邊界,這有助于反思現(xiàn)有AI理論的優(yōu)勢和缺陷。
OpenAI不再Open, 那跟隨已不是選項,新一代AI大航海時代的參與者需要有自己的深刻技術(shù)理解、前瞻技術(shù)趨勢判斷,需要場景的反饋與打磨,也需要領(lǐng)路的將軍用自己的微光照亮大家前行。
Sam Altman前段時間在Twitter上提出了一個“新摩爾定律”,即“每18個月宇宙的智能總量(amount of intelligence)會翻一倍”, 我認(rèn)為更準(zhǔn)確的說法是“智慧觸點數(shù)目(number of intelligent touch points)會翻一倍”,而這件事的確正在發(fā)生。OpenAI令ChatGPT API大幅降價就是為了加速聚焦開發(fā)者,并通過更多開發(fā)者探索更多應(yīng)用場景,以此形成新的AI生態(tài)。
大模型的使用成本主要來自兩部分,其一是訓(xùn)練部分,其二是推理部分。OpenAI近期這一新舉措意在將推理成本降到盡可能更低的水平,這是可預(yù)料的并將持續(xù)發(fā)生,即:一個模型經(jīng)過不斷優(yōu)化后,其模型密度與推理效率會變得越來越高,推理的成本也就會越來越低。
這件事對專注通用大模型的競爭者,無論是大廠亦或創(chuàng)業(yè)團(tuán)隊,都是一個頗具挑戰(zhàn)的信號。今后,他們不僅要在技術(shù)與算法層面加速追趕,還要負(fù)擔(dān)高昂的模型訓(xùn)練及推理部署成本,卻在推理的調(diào)用收入上不具備定價權(quán)。同時,還要面對開發(fā)者生態(tài)、用戶心智正快速集中到OpenAI等“先行者”上的被動局面,完成逆勢爬坡。
但在訓(xùn)練的部分,OpenAI的降價并沒有帶來本質(zhì)上的改變,比如ChatGPT對垂直場景的深度洞察與創(chuàng)新等等。當(dāng)然,我預(yù)計OpenAI現(xiàn)階段也不會涉足垂直市場,他們不太可能為了某一垂直領(lǐng)域而耽擱占領(lǐng)整個平臺市場的先機(jī)。
在此背景下,大模型創(chuàng)業(yè)者想要取得成功首先需要找到正確的商業(yè)模式與護(hù)城河,做到“enjoy the ride of this wave” ,即相信智能觸點數(shù)目的增加會令自己發(fā)展得更快而不是更糟,但又不會被OpenAI等領(lǐng)先的通用大模型玩家不斷疊加的平臺優(yōu)勢(技術(shù)+訓(xùn)練高投入+推理定價權(quán)+迅速培育和占領(lǐng)的生態(tài))所淹沒。
經(jīng)緯:您很早任職IBM時,就已經(jīng)在研究人工智能,那個時代的很多研究,比如Transformer奠定了如今ChatGPT成功的基礎(chǔ)。您認(rèn)為Transformer、 ChatGPT等實現(xiàn)重大突破的背后,是基于哪些核心進(jìn)展達(dá)成的?
周伯文:是的,最初我在中科大讀書期間就已開始研究人工智能,此后讀研和赴美留學(xué)也都是研究語音與語言理解,CU-Boulder博士畢業(yè)后直接進(jìn)入IBM T. J. Watson Research Center 工作。那時的IBM是全球范圍內(nèi)人工智能在語音、語言領(lǐng)域能力最強(qiáng)的機(jī)構(gòu)之一,諸如使用機(jī)器學(xué)習(xí)去做語音識別、機(jī)器翻譯等奠基性工作都起源于此。這些優(yōu)秀人才中后來有不少去到學(xué)術(shù)界,如JHU、Yale和CMU;也有一部分去到華爾街,使用隱馬爾科夫模型(HMM)來做量化高頻交易等等。我自己的研究方向早期是融合語音識別、自然語言處理、機(jī)器翻譯等多個領(lǐng)域做語音翻譯,后來做深度語言理解、表征學(xué)習(xí)與推理。
如果去談ChatGPT為什么能取得成功?我認(rèn)為首先要聊一聊Transformer,作為前者極為重要的一個支撐點,它融合了幾個非常核心的突破:
第一個核心突破出自于采用自注意力和多頭機(jī)制來表征自然語言,這個核心思想最早出自由我?guī)ьI(lǐng)的IBM團(tuán)隊在2016年發(fā)表的論文,“A Structure Self-Attentive Sentence Embedding”,并在2017年被Transformer認(rèn)可并引用。
此前,最常用的自然語言表征是基于序列到序列到模型加上注意力機(jī)制。比如:讓AI學(xué)習(xí)回答問題時,輸入的是問題,輸出是答案,用一個序列RNN或LSTM來表示,這就是序列到序列的表征模式。在這個基礎(chǔ)上,Bengio引入了attention,就是注意力機(jī)制,其核心是在回答問題時,并非所有詞都同等重要;如果能根據(jù)問題與答案之間的對應(yīng)關(guān)系識別出更關(guān)鍵的部分,繼而更加關(guān)注這部分,就能給出更好的答案。這種注意力模型很快就得到了非常廣泛的認(rèn)可。我本人也是基于這個思路,在2015年左右發(fā)表了幾個最早期被引用較多的AI用自然語言寫作生成模型。
但是,這個方法也存在一個問題,即注意力是基于給出答案后去構(gòu)建的。這樣訓(xùn)練的AI,形象地比方,就像大學(xué)期末考試前問老師劃重點的學(xué)生,再去有針對性(attention)的重點復(fù)習(xí)。這樣AI雖然對特定問題的表現(xiàn)能有所提高,卻并不具備通用性。所以我們提出了完全不依賴于給定的任務(wù)和輸出,只基于輸入自然語言的內(nèi)在結(jié)構(gòu),通過AI多遍閱讀去學(xué)會哪些部分更重要及其相互之間的關(guān)系,這就是自注意力加上多頭機(jī)制的表征學(xué)習(xí)。這種學(xué)習(xí)機(jī)制只看輸入,更像學(xué)生在考前就多遍、系統(tǒng)性地學(xué)習(xí)理解課程,而不是基于考試重點去針對性、碎片性地學(xué)習(xí),從而更逼近通用人工智能的目的,也大大增強(qiáng)了AI的學(xué)習(xí)能力。
第二個核心突破是采用了簡單的位置編碼而拋棄了RNN/LSTM等序列性神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。我認(rèn)為,它是這篇重要論文中最簡單也是最聰明的一點,通過一個簡化讓Transformer不再受RNN/LSTM難以并行訓(xùn)練的束縛,可以更高效地使用更多數(shù)據(jù)進(jìn)行訓(xùn)練。這篇論文也因此成為該領(lǐng)域一個重要的里程碑,推動了其后一系列的變化,并最終開啟了大模型時代。Transformer論文的標(biāo)題是《Attention is All You Need》,表達(dá)的同樣是 “自注意力很重要,多頭很重要,但RNN或許沒有我們以前想象中那么重要”的意思。順便說一下,Transformer論文的第一作者Ashish Vaswani正是我在IBM指導(dǎo)過的學(xué)生,后來他加入了Google Brain團(tuán)隊。
了解過上述歷史沿革,我們再來看ChatGPT作為里程碑的意義所在:它的“前輩”,包括IBM Deep Blue、IBM Watson、Deepmind AlphaGo,這些雖然都是當(dāng)時引領(lǐng)時代的人工智能,但它們跟ChatGPT最核心的不同在于,此前的人工智能設(shè)計思路是與人類競爭的AI,通過展示其在某些領(lǐng)域比人類更優(yōu)秀來證明AI技術(shù)的進(jìn)步。
與之不同,ChatGPT引入了Instruction-tuning,強(qiáng)調(diào)的是和人的協(xié)同、交互與價值對齊。在經(jīng)過GPT-1和GPT-2漫長且不那么成功的摸索與積淀過程,直到在GPT-3階段實現(xiàn)工程上的重大革新,如今的ChatGPT正是在GPT-3基礎(chǔ)上引入了Instruction-tuning與人在環(huán)路的強(qiáng)化學(xué)習(xí),通過人對AI的標(biāo)注、反饋,實現(xiàn)價值對齊,更好地幫助ChatGPT去理解,讓它更清楚什么樣的答案是好的并從中不斷學(xué)習(xí)。
舉個例子,如果要求AI為一個6歲的小孩解釋登月,以GPT-3的基礎(chǔ)模型能力可以從各種角度去回答這個問題,包括基于物理原理的萬有引力、基于歷史背景的美蘇冷戰(zhàn)促使登月、基于天文學(xué)角度的地月關(guān)系,或基于人類關(guān)于月亮的神話傳說等等。須知,找到這些信息并整合生成文字并不難,難的是GPT-3該如何辨別其中哪個答案更適合一個6歲的小孩子,這就是價值對齊。
常規(guī)模式會按照答案的出現(xiàn)概率進(jìn)行排序。但ChatGPT在這個基礎(chǔ)上,由人對四類答案進(jìn)行選擇、打分并給出排序,這些反饋可用于微調(diào)GPT-3模型,將GPT-3與人類的意圖和評價體系進(jìn)行對齊,進(jìn)而改變模型參數(shù)和推理結(jié)果。
通過上述與人的交互協(xié)同后,如果再要求ChatGPT為6歲孩子寫童話,它就會自己學(xué)會以“once upon a time(很久以前)”來開頭,因為它已經(jīng)掌握在一個與6歲小孩的談話環(huán)境中,以這種方式進(jìn)行回答會更好。因此,人類越多去使用ChatGPT,它就會變得越智能。
大家對ChatGPT效果驚艷的同時,可能也意識到了,這些結(jié)果的產(chǎn)生也取決于用戶提問的方式、指導(dǎo)ChatGPT修正與迭代答案的技巧與耐心。所以嚴(yán)格來說,這些驚艷效果是用戶和AI共創(chuàng)得來的。正因如此,ChatGPT成為了歷史上第一個與人協(xié)同交互而非競爭關(guān)系的,以人為中心、更好服務(wù)于人的里程碑式產(chǎn)物,其社會價值與潛力不可限量。這也是我長期研究前沿AI的理念,我的觀點一直是AI更大價值將來自于人和環(huán)境的協(xié)同與交互,所以我在2022年5月加入清華即建立了電子系協(xié)同交互智能研究中心。
誠然,當(dāng)我們回顧來路,GPT-1、GPT-2當(dāng)年所使用的參數(shù)局限性也是一個重要影響因素。GPT-1只有1.1億參數(shù),GPT-2也不過15億參數(shù),直到GPT-3這一數(shù)字猛增至1750億,方才有了涌現(xiàn)能力,有了后面更多突破性成果的產(chǎn)生。面對這一發(fā)展過程中對算力和訓(xùn)練投入的龐大需求,不得不承認(rèn),不僅要有長期的研究積累,與清晰的前瞻思想引領(lǐng),也要有足夠的資金做支撐。
2、OpenAI為什么能堅持下去?Google又因何變成了一家“脆弱的大廠”?
經(jīng)緯:GPT大模型背后是一部艱辛的創(chuàng)業(yè)史,起初兩代由于不夠成熟經(jīng)常敗給谷歌的Bert,直到GPT-3才真正實現(xiàn)了飛躍。很多人都佩服OpenAI的毅力,能夠在GPT-1和GPT-2不斷受挫的階段仍然堅持下來并對抗全世界,最終證明自己是對的。您認(rèn)識很多業(yè)內(nèi)核心人士,對OpenAI能一路堅持下來并最終取得成功是怎樣看待的?
周伯文:當(dāng)年Transformer成功后,一時間大家都拿它來做各種大模型,但在NLP領(lǐng)域分成兩派:一派像是OpenAI這類公司,專注實踐從左到右的預(yù)訓(xùn)練,命令A(yù)I去學(xué)習(xí)預(yù)測下一個詞是什么,一步步把自然語言的生成全部實現(xiàn)出來。這個思路的底層和我們的2016年論文中強(qiáng)調(diào)自注意力理念是一致的,即不允許AI使用未來的信息來學(xué)習(xí),這樣更逼近通用人工智能的思路。
另一派像是Google的Bert,采用任務(wù)導(dǎo)向型的思考方式,目的在于做好針對自然語言的理解,即一段話從左到右要看,從右到左也要看,看得越多理解能力就越強(qiáng)。
這兩種思路其實不存在對錯,只是反映出雙方在哲學(xué)觀上的巨大不同,就如同我們提出的自注意力一樣,即堅決要求學(xué)生不能先看考題再來學(xué)習(xí),而是要先把知識學(xué)明白再去考試。這也是為什么我認(rèn)為GPT的哲學(xué)觀更適合真正的通用人工智能。但在發(fā)展的前期,GPT模式確實讓OpenAI受挫不少,GPT-1和GPT-2都沒能勝過Bert,直到GPT-3才揚(yáng)眉吐氣。
此外,還有一個角度我認(rèn)為非常值得關(guān)注,即OpenAI的成功不單單是這家公司獨(dú)立實現(xiàn)的,而是依托于整個AI學(xué)術(shù)研究社區(qū)的支持和幫助。英文里有一句俗語叫“It takes a village to raise a child”,OpenAI之所以能夠一直堅持做GPT,得力于整個AI學(xué)術(shù)研究社區(qū)對大模型豐富的研究分析,比如其中很多研究人員一直試圖證明在GPT和Transformer的中、低層中,包含有詞法和語法知識;在中、高層中存儲了大量語義和常識知識。
AI學(xué)術(shù)研究社區(qū)的相關(guān)驗證分析工作,極大地增強(qiáng)了OpenAI團(tuán)隊的信心和方向。如果沒有上述這些自發(fā)研究工作的助力,OpenAI可能很難堅持下來。試想一下,如果你拿大量數(shù)據(jù)訓(xùn)練了很久,最后卻發(fā)現(xiàn)沒有證據(jù)證明這個大模型學(xué)會了任何知識和推理,只是學(xué)習(xí)到了統(tǒng)計相關(guān)性,無法形成自身沉淀與未來涌現(xiàn)效應(yīng)的可能性,那誰還會一直有決心堅持下去呢?ChatGPT的成功,正是因為OpenAI公司依靠背后強(qiáng)大的AI學(xué)術(shù)研究社區(qū),有較好的產(chǎn)學(xué)研的融合生態(tài),這樣的經(jīng)驗值得我們借鑒。
經(jīng)緯:從規(guī)模上看,OpenAI只是一家?guī)装偃说膭?chuàng)業(yè)公司,而Google卻是一家擁有上萬員工的科技巨頭。我相信在Google內(nèi)部,無論從技術(shù)亦或想法上也是具備領(lǐng)先意識的,他們也傳出過與人工智能相關(guān)的新聞,但相比于openAI遲遲沒有上線真正的產(chǎn)品。其中一個原因或許是Google的主要利潤源自其搜索業(yè)務(wù),而生成式AI則可能徹底顛覆相關(guān)商業(yè)模式,這似乎又是一個柯達(dá)與數(shù)碼相機(jī)的故事?
周伯文:一個是商業(yè)層面,一個是大公司的決策層面。大公司雖然看起來很強(qiáng),但在很多時候特別是技術(shù)代際躍遷時其實是非常脆弱的。
ChatGPT這種深度強(qiáng)人工智能的對話模式,會讓搜索業(yè)務(wù)本身的價值大大降低,原有以“搜索關(guān)鍵詞排序”的商業(yè)模式屆時很可能已經(jīng)不成立了,因為用戶不再需要去看網(wǎng)頁中那么多搜索引擎排序后的鏈接,這將導(dǎo)致的結(jié)果是Google的毛利率會迅速下降。而在占比份額不足10%,久居搜索引擎次席的微軟看來,這卻是一次千載難逢的機(jī)會,其在該領(lǐng)域的瘋狂投入可見一斑。
同時,微軟的To B業(yè)務(wù)及受眾非常多元化,所以我認(rèn)為微軟的組織能力是遠(yuǎn)優(yōu)于Google的。在這種情況下,微軟可依托To B業(yè)務(wù)在前,同時迅速調(diào)優(yōu)整個組織,從而比Google更好地適應(yīng)新挑戰(zhàn),并在搜索領(lǐng)域跟Google打消耗戰(zhàn)。
此外,微軟具備在更多To B場景中嵌入ChatGPT的能力,而Google在這方面相形見絀。因此,我認(rèn)為投資人在AI時代不可以再輕視To B領(lǐng)域。過去,AI在生產(chǎn)力工具方面不夠強(qiáng)力,因而變成了“C端的玩具”;但是,現(xiàn)在的AI已跨過技術(shù)門檻,其在B端的應(yīng)用將會越來越具備沖擊力。當(dāng)然,不是說To C不重要了,最好的模式依然是做到To B和To C兼顧。
在大公司的決策層面上,總有很多聲音質(zhì)疑大公司缺乏創(chuàng)新,但大公司往往不缺乏單點創(chuàng)新能力,問題往往出現(xiàn)在系統(tǒng)性創(chuàng)新過程中,特別是在內(nèi)部資源的協(xié)同與聚焦上。與此同時,大公司也有很多負(fù)擔(dān),比如:Google需要維護(hù)自己的技術(shù)形象,如果認(rèn)為新研發(fā)的產(chǎn)品不夠好,就不會開放公測。以ChatGPT為例,它一開始就存在非常多的錯誤和問題,如果是Google在做,大眾和輿論恐怕也很難像對OpenAI這類創(chuàng)業(yè)公司一般寬容。此外,在技術(shù)開發(fā)的早期,甚至可能引發(fā)政治性的爭論,這些均會對公司市值產(chǎn)生嚴(yán)重影響。
綜上兩方面因素,導(dǎo)致Google 在類似的產(chǎn)品發(fā)布上趨于保守。但這種生成式人工智能技術(shù),從GPT到ChatGPT,中間很大的一道門檻是與大量用戶的真實交互,如果缺乏大量用戶的反饋,就永遠(yuǎn)越不過這道門檻,且一旦落后便可能永遠(yuǎn)落后。OpenAI敢于大膽投入,聚焦設(shè)計和打磨好一款產(chǎn)品。而大公司背負(fù)來自市值管理、資金使用效率、技術(shù)聲譽(yù)、社會口碑等方面的一系列壓力,因而在決策中很容易動作變形。
這就是為什么像OpenAI這樣的創(chuàng)業(yè)公司會跑得更快、路線更靈活,因為他們沒有大公司過多的包袱,不管有什么困難都能夠勇往直前。當(dāng)然,無論是在Google還是微軟,都有我很尊敬的同事和朋友,他們都很聰明,個人能力也絕不比OpenAI差。
值得一提的是,微軟是在體外投資了OpenAI去完成這項工作,如果做得不好只需要在PR上進(jìn)行切割,一旦功成微軟便大獲全勝,這也是其投資眼光和技巧上值得稱道的一點。
我曾在國內(nèi)國外的大廠長期任職,這種決策上的問題是根深蒂固的,不是一個人,或一個團(tuán)隊就能改變的。所以對大廠而言,最好的決策就是內(nèi)部創(chuàng)新的同時,投資一家專注該領(lǐng)域的創(chuàng)業(yè)公司去完成這部分工作。
經(jīng)緯:不僅是新公司,所有人都需要積極思考怎么去結(jié)合。比如最先到來的一大波C端變革,反而可能會是微軟,如果它把人工智能集合在Word、Excel、PowerPoint、outlook里面,這將是很大的場景。同時,GPT也會顛覆很多SaaS公司,比如一個財務(wù)SaaS,作為客戶可能只需要輸入問題,它就可以直接形成答案了。您覺得會有很多公司因此受到威脅嗎?
周伯文:對SaaS公司而言,如果原來的業(yè)務(wù)涉及太淺,只是在流程上做了自動化或信息整合,那么這樣的公司的確會受到很大的威脅,因為所有的流程如果基于深度自然語言理解和協(xié)同交互重新迭代一遍,不但門檻迅速降低,帶來的體驗會遠(yuǎn)遠(yuǎn)超過現(xiàn)在的產(chǎn)品;但如果業(yè)務(wù)跟行業(yè)深度綁定,且具備非常強(qiáng)的行業(yè)Know-how,那ChatGPT的加入就只有幫助而沒有威脅,因為ChatGPT目前還沒有辦法產(chǎn)生真正的洞察,在需要精確答案時不具備可用性。
此種情況下,端到端的垂直模式壁壘會更深。比如,有些SaaS公司可能原來與行業(yè)綁定較淺,雖然通過ChatGPT可以重構(gòu)業(yè)務(wù),但這個能力是與別人拉平的,大家都可以做同樣的事情,這時門檻就很低。
3、大模型時代的另一種模式:垂直閉環(huán)
經(jīng)緯:其實銜遠(yuǎn)是想做一個端到端的、上下打通的模式?
周伯文:銜遠(yuǎn)從能力、場景到用戶是全部打通的。從底層模型到深層對話能力,都與場景緊密結(jié)合在一起。通過這個方式,我們把基礎(chǔ)大模型、應(yīng)用場景和終端用戶形成了一個可以快速迭代的閉環(huán),這對用戶的價值會更大。我們也能獲取用戶的反饋幫助迭代基礎(chǔ)模型,在訓(xùn)練中也會加入行業(yè)專家的Instruction-tuning,最終令模型在不斷調(diào)優(yōu)迭代中越做越好。
ChatGPT的模型,它的好處是覆蓋面很廣,但缺點是都很淺而且只是整合已有的信息。我認(rèn)為人工智能的高價值應(yīng)用除了廣度之外,也會存在另外一種形式,就是在兼具一定廣度的基礎(chǔ)上,于特定領(lǐng)域能做到非常深,甚至超過專業(yè)的人。
之所以這么說,是因為我們預(yù)計未來的人工智能在十年后能夠做到這個程度。2002年諾貝爾經(jīng)濟(jì)學(xué)獎得主丹尼爾·卡尼曼有一本暢銷書,《思考,快與慢》(Thinking Fast And Slow),他當(dāng)時提出了人的思考方式有兩類:“系統(tǒng)1”和“系統(tǒng)2”?!跋到y(tǒng)1”的特點是基于直覺和經(jīng)驗判斷,快速、對人很輕松;“系統(tǒng)2”的特點則是慢、基于復(fù)雜計算和邏輯,對人有較重的認(rèn)知消耗和較高的認(rèn)知門檻。
在上一波的人工智能熱潮中,大部分人認(rèn)為AI會適合干“系統(tǒng)1”的工作,比如通過模式識別做人臉識別或工業(yè)品質(zhì)檢,而“系統(tǒng)2”的工作遠(yuǎn)遠(yuǎn)超過AI的能力。所以AI更多的是部署在藍(lán)領(lǐng)的工作場景里面,替代那些重復(fù)性工作。
但我認(rèn)為,AI更大的價值是去輔助人更有效、更有深度地做好“系統(tǒng)2”的工作,這類工作需要非常復(fù)雜的推理、數(shù)據(jù)和邏輯,然后在特定領(lǐng)域里產(chǎn)生更多的創(chuàng)新,甚至創(chuàng)造新的知識,更好地完成更復(fù)雜的任務(wù)。最近AIGC和大模型的進(jìn)展都在展示這個方向上的潛力。但如果按這個思路來看,真正要突破價值門檻,就需要在落地上不能想著做大且全的領(lǐng)域,而是要把領(lǐng)域收窄。
基于上述思路,銜遠(yuǎn)一直在研發(fā)自有大模型領(lǐng)銜CIP和ProductGPT,以幫助企業(yè)實現(xiàn)產(chǎn)品創(chuàng)新。它能提供全面的分析和詳實的數(shù)據(jù)支持,以及按照品牌、品類、特點去展開深度分析,真正幫助到專業(yè)人士。
領(lǐng)銜CIP和ProductGPT作為垂直領(lǐng)域的協(xié)同交互式人工智能,按照我們的市場驗證和預(yù)測,它能夠讓創(chuàng)新機(jī)會翻10倍,上市周期縮短近10倍,大幅降低創(chuàng)新成本,幫企業(yè)帶來更多收入、業(yè)務(wù)增長和利潤,我們的模式就是要在產(chǎn)品創(chuàng)新領(lǐng)域里超過ChatGPT。
經(jīng)緯:OpenAI也提出了應(yīng)用中間層的說法,就是在OpenAI的GPT大模型之上,去對接各個應(yīng)用領(lǐng)域,形成一個中間層。當(dāng)然像GPT這樣的大模型,覆蓋面廣但淺,這時就需要有新公司加入,自己不做模型,而是直接拿GPT來銜接各個垂直賽道,比如醫(yī)療、法律等特定領(lǐng)域的數(shù)據(jù)集去做訓(xùn)練,這類公司在未來會與垂直閉環(huán)型的公司產(chǎn)生強(qiáng)競爭嗎?
周伯文:針對這個市場我會把它分成三類,第一類就是銜遠(yuǎn)科技這種創(chuàng)業(yè)公司,我們自己做底層模型,從技術(shù)算法到模型迭代、場景閉環(huán)都具備,這類是垂直的;第二類就是基于別人的模型(如GPT),然后結(jié)合自己的行業(yè)Know-how去做訓(xùn)練;第三類是純粹做應(yīng)用,是將模型拿來直接使用,這種的壁壘會較低。
為什么我認(rèn)為銜遠(yuǎn)科技的模式從長遠(yuǎn)看更具競爭力?從技術(shù)角度來講,因為它把基礎(chǔ)設(shè)施、大模型、應(yīng)用場景和終端用戶形成了一個完整的閉環(huán)。當(dāng)公司有了具體的功能讓終端用戶使用,進(jìn)而會產(chǎn)生非常多的使用數(shù)據(jù),數(shù)據(jù)反饋后又能幫助提升應(yīng)用,也能幫助提升基礎(chǔ)模型能力,最終模型也會不斷去調(diào)優(yōu)迭代越做越好。從端到端做起,慢慢迭代出更大的商業(yè)模型。這樣的好處還使訓(xùn)練的復(fù)雜度降低,從訓(xùn)練成本和速度上來說,我們可以用更小的訓(xùn)練成本更快的達(dá)到讓技術(shù)團(tuán)隊訓(xùn)練100次,通過這些百次的訓(xùn)練打磨迅速提升工程化、各種Know-how與工程技巧和產(chǎn)品經(jīng)驗。
對于第二類能不能成功,我覺得需要時間去驗證,現(xiàn)在還不明確。原因在于大家還不知道如何把行業(yè)Know-how去和大模型做融合的有效路徑,如何在有護(hù)城河的同時又有可持續(xù)的商業(yè)模式,這仍是個未知數(shù)。
站在OpenAI的角度或是大廠的角度,他們喜歡這種“應(yīng)用中間層”的模式。當(dāng)然要想真正成為基礎(chǔ)設(shè)施,能不能走得通,還需要先運(yùn)行一段時間再做觀察。
但社會肯定需要另外一種模式,因為這對保持創(chuàng)新也很重要。比如過于中心化的問題,像是全世界所有應(yīng)用都只集成在一個大模型里面,那這個世界是相當(dāng)可怕的。這樣一種模型又是通過大量的數(shù)據(jù)反饋訓(xùn)練出來的,其本身具備去進(jìn)行一些價值觀對齊的能力,那將對人類社會的治理體系產(chǎn)生巨大的挑戰(zhàn)。
另外是技術(shù)層面的原因。如果只有一個通用大模型思路,就沒有辦法看到不同技術(shù)方向的迭代與對比。就像前面說的,如果沒有Bert與GPT競爭,GPT也不會發(fā)展得這么快,也只有在競爭中才能讓GPT的發(fā)展動能變得更大。學(xué)術(shù)創(chuàng)新和技術(shù)生態(tài),都需要多元化,不能完全集中在一個大模型之上,也不應(yīng)都用一種思路去做事情。
4、在ChatGPT的“數(shù)據(jù)飛輪效應(yīng)”下,中國公司應(yīng)該如何追趕?
經(jīng)緯:隨著ChatGPT的爆發(fā),中國的AI相關(guān)公司也需要奮起直追,但OpenAI確實占據(jù)了先發(fā)優(yōu)勢,并享受數(shù)據(jù)飛輪效應(yīng)。您覺得中國AI行業(yè)在追趕的道路上,應(yīng)該如何抉擇?
周伯文:一方面我們需要有自己的大模型,但另一方面可能要先從垂直領(lǐng)域開始。我的觀點是,先通過垂直領(lǐng)域的模型,去學(xué)會大模型是怎樣工作的,在場景上怎么跟大模型互動,獲取更多數(shù)據(jù),形成垂直領(lǐng)域的數(shù)據(jù)飛輪,再去看商業(yè)模式該如何展開;等到把垂直領(lǐng)域做好之后,才是去思考大模型該怎么做的時候。
特別是大模型需要很多工程化。工程化是指要進(jìn)行足夠多的嘗試,在試的過程中工程師才會產(chǎn)生經(jīng)驗,繼而總結(jié)出Know-how,以令下一次嘗試更容易取得成功。當(dāng)然,這一過程在某些時刻和階段也會演變成誰投入的資金更多,誰就有能力去做更多嘗試。但若各家都投入高昂成本去做自己的大模型,分別產(chǎn)生各自的Know-how,則無疑會帶來重復(fù)性的資源浪費(fèi)問題。
聚焦在一個有足夠廣度的垂直整合領(lǐng)域里,通過大量的數(shù)據(jù)的飽和訓(xùn)練,有真實的閉環(huán)場景和用戶反饋,能夠獲得更多垂直數(shù)據(jù),大模型深度和推理能力可能以更低的成本獲得涌現(xiàn)能力。另外,中國的算力資源是十分緊張的。如果各家蜂擁去做大模型,假設(shè)每家需要一萬片A100,但激烈的內(nèi)部競爭導(dǎo)致最終沒有任何一家拿到一萬片A100。如此惡性競爭,倒不如先通過100片A100把垂直模型做好,然后再加到1000片跑通toB或者toC的模式并產(chǎn)生出價值,最終由價值最高的通過市場的稱重機(jī)集中算力資源加到一萬片。所以說,從垂直開始嘗試,是更符合客觀實際的。
當(dāng)然,我堅信中國最終肯定會有自己的通用大模型,只是這個道路不一定是要完全模仿OpenAI。OpenAI之前有很長一段時間都是非常艱難的,無論是技術(shù)層面的障礙與瓶頸,還是算力、數(shù)據(jù)上的窘境。同時,大公司則受到更多來自責(zé)任方面的壓力,以及類似對自家搜索業(yè)務(wù)的影響等因素,舉棋不定是可以理解的,這并不是件容易的事情。
經(jīng)緯:對,其實從參數(shù)角度來說,也不是越多越好,現(xiàn)在OpenAI也說GPT-4不會是一個過于龐大的參數(shù)量級。您認(rèn)為什么樣的參數(shù)量級是合理的?
周伯文:參數(shù)確實不是越多越好,進(jìn)行充分的訓(xùn)練更為重要。在充分訓(xùn)練的前提下,800億參數(shù)有可能實現(xiàn)相較1000億參數(shù)更好的效果。同時,參數(shù)規(guī)模也應(yīng)根據(jù)訓(xùn)練的實際情況逐步增加。另一點值得注意的是,2022年ChatGPT面世有很多公司宣稱自己模型的參數(shù)比GPT-3要大的多,但到目前為止,沒有任何一家能夠跟ChatGPT的實際效果進(jìn)行對比。
從技術(shù)原理上來說,模型的復(fù)雜度包括參數(shù)量級都應(yīng)遵循“奧卡姆剃刀原則”,也就是說如果你能充分模型化一個假設(shè)的前提下,所用的參數(shù)永遠(yuǎn)是越少越好。因為越少就越說明模型沒有做過多假設(shè)、更容易被泛化和通用化。這也被愛因斯坦稱為KISS原則,即“Keep it simple, stupid!”
經(jīng)緯:有一種保守觀點認(rèn)為,ChatGPT有很大的局限性,雖然它現(xiàn)在的回答很驚艷,但本質(zhì)上其實是一個基于統(tǒng)計學(xué)的語言模型,即看過很多數(shù)據(jù),然后基于統(tǒng)計結(jié)果去預(yù)測下一步。但如果我們給它一些雜亂無章的數(shù)據(jù),它的回答也就會變得沒有邏輯。所以這種觀點會認(rèn)為,即便未來給的參數(shù)和數(shù)據(jù)越來越多,但最終能否真的成為一個通用人工智能,還是有很大的疑問。對此您怎么看?
周伯文:首先我不認(rèn)為ChatGPT等于通用人工智能。但是,ChatGPT確實在嘗試創(chuàng)造更好、更強(qiáng)大的人工智能。
同時,ChatGPT也存在很多弱點。首先,它缺乏真正的洞察,究其根本還是其推理能力不夠;其二,它對信息仍然是在比較淺薄的語義層面上進(jìn)行整合,雖然能區(qū)分不同的觀點并將之整合起來,但仍舊缺乏深度;其三,則是它在知識和數(shù)據(jù)方面的可信度問題。
相比之下,銜遠(yuǎn)科技要做的不是那種很寬泛的通用平臺,而是用更垂類的數(shù)據(jù)去訓(xùn)練出在某個特定方向上更具深度的人工智能——它能給出的回答更細(xì)、更深、更精準(zhǔn),從而更好地幫助專業(yè)人士完成洞察和產(chǎn)品創(chuàng)新,這將成為強(qiáng)人工智能的又一種新形態(tài)。
5、對ChatGPT的總結(jié):“到來不吃驚、影響不低估、未來不可怕”
經(jīng)緯:近幾年來,雖然不斷有AI繪畫、AI視頻、AI聲音、AI預(yù)測蛋白質(zhì)結(jié)構(gòu)等新技術(shù)出現(xiàn),但它們還是點狀分布的。而這次ChatGPT的面世,卻以產(chǎn)品化聊天機(jī)器人的形式讓全世界感到震撼。您怎么看待AI的前景?
周伯文:最近確實有非常多的人在問我對ChatGPT的看法,其中一部分人對其到來感到興奮,同時也有人抱持顧慮。我的觀點總結(jié)起來就十五個字:“到來不吃驚、影響不低估、未來不可怕”。
“到來不吃驚”是指,這輪并非那種“斯普特尼克時刻”(Sputnik Moment),因為里面的很多技術(shù)和理念其實是2021年就已出現(xiàn)的趨勢。所以,這輪對于長期做AI前沿和前瞻研究的人來說并不太吃驚,核心的技術(shù)創(chuàng)新點大部分在2021年就已經(jīng)出現(xiàn)了。所以說ChatGPT這樣的集成產(chǎn)品創(chuàng)新的出現(xiàn)是必然的,只不過什么時間、最終由誰做出來存在一定偶然性。
“影響不低估”是指,ChatGPT將會改變很多事情。ChatGPT在這個時刻出現(xiàn)是具有里程碑意義的,它對人類社會的影響將在經(jīng)濟(jì)、技術(shù)等方方面面得以體現(xiàn)。
“未來不可怕”是指,我不認(rèn)同很多人對AI的妖魔化,其中就包括馬斯克的所謂“危機(jī)意識”。至少目前來看,AI是可控的。而未來,包括政府決策者、學(xué)術(shù)研究團(tuán)隊、企業(yè)家及法律界人士在內(nèi),也將持續(xù)從各方面思考人工智能該如何融入人類社會。
舉例來說,當(dāng)下就會面臨一些問題,比如ChatGPT其實是一種討好型人格,偏向于不停的依循所得到的回答來修正自己,但人類社會充斥著矛盾、沖突等信息,ChatGPT在形成自身價值體系的過程中該如何迭代,就是一道非常值得思考的問題。
此外,知識版權(quán)也是不可回避的問題之一。ChatGPT的數(shù)據(jù)有很多是基于大眾創(chuàng)造的,如果涉及商業(yè)化,其中的利益又該如何分配?更何況ChatGPT并不是簡單的搜集,而是一個融合機(jī)制,那又該如何溯源、分配,厘清此間種種會十分復(fù)雜。
還有對使用方面的界定問題,比如部分學(xué)術(shù)界不允許論文發(fā)表者使用ChatGPT,但很多非英語母語的學(xué)者卻很喜歡用ChatGPT去修改語法和潤色語句,相關(guān)應(yīng)用場景也很值得討論。
總之,ChatGPT是一個劃時代的產(chǎn)品。自此,AI開始真正找到了應(yīng)用的爆發(fā)點,未來將與各個行業(yè)持續(xù)融合發(fā)展。最后,我還是用那十五個字來收尾,希望大家對正在發(fā)生和即將到來的AI新時代:“到來不吃驚、影響不低估、未來不可怕”。