文|深燃 李秋涵
編輯|魏佳
你還在用ChatGPT嗎?
在全球掀起AI熱潮的ChatGPT,似乎進(jìn)入了瓶頸期。
首先是關(guān)于ChatGPT的使用率,有不利的數(shù)據(jù)出現(xiàn)。6月初,摩根士丹利發(fā)布的一項(xiàng)調(diào)查顯示,只有19%的受訪者表示他們之前使用過ChatGPT,只有4%的人表示依賴ChatGPT。調(diào)查表示,比例低的驚人。
這項(xiàng)調(diào)查在今年4月進(jìn)行,涉及人數(shù)為2000人。不過,在全球78億人口面前,這樣的樣本量不算大,也一定程度上降低了其參考性。
還有一個(gè)基數(shù)更廣泛的數(shù)據(jù)值得關(guān)注,ChatGPT的增長已經(jīng)明顯放緩。
根據(jù)網(wǎng)站數(shù)據(jù)分析工具SimilarWeb數(shù)據(jù),前期ChatGPT的訪問量增長率驚人,1月份的環(huán)比增長率為131.6%,2月份為62.5%,3月份為55.8%,在4月份明顯放緩,環(huán)比增長率為12.6%,到了5月,這個(gè)數(shù)字已經(jīng)變?yōu)榱?.8%。
隨著ChatGPT普及,參考基數(shù)變大,增長率放緩是正?,F(xiàn)象,不過,根據(jù)目前已有的趨勢(shì)來看,6月的環(huán)比增長率也有可能為負(fù)數(shù)。
今年年初,ChatGPT像一聲驚雷,讓全球見識(shí)到了生成式AI的威力,也讓背后的GPT(生成式預(yù)訓(xùn)練Transfomer模型)大火,掀起大模型創(chuàng)業(yè)潮。它刷新了很多數(shù)字,最讓人印象深刻的,是史上用戶增長速度最快的消費(fèi)級(jí)應(yīng)用,在推出僅兩個(gè)月后,ChatGPT的月活用戶已經(jīng)突破了1億。
但對(duì)它未來的發(fā)展,即便是創(chuàng)造者也很難給出明確答案。此前OpenAI董事會(huì)成員海倫·托勒就曾表示,“甚至創(chuàng)造它們的人也不知道它們能做什么,不能做什么。我預(yù)計(jì),我們真正了解GPT-4能做和不能做的所有事情,可能還需要幾年時(shí)間。”
ChatGPT現(xiàn)在的天花板,不代表就是GPT的天花板,但作為目前最厲害的大語言模型支撐的產(chǎn)品,ChatGPT的走向,也能成為觀察GPT應(yīng)用的一個(gè)窗口。關(guān)于AI的狂想還在繼續(xù),時(shí)間已經(jīng)過去了近半年,我們好奇的是,ChatGPT的使用情況到底如何?它被高估了嗎?
01 ChatGPT真的很多人用嗎?
對(duì)于ChatGPT的使用體驗(yàn),不同行業(yè)、不同人答案不同。有人把它當(dāng)玩具,使用了一兩次后就不再登錄;有人努力把它變?yōu)楣ぞ?,在工作中以提高效率;也有人,在努力將ChatGPT變?yōu)楣ぞ叩倪^程中失敗了,因?yàn)橛X得它“不夠好用”。
夏楠屬于第三種。她從事外貿(mào)行業(yè),會(huì)用ChatGPT寫工作郵件,也會(huì)讓它解答一些生活中的煩惱,為了能更好的使用ChatGPT,她都是用英文發(fā)指令。
從2月開始使用ChatGPT,她的體驗(yàn)分為了三個(gè)階段,最開始是好奇,很多問題都想拋給ChatGPT,看它怎么回答,探索它。從5月開始,她感覺ChatGPT“變笨了”,之前能做到的,現(xiàn)在做不到了?,F(xiàn)在,她對(duì)ChatGPT的評(píng)價(jià)是,“不好用”。
比如最近,他們公司接了一個(gè)炒菜機(jī)器人的ODM(原始設(shè)備制造)業(yè)務(wù),她想讓ChatGPT提供這個(gè)市場(chǎng)的預(yù)測(cè)數(shù)據(jù),在反復(fù)推拉后,ChatGPT還是沒有給她答案。而在寫工作郵件上,經(jīng)過調(diào)教,ChatGPT也只給到她一個(gè)命令式的跟進(jìn)郵件,文字官方式的長篇大論,也不是她想要的,她希望“它能寫出有禮貌的,信息表達(dá)很明確的郵件”。
她覺得,ChatGPT之所以做不到,短板在于“不懂得人情世故”。得不到想要的結(jié)果,她的使用頻次也降低了,從一個(gè)星期五六次變?yōu)榱艘恢芤淮巍?/p>
當(dāng)然,之所以會(huì)有這樣的體驗(yàn),背后綜合影響因素很多,和使用者是否問到了ChatGPT擅長的領(lǐng)域有關(guān),也要看使用者有沒有找到與ChatGPT合適的交流方式。
正在澳大利亞生活的Lucy,從去年底ChatGPT一推出后就開始用英文使用它?,F(xiàn)在,她日常用ChatGPT來整理學(xué)術(shù)研究上的思路、學(xué)習(xí)語言,是生活里必不可少的工具。只是,準(zhǔn)確性的問題一直讓她煩惱,文獻(xiàn)參考需要自己找,“如果我質(zhì)疑它的回答,它就會(huì)順著我的思路回答”。
除了ChatGPT的使用體驗(yàn)感受不一,從數(shù)據(jù)來看,ChatGPT的普及率,暫時(shí)也還沒有想象中的廣。
摩根士丹利相關(guān)報(bào)告截圖
除了摩根士丹利的報(bào)告,還有一些數(shù)據(jù)可以作為佐證。根據(jù)SimilarWeb數(shù)據(jù),3月-5月,美國、日本是全球?yàn)镃hatGPT貢獻(xiàn)流量份額最高的國家,分別位列第一、第三。不過,最近,美國的流量已經(jīng)下滑了10.28%。
ChatGPT的全球流量分布 來源 / SimilarWeb數(shù)據(jù)
美國方面,在5月底,皮尤研究中心發(fā)布了一份調(diào)查,他們?cè)诮衲?月中旬在1萬多名美國成年人當(dāng)中展開調(diào)查,18%的人聽說過很多關(guān)于ChatGPT的事情,39%的人聽說過一點(diǎn),42%的人根本沒有聽說過。
而在日本,根據(jù)日本ICT市場(chǎng)調(diào)查咨詢機(jī)構(gòu)MM總研的最新調(diào)查報(bào)告,5月24日-31日期間,以日本及美國企業(yè)所屬的13814名員工(其中,日本13412人、美國402人)為對(duì)象,進(jìn)行的網(wǎng)絡(luò)調(diào)查結(jié)果是,日本企業(yè)的ChatGPT使用率僅7%,與美國企業(yè)的51%使用率相比,兩者相差高達(dá)44個(gè)百分點(diǎn)。
日本企業(yè)中,近半數(shù)員工(46%)回答“不知道”ChatGPT,而即便知道ChatGPT,但回答“未使用”的比重也達(dá)42%。
這些都是最近的報(bào)告,樣本量在1萬人左右。不過ChatGPT大熱后,全球關(guān)于它的使用報(bào)告眾多,觀點(diǎn)不一,甚至有的得出的是相反結(jié)論。上述報(bào)告有一定參考性,但也因地域和人群的差別,不一定能完全反應(yīng)真實(shí)情況。
還有更明確的值得參考的整體性數(shù)據(jù),可以幫助我們認(rèn)識(shí)ChatGPT的應(yīng)用現(xiàn)狀。
根據(jù)SimilarWeb,ChatGPT增長明顯放緩,尤其到6月,截至6月20日,6月已經(jīng)過去三分之二,訪問量比5月少了38%左右,粗略推算,到6月31日如果沒有特別新的刺激,6月的環(huán)比流量或?qū)⑾陆怠?/p>
ChatGPT近期流量變化 來源 / SimilarWeb數(shù)據(jù)
同時(shí),還可以參考的是,根據(jù)SimilarWeb,在5月,ChatGPT的跳出率是12.59%,低于谷歌、Youtube等,而在6月24日,跳出率已經(jīng)上升到37.37%。平均訪問持續(xù)時(shí)間也從8分32秒,下降到7分48秒。
另一個(gè)數(shù)據(jù)是,接入GPT大模型后Bing的市場(chǎng)份額變化。
來源 / Statcounter
Bing的市場(chǎng)占有率,在二三月份剛引入GPT時(shí)引發(fā)關(guān)注,根據(jù)網(wǎng)站通訊流量監(jiān)測(cè)機(jī)構(gòu)Statcounter,2023年3月Bing的市場(chǎng)份額是2.86%,5月是2.77%,不僅占比沒有提高,甚至還有下降趨勢(shì)。
02 是什么限制了ChatGPT?
關(guān)于ChatGPT應(yīng)用上的問題,已經(jīng)老生常談,不過這些問題對(duì)它應(yīng)用普及上的影響,或許比想象中廣。
首先是“變笨”這件事。
6月初,“ChatGPT變笨了”的聲音引發(fā)過討論。不過OpenAI開發(fā)者推廣大使Logan Kilpatrick曾出面回應(yīng),表示自3月14日發(fā)布GPT-4以來,大模型的本體一直處于靜態(tài),不存在大量外部數(shù)據(jù)污染模型的情況。同時(shí)他也承認(rèn),大模型本身存在不穩(wěn)定性,因此對(duì)相通的提示詞,存在回答前后不一致的情況。
一位AI從業(yè)者告訴深燃,5月就有國外從業(yè)者在OpenAI論壇里分享論證GPT變笨的文章。最近,他用GPT-4的API做了測(cè)試,讓它做簡單的計(jì)算題。從結(jié)果準(zhǔn)確度來看,GPT-4-0314取得了滿分,GPT-4取得了80分,GPT-4-0613,勉強(qiáng)可以拿50分。其中,0314、0613即指3月14號(hào)、6月13號(hào)的快照(指整個(gè)系統(tǒng)在某個(gè)時(shí)間點(diǎn)上的狀態(tài))。這個(gè)結(jié)果,給他一種GPT-4在被削弱的感受。
根據(jù)監(jiān)管機(jī)構(gòu)NewsGuard的專家分析,OpenAI最新版本的GPT-4,在輸出信息方面,比GPT-3.5要糟糕。在今年3月份發(fā)布的報(bào)告中,NewsGuard提到,GPT-4不僅在其研究人員的提示下回答了完全虛假的新聞敘述,而且比GPT-3.5回答的內(nèi)容更差。
在上述AI行業(yè)從業(yè)者看來,這樣變化的結(jié)果是,用戶需要變得更為具體和主動(dòng)地引導(dǎo)GPT-4,才能獲得與過去相當(dāng)?shù)幕卮鹳|(zhì)量。
這也再度影響ChatGPT的使用門檻,而這與ChatGPT的初衷有所背離。
最開始ChatGPT爆火,就有業(yè)內(nèi)人士對(duì)深燃分析,它帶來的影響是將通用人工智能放在了每個(gè)用戶面前,也把人機(jī)交互的門檻,打到了最低點(diǎn)。
但目前來看,門檻還是存在。從ChatGPT的用戶畫像,也能看出這個(gè)產(chǎn)品的普及情況。根據(jù)SimilarWeb數(shù)據(jù),使用者主要分布在計(jì)算機(jī)電子與技術(shù)行業(yè),其中,編程和軟件開發(fā)占比最大。其他行業(yè)里,只有游戲行業(yè)中的視頻游戲機(jī)和配件的從業(yè)者占比較多。
在使用ChatGPT的體驗(yàn)上,一位工程師給深燃的反饋?zhàn)顬榉e極,表示一直在用,“能幫我解決小的程序上的問題”。
盡管都說,“淘汰你的不是AI,是會(huì)用AI的人”,如果普通人使用起來門檻越來越高,那也一定程度上脫離了ChatGPT的初衷。
還有兩個(gè)問題,是ChatGPT從最開始就面臨的質(zhì)疑,即準(zhǔn)確率和隱私保護(hù)。
根據(jù)上述日本相關(guān)機(jī)構(gòu)的報(bào)告,在被問到今后若要繼續(xù)/擴(kuò)大使用ChatGPT,需要解決什么問題時(shí),日本企業(yè)、美國企業(yè)分別有高達(dá)49%、45%的回答是“案件的精度”,其次為“個(gè)人資料等隱私(日企34%、美企35%)”,和“對(duì)問題的理解程度(日企33%、美企34%)”。
準(zhǔn)確度方面,OpenAI的CEO山姆·奧特曼,也做出過解釋,這個(gè)程序會(huì)自信地宣稱一些東西是事實(shí),但其實(shí)它是編造出來的,就像謊話連篇的政客一樣。他給這種現(xiàn)象起了個(gè)名字——“幻覺難題”。
總之,準(zhǔn)確率要實(shí)現(xiàn)起來非常不容易。原因就是因?yàn)樗皇强坑洃洠菓{借演繹推理能力來工作?!按笳Z言模型靠的是推理的拼字游戲,不可能像數(shù)據(jù)庫一樣完全準(zhǔn)確,人也不能完全保證準(zhǔn)確”,關(guān)注AI行業(yè)的工程師楊陽告訴深燃。
隱私方面,OpenAI至今還沒有給出明確的解決方案。在加拿大工作的小虹就告訴深燃,公司特地發(fā)郵件通知,讓大家謹(jǐn)慎使用ChatGPT。
基于這些限制,ChatGPT的應(yīng)用場(chǎng)景也受限制。
關(guān)注產(chǎn)業(yè)的投資人陳默默告訴深燃,它其實(shí)適合“生產(chǎn)力驅(qū)動(dòng)”的內(nèi)容生產(chǎn),而不是“創(chuàng)意驅(qū)動(dòng)”的內(nèi)容生產(chǎn),在前者上,能替代不少有重復(fù)經(jīng)驗(yàn)累積的人力。
用戶洛洛從4月開始使用ChatGPT,她開了會(huì)員,主要用于寫腳本和文案,“只要能給它正確的公式,基本可以反饋給我任意思維的腳本,只是拿到手要改”。她表示,產(chǎn)出的腳本比較基礎(chǔ),沒法做成爆款,但它邏輯沒有問題,“像公司日常的一些大量的視頻輸出,是可以支持的”,她現(xiàn)在的ChatGPT使用頻率,基本上一周3次以上。
現(xiàn)在夏楠調(diào)整了策略,只問它一些流程式的問題,比如開ebay網(wǎng)店的流程。盡管這類問題也可以問谷歌、百度,但“ChatGPT的回答更好”,她舉例,最近她去德國旅行,讓ChatGPT給她安排旅游計(jì)劃,給出的答案有參考性,交通安排的也很清楚。
這些長期使用ChatGPT的用戶,不論對(duì)ChatGPT的使用體驗(yàn)滿意與否,他們都提到,ChatGPT更像是一個(gè)升級(jí)了的谷歌、百度,帶來了一定助力。
03 ChatGPT,象征意義高過實(shí)質(zhì)意義?
最近,OpenAI推出了類似于LLM版的App Store,加速生態(tài)的建設(shè),還被曝光了一些功能上的優(yōu)化。這背后也隱藏著一個(gè)信號(hào),GPT4暫時(shí)已經(jīng)到天花板,要加速生態(tài)建設(shè),在GPT5出不來之前,先做一些體驗(yàn)上的優(yōu)化。
早在4月,山姆·奧特曼就表示,還沒有開始研究GPT-5,也沒有立即開始的打算,還曾表示,“大型模型時(shí)代已經(jīng)到頭了?!?/p>
據(jù)OpenAI官網(wǎng),GPT模型參數(shù)數(shù)量(可以理解為喂養(yǎng)模型的語言材料)在不斷提升。GPT-1是1.17億,GPT-2有15億,到了GPT-3,飆升至1750億,GPT-4,根據(jù)國外媒體機(jī)構(gòu)Semafor的一份報(bào)告,比GPT-3大六倍左右,具有1萬億個(gè)參數(shù)。
此前楊陽也對(duì)深燃表示,或許GPT-4就成長到頭了,語料是一個(gè)原因,“人類歷史上創(chuàng)造出的優(yōu)秀資源就這些了”,模型本身的限制也是一個(gè)原因。在他看來,現(xiàn)在GPT-4被限制了,應(yīng)該有能力沒有被完全開發(fā)出來。
近日,F(xiàn)acebook母公司Meta首席人工智能科學(xué)家Yann LeCun就指出,ChatGPT背后的生成式人工智能技術(shù)已進(jìn)入了死胡同,擁有太多的局限性。
出于巨頭間的競(jìng)爭(zhēng)關(guān)系,或許很難將這話作為客觀參考。但可以肯定的是,ChatGPT的確遇到了瓶頸。
要讓大語言模型有更好的應(yīng)用,不少人把視線投向垂直領(lǐng)域的應(yīng)用上。
AI行業(yè)從業(yè)者秦凱對(duì)深燃做了一個(gè)比喻,ChatGPT這類泛化型的人工智能,應(yīng)用寬泛時(shí),能力就像是高中生、大學(xué)生,和垂直場(chǎng)景結(jié)合時(shí),fine-tuning(在自然語言處理中使用的技術(shù),也叫微調(diào))的數(shù)據(jù)足夠精確和貼合場(chǎng)景,能力就能變?yōu)榇T士、博士,能解決更具體的需求。
楊陽也認(rèn)同這一看法。他提到,目前的模型最多只能進(jìn)行一倍左右的優(yōu)化,“大家有一個(gè)基礎(chǔ)共識(shí),GPT-5來了,也不會(huì)帶來顛覆性的進(jìn)化”,短期內(nèi)不可能達(dá)到AGI(通用人工智能)水平。
不過,他表示,現(xiàn)在做具體垂類應(yīng)用,首先是費(fèi)用高,訓(xùn)練模型對(duì)公司來說依舊是不小的成本;其次是數(shù)據(jù)安全、數(shù)據(jù)隔離的問題,目前采用的辦法是,“在大模型基礎(chǔ)上套小模型”,但帶來的問題是,現(xiàn)在的底層技術(shù)還在變化,“沒有人知道下一個(gè)模型,更優(yōu)秀的模型什么時(shí)候出現(xiàn)”,這個(gè)中間階段讓大家很迷茫,“如果三五年后才出現(xiàn),那現(xiàn)在基于大模型做垂類的產(chǎn)品是不虧的,場(chǎng)景落地后有機(jī)會(huì)回收資金。但如果很快就出現(xiàn)了,那大家現(xiàn)在做的外掛型垂類產(chǎn)品,是沒有多少意義的?!?/p>
投資人陳默默表示,這是一個(gè)“先有雞還是先有蛋”的問題,他們還是愿意去看相關(guān)項(xiàng)目,在細(xì)分領(lǐng)域里切一個(gè)特定場(chǎng)景的應(yīng)用,因?yàn)椤澳呐挛磥淼牡讓佑凶兓?,只要行業(yè)沒有變動(dòng),在應(yīng)用層的行業(yè)理解上還是會(huì)有沉淀”。
但他們?cè)诳错?xiàng)目時(shí)遇到的問題是,很難有人可以明確告訴他們,產(chǎn)品能節(jié)省多少人力成本。“看下來,還是得給機(jī)器配個(gè)人”,她舉例,關(guān)注賦能研發(fā)端論文篩選歸納相關(guān)的垂類產(chǎn)品,實(shí)際使用也還是需要一個(gè)人順著機(jī)器的結(jié)果,再做進(jìn)一步驗(yàn)真、開發(fā)和研究,實(shí)際上很難說效率有特別好的優(yōu)化”,所以現(xiàn)在,一些投資人都會(huì)傾向于再觀望觀望。
在關(guān)注垂類領(lǐng)域的AI創(chuàng)業(yè)公司的產(chǎn)品時(shí),她的感受是,“我們對(duì)技術(shù)帶來的產(chǎn)業(yè)升級(jí)機(jī)會(huì)保持謹(jǐn)慎樂觀,目前可能它的市場(chǎng)意義,高過實(shí)質(zhì)意義”。
秦凱總結(jié),人們對(duì)ChatGPT的期望過高,但有兩個(gè)瓶頸。首先,下一代大語言模型通過更大的參數(shù)規(guī)模和更強(qiáng)算力的收益邊際遞減,人們的期望可能無法很快滿足。其次,當(dāng)前的大語言模型是泛化的,需要很長時(shí)間來解決特定、真實(shí)的問題。目前垂直領(lǐng)域的生成式AI,已經(jīng)變成了針對(duì)具體企業(yè)做定制化需求和私有部署的體力活,“底層模型依靠transformer方式缺乏解決非常復(fù)雜問題的能力,現(xiàn)在的應(yīng)用情況與預(yù)期的水平相距甚遠(yuǎn)”。
應(yīng)用還在繼續(xù),技術(shù)還在發(fā)展,關(guān)于ChatGPT的應(yīng)用及潛力還需要再觀望。即便是這樣,ChatGPT已經(jīng)讓一些人的生產(chǎn)效率,有了一個(gè)數(shù)量級(jí)的提高,即便當(dāng)下有瓶頸,“ChatGPT已經(jīng)是很偉大的產(chǎn)品,這就夠了。”楊陽表示。
應(yīng)受訪者要求,文中夏楠、Lucy、楊陽、小虹、洛洛為化名。