文|三易生活
去年年末,聊天機(jī)器人ChatGPT如同一陣旋風(fēng)般席卷全網(wǎng)。而“文能提筆做文章,武能動(dòng)手修BUG”的ChatGPT,更是幾乎可以做任何事情,也使得AI文本生成仿佛第一次擁有了“靈魂”。得益于ChatGPT的優(yōu)秀素質(zhì),在其上線短短5天后,Open AI首席執(zhí)行官Sam Altman就在社交媒體披露其用戶量已突破100萬(wàn),也為AIGC再添了一把火。
作為Open AI背后的投資者,微軟方面似乎也看上了ChatGPT。近日來(lái)自海外科技媒體The Information的消息顯示,有知情人士透露,微軟方面正準(zhǔn)備在其必應(yīng)(Bing)搜索引擎中加入OpenAI的人工智能語(yǔ)言模型ChatGPT,以吸引競(jìng)爭(zhēng)對(duì)手谷歌搜索的用戶。這也就意味著,ChatGPT對(duì)傳統(tǒng)搜索引擎的沖擊,或?qū)牟糠謽I(yè)內(nèi)人士的推測(cè)變?yōu)楝F(xiàn)實(shí)。
這似乎也解釋了為何在ChatGPT快速走紅后,谷歌內(nèi)部啟動(dòng)“Red Code”的原因。針對(duì)ChatGPT,谷歌內(nèi)部包括研發(fā)、安全和信任等多個(gè)部門的團(tuán)隊(duì)被重新分配了工作任務(wù),被要求協(xié)助開(kāi)發(fā)新的AI技術(shù)原型和產(chǎn)品。沒(méi)錯(cuò),在搜索引擎會(huì)被ChatGPT取代這個(gè)問(wèn)題上,谷歌也不復(fù)當(dāng)初“ChatGPT還沒(méi)到能取代搜索引擎”的自信。
ChatGPT與傳統(tǒng)的搜索引擎有什么區(qū)別呢?事實(shí)上,通常意義上的搜索引擎,是指通過(guò)從互聯(lián)網(wǎng)上提取各網(wǎng)站的信息,將其保存在自己建立的數(shù)據(jù)庫(kù)中、并建立索引,用戶發(fā)起檢索請(qǐng)求后,系統(tǒng)檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶。在用戶檢索信息時(shí),關(guān)鍵詞無(wú)疑是最為有效的手段。而在外界看來(lái),奠定百度搜索引擎的基礎(chǔ),無(wú)疑就是李彥宏的《超鏈文件檢索系統(tǒng)和方法》,其核心是以關(guān)鍵字作為核心權(quán)重來(lái)決定“目標(biāo)頁(yè)面”的相關(guān)性和排序。
簡(jiǎn)而言之,在搜索引擎中搜索信息的大體流程,是用戶輸入關(guān)鍵詞、搜索引擎在數(shù)據(jù)庫(kù)篩選匹配關(guān)鍵詞的結(jié)果,并為用戶排序出關(guān)聯(lián)度從高到低的鏈接。搜索引擎的本質(zhì),是基于用戶輸入內(nèi)容向用戶“推薦”結(jié)果,但打開(kāi)哪一個(gè)內(nèi)容還是需要用戶自己來(lái)選擇。從二十年前的雅虎、谷歌,到世紀(jì)之交的百度,再到后來(lái)的搜狗、360、DuckDuckGo,也都沒(méi)有脫離這套運(yùn)行模式。
對(duì)于用戶而言,這二十余年里在搜索框輸入關(guān)鍵詞,等待搜索引擎展示網(wǎng)頁(yè)鏈接,再根據(jù)自己的需求打開(kāi)網(wǎng)頁(yè),幾乎是一成不變的,或許這也是在日新月異的互聯(lián)網(wǎng)世界中,為數(shù)不多的古典氛圍了。然而這樣的體驗(yàn)卻是有缺憾的,因?yàn)楸藭r(shí)的計(jì)算機(jī)還不能完美理解用戶的需求,所以需要用關(guān)鍵詞來(lái)讓計(jì)算機(jī)將用戶的需求,劃定在一個(gè)模糊的范圍內(nèi)。
相信許多朋友在通過(guò)搜索引擎尋求問(wèn)題的答案時(shí),往往會(huì)在一個(gè)主題下嘗試不同的關(guān)鍵詞,這樣的效果顯然稱不上完美。而在滿足用戶信息需求方面,ChatGPT則提供了一個(gè)完全不同的體驗(yàn),面對(duì)用戶需求ChatGPT是直接給出答案,避免了用戶的選擇,并實(shí)現(xiàn)了從搜索問(wèn)題到生產(chǎn)答案的一步到位式體驗(yàn)。
雖然對(duì)于部分用戶來(lái)說(shuō),更希望將選擇權(quán)握在自己手里,但抖音、TikTok在全球范圍內(nèi)的成功,已經(jīng)證明了絕大多數(shù)用戶是“懶惰”的。準(zhǔn)確來(lái)說(shuō),大多數(shù)用戶希望借助推薦算法來(lái)幫助自己檢索、并篩選信息,并不反感互聯(lián)網(wǎng)廠商為他們營(yíng)造一個(gè)“信息繭房”。相比傳統(tǒng)搜索引擎有輸入、檢索、整理、結(jié)果這四步,ChatGPT則直接跳過(guò)了中間的兩個(gè)步驟,實(shí)現(xiàn)了從輸入到結(jié)果這個(gè)新的搜索方式。
而谷歌對(duì)ChatGPT極為警惕的背后,其實(shí)是用戶對(duì)于搜索引擎的期望就是即時(shí)滿足信息需要,而這也是ChatGPT的核心優(yōu)勢(shì)。事實(shí)上,ChatGPT是OpenAI在2020年推出的自然語(yǔ)言識(shí)別模型GPT-3的衍生產(chǎn)品,并以從人類反饋中強(qiáng)化學(xué)習(xí)的方法訓(xùn)練這一模型,基于GANs(生成對(duì)抗網(wǎng)絡(luò))讓ChatGPT在不斷的調(diào)試、迭代中,生成與真實(shí)數(shù)據(jù)無(wú)二的結(jié)果。
其實(shí)ChatGPT并不能理解用戶提問(wèn)的意圖,也不理解人類語(yǔ)言中的邏輯,只是對(duì)1750億個(gè)訓(xùn)練文本中字詞組合的出現(xiàn)率進(jìn)行了統(tǒng)計(jì),再按照用戶輸入的內(nèi)容和統(tǒng)計(jì)出來(lái)的出現(xiàn)率排列字詞,來(lái)給出看起來(lái)合理的回復(fù)。而“一本正經(jīng)的胡說(shuō)八道”,在ChatGPT上是十分常見(jiàn)的一件事。
如此龐大的數(shù)據(jù)自然能讓ChatGPT變得“無(wú)所不能”,其實(shí)從本質(zhì)上來(lái)說(shuō),ChatGPT之所以顯得如此聰明,關(guān)鍵在于Open AI斥資1200萬(wàn)美元為其訓(xùn)練成本買單,它的底層運(yùn)行邏輯依舊還是“基于統(tǒng)計(jì)的拼湊”。
ChatGPT其實(shí)并不像許多人渲染的那般智能,它同樣需要基于輸入的數(shù)據(jù)集來(lái)進(jìn)行訓(xùn)練,這也是為什么最開(kāi)始谷歌對(duì)于ChatGPT并不重視。原因其實(shí)也很簡(jiǎn)單,ChatGPT的成功靠的是Open AI比友商更愿意支付訓(xùn)練大型人工智能模型的成本。然而一旦ChatGPT與微軟的Bing攜手,情況就會(huì)發(fā)生變化。
ChatGPT在NLP(自然語(yǔ)言處理)上的能力,確實(shí)要比以往的文本生產(chǎn)AI有著大幅度的升級(jí),這也確保了它不會(huì)出現(xiàn)答非所問(wèn)的問(wèn)題,而微軟Bing搜索引擎的加入也將會(huì)為其解決最大的難題,那就是數(shù)據(jù)集。傳統(tǒng)搜索引擎擅長(zhǎng)的收集海量信息,搭配ChatGPT從人類行為中學(xué)習(xí)的能力,必然就會(huì)迸發(fā)出1+1>2的效果。
當(dāng)然,Bing與ChatGPT的合作也有一個(gè)問(wèn)題,那就是如何篩選出有價(jià)值的內(nèi)容來(lái)“喂養(yǎng)”ChatGPT。要知道直到目前為止,數(shù)據(jù)的標(biāo)記和篩選工作中,人工的比例都相當(dāng)高,如果微軟或Open AI能夠?qū)?shù)據(jù)標(biāo)記和篩選的過(guò)程完全自動(dòng)化,或許通用搜索引擎的時(shí)代就真的要落幕了。