正在閱讀:

谷歌落子,大模型的路該往何處去?

掃一掃下載界面新聞APP

谷歌落子,大模型的路該往何處去?

期待信號,更期待落地。

文 | 產(chǎn)業(yè)家 思杭 皮爺

在微軟GPT-4遇到諸多問題的最近,谷歌終于向外界展示出了其強勁的實力。

就在昨天,一年一度的Google I/O開發(fā)者大會在美國加州山景城的海濱露天劇場拉開帷幕。與往年不同的是,今年的大會主題是近期火爆全球的「AI大模型」,因此格外熱鬧。

在會上,最重磅的消息是,谷歌推出了最新語言模型——PaLM 2,并作為本次發(fā)布會中大部分AI功能的基礎模型。

盡管從AI模型整個領域來看,PaLM 2并未取得突破性進展,只是在多語言、推理和翻譯功能有所改進,諸如數(shù)據(jù)隱私和AI“幻覺”等問題依舊存在,但就部分性能而言,PaLM 2已經(jīng)超過GPT-4。

從各項參數(shù)來看,谷歌的大模型已經(jīng)覆蓋到了自身的產(chǎn)品應用,這些產(chǎn)品應用包括文檔等辦公產(chǎn)品,也更包括和底層云計算的打通,同時還有“個性化AI”概念的提出,這些動作無不在向外界傳遞出一個信號:谷歌大模型已經(jīng)可以全面落地,不論在C端還是B端,不論是輕量級部署,還是本地部署。

在過去的一兩個月中,中國市場風起云涌,TO B市場的變化更是一日千里。在大模型這條道路上,出現(xiàn)了各種形形色色的模型的定義,不論是大模型、產(chǎn)業(yè)模式,還是小模型等等,都以一種全新的概念姿態(tài)出現(xiàn)。但細看其具體的應用,其中的很多功能接近同質化,尤其是在TO B領域的應用上,同時更不乏基于開源進行開發(fā)的“套娃”模型。

于此之中,落地場景和產(chǎn)品也更是寥寥無幾。

差距是客觀存在的,不論是對標微軟的Open-AI,還是谷歌的PaLM 2,中國的大模型目前仍需要更大程度的在底層能力上的補齊,而透過谷歌的這次發(fā)布會,未來中國大模型的路該朝向何方?或許會有一些答案。

一、PaLM 2:有望超越GPT-4

PaLM 2作為谷歌最新大語言模型,是本次發(fā)布會的重磅消息。

據(jù)美國科技媒體記者Federic,“PaLM 2將應用于谷歌最新發(fā)布的Bard聊天工具中,成為OpenAI的ChatGPT的最大競爭者。此外,PaLM 2也是今天宣布的大部分AI功能的基礎模型?!?/p>

多語言性:PaLM 2 在多語言文本方面進行了嚴格的培訓,涵蓋100多種語言。這極大提高了其理解、生成和翻譯各種語言的能力,包括理解習語、詩歌和謎語。

推理:PaLM 2有廣泛的數(shù)據(jù)集,包括科學論文和網(wǎng)頁。因此,它展示了在邏輯、常識推理和數(shù)學方面的改進能力。

編碼:PaLM 2在大量公開可用的源代碼數(shù)據(jù)集上進行了預訓練。這意味著它擅長Python和JavaScript等流行的編程語言,還可以用Prolog,F(xiàn)ortran和Verilog等語言生成專門的代碼。

與其他大語言模型一樣,搭建PaLM 2需要耗費大量的時間成本和資源。然而,PaLM 2能應用于C端和B端兩種環(huán)境,企業(yè)客戶可根據(jù)特定領域的數(shù)據(jù)進行微調(diào),以便在特定場景下執(zhí)行任務。

如今,PaLM 2已應用于谷歌的25個功能和產(chǎn)品,包括Google Bard聊天機器人和Google Workspace協(xié)同文檔。

其中,PaLM 2的最輕版本Gecko足夠小,可以在手機上運行,每秒處理20個tokens,大約相當于16或17個英文單詞。不過,雖然PaLM 2雖然在推理和語言等方面取得了較為顯著的成績,但它仍面臨著技術挑戰(zhàn)和大模型的共性問題。

比如一些專家已經(jīng)開始質疑創(chuàng)建語言模型所使用訓練數(shù)據(jù)的合法性。因為這些數(shù)據(jù)從互聯(lián)網(wǎng)上抓取,通常包括受版權保護的文本和盜版電子書。而谷歌在PaLM 2的升級中,也并沒有披露更多關于數(shù)據(jù)源的細節(jié)。

另外,AI“幻覺”問題也未得到解決。大模型擅長編造信息,谷歌研究副總裁Zoubin Ghahramani在接受The Verge采訪時表示,在這方面,PaLM 2是對早期模型的改進,“從某種意義上說,我們正在投入大量精力不斷改進基礎性和歸因指標”,但他指出,在AI領域,打擊人工智能產(chǎn)生的虛假信息,“還有很長的路要走”。

二、大模型會“魔法”——編輯器和創(chuàng)作器

在這次發(fā)布會中,兩個具體的功能成為焦點。

第一個是Google推出的人工智能驅動的魔法編輯器(Magic Editor)。用戶可以在照片的特定部分進行復雜編輯,并填補照片空白。

另一個功能是魔術創(chuàng)作器(Magic Compose),利用生成式AI幫助人們撰寫個性化信息。它可以以不同風格撰寫信息,甚至可以莎士比亞風格的信息。

基于AI大模型,谷歌地圖還發(fā)布「沉浸式路線視圖」,在洛杉磯、舊金山、紐約、倫敦、阿姆斯特丹、柏林等15個城市進行試點。用戶可在導航時使用該功能,提前看到整個路線的動態(tài)街景視角,包括交通模擬、自行車道、復雜十字路口、停車等詳細信息。

除了谷歌的“魔法工具”和谷歌地圖,還有更多基于PaLM 2的AI新功能。比如,在音樂方面,谷歌推出了MusicLM,可將文本轉化為音樂。假設你在舉辦一個晚宴,通過簡單輸入“晚宴的深情爵士樂”,該工具即可創(chuàng)建歌曲的多個版本。

此外,Google Workspace也實現(xiàn)了AI辦公功能。據(jù)了解,谷歌將在180多個國家和地區(qū)提供英語版本的Bard聊天機器人,而且還推出了對日語和韓語的支持。在不久的將來,Bard會支持40種語言。

在此基礎上,谷歌還通過Bard與Adobe合作,開發(fā)了藝術生成功能。

在谷歌文檔的側面,將會出現(xiàn)一個新面板——Sidekick,可以幫助用戶在寫作時閱讀并整理文檔,根據(jù)上下文提供與內(nèi)容有關的建議,可以對標Notion。

同時,優(yōu)化的還有自身的搜索。據(jù)了解,谷歌正在試驗一種由人工智能驅動的對話模式。用戶搜索時會看到建議的后續(xù)步驟,可以根據(jù)對話模式進入建議的下一步。此外,谷歌還引入了“觀點”過濾器。

三、AI生成代碼,Codey比肩GitHub Copilot

本次,Google發(fā)布的代碼生成工具「Codey」,是對GitHub Copilot的一個回應。Codey經(jīng)過專門培訓,可以處理與編碼相關的提示,并且還接受過處理與Google Cloud相關查詢培訓。

Codey是基于谷歌的PaLM 2大語言模型的編碼工具。谷歌表示,該工具是在大量獲得許可的開源代碼、大量內(nèi)部谷歌代碼、公司所有代碼示例及其參考應用程序的基礎上進行訓練的。

谷歌表示,該模型是在大量獲得許可的開源代碼、大量內(nèi)部谷歌代碼、公司所有代碼示例及其參考應用程序的基礎上進行訓練的。開發(fā)人員能夠直接在他們的IDE聊天框中與Codey聊天,或者在文本文件中寫評論,讓它生成相關代碼。

對于Codey,谷歌的愿景是,它希望通過這種聊天機器人技術,在不久的將來,開發(fā)人員可以管理他們在谷歌云上的所有服務,包括部署和擴展應用程序。

四、谷歌云的“三大基礎模型”

從Transformer架構到PaLM 2,除卻GPT模型之外,實際上,谷歌一直保持領導者地位。

在本次在Google I/O 2023大會上,Google Cloud又邁出了一大步,對代碼生成模式和模型調(diào)整都做出了改善。以下為本次更新的三大基礎模型:

Codey,文本到代碼模型,幫助開發(fā)人員完成代碼、生成和聊天

Imagen,文本到圖像模型,幫助客戶生成和編輯高質量圖像,滿足任何業(yè)務需求

Chirp,語音轉文本模型,用于翻譯、溝通和交流

這些基礎模型可通過API訪問,也可以在生成式AI Studio中的UI進行調(diào)整,或部署到數(shù)據(jù)科學筆記本。

值得一提的是,獨特的調(diào)優(yōu)功能能夠結合人工反饋來訓練,可用于微調(diào)基礎模型的獎勵模型。這對于醫(yī)療、金融和電子商務等行業(yè)有著十分重要的應用。

寫在最后:

今年,Google I/O大會之所以備受關注的一個焦點在于,其基于自身的大模型,谷歌做到了將固有的全部產(chǎn)品接近重塑的程度,這種重塑不單純是產(chǎn)品邏輯上的重塑,更是能真實落地、真實使用的重構。

比如面向C端的辦公文檔,比如與Adobe結合的圖片設計,比如文生圖、圖生文、文生音樂等等,相較于Open-AI的發(fā)布,谷歌的大模型表達更加具象和入微,也更貼近人們生活的場景。

而在B端業(yè)務上,更是如此。

不論是其在低代碼/無代碼上的進一步邁步,還是基于谷歌云三大模型的梳理和拆解,再或者是在機器人智能的結合下進行智能交互、智能指令的新企業(yè)模式,都展示出谷歌可以將AI大模型真正應用到企業(yè)生產(chǎn)和TO B場景中。這種應用不是單純的AI算法,而是真正基于大模型的特定業(yè)務表達。

從這些視角來看,這也更是中國大模型應該去踐行的。

在過去的多年時間里,中國在移動互聯(lián)網(wǎng)方面處于領先地位,這種領先體現(xiàn)在互聯(lián)網(wǎng)的廣泛使用、智能手機的極高普及率,這些領先最終沉淀出的就是真實有價值的數(shù)據(jù),而這也是如今百度騰訊阿里京東以及其它企業(yè)做大模型的基礎。

但在數(shù)據(jù)訓練之上,基于軟件層面和基于開發(fā)層面的真實場景的表達,如今卻甚為少見。

或者說,單純的比較參數(shù)量級僅代表的是大模型本身的能力,而并不是其能賦能產(chǎn)業(yè)的能力,谷歌和微軟的成功應用也在昭示這一點:大模型應該和真正的場景結合,基于此才能釋放更大的想象力和價值。

不論是谷歌,還是微軟,在其大模型發(fā)布后,都能看到的是其矩陣內(nèi)的產(chǎn)品的迅速跟進,對中國大模型企業(yè)而言,也更應該強化大模型的應用層,在具備微信、淘寶等一眾全球移動互聯(lián)網(wǎng)時代最有明星價值的產(chǎn)品的土壤上,在這個制造業(yè)發(fā)達,供應鏈眾多,數(shù)字化轉型迫切的環(huán)境里,中國本土的大模型具備的價值將更大,其能攪動的市場變化也會更為劇烈。

對中國大模型廠商而言,市場期待的,也恰是這些真正可落地的應用和實踐。這些實踐可以在社交,在電商,在低代碼,在供應鏈,也更可以在一個個中國產(chǎn)業(yè)數(shù)字化轉型的新洼地。

本文為轉載內(nèi)容,授權事宜請聯(lián)系原著作權人。

谷歌

5.5k
  • 俄方解釋對谷歌天價罰款:是象征性的,谷歌不應限制俄媒
  • 俄羅斯法院對谷歌處以35位數(shù)字罰款

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

谷歌落子,大模型的路該往何處去?

期待信號,更期待落地。

文 | 產(chǎn)業(yè)家 思杭 皮爺

在微軟GPT-4遇到諸多問題的最近,谷歌終于向外界展示出了其強勁的實力。

就在昨天,一年一度的Google I/O開發(fā)者大會在美國加州山景城的海濱露天劇場拉開帷幕。與往年不同的是,今年的大會主題是近期火爆全球的「AI大模型」,因此格外熱鬧。

在會上,最重磅的消息是,谷歌推出了最新語言模型——PaLM 2,并作為本次發(fā)布會中大部分AI功能的基礎模型。

盡管從AI模型整個領域來看,PaLM 2并未取得突破性進展,只是在多語言、推理和翻譯功能有所改進,諸如數(shù)據(jù)隱私和AI“幻覺”等問題依舊存在,但就部分性能而言,PaLM 2已經(jīng)超過GPT-4。

從各項參數(shù)來看,谷歌的大模型已經(jīng)覆蓋到了自身的產(chǎn)品應用,這些產(chǎn)品應用包括文檔等辦公產(chǎn)品,也更包括和底層云計算的打通,同時還有“個性化AI”概念的提出,這些動作無不在向外界傳遞出一個信號:谷歌大模型已經(jīng)可以全面落地,不論在C端還是B端,不論是輕量級部署,還是本地部署。

在過去的一兩個月中,中國市場風起云涌,TO B市場的變化更是一日千里。在大模型這條道路上,出現(xiàn)了各種形形色色的模型的定義,不論是大模型、產(chǎn)業(yè)模式,還是小模型等等,都以一種全新的概念姿態(tài)出現(xiàn)。但細看其具體的應用,其中的很多功能接近同質化,尤其是在TO B領域的應用上,同時更不乏基于開源進行開發(fā)的“套娃”模型。

于此之中,落地場景和產(chǎn)品也更是寥寥無幾。

差距是客觀存在的,不論是對標微軟的Open-AI,還是谷歌的PaLM 2,中國的大模型目前仍需要更大程度的在底層能力上的補齊,而透過谷歌的這次發(fā)布會,未來中國大模型的路該朝向何方?或許會有一些答案。

一、PaLM 2:有望超越GPT-4

PaLM 2作為谷歌最新大語言模型,是本次發(fā)布會的重磅消息。

據(jù)美國科技媒體記者Federic,“PaLM 2將應用于谷歌最新發(fā)布的Bard聊天工具中,成為OpenAI的ChatGPT的最大競爭者。此外,PaLM 2也是今天宣布的大部分AI功能的基礎模型?!?/p>

多語言性:PaLM 2 在多語言文本方面進行了嚴格的培訓,涵蓋100多種語言。這極大提高了其理解、生成和翻譯各種語言的能力,包括理解習語、詩歌和謎語。

推理:PaLM 2有廣泛的數(shù)據(jù)集,包括科學論文和網(wǎng)頁。因此,它展示了在邏輯、常識推理和數(shù)學方面的改進能力。

編碼:PaLM 2在大量公開可用的源代碼數(shù)據(jù)集上進行了預訓練。這意味著它擅長Python和JavaScript等流行的編程語言,還可以用Prolog,F(xiàn)ortran和Verilog等語言生成專門的代碼。

與其他大語言模型一樣,搭建PaLM 2需要耗費大量的時間成本和資源。然而,PaLM 2能應用于C端和B端兩種環(huán)境,企業(yè)客戶可根據(jù)特定領域的數(shù)據(jù)進行微調(diào),以便在特定場景下執(zhí)行任務。

如今,PaLM 2已應用于谷歌的25個功能和產(chǎn)品,包括Google Bard聊天機器人和Google Workspace協(xié)同文檔。

其中,PaLM 2的最輕版本Gecko足夠小,可以在手機上運行,每秒處理20個tokens,大約相當于16或17個英文單詞。不過,雖然PaLM 2雖然在推理和語言等方面取得了較為顯著的成績,但它仍面臨著技術挑戰(zhàn)和大模型的共性問題。

比如一些專家已經(jīng)開始質疑創(chuàng)建語言模型所使用訓練數(shù)據(jù)的合法性。因為這些數(shù)據(jù)從互聯(lián)網(wǎng)上抓取,通常包括受版權保護的文本和盜版電子書。而谷歌在PaLM 2的升級中,也并沒有披露更多關于數(shù)據(jù)源的細節(jié)。

另外,AI“幻覺”問題也未得到解決。大模型擅長編造信息,谷歌研究副總裁Zoubin Ghahramani在接受The Verge采訪時表示,在這方面,PaLM 2是對早期模型的改進,“從某種意義上說,我們正在投入大量精力不斷改進基礎性和歸因指標”,但他指出,在AI領域,打擊人工智能產(chǎn)生的虛假信息,“還有很長的路要走”。

二、大模型會“魔法”——編輯器和創(chuàng)作器

在這次發(fā)布會中,兩個具體的功能成為焦點。

第一個是Google推出的人工智能驅動的魔法編輯器(Magic Editor)。用戶可以在照片的特定部分進行復雜編輯,并填補照片空白。

另一個功能是魔術創(chuàng)作器(Magic Compose),利用生成式AI幫助人們撰寫個性化信息。它可以以不同風格撰寫信息,甚至可以莎士比亞風格的信息。

基于AI大模型,谷歌地圖還發(fā)布「沉浸式路線視圖」,在洛杉磯、舊金山、紐約、倫敦、阿姆斯特丹、柏林等15個城市進行試點。用戶可在導航時使用該功能,提前看到整個路線的動態(tài)街景視角,包括交通模擬、自行車道、復雜十字路口、停車等詳細信息。

除了谷歌的“魔法工具”和谷歌地圖,還有更多基于PaLM 2的AI新功能。比如,在音樂方面,谷歌推出了MusicLM,可將文本轉化為音樂。假設你在舉辦一個晚宴,通過簡單輸入“晚宴的深情爵士樂”,該工具即可創(chuàng)建歌曲的多個版本。

此外,Google Workspace也實現(xiàn)了AI辦公功能。據(jù)了解,谷歌將在180多個國家和地區(qū)提供英語版本的Bard聊天機器人,而且還推出了對日語和韓語的支持。在不久的將來,Bard會支持40種語言。

在此基礎上,谷歌還通過Bard與Adobe合作,開發(fā)了藝術生成功能。

在谷歌文檔的側面,將會出現(xiàn)一個新面板——Sidekick,可以幫助用戶在寫作時閱讀并整理文檔,根據(jù)上下文提供與內(nèi)容有關的建議,可以對標Notion。

同時,優(yōu)化的還有自身的搜索。據(jù)了解,谷歌正在試驗一種由人工智能驅動的對話模式。用戶搜索時會看到建議的后續(xù)步驟,可以根據(jù)對話模式進入建議的下一步。此外,谷歌還引入了“觀點”過濾器。

三、AI生成代碼,Codey比肩GitHub Copilot

本次,Google發(fā)布的代碼生成工具「Codey」,是對GitHub Copilot的一個回應。Codey經(jīng)過專門培訓,可以處理與編碼相關的提示,并且還接受過處理與Google Cloud相關查詢培訓。

Codey是基于谷歌的PaLM 2大語言模型的編碼工具。谷歌表示,該工具是在大量獲得許可的開源代碼、大量內(nèi)部谷歌代碼、公司所有代碼示例及其參考應用程序的基礎上進行訓練的。

谷歌表示,該模型是在大量獲得許可的開源代碼、大量內(nèi)部谷歌代碼、公司所有代碼示例及其參考應用程序的基礎上進行訓練的。開發(fā)人員能夠直接在他們的IDE聊天框中與Codey聊天,或者在文本文件中寫評論,讓它生成相關代碼。

對于Codey,谷歌的愿景是,它希望通過這種聊天機器人技術,在不久的將來,開發(fā)人員可以管理他們在谷歌云上的所有服務,包括部署和擴展應用程序。

四、谷歌云的“三大基礎模型”

從Transformer架構到PaLM 2,除卻GPT模型之外,實際上,谷歌一直保持領導者地位。

在本次在Google I/O 2023大會上,Google Cloud又邁出了一大步,對代碼生成模式和模型調(diào)整都做出了改善。以下為本次更新的三大基礎模型:

Codey,文本到代碼模型,幫助開發(fā)人員完成代碼、生成和聊天

Imagen,文本到圖像模型,幫助客戶生成和編輯高質量圖像,滿足任何業(yè)務需求

Chirp,語音轉文本模型,用于翻譯、溝通和交流

這些基礎模型可通過API訪問,也可以在生成式AI Studio中的UI進行調(diào)整,或部署到數(shù)據(jù)科學筆記本。

值得一提的是,獨特的調(diào)優(yōu)功能能夠結合人工反饋來訓練,可用于微調(diào)基礎模型的獎勵模型。這對于醫(yī)療、金融和電子商務等行業(yè)有著十分重要的應用。

寫在最后:

今年,Google I/O大會之所以備受關注的一個焦點在于,其基于自身的大模型,谷歌做到了將固有的全部產(chǎn)品接近重塑的程度,這種重塑不單純是產(chǎn)品邏輯上的重塑,更是能真實落地、真實使用的重構。

比如面向C端的辦公文檔,比如與Adobe結合的圖片設計,比如文生圖、圖生文、文生音樂等等,相較于Open-AI的發(fā)布,谷歌的大模型表達更加具象和入微,也更貼近人們生活的場景。

而在B端業(yè)務上,更是如此。

不論是其在低代碼/無代碼上的進一步邁步,還是基于谷歌云三大模型的梳理和拆解,再或者是在機器人智能的結合下進行智能交互、智能指令的新企業(yè)模式,都展示出谷歌可以將AI大模型真正應用到企業(yè)生產(chǎn)和TO B場景中。這種應用不是單純的AI算法,而是真正基于大模型的特定業(yè)務表達。

從這些視角來看,這也更是中國大模型應該去踐行的。

在過去的多年時間里,中國在移動互聯(lián)網(wǎng)方面處于領先地位,這種領先體現(xiàn)在互聯(lián)網(wǎng)的廣泛使用、智能手機的極高普及率,這些領先最終沉淀出的就是真實有價值的數(shù)據(jù),而這也是如今百度騰訊阿里京東以及其它企業(yè)做大模型的基礎。

但在數(shù)據(jù)訓練之上,基于軟件層面和基于開發(fā)層面的真實場景的表達,如今卻甚為少見。

或者說,單純的比較參數(shù)量級僅代表的是大模型本身的能力,而并不是其能賦能產(chǎn)業(yè)的能力,谷歌和微軟的成功應用也在昭示這一點:大模型應該和真正的場景結合,基于此才能釋放更大的想象力和價值。

不論是谷歌,還是微軟,在其大模型發(fā)布后,都能看到的是其矩陣內(nèi)的產(chǎn)品的迅速跟進,對中國大模型企業(yè)而言,也更應該強化大模型的應用層,在具備微信、淘寶等一眾全球移動互聯(lián)網(wǎng)時代最有明星價值的產(chǎn)品的土壤上,在這個制造業(yè)發(fā)達,供應鏈眾多,數(shù)字化轉型迫切的環(huán)境里,中國本土的大模型具備的價值將更大,其能攪動的市場變化也會更為劇烈。

對中國大模型廠商而言,市場期待的,也恰是這些真正可落地的應用和實踐。這些實踐可以在社交,在電商,在低代碼,在供應鏈,也更可以在一個個中國產(chǎn)業(yè)數(shù)字化轉型的新洼地。

本文為轉載內(nèi)容,授權事宜請聯(lián)系原著作權人。