国产69精品久久久久app下载,wwxx免费观看,caopen97

文|硅谷101

ChatGPT以及硅谷AI大戰(zhàn)終于升級(jí)，長(zhǎng)出了“眼睛”和“嘴”。5月中旬，OpenAI和谷歌前后發(fā)布重磅AI多模態(tài)更新，從基于文字交互的ChatGPT全面升級(jí)，實(shí)現(xiàn)了“聲音，文字和視覺(jué)”三者全面結(jié)合的人工智能新交互功能，而這，也標(biāo)志著硅谷科技巨頭的生成式AI之戰(zhàn)正式進(jìn)入到第二輪。新一輪競(jìng)爭(zhēng)，只會(huì)更加激烈、更加全面。

大家好，歡迎來(lái)到硅谷101，這次我們聊聊這次多模態(tài)AI之戰(zhàn)對(duì)科技巨頭們的商業(yè)版圖意味著什么變化，以及生成式AI智能技術(shù)的下一步會(huì)發(fā)生什么。那我們首先來(lái)快速?gòu)?fù)盤(pán)一下OpenAI和谷歌發(fā)布的多模態(tài)重磅更新。

01、OpenAI GPT-4o：低延遲語(yǔ)音交互，《Her》成為現(xiàn)實(shí)

OpenAI這次的發(fā)布時(shí)長(zhǎng)很短，全程就26分鐘，發(fā)了一款產(chǎn)品GPT-4o。

GPT-4o的“o”是拉丁詞根“Omni”，意思是“所有的”、“全部的”或“全能”，意味著文本、音頻和圖像的任意組合作為輸入，并生成文本、音頻和圖像輸出的能力，這樣的“全面”多模態(tài)能力。

說(shuō)實(shí)話，2024年AI之戰(zhàn)會(huì)升級(jí)到多模態(tài)產(chǎn)品，這個(gè)預(yù)期在2023年已經(jīng)是行業(yè)共識(shí)，我們?cè)谥岸嗥谝曨l都提到過(guò)，僅僅是文字的prompt很難表達(dá)人類(lèi)的意圖，非常低效也非常受限，所以有語(yǔ)音和視覺(jué)的加持的多模態(tài)AI交互是人類(lèi)通往AGI道路上的必經(jīng)之路。但當(dāng)多模態(tài)AI交互真的到來(lái)的時(shí)候，我覺(jué)得還是會(huì)被震撼到。

OpenAI說(shuō)，GPT-4o可以在232毫秒內(nèi)響應(yīng)音頻輸入，平均為320毫秒，這已經(jīng)達(dá)到人與人之間的響應(yīng)時(shí)間。也就是說(shuō)，AI語(yǔ)音對(duì)話的交互已經(jīng)能做到非常低延遲、很絲滑的像真人一樣對(duì)話了。

GPT-4o發(fā)布之前，ChatGPT的語(yǔ)音模式功能有著好幾秒的延遲，這讓整個(gè)交互體驗(yàn)非常差，這是因?yàn)橹暗腉PT系列的語(yǔ)音功能是好幾個(gè)模型的拼合，先把聲音轉(zhuǎn)錄成文本，再用GPT大模型接受后，輸出文本，然后再用text to speech模型生成音頻，但這其中會(huì)損失非常多的信息，比如說(shuō)語(yǔ)調(diào)，語(yǔ)氣中的情緒情感，多個(gè)說(shuō)話人的識(shí)別，背景的聲音等等，所以語(yǔ)音功能會(huì)很慢很遲緩也很基礎(chǔ)。

而這次，GPT-4o是OpenAI專(zhuān)門(mén)訓(xùn)練的跨文本、語(yǔ)音和視覺(jué)的端到端新模型，所有輸入和輸出都由同一個(gè)神經(jīng)網(wǎng)絡(luò)處理，這使得GPT-4o能夠接受文本、音頻和圖像的任意組合作為輸入，并生成文本、音頻和圖像的任意組合輸出，是兼具了“聽(tīng)覺(jué)”、“視覺(jué)”的多模態(tài)模型，同時(shí)還支持中途打斷和對(duì)話插入，且具備上下文記憶能力。

這樣的多模態(tài)模型是OpenAI首次發(fā)布，表示還有很多探索的空間，但目前展現(xiàn)出的功能已經(jīng)讓人驚喜。比如說(shuō)，在現(xiàn)場(chǎng)demo中，GPT-4o可以理解人們的呼吸急促聲音并用輕松的方式安慰人類(lèi)。

它可以識(shí)別人臉表情，以及辨認(rèn)情緒。

它可以隨意變換語(yǔ)氣和風(fēng)格來(lái)講故事。

同時(shí)，GPT-4o還可以通過(guò)硬件設(shè)備通過(guò)視覺(jué)來(lái)分析人們正在從事的工作、看的書(shū)，可以引導(dǎo)人們解題，可以切換語(yǔ)言實(shí)時(shí)翻譯，也能通過(guò)視覺(jué)識(shí)別給它的信息并且給出非常擬人化的反饋。

說(shuō)實(shí)話，在直播發(fā)布會(huì)中直接現(xiàn)場(chǎng)演示這件事情是很需要勇氣的，因?yàn)橐坏┏鲥e(cuò)會(huì)引發(fā)非常大的公關(guān)災(zāi)難，但OpenAI有這個(gè)勇氣去直接現(xiàn)場(chǎng)演示直播，給人的感覺(jué)非常自信。除了現(xiàn)場(chǎng)的演示之外，OpenAI還在官網(wǎng)上放出了更多更復(fù)雜場(chǎng)景的交互，展現(xiàn)出AI多模態(tài)的更多的潛力。

比如說(shuō)，在官網(wǎng)上OpenAI做了17個(gè)案例展示，包括了照片轉(zhuǎn)漫畫(huà)、3D物體合成、海報(bào)創(chuàng)作、角色設(shè)計(jì)等樣本。

此外，OpenAI總裁Greg Brockman的演示視頻中，GPT-4o可以識(shí)別出他所穿的衣服、身處的環(huán)境、可以識(shí)別出Brockman的情緒和語(yǔ)氣和房間里正出現(xiàn)的新動(dòng)作，但最讓外界關(guān)注的一個(gè)動(dòng)作是，讓兩臺(tái)運(yùn)行GPT-4o的設(shè)備進(jìn)行語(yǔ)音或視頻交互。

也就是說(shuō)，OpenAI的GPT-4o多模態(tài)給了AI交互的聲音和視覺(jué)，不僅升級(jí)了人和AI之間的交互，也升級(jí)了AI和AI之間的交互，這樣的交互更自然，更擬人，有著更大空間的應(yīng)用場(chǎng)景。而且整個(gè)AI的聲音和語(yǔ)言非常的靈動(dòng)，機(jī)器人感比較弱，會(huì)開(kāi)玩笑會(huì)安慰人會(huì)害羞，難怪很多人在OpenAI發(fā)布會(huì)之后直呼，那部講述人類(lèi)和AI語(yǔ)音助手Samantha電影《Her》的時(shí)代真的到來(lái)了。

戴雨森

真格基金管理合伙人

我自己是非常激動(dòng)的啊。因?yàn)槲乙恢庇X(jué)得我們對(duì)于 AI 落地的應(yīng)用預(yù)期，其實(shí)不一定是準(zhǔn)確的，大家可能在AI一開(kāi)始的時(shí)候，覺(jué)得生產(chǎn)力的場(chǎng)景也很直接，但是現(xiàn)在可能發(fā)現(xiàn)，很多（AI）Agent（人工智能體）的落地反而比較難，但是感性的角度反而會(huì)更加容易一點(diǎn)。

對(duì)于絕大部分人來(lái)講，生活其實(shí)是單調(diào)的，或者是一成不變的，是乏味的。那這個(gè)時(shí)候其實(shí)不管像《Her》里面說(shuō)所謂的這種，男女情感的表達(dá)，還是說(shuō)一種陪伴、一種傾聽(tīng)，其實(shí)都是很稀缺的一種資源或內(nèi)容。當(dāng) AI 能夠做到以一個(gè)低延遲、低成本，很好的形式去表達(dá)這種情緒價(jià)值的時(shí)候，這可能會(huì)對(duì)我們的社交社會(huì)帶來(lái)很大的影響，也會(huì)帶來(lái)很大的這個(gè)機(jī)會(huì)。

隨著AI能力的提升，圖靈測(cè)試這個(gè)概念會(huì)越來(lái)越模糊化，電影Her中描述的場(chǎng)景實(shí)現(xiàn)幾乎是早晚的事。但AI多模態(tài)帶來(lái)的不僅僅是情感上的陪伴和交互，更多的是整個(gè)工作場(chǎng)景和生態(tài)上的顛覆。

就在OpenAI發(fā)布會(huì)的一天之后，谷歌發(fā)布的一系列多模態(tài)更新，進(jìn)一步的說(shuō)明了AI多模態(tài)能帶來(lái)的顛覆性潛力。

02、谷歌的戰(zhàn)書(shū)：Project Astra及"120次AI"的全生態(tài)升級(jí)

對(duì)比起OpenAI的發(fā)布會(huì)，谷歌的發(fā)布會(huì)就更像一個(gè)巨頭了：長(zhǎng)達(dá)兩小時(shí)，在各個(gè)生態(tài)方向用AI發(fā)力。連CEO Sundar Pichai自己也說(shuō)，整場(chǎng)Keynote的演講稿里總共提了120次“AI”，表明谷歌目前所有的工作都圍繞多模態(tài)AI模型Gemini來(lái)展開(kāi)。

首先，直接與OpenAI前一天發(fā)布的GPT-4o對(duì)標(biāo)的是Project Astra。

2.1 語(yǔ)音助手Project Astra

雖然谷歌不是現(xiàn)場(chǎng)演示，不像OpenAI那么敢，畢竟巨頭還是需要保守一些，但從谷歌的demo視頻來(lái)看，如果谷歌的demo是實(shí)時(shí)生成的，谷歌的Gemini多模態(tài)模型比起OpenAI在功能上也不算弱。

谷歌DeepMind負(fù)責(zé)人Demis Hassabis在臺(tái)上宣布了Project Astra，Project Astra基于Gemini多模態(tài)大模型，是一個(gè)實(shí)時(shí)、多模態(tài)的人工智能助手，可以通過(guò)硬件設(shè)備“看到”世界，知道東西是什么以及你把它們放在哪里，并且可以回答問(wèn)題或幫助你做幾乎任何事情。在谷歌的demo視頻中，谷歌倫敦辦事處的一名工作人員用Astra識(shí)別自己的地理位置，找到丟失的眼鏡，檢查代碼等等。

如果谷歌demo是實(shí)時(shí)拍攝的，反正Demis Hassabis是打包票說(shuō)這個(gè)視頻沒(méi)有任何篡改，那么毫無(wú)疑問(wèn)這會(huì)解鎖眾多的交互場(chǎng)景。Hassabis說(shuō)，“展望未來(lái)，人工智能的故事將不再是關(guān)于模型本身，而是關(guān)于它們能為你做什么”。

而與OpenAI的GPT4o宣戰(zhàn)的Project Astra只是其中的一個(gè)產(chǎn)品而已，谷歌其實(shí)發(fā)布了非常多的更新，包括谷歌展示了最新版Gemini加持的搜索功能。

2.2 AI搜索

谷歌首先在美國(guó)上線名為AI Overviews的AI技術(shù)生成摘要功能。簡(jiǎn)單來(lái)說(shuō)，在你搜索信息的時(shí)候，谷歌的AI就直接幫你查找、整理和展示了。具體來(lái)說(shuō)，通過(guò)多步推理，Gemini可以代替用戶研究，實(shí)現(xiàn)更好更高效的搜索總結(jié)和結(jié)果，比如說(shuō)規(guī)劃一日三餐，購(gòu)物餐廳選擇，行程規(guī)劃，都可以在AI搜索中完成，更重要的是，這樣的AI搜索還會(huì)直接幫你做規(guī)劃，比如說(shuō)“幫我創(chuàng)建一個(gè)3天的飲食計(jì)劃”，谷歌AI搜索就直接一個(gè)計(jì)劃書(shū)擺在你面前了。

另外讓我覺(jué)得很期待的兩個(gè)功能，一個(gè)是多模態(tài)搜索。你會(huì)不會(huì)遇到過(guò)這種情況，搜索時(shí)發(fā)現(xiàn)難以用語(yǔ)言描述問(wèn)題，或者遇到不熟悉不認(rèn)識(shí)的物體，不知道如何去搜索相關(guān)的名詞。

現(xiàn)在你就可以直接拍張照片或者錄段視頻用語(yǔ)音或打字問(wèn)AI搜索，這個(gè)是啥，怎么修理，之后谷歌就會(huì)幫你整理出相關(guān)的各種信息。

對(duì)于我這種3C殺手、經(jīng)常容易弄壞各種電器的人來(lái)說(shuō)，我簡(jiǎn)直太期待這個(gè)多模態(tài)搜索功能了。而多模態(tài)模型Gemini的強(qiáng)大搜索和推理能力還能做更多的事情，也正好是我的痛點(diǎn)。

比如說(shuō)，CEO Pichai在現(xiàn)場(chǎng)演示，Gemini可以在谷歌相冊(cè)Google Photos里進(jìn)行更多的相關(guān)搜索，比如通過(guò)名為Ask Photos with Gemini的新功能讓Gemini找到用戶想要的車(chē)牌照號(hào)。

實(shí)話告訴大家，我就是那個(gè)記不住我家車(chē)牌號(hào)的人，所以，谷歌Gemini可以在用戶的相冊(cè)中搜索，找到相應(yīng)信息和對(duì)應(yīng)的照片，比如說(shuō)獲取照片中拍到的車(chē)牌照號(hào)碼，這個(gè)功能對(duì)我來(lái)說(shuō)，真的是非常期待。以及任何可以幫我尋找以往照片、文件中信息的功能，我覺(jué)得都會(huì)解決很多痛點(diǎn)。

還有一個(gè)對(duì)我來(lái)說(shuō)很大幫助的是，谷歌AI將會(huì)結(jié)合到谷歌的所有workspace中，俗稱(chēng)“谷歌全家桶” ，也就是說(shuō)，在 Gemini 的加持下，Google Workspace，包括 Gmail、Google Docs、Google Drive、Google Calendar、Google Meet 等都可以打通，可以在這里進(jìn)行跨文檔搜索。比如說(shuō)，你在郵箱里收到了一張發(fā)票，那么可以直接通過(guò)Gemini，把這張發(fā)票，整理到網(wǎng)盤(pán)Google Drive和表格Google Sheet中。還可以在郵件中搜索、讀取信息和亮點(diǎn)、歸納總結(jié)，這些功能都會(huì)在今年稍后推出。

另外谷歌還發(fā)布了一系列其他的模型更新，包括畫(huà)圖的 Imagen 3，音樂(lè)的 Music AI Sandbox，還有生成視頻的 Veo，還有有史以來(lái)最長(zhǎng)、上下文窗口200萬(wàn)token的Gemini 1.5 Pro，還有Gemini app以及谷歌的自研芯片第6代 TPU等等，因?yàn)榧?xì)節(jié)和產(chǎn)品太多了這個(gè)視頻我們就不一一復(fù)述了，如果感興趣的小伙伴可以去看看谷歌的兩小時(shí)發(fā)布會(huì)全程。

看到這里，你可能會(huì)問(wèn)，在OpenAI之后發(fā)布這一系列重磅更新的谷歌，兩個(gè)對(duì)手這一輪的發(fā)布，誰(shuí)是贏家呢？

03、OpenAI vs. Google：多模態(tài)之戰(zhàn)與AI的應(yīng)用落地

兩場(chǎng)發(fā)布會(huì)之后，我看到不少人在對(duì)比OpenAI和谷歌的產(chǎn)品發(fā)布。我們從公司策略層來(lái)解讀一下。

首先，OpenAI比谷歌IO早一天發(fā)布了春季更新，而且非常臨時(shí)，很難猜測(cè)不是故意搶在谷歌前面的，發(fā)布時(shí)長(zhǎng)也只持續(xù)26分鐘，非常聚焦在GPT-4o這一個(gè)產(chǎn)品上。雖然外界對(duì)GPT-4o的評(píng)價(jià)沒(méi)有說(shuō)像當(dāng)時(shí)發(fā)布ChatGPT時(shí)那么驚喜那么轟動(dòng)，但不得不說(shuō)，業(yè)內(nèi)的很多人還是覺(jué)得是一個(gè)很重要的里程碑，雖然多模態(tài)的這些功能是去年業(yè)內(nèi)共識(shí)，OpenAI會(huì)在2024年做出來(lái)并發(fā)布，并沒(méi)有那么多驚喜或創(chuàng)新，但是“實(shí)現(xiàn)”了大家“期待中早晚會(huì)實(shí)現(xiàn)的AI更新”，也是非常有意義的，并且也是正確的發(fā)展道路。

Howie Xu

AI及云服務(wù)行業(yè)高管、斯坦福大學(xué)客座教授

OpenAI這個(gè)GPT 4模型出來(lái)，也能夠做些translation（翻譯），翻譯什么的并不是一個(gè)新東西，如果沒(méi)有實(shí)時(shí)效應(yīng)，其實(shí)是很難落地，但星期一他那個(gè)宣布的東西，讓我感覺(jué)到我有可能真的會(huì)去用，比如下次我跟你一起去采訪誰(shuí)或者跟誰(shuí)講話，語(yǔ)言不通（的時(shí)候），我們真的可能就打開(kāi)我們的手機(jī)來(lái)給來(lái)用translation。就以前的，那個(gè)延遲這么慢，效果很不好，你都不好意思拿出來(lái)就用對(duì)吧？

那為什么能夠做到延遲性這么低，那被廣泛認(rèn)為的就是因?yàn)樗亲龅搅薔ative（原生的）Multimodal（多模態(tài)模型），我看到那個(gè)demo，我的第一反應(yīng)是說(shuō)OK，以前他說(shuō)的這些東西我都是玩玩是可以的，但是我是不會(huì)拎出來(lái)用的，但是他星期一給我的東西，我就覺(jué)得有可能我會(huì)拿來(lái)，就在實(shí)際的生活工作的場(chǎng)景里面可能用得到。

如果光從語(yǔ)音助手這個(gè)產(chǎn)品上來(lái)看，GPT-4o對(duì)打谷歌Project Astra，目前業(yè)內(nèi)很多聲音仍然認(rèn)為OpenAI是領(lǐng)先的。單從多模態(tài)模型上來(lái)說(shuō)，GPT-4o是OpenAI第一款完全原生的多模態(tài)模型。

我們視頻之前也說(shuō)到，它所有的多模態(tài)輸入和輸出都由同一個(gè)神經(jīng)網(wǎng)絡(luò)處理，這使得GPT-4o能夠接受文本、音頻和圖像的任意組合作為輸入，并生成文本、音頻和圖像的任意組合輸出，是所謂的“multimodal in（多模態(tài)輸入）, multimodal out（多模態(tài)輸出）”。

但目前不少業(yè)內(nèi)人士認(rèn)為，谷歌的Gemini目前并沒(méi)有做到這個(gè)程度，比如說(shuō)英偉達(dá)高級(jí)科學(xué)家Jim Fan在LinkedIn上發(fā)表觀點(diǎn)認(rèn)為，谷歌是多模態(tài)作為輸入，但并不是多模態(tài)作為輸出（multimodal in, but not multimodal out）。

這意味著谷歌本次更新的視頻、音樂(lè)等模型依然是獨(dú)立于Gemini大模型的存在，只是輸出的時(shí)候把所有模型給整合起來(lái)?yè)碛械亩嗄B(tài)輸出能力。所以Jim Fan認(rèn)為，谷歌整合所有的輸入輸出模態(tài)，將是不可避免的未來(lái)發(fā)展。

但他還有一句評(píng)論挺有意思的，Jim Fan說(shuō)，谷歌在這次發(fā)布會(huì)中做對(duì)的一件事是：“他們終于認(rèn)真努力將AI集成到搜索框中。谷歌最堅(jiān)固的護(hù)城河是分銷(xiāo)，Gemini不一定要成為最好的模型，才能成為世界上被使用最多的模型?！?/p>

也就是說(shuō)，谷歌在整個(gè)生態(tài)中只要順暢的融入AI功能，讓用戶覺(jué)得能解決問(wèn)題，提高生活和工作效率，因?yàn)楣雀柙谒阉鳌⑧]箱、谷歌云上的種種積累和優(yōu)勢(shì)，谷歌的分銷(xiāo)優(yōu)勢(shì)依然能保證谷歌在AI時(shí)代中立于不敗之地。

所以，按照這個(gè)邏輯來(lái)看，谷歌在這次發(fā)布會(huì)上在全生態(tài)上全面升級(jí)AI功能，其實(shí)是做到了。所以，就算OpenAI前一天搶跑發(fā)布亮點(diǎn)的GPT4o，谷歌整體來(lái)看，這一局也不算輸，第二天的股價(jià)穩(wěn)中上漲也應(yīng)證了市場(chǎng)的看法。

戴雨森

真格基金管理合伙人

OpenAI發(fā)布會(huì)之后，Google 發(fā)布會(huì)之前，我跟一位Google的同學(xué)聊，然后他提到一個(gè)觀點(diǎn)還挺有意思。他說(shuō)一年以前OpenAI發(fā)GPT4的時(shí)候，他們有很多東西，他們是不知道OpenAI怎么做到的，覺(jué)得哇他們好厲害，現(xiàn)在OpenAI發(fā)布會(huì)發(fā)了之后，他們看到是說(shuō)，這個(gè)東西我們也知道怎么做，但我們可能還沒(méi)有像他那樣做得那么好，或者那么ready（準(zhǔn)備好）去demo，所以我覺(jué)得目前來(lái)看的話，他們肯定在這上面是有一些這個(gè)經(jīng)驗(yàn)，所以我感覺(jué)就是雙方的絕對(duì)差距還是在縮小的。

Howie Xu

AI及云服務(wù)行業(yè)高管、斯坦福大學(xué)客座教授

相對(duì)來(lái)講，Google注重的是一個(gè)solution（解決方案），就是解決方案，那個(gè)OpenAI目前注重的，更多的還是一個(gè)technology（技術(shù)），它在technology（技術(shù)）上面非常的驚艷，但你說(shuō)他怎么去跟我們?nèi)说娜粘?，不管是生活、工作去結(jié)合起來(lái)，他沒(méi)有那么多的人力，他也沒(méi)這么多思考，而且這不是他的強(qiáng)項(xiàng)。

Google IO的那個(gè)發(fā)布，看上去可能從某些角度來(lái)講，好像還沒(méi)有那個(gè)前一天，OpenAI的東西那么驚艷，但實(shí)際上我覺(jué)得很驚艷，我覺(jué)得驚艷不只是說(shuō)是一個(gè)model（模型）的驚艷，model只是一個(gè)維度，還有其他維度，怎么跟我的生活、工作能夠結(jié)合起來(lái)，比如說(shuō)跟我的手機(jī)結(jié)合起來(lái)，它一些的announcement（發(fā)布）是這個(gè)技術(shù)，所以說(shuō)AI這件技術(shù)，我覺(jué)得今天落地是一個(gè)很大的一個(gè)挑戰(zhàn)，或者說(shuō)一件事情。

所以可以預(yù)期到，接下來(lái)，多模態(tài)的繼續(xù)整合和優(yōu)化，以及將AI功能整合到谷歌的各個(gè)產(chǎn)品中，以及AI agent（人工智能體）的引入，將會(huì)是谷歌發(fā)力的重點(diǎn)。除此之外，這兩場(chǎng)發(fā)布會(huì)聽(tīng)下來(lái)還讓我非常感興趣的一點(diǎn)是，硬件。

OpenAI整個(gè)demo用的是蘋(píng)果手機(jī)和蘋(píng)果電腦，谷歌用的是安卓手機(jī)和硬件，同時(shí)還在視頻demo中提到了一個(gè)谷歌內(nèi)部類(lèi)似谷歌眼鏡一樣的prototype原型設(shè)配，所以接下來(lái)，硬件和AI大模型的整合，也到了加入戰(zhàn)場(chǎng)的時(shí)刻。而這個(gè)賽道的老大，蘋(píng)果，在干什么呢？

04、移動(dòng)端AI大戰(zhàn)開(kāi)啟，蘋(píng)果即將入局？

雖然蘋(píng)果公司在這輪硅谷科技巨頭AI大戰(zhàn)中遲遲沒(méi)有發(fā)聲，但最近有不少的輿論風(fēng)向稍微給我們勾勒出了蘋(píng)果潛在的想法和布局。

目前市場(chǎng)都在等待6月10日舉行的蘋(píng)果2024年全球開(kāi)發(fā)者大會(huì)WWDC，預(yù)計(jì)會(huì)在屆時(shí)會(huì)宣布一系列在AI和硬件上的產(chǎn)品發(fā)布。

包括可能會(huì)和OpenAI合作，將ChatGPT整合到 iOS 18 操作系統(tǒng)，此外，外界期待蘋(píng)果會(huì)宣布利用大模型全面升級(jí)Siri，給用戶提供AI賦能的交互體驗(yàn)，還有蘋(píng)果如何將大模型塞進(jìn)手機(jī)移動(dòng)端的“蘋(píng)果全家桶”，也是馬上召開(kāi)的蘋(píng)果發(fā)布會(huì)的最大看點(diǎn)。

今年早前，蘋(píng)果發(fā)布了一系列的論文，包括第一個(gè)手機(jī)端UI多模態(tài)大模型Ferret-UI。

還有今年一月發(fā)布的一篇將大模型塞進(jìn) iPhone 的關(guān)鍵性論文，“使用有限的內(nèi)存實(shí)現(xiàn)更快的LLM推理”。

還有這篇，蘋(píng)果Siri團(tuán)隊(duì)在論文《利用大型語(yǔ)言模型進(jìn)行設(shè)備指向性語(yǔ)音檢測(cè)的多模態(tài)方法》中討論了去掉喚醒詞的方法。

同時(shí)，在今年3月發(fā)布的另外一篇論文中，蘋(píng)果首次披露一個(gè)具有高達(dá) 300 億參數(shù)的多模態(tài)模型MM1，這個(gè)多模態(tài)能力如果集成到iPhone 上，就能能夠通過(guò)視覺(jué)、語(yǔ)音和文本等多種方式理解并響應(yīng)用戶的需求。

所以綜上所述，雖然近兩年來(lái)，蘋(píng)果時(shí)常為人詬病在 AI 領(lǐng)域動(dòng)作遲緩，但是感覺(jué)，蘋(píng)果是在等一個(gè)正確的時(shí)機(jī)來(lái)加入戰(zhàn)局，它并沒(méi)有落后，而是一直在等待。如今，多模態(tài)技術(shù)成熟，特別是文字輸入、語(yǔ)音和視覺(jué)的交互和手機(jī)等硬件是天然的適配，OpenAI和谷歌的AI多模態(tài)之戰(zhàn)打響之際，也是蘋(píng)果入局的時(shí)間了。

戴雨森

真格基金管理合伙人

如果你看互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)時(shí)代，其實(shí)它們?cè)谲浖臐B透上，都要疊加一個(gè)硬件的滲透，大家要買(mǎi)PC、手機(jī)，所以導(dǎo)致，之前軟件的滲透速度，其實(shí)是相對(duì)比較慢的，那為什么ChatGPT一出來(lái)就滲透到了這么多的用戶，實(shí)際上是因?yàn)樗茉谝粋€(gè)，比較成熟的硬件上。所以我覺(jué)得在目前來(lái)講，AI落地肯定首選還是在手機(jī)上，我肯定是期待像AI的這些模型，怎么樣在蘋(píng)果的生態(tài)系統(tǒng)中去落地，其實(shí)說(shuō)全新形態(tài)的硬件，我自己覺(jué)得可能性比較低，但是在這個(gè)上面有了，包括最近剛發(fā)M4 對(duì)吧，大家說(shuō)iPad這個(gè)上面有這么強(qiáng)的這個(gè)芯片，你如果還是做原來(lái)的任務(wù)，是不是就浪費(fèi)了，你是不是用來(lái)干一些AI的任務(wù)呢

而對(duì)于智能手機(jī)、智能手表、乃至于以后的VR和AR眼鏡設(shè)備，更小的端模型將是業(yè)界著重發(fā)力的重點(diǎn)。在今年4月，蘋(píng)果宣布在全球最大AI開(kāi)源社區(qū) Hugging Face 發(fā)布了全新的開(kāi)源大型語(yǔ)言O(shè)penELM系列模型，包括4個(gè)不同參數(shù)規(guī)模的模型：270 Million（百萬(wàn)）、450 Million（百萬(wàn)）、1.1 Billion（十億）和3 Billion（十億），沒(méi)錯(cuò)，最大的也只有30億個(gè)參數(shù)，對(duì)移動(dòng)端小模型的布局有著明顯的意圖。而Howie Xu在采訪中認(rèn)為，端模型是人類(lèi)應(yīng)用AI發(fā)展的必然趨勢(shì)。

Howie Xu

AI及云服務(wù)行業(yè)高管、斯坦福大學(xué)客座教授

個(gè)人非?？春枚四Ｐ?，因?yàn)檫^(guò)去一年我們大量的精力、討論都是在越大越好，但是萬(wàn)億級(jí)的parameter（參數(shù)），不適合放在手機(jī)上面，那另外一個(gè)問(wèn)題就是說(shuō)，那個(gè)不是萬(wàn)億級(jí)的，千億級(jí)的，或者百億級(jí)的參數(shù)，是不是能夠把模型做到足夠好。

現(xiàn)在我們看到的很多的小的模型可能是700億參數(shù)的，一年之內(nèi)我們能夠看到就是，十億這么一個(gè)參數(shù)的一個(gè)模型，能夠做到當(dāng)初ChatGPT出來(lái)時(shí)候，讓大家驚艷的那個(gè)感覺(jué)，相當(dāng)于（GPT）3.5的那個(gè)model（模型）的能力，我覺(jué)得是一個(gè)billion（十億）的parameter（參數(shù)）是應(yīng)該能夠做到。

如果能夠這個(gè)端上面能夠運(yùn)行一個(gè)十億參數(shù)級(jí)別的模型，能夠做到（GPT）3.5的（的能力），那就打開(kāi)了很多的想象空間，然后接下去會(huì)有更小的模型，因?yàn)槟Ｐ涂倸w是越小，對(duì)耗電、對(duì)各方面的都有很大好處，我覺(jué)得甚至是sub 1 billion（小于10億參數(shù)）的會(huì)更好，從privacy（隱私）的角度，從耗電的角度，從各方面角度，我覺(jué)得小模型是必須的。

文章的最后，我們來(lái)總結(jié)一下OpenAI和谷歌的這兩場(chǎng)發(fā)布會(huì)，AI多模態(tài)之戰(zhàn)打響之后，在更多更廣的應(yīng)用上，我們看到了AI殺手級(jí)應(yīng)用的曙光，有了更落地更切實(shí)的可用性，這將重塑人類(lèi)和AI以及電子設(shè)備的交互方式。此外，雖然OpenAI和谷歌表面上刀光劍影，但兩家公司的策略目標(biāo)是有些區(qū)別的：前者一路勇向前目標(biāo)scaling law（規(guī)模法則）和AGI，后者更注重自家生態(tài)和應(yīng)用落地來(lái)捍衛(wèi)商業(yè)營(yíng)收與市場(chǎng)分銷(xiāo)護(hù)城河——可能模型是不是最好的，并沒(méi)有那么重要。所以目前的多模態(tài)初戰(zhàn)，OpenAI雖然贏了，但谷歌也沒(méi)輸。

而在硬件端，各類(lèi)硬件與AI的結(jié)合將帶來(lái)巨大的新機(jī)會(huì)，而大模型“瘦身”進(jìn)手機(jī)只是開(kāi)始，打造應(yīng)用體驗(yàn)才是關(guān)鍵所在。此外，讓人驚喜的是谷歌demo最后展示的AR眼鏡與AI的結(jié)合，這給“AR智能眼鏡”這個(gè)起起伏伏了好幾個(gè)周期的產(chǎn)品，帶來(lái)了新的曙光和希望，除了谷歌多年的AR經(jīng)驗(yàn)，Meta在AR硬件上的布局，與蘋(píng)果在Vision Pro以及自家AR團(tuán)隊(duì)的未來(lái)策略，都可能成為下一場(chǎng)科技硬件巨頭們比拼的新戰(zhàn)場(chǎng)。對(duì)了，不要忘記微軟這家與OpenAI深度綁定的巨頭，它并沒(méi)有將全部雞蛋都放在OpenAI的籃子中。微軟目前在AI布局上的優(yōu)勢(shì)，加上在軟硬件上都有多年經(jīng)驗(yàn)和布局，最近還收編了之前主打情感陪伴大模型公司Inflection的大部分AI頂級(jí)人才、發(fā)布了自己的大模型MAI-1。所以我們很興奮得能感覺(jué)到，生成式AI的第二輪多模態(tài)戰(zhàn)役打響了，越來(lái)越多的科技巨頭入局，并且戰(zhàn)術(shù)和方向也越發(fā)清晰，也帶來(lái)的是AI應(yīng)用的潛在落地與爆發(fā)。這場(chǎng)戰(zhàn)斗，硅谷101在最前線，我們拭目以待。

文|硅谷101

01、OpenAI GPT-4o：低延遲語(yǔ)音交互，《Her》成為現(xiàn)實(shí)

OpenAI這次的發(fā)布時(shí)長(zhǎng)很短，全程就26分鐘，發(fā)了一款產(chǎn)品GPT-4o。

它可以識(shí)別人臉表情，以及辨認(rèn)情緒。

它可以隨意變換語(yǔ)氣和風(fēng)格來(lái)講故事。

比如說(shuō)，在官網(wǎng)上OpenAI做了17個(gè)案例展示，包括了照片轉(zhuǎn)漫畫(huà)、3D物體合成、海報(bào)創(chuàng)作、角色設(shè)計(jì)等樣本。

戴雨森

真格基金管理合伙人

就在OpenAI發(fā)布會(huì)的一天之后，谷歌發(fā)布的一系列多模態(tài)更新，進(jìn)一步的說(shuō)明了AI多模態(tài)能帶來(lái)的顛覆性潛力。

02、谷歌的戰(zhàn)書(shū)：Project Astra及"120次AI"的全生態(tài)升級(jí)

首先，直接與OpenAI前一天發(fā)布的GPT-4o對(duì)標(biāo)的是Project Astra。

2.1 語(yǔ)音助手Project Astra

2.2 AI搜索

看到這里，你可能會(huì)問(wèn)，在OpenAI之后發(fā)布這一系列重磅更新的谷歌，兩個(gè)對(duì)手這一輪的發(fā)布，誰(shuí)是贏家呢？

03、OpenAI vs. Google：多模態(tài)之戰(zhàn)與AI的應(yīng)用落地

兩場(chǎng)發(fā)布會(huì)之后，我看到不少人在對(duì)比OpenAI和谷歌的產(chǎn)品發(fā)布。我們從公司策略層來(lái)解讀一下。

Howie Xu

AI及云服務(wù)行業(yè)高管、斯坦福大學(xué)客座教授

也就是說(shuō)，谷歌在整個(gè)生態(tài)中只要順暢的融入AI功能，讓用戶覺(jué)得能解決問(wèn)題，提高生活和工作效率，因?yàn)楣雀柙谒阉?、郵箱、谷歌云上的種種積累和優(yōu)勢(shì)，谷歌的分銷(xiāo)優(yōu)勢(shì)依然能保證谷歌在AI時(shí)代中立于不敗之地。

戴雨森

真格基金管理合伙人

Howie Xu

AI及云服務(wù)行業(yè)高管、斯坦福大學(xué)客座教授

相對(duì)來(lái)講，Google注重的是一個(gè)solution（解決方案），就是解決方案，那個(gè)OpenAI目前注重的，更多的還是一個(gè)technology（技術(shù)），它在technology（技術(shù)）上面非常的驚艷，但你說(shuō)他怎么去跟我們?nèi)说娜粘＃还苁巧?、工作去結(jié)合起來(lái)，他沒(méi)有那么多的人力，他也沒(méi)這么多思考，而且這不是他的強(qiáng)項(xiàng)。

04、移動(dòng)端AI大戰(zhàn)開(kāi)啟，蘋(píng)果即將入局？

今年早前，蘋(píng)果發(fā)布了一系列的論文，包括第一個(gè)手機(jī)端UI多模態(tài)大模型Ferret-UI。

還有今年一月發(fā)布的一篇將大模型塞進(jìn) iPhone 的關(guān)鍵性論文，“使用有限的內(nèi)存實(shí)現(xiàn)更快的LLM推理”。

戴雨森

真格基金管理合伙人

Howie Xu

AI及云服務(wù)行業(yè)高管、斯坦福大學(xué)客座教授

歷史搜索全部刪除

熱門(mén)搜索

OpenAI和谷歌AI多模態(tài)重磅更新，生成式AI之戰(zhàn)升級(jí)第二輪

01、OpenAI GPT-4o：低延遲語(yǔ)音交互，《Her》成為現(xiàn)實(shí)

02、谷歌的戰(zhàn)書(shū)：Project Astra及"120次AI"的全生態(tài)升級(jí)

03、OpenAI vs. Google：多模態(tài)之戰(zhàn)與AI的應(yīng)用落地

04、移動(dòng)端AI大戰(zhàn)開(kāi)啟，蘋(píng)果即將入局？

OpenAI

評(píng)論

OpenAI和谷歌AI多模態(tài)重磅更新，生成式AI之戰(zhàn)升級(jí)第二輪

01、OpenAI GPT-4o：低延遲語(yǔ)音交互，《Her》成為現(xiàn)實(shí)

02、谷歌的戰(zhàn)書(shū)：Project Astra及"120次AI"的全生態(tài)升級(jí)

03、OpenAI vs. Google：多模態(tài)之戰(zhàn)與AI的應(yīng)用落地

04、移動(dòng)端AI大戰(zhàn)開(kāi)啟，蘋(píng)果即將入局？

OpenAI和谷歌AI多模態(tài)重磅更新，生成式AI之戰(zhàn)升級(jí)第二輪

01、OpenAI GPT-4o：低延遲語(yǔ)音交互，《Her》成為現(xiàn)實(shí)

02、谷歌的戰(zhàn)書(shū)：Project Astra及"120次AI"的全生態(tài)升級(jí)

03、OpenAI vs. Google：多模態(tài)之戰(zhàn)與AI的應(yīng)用落地

04、移動(dòng)端AI大戰(zhàn)開(kāi)啟，蘋(píng)果即將入局？

OpenAI

評(píng)論

OpenAI和谷歌AI多模態(tài)重磅更新，生成式AI之戰(zhàn)升級(jí)第二輪

01、OpenAI GPT-4o：低延遲語(yǔ)音交互，《Her》成為現(xiàn)實(shí)

02、谷歌的戰(zhàn)書(shū)：Project Astra及"120次AI"的全生態(tài)升級(jí)

03、OpenAI vs. Google：多模態(tài)之戰(zhàn)與AI的應(yīng)用落地

04、移動(dòng)端AI大戰(zhàn)開(kāi)啟，蘋(píng)果即將入局？

OpenAI和谷歌AI多模態(tài)重磅更新，生成式AI之戰(zhàn)升級(jí)第二輪

01、OpenAI GPT-4o：低延遲語(yǔ)音交互，《Her》成為現(xiàn)實(shí)

03、OpenAI vs. Google：多模態(tài)之戰(zhàn)與AI的應(yīng)用落地

04、移動(dòng)端AI大戰(zhàn)開(kāi)啟，蘋(píng)果即將入局？

01、OpenAI GPT-4o：低延遲語(yǔ)音交互，《Her》成為現(xiàn)實(shí)

03、OpenAI vs. Google：多模態(tài)之戰(zhàn)與AI的應(yīng)用落地

04、移動(dòng)端AI大戰(zhàn)開(kāi)啟，蘋(píng)果即將入局？