文|適道
最近,馬斯克怒寫46頁(yè)訴狀,將OpenAI及 Sam Altman 告上法庭,并要求OpenAI恢復(fù)開(kāi)源狀態(tài)。對(duì)此,OpenAI“第一投資人”,被稱為全球科技“投資之王”的Vinod Khosla表示,馬斯克是典型吃不到葡萄就說(shuō)葡萄酸。
雖然Vinod Khosla有句名言:“一個(gè)方案有90%的機(jī)率失敗不是問(wèn)題,只要還有10%的機(jī)會(huì)獲得100倍的收益”。
然而,他本人的投資眼光卻可謂毒辣。1990年代,Khosla投資了瞻博網(wǎng)絡(luò),并建議其開(kāi)發(fā)一種“互聯(lián)網(wǎng)路由器,而不是當(dāng)時(shí)更常見(jiàn)的普通路由器”。據(jù)《華爾街日?qǐng)?bào)》報(bào)道,Kleiner Perkins對(duì)瞻博網(wǎng)絡(luò)的300萬(wàn)美元投資為他帶來(lái)了70億美元的收益。
2019年,當(dāng)OpenAI從一家非營(yíng)利研究組織轉(zhuǎn)變?yōu)椤坝杏舷蕖惫荆琄hosla大膽地邁出了第一步,其創(chuàng)立的投資機(jī)構(gòu)Khosla Ventures在種子輪向OpenAI投出高達(dá)5000萬(wàn)美元。該金額是Khosla Ventures成立十五年來(lái)任何一筆投資規(guī)模的兩倍。
至少?gòu)?0年前開(kāi)始,Khosla就堅(jiān)信,AI將徹底改變世界。他認(rèn)為:未來(lái)20年,AI有可能在80%的人類角色中承擔(dān)80%的工作量,并創(chuàng)造巨大的經(jīng)濟(jì)價(jià)值。
上周,Khosla分享了自己對(duì)AI 交互與革命的最新洞察《How AI Will Change Our Relationship With Computers》(The Information)。這位科技“投資之王”表示:“AI硬件” (AI hardware) 和“小工具”(gadgets)等術(shù)語(yǔ)更像是一種“誤用”。不妨拋開(kāi)“設(shè)備”的局限,討論在人機(jī)交互變革的大背景下,將會(huì)發(fā)生哪些根本性變化?適道在不影響原意的情況下,對(duì)文章進(jìn)行了簡(jiǎn)譯和補(bǔ)充改寫。
01 語(yǔ)音主導(dǎo)界面,軟件將學(xué)習(xí)人類
第一個(gè)根本性變化——低延遲語(yǔ)音將成為人機(jī)交互的主導(dǎo)界面。
想象一下,比起用手指戳半天屏幕,延遲在半秒內(nèi)的語(yǔ)音顯然更加便利。與此同時(shí),“無(wú)聲語(yǔ)音”技術(shù)也在迎面走來(lái)。當(dāng)你在公共場(chǎng)合中,無(wú)需發(fā)出聲音就能和設(shè)備進(jìn)行互動(dòng),不干擾他人,也能保護(hù)隱私。
第二個(gè)根本性變化——軟件將適應(yīng)人類,而不是人類學(xué)習(xí)軟件。
到目前為止,我們總是在自適應(yīng)軟件——學(xué)習(xí)APP的復(fù)雜設(shè)計(jì),記住層次化的菜單,并以此與機(jī)器交互。未來(lái),我們不再需要像學(xué)習(xí)使用 Uber 或SAP、Oracle 這樣的復(fù)雜系統(tǒng)一樣,去學(xué)習(xí)如何使用這些APP。
綜上,新一代硬件將結(jié)合二者特征——實(shí)現(xiàn)語(yǔ)音互動(dòng)、能夠?qū)W習(xí)人類語(yǔ)言和人類本身。雖然處理某些視覺(jué)任務(wù)可能仍然需要屏幕,但核心交互將轉(zhuǎn)向語(yǔ)音——無(wú)論是無(wú)聲的還是有聲的。
Khosla指出:前蘋果首席設(shè)計(jì)官Jony Ive和Sam Altman討論過(guò)一個(gè)AI硬件項(xiàng)目,甚至在ChatGPT出現(xiàn)之前,大家就預(yù)言會(huì)出現(xiàn)這種界面。雖然早期熱度很快消退了,但他們的方向是正確的。問(wèn)題出在,他們沒(méi)有充分關(guān)注AI所帶來(lái)的全新用戶體驗(yàn)。
02 延遲不低的Rabbit何以得到Khosla青睞?
前段時(shí)間,初創(chuàng)公司Rabbit在CES 2024上發(fā)布了其手持式AI硬件產(chǎn)品——R1,售價(jià)199美元,上線5日就賣了5萬(wàn)臺(tái),近1000萬(wàn)美元。
和此前出圈的Ai Pin類似,Rabbit R1也采用緊湊小巧的設(shè)計(jì),并標(biāo)配了麥克風(fēng)、攝像頭,不需要連接手機(jī),沒(méi)有內(nèi)置 App。不同的是,Ai Pin沒(méi)有屏幕,選擇“投影”顯示,看起來(lái)更酷炫;Rabbit R1則是搭載了一塊 2.88 英寸的觸摸屏,更為穩(wěn)妥。
Rabbit R1的定位為AI Agent,用戶在不需要手機(jī)的情況下能夠完成很多任務(wù):叫車、放歌、訂餐、訂酒店,甚至在Midjourney 上生成圖片。CEO呂騁(Jesse Lyu)在實(shí)測(cè)操作中,只需說(shuō)一句“Play Feel Good Inc”,這首歌就能直接播放;對(duì)著屏幕中Discord論壇,問(wèn)一句“大家都討論什么”,Rabbit R1就可以對(duì)“看”到的內(nèi)容進(jìn)行總結(jié)。
Khosla本人正是Rabbit的早期投資人,投資金額高達(dá)千萬(wàn)美元。在文章中,Khosla給出了投資Rabbit的理由:“Rabbit是人機(jī)交互在強(qiáng)大AI世界中的早期嘗試——設(shè)備通過(guò)自然語(yǔ)言,用語(yǔ)音與計(jì)算機(jī)(或稱為“代理”)進(jìn)行交流?!?/p>
Khosla舉了個(gè)自己的例子,當(dāng)他徒步時(shí),會(huì)使用“Picture This”APP識(shí)別自己遇到的植物,但這個(gè)過(guò)程很麻煩:停下來(lái),暫停有聲讀物,打開(kāi)應(yīng)用,拍照,等待答案加載,關(guān)閉應(yīng)用,將手機(jī)放回口袋。有了新設(shè)備,Khosla只需將設(shè)備指向植物并問(wèn):“這是什么植物?”就會(huì)得到答案,然后繼續(xù)聽(tīng)正在播放的有聲讀物。
不過(guò),Khosla可能要“等上一陣”。外媒爆料,有拿到真機(jī)的網(wǎng)友發(fā)現(xiàn),Rabbit R1會(huì)在收到問(wèn)題后說(shuō)一句“讓我看看”,接著就是20秒的無(wú)事發(fā)生,這延遲顯然不符合Khosla定義的“半秒內(nèi)”。
但根據(jù)CEO呂騁在訪談中的回應(yīng):Rabbit OS并非像ChatGPT一樣的大語(yǔ)言模型LLM,而是基于大動(dòng)作模型(Large Action Model)開(kāi)發(fā)。LAM能夠使AI學(xué)會(huì)人類操作各種APP的方式,并通過(guò)與LLM結(jié)合,從而實(shí)現(xiàn)“用戶發(fā)指令——AI執(zhí)行”的效果。因此,Rabbit OS更像一個(gè)通用的APP控制器。
如果用戶僅使用LAM涉及的功能。例如,播放一首歌;詢問(wèn)“橙子和橘子的區(qū)別”等任何不需要搜索最新信息的任務(wù),Rabbit響應(yīng)速度會(huì)非???,幾乎在0.5秒以內(nèi)。但如果涉及使用OpenAI,例如搜索最新信息,速度就會(huì)變慢,一般在7——8秒,涉及視覺(jué)則會(huì)更慢。不過(guò),呂騁表示,這已經(jīng)是目前行業(yè)內(nèi)最快的速度。
Khosla本人似乎對(duì)Rabbit的目前的“延遲”不太在意,他更在意的是“讓AI代替人與APP交互”,并對(duì)Rabbit OS 基于LAM“跨APP工作”能力大為贊賞:這代表傳統(tǒng)范式將完全顛覆,意味著最終我們不必與軟件交互,因?yàn)锳I 將替我們這樣做。
但新的問(wèn)題來(lái)了,Rabbit為何不以一種“APP”的形式出現(xiàn)在手機(jī)中?就像智商更高的Siri?
呂騁從創(chuàng)業(yè)者的角度給出了答案:首先,雖然Rabbit可以成為一款A(yù)PP,但如果Rabbit只是個(gè)APP,就意味著蘋果公司能接觸到代碼,無(wú)異于分享了公司的知識(shí)產(chǎn)權(quán)。其次,團(tuán)隊(duì)不得不同時(shí)為iOS和Android開(kāi)發(fā)維護(hù)這款A(yù)PP,這還需要大量的持續(xù)資金投入。最重要的是,當(dāng)Rabbit會(huì)被放在和其他APP一樣的平臺(tái)上,會(huì)給自己帶來(lái)了不安:如果明天出現(xiàn)了一個(gè)更好的應(yīng)用怎么辦?用戶忠誠(chéng)度幾乎為零。
那么,如果Siri自己變成高智商呢,還需要Rabbit R1嗎?呂騁表示:?jiǎn)栴}不在于技術(shù),而在于商業(yè)模式,因?yàn)閕Phone不可能一夜之間沒(méi)有AppStore。而Rabbit R1可沒(méi)有內(nèi)置 App。
對(duì)于Rabbit R1的定位,呂騁給出了一個(gè)靠譜的描述:AI時(shí)代的iPod。
試想,在非智能手機(jī)時(shí)代,你會(huì)一個(gè)褲兜裝手機(jī),另一個(gè)褲兜裝iPod。未來(lái),或許會(huì)一個(gè)褲兜裝iPhone,另一個(gè)褲兜裝AI Agent。
但正如呂騁恐懼“下一個(gè)更好的應(yīng)用”,如果下一款更快的AI Agent出現(xiàn)呢?畢竟,199美元的售價(jià)像是買了個(gè)付費(fèi)的“AI app”。用戶或許也可以花不高的價(jià)格買到下一款更好用的“AI app”,如此一來(lái),建立在Rabbit R1上的拓展業(yè)務(wù)也將不再存在——“人們教Rabbit來(lái)做他們自己的事情,本質(zhì)上是在創(chuàng)造Rabbit,而不是使用APP,當(dāng)用戶銷售他們自己的Rabbit時(shí),Rabbit OS將會(huì)從中抽成?!?/p>
03 AI Agent會(huì)是下一個(gè)iPhone嗎?
結(jié)合文章,適道發(fā)現(xiàn)一個(gè)新角度——AI時(shí)代的社交媒體將走向何方。
呂騁表示:還有很多事情我寧愿去手機(jī)上查看,至少目前是這樣。首先是重要的社交功能;另一部分是專業(yè)的群聊。
Khosla則指出:手機(jī)現(xiàn)在的設(shè)計(jì)是為了分散我們的注意力。如果我在徒步旅行時(shí)拿出手機(jī),我會(huì)看到我的電子郵件、短信和其他通知;我會(huì)被拉到某個(gè)社交平臺(tái)上,看到廣告,甚至可能陷入一個(gè)兔子洞,無(wú)意冒犯。
而這些新設(shè)計(jì),比如Rabbit旨在節(jié)省時(shí)間和減少干擾。你告訴它要做什么,它就只做那些,沒(méi)有多余的。
Gartner最新預(yù)測(cè),到2025年,50%消費(fèi)者將“放棄或大幅限制與社交媒體的互動(dòng)”。在 Gartner去年夏天的一項(xiàng)調(diào)查中,53%的消費(fèi)者表示,社交媒體在前一年或過(guò)去五年中變得更糟。
有趣的是,根據(jù)傳播學(xué)中的“媒介即訊息”,隨著AI時(shí)代的到來(lái),新一代AI Agent是否會(huì)摧毀iPhone所創(chuàng)造的社交媒體時(shí)代?“一個(gè)與真人分享的社交空間”是否將會(huì)終結(jié)?如果能,那么,人類當(dāng)前由“社交媒體”承載的“娛樂(lè)時(shí)間”又將投向何方?這其中又將蘊(yùn)含哪些新“錢景”?