文|AI鯨選社
每一個不可預(yù)知的夜晚,都可能會傳出OpenAI被超越的新聞。這不在6月21日晚又被超越了,Anthropic 推出了目前最聰明、最快和最具個性化的模型——Claude 3.5 Sonnet 。
公司對外宣傳該模型可以在各種任務(wù)中媲美甚至超越OpenAI的 GPT-4o。宣稱不同任務(wù)場景能超越Chat-GPT4的不止一家,但敢說各種場景超越的還很少見。但這也不能說大家實力都很雄厚,其實與OpenAI 總是畫餅,作為創(chuàng)業(yè)公司實力不夠強(qiáng)勁也有關(guān)系。
目前看,OpenAI 的大餅還有Sora、SearchGPT、ChatGPT4o的語音能力等,都是發(fā)了Demo卻沒有正式上線。布局的業(yè)務(wù)太多,每件事情都是單挑Google、Meta等巨頭,難度可想而知。
大家都不否認(rèn)OpenAI的實力,但這一年中 ,忙于宮斗的OpenAI,顯然讓很多產(chǎn)品的面市時間大幅延后。
但拋開客觀因素,OpenAI一直也有先發(fā)布Demo視頻吊足大家胃口,實際產(chǎn)品后續(xù)再說的吹牛習(xí)慣。只是眾多競爭對手不斷發(fā)布可實用的產(chǎn)品,OpenAI 越來越面臨已經(jīng)被超越的現(xiàn)狀。
多個核心戰(zhàn)場面臨失守
最新發(fā)布的大模型產(chǎn)品Claude 3.5 Sonnet(中杯),目前顯示在編程評估、視覺能力、處理速度和成本效率等方面相比前代產(chǎn)品有顯著改進(jìn)。測評榜單顯示,除數(shù)學(xué)方面, Claude3.5都比 GPT-4o 高或者逼近。
跟上一版本中最強(qiáng)的Claude 3 Opus相比,不僅速度提升了200%,成本還直接降低了80%,性價比可謂十分高。
目前看,除了發(fā)布會上秒殺蘋果Siri的人機(jī)對話能力、GPT-4o的語音功能還沒有上線,Claude 3.5的視覺理解和文本能力、編程能力等多方面已經(jīng)超越GPT-4o。更讓人吃驚的是,Anthropic的旗艦?zāi)P虲laude 3 Opus才剛剛發(fā)布了3個月。
很快還有Haiku和Opus(大杯和超大杯)發(fā)布,這迭代速度比OpenAI的ChatGPT不知快了多少。在文生視頻領(lǐng)域,大家是否還記得Sora橫空出世給大家?guī)淼恼鸷?。但那已?jīng)是2月份的事情,此后Sora音信全無,此后競爭對手如雨后春筍般出現(xiàn)。
先是Pika等AI視頻選手出現(xiàn),然后國內(nèi)出現(xiàn)很多后起之秀,最大的競爭對手是快手的可靈,發(fā)布即可公測?,F(xiàn)在不少網(wǎng)友已經(jīng)拿到了內(nèi)測資格,表現(xiàn)還不錯。
官方宣稱,可靈采用了3D時空聯(lián)合注意力機(jī)制,能夠生成符合物理規(guī)律的大幅度運(yùn)動視頻,并模擬真實世界特性。
可靈大模型生成的視頻分辨率高達(dá)1080p,時長最高可達(dá)2分鐘(幀率30fps),且支持自由的寬高比,這些特性是目前眾多用SDXL技術(shù)的偽AI視頻玩家,可望不可及的高度。
很快,Runway公司最近推出了其文生視頻的最新版本—Gen-3 Alpha。Gen-3 Alpha在細(xì)節(jié)豐富度、畫面連貫性、保真度、一致性和動態(tài)表現(xiàn)方面都有顯著提升,現(xiàn)在大家猜測,Sora的可控性能達(dá)到Gen-3 Alpha的水平就算不錯。
在多模態(tài)領(lǐng)域,OpenAI憑借ChatGPT 4o也并沒有完全占據(jù)領(lǐng)先優(yōu)勢。發(fā)布會上看到4o的酷炫表演,如在232毫秒的時間內(nèi)做出反應(yīng);可隨時打斷,開啟新話題;感受用戶的呼吸節(jié)奏;解釋方程式、圖表的推理過程;識別圖片中人物的情緒等,是不是提前錄制的好的發(fā)布視頻都不得而知。
此前的Google發(fā)布會,雖說Gemini被搶先發(fā)布的ChatGPT 4o搶了風(fēng)頭,但其實際上Gemini Nano多模式功能還比較落地。
借助多模態(tài)AI項目Project Astra,Google希望手機(jī)端用戶也能通過文本、圖像、聲音和口語,和AI互動。比如拍一張?zhí)O果的圖片,問下AI這是什么,能做什么。
山姆奧特曼是吹牛大王?
過去一年中,OpenAI最實在的更新,可能是直接全量上線的DAll.E,文生繪圖領(lǐng)域早就有Midjourney、Stable diffusion等重磅玩家,所以DAll.E直接悄悄上線。
發(fā)布近一年的DAll.E模型,在一眾AI繪畫產(chǎn)品中語意理解無出其右,但是畫面精細(xì)度、美觀度、接近真人攝影等近一年都沒有改善,最大的更新是可編輯部分畫面。
DAll.E模型也并非沒有貢獻(xiàn),和Sora這款期貨產(chǎn)品相同,最大的貢獻(xiàn)可能是讓市場認(rèn)知到,Di-T架構(gòu)是文生圖片/視覺是最先進(jìn)理念。圖形擴(kuò)散模型diffusion和語言大模型LLM構(gòu)成的Di-T架構(gòu)代表著未來發(fā)展方向。
當(dāng)下AI市場都在向Di-T模式的多模態(tài)進(jìn)發(fā),爭先推出產(chǎn)品。
比如,國內(nèi)的騰訊混元大模型正在基于ST-DiT升級架構(gòu),混元文生圖由傳統(tǒng)的U-Net升級為DiT架構(gòu),參數(shù)量提升十幾倍;混元文生視頻也是國內(nèi)較早使用DiT架構(gòu)的玩家,視頻生成時長達(dá)到16s。Sora是發(fā)布之際就提到自己能生成60S的視頻,并能模擬真實的物理世界。顯然遠(yuǎn)強(qiáng)于市面上的競爭對手,但Sora自己拿著生成好的案例宣傳,一直不給公測,這讓很多人懷疑山姆奧特曼在吹牛。
縱觀來看,OpenAI的發(fā)布會,很多并沒有按照自己的研發(fā)節(jié)奏發(fā)布,而是刻意為了狙擊競爭對手。最明顯的案例就是ChatGPT4o的發(fā)布,這款產(chǎn)品比Sora略好,是個半期貨產(chǎn)品。如何理解半期貨,就是ChatGPT4o宣稱的比ChatGPT4反應(yīng)快、各項評測任務(wù)表現(xiàn)更好等能力都有,但是語音能力說過兩個星期推送,一直沒有更新。
當(dāng)時應(yīng)該是OpenAI洞悉了Google I/O發(fā)布會最大的亮點,應(yīng)該是大模型Gemini的語音交互能力,所以提前一天開發(fā)布會,發(fā)布了能力相同但演示效果更好的產(chǎn)品,狙擊Google的發(fā)布會熱度。為何一家初創(chuàng)公司如此關(guān)注競爭,而并非努力迭代自己的產(chǎn)品呢?
實際上,主要原因是由于OpenAI是一家十分依賴融資的公司。2023上半年,OpenAI以103億美元完成B+輪融資,成為AI賽道獲最大融資額的企業(yè),目前OpenAI的融資總額達(dá)到了140億美元,未來還要完成1000億美元的融資。
這融資體量說是吞金獸也差不多,相比融資能力,OpenAI造血能力就差得多。 據(jù)外媒The Information報道,OpenAI首席執(zhí)行官山姆·奧特曼告訴員工,在過去六個月左右的時間里,OpenAI的年化收入增長了一倍多,達(dá)到34億美元。
這一數(shù)字在2023年底為16億美元。所以每年賺的不多,但投入巨大是OpenAI的基本面。山姆奧特曼自然也知道實情,這就造成OpenAI必須占據(jù)市場焦點。不僅需要讓市場的玩家都顯得落后,還希望市場認(rèn)為他未來不可限量,這樣投資資源就都會向他聚攏。
Sora就是為了這種取得預(yù)期,早早發(fā)布會后,市場對其膜拜程度又再攀高峰。
但在內(nèi)測使用中,發(fā)現(xiàn)這款產(chǎn)品十分不可控,而且訓(xùn)練成本高昂。在好萊塢編劇的定制使用中,影片中的氣球人需要幾百次抽卡,才能找到能用的畫面,而且使用的算力成本高昂。
現(xiàn)在這個時候,群雄四起,顯然OpenAI需要拿出 GPT 5 才能鎮(zhèn)住場子。
這不Claude 3.5 Sonnet 發(fā)布后,就有市場消息傳出GPT 5 大概3個月后發(fā)布。這是不是OpenAI為了狙擊Anthropic ,又故意放出的煙霧彈呢?
OpenAI的多事之秋
“前段時間和負(fù)責(zé)人聊天,我都感覺是奧特曼在吹牛逼, GPT 5 肯定沒這么驚艷,或者 GPT 5 驚不驚艷已經(jīng)不重要了。
因為GPT 4 已經(jīng)滿足了大部分商業(yè)需求,升級對于商業(yè)模式本身已經(jīng)沒那么大的變化了?!贝饲埃C豹移動董事長傅盛曾在演講中如此評價奧特曼的風(fēng)格,認(rèn)為他非常善于片Pr,推特沒事發(fā)幾條,讓OpenAI一直處于有利的輿論位置。
當(dāng)然,說奧特曼只會動嘴皮子也不客觀。對于山姆奧特曼來說,這一年最大的挑戰(zhàn),莫過于圍繞商業(yè)化和AI安全可控的問題,產(chǎn)生的團(tuán)隊宮斗。2023年11月,這場內(nèi)斗達(dá)到了高潮,Altman被解雇并短暫離開公司。
然而,經(jīng)過一段時間的調(diào)查和調(diào)解,在微軟的支持下,OpenAI宣布對Altman和總裁格雷戈里·布羅克曼的信任,并決定讓Altman重返董事會,但團(tuán)隊的裂痕已經(jīng)形成。
現(xiàn)在,形成Altman坐鎮(zhèn)指揮,美女技術(shù)官M(fèi)ira Murati出鏡做發(fā)布會,而首席科學(xué)家Ilya Sutskever離職創(chuàng)業(yè)的情況。Ilya Sutskever在2024年6月19日宣布離職OpenAI后,宣布創(chuàng)辦了一家名為“安全超級智能”(Safe Superintelligence,簡稱SSI)的新公司,兩位聯(lián)合創(chuàng)始人分別是前蘋果AI高管、Y-Combinator的合伙人Daniel Gross和前OpenAI技術(shù)團(tuán)隊成員Daniel Levy。Ilya主打的安全超級智能,在某種程度上是對OpenAI 初心的回歸。
OpenAI一直堅持時非營利性組織,奧特曼本人也不是絕對持股。但OpenAI目前商業(yè)化的腳步卻在提速,導(dǎo)致內(nèi)部各種聲音爭議不絕。
這不是OpenAI創(chuàng)始團(tuán)隊的第一次出走,剛剛發(fā)布Claude 3.5 Sonnet的公司Anthropic,也是由OpenAI(ChatGPT的開發(fā)機(jī)構(gòu))前研究副總裁達(dá)里奧·阿莫迪(Dario Amodei)和其他前OpenAI員工在2021年共同創(chuàng)辦,獲得了亞馬遜和谷歌的資金支持。
SSI和Anthropic都是OpenAI的核心團(tuán)隊成員創(chuàng)辦,打著超級安全的旗號出去創(chuàng)業(yè),但最終安全不安全沒有看出來,產(chǎn)品卻都對著ChatGPT打,經(jīng)常一更新,就出現(xiàn)某一方面達(dá)到或者超越ChatGPT。
超級人工智能不能一步到達(dá)
山姆奧特曼面臨的憂患不止如此,埃隆馬斯克也盯著OpenAI發(fā)大招,畢竟OpenAI就是馬斯克取得名字,但當(dāng)OpenAI不再朝著開源前進(jìn)時,憤怒的馬斯克自己創(chuàng)辦了開源大模型公司Grok,并在近期獲得60億美元的融資。
團(tuán)隊動蕩之際,OpenAI很多產(chǎn)品推進(jìn)速度變慢,也情有可原。目前還有GPT桌面版、與蘋果的合作、支持微軟的Copilot等任務(wù),相比Sora那些劃時代的產(chǎn)品,這些重要的商業(yè)合作其實也并不簡單。
當(dāng)下,奧特曼急要重塑團(tuán)隊?wèi)?zhàn)斗力,將目前已經(jīng)發(fā)布的期貨產(chǎn)品推向市場,以及更早的推出GPT5,重新拉開與市場上起他玩家的距離,才能保證OpenAI繼續(xù)被期許,以及最被崇拜的明日之星。