文|雷科技
過(guò)去幾天,作為新一輪 AI 浪潮的領(lǐng)頭羊,OpenAI 面臨一次的分崩離析的重大危機(jī),從董事會(huì)宣布辭退創(chuàng)始人兼 CEO Sam Altman,到回歸又被否,期間還經(jīng)歷了多次反轉(zhuǎn),包括 Altman 加入微軟、員工逼宮、與 Anthropic(Claude)合并等。
到了北京時(shí)間 11 月 22 日下午,OpenAI 又表示原則上同意 Altman 重返 OpenAI 擔(dān)任 CEO,并組建新一屆董事會(huì),具體細(xì)節(jié)還在敲定中。
在事情還沒(méi)有正式敲定前就公開(kāi)披露,可見(jiàn)現(xiàn)任董事會(huì)也明白 OpenAI 急需「穩(wěn)定軍心」,否則競(jìng)爭(zhēng)對(duì)手還會(huì)繼續(xù)「掏空」OpenAI。緊隨官方之后,Sam Altman 以及之前剛辭任的總裁 Greg Brockman 也都發(fā)布了一條暗示回歸 OpenAI 的推文,不管初衷如何,實(shí)質(zhì)上也確實(shí)起到了「穩(wěn)定軍心」的作用。
根據(jù)此前公開(kāi)報(bào)道,包括 X(Twitter)、微軟、谷歌、Anthropic 以及一大批有志于這一輪 AI 浪潮的公司都在重金挖角 OpenAI 員工,而很多 OpenAI 員工也在考慮跳槽事宜,這顯然也會(huì)嚴(yán)重影響到 OpenAI 原定的一系列計(jì)劃。
與此同時(shí),競(jìng)爭(zhēng)對(duì)手們也不只是「圍觀看戲」,還希望抓住 OpenAI 犯錯(cuò)的機(jī)會(huì),加快推陳出新的節(jié)奏,加速趕超 OpenAI。
Token翻倍、“幻覺(jué)”減弱,Claude 2.1終于來(lái)了
就在同一天,從 OpenAI 分化出來(lái)又背靠谷歌的 Anthropic 發(fā)布了新的聊天機(jī)器人——Claude 2.1。
作為 ChatGPT 最有力的競(jìng)爭(zhēng)者之一,Claude 2 原本就在上下文長(zhǎng)度和語(yǔ)言理解上有一定的優(yōu)勢(shì),同時(shí)還較早支持了鏈接和文檔讀取能力。在 Claude 2.1 上,更是將最大支持 Token 數(shù)量從 10 萬(wàn)個(gè)增加到了 20 萬(wàn)個(gè),遠(yuǎn)高于 ChatGPT 的最大 3.2 萬(wàn)個(gè) Token。
Token 相當(dāng)于機(jī)器視角的「字?jǐn)?shù)」。
經(jīng)常使用 ChatGPT 或者類似聊天機(jī)器人的讀者應(yīng)該都知道,如果在上下文窗口內(nèi),一旦對(duì)話長(zhǎng)度超過(guò)了 Token 限制,上下文窗口就會(huì)發(fā)生變化,聊天機(jī)器人會(huì)丟失早期對(duì)話的內(nèi)容,等于忘記了之前的對(duì)話背景,會(huì)直接影響到后面的回答。
甚至不需要超出 Token 限制,只要對(duì)話長(zhǎng)度到一定階段,機(jī)器就會(huì)開(kāi)始遺忘早先的一些背景和要求,需要重復(fù)提醒。
而 20 萬(wàn)個(gè) Token 的長(zhǎng)度,意味著將近 270 頁(yè)文檔的上下文和更強(qiáng)的「記憶容量」。換言之,Claude 2.1 用戶現(xiàn)在可以上傳整個(gè)代碼庫(kù)等技術(shù)文檔、S-1 等財(cái)務(wù)報(bào)表,甚至是《伊利亞特》或《奧德賽》等長(zhǎng)篇文學(xué)作品。
通過(guò)能夠與大量?jī)?nèi)容或數(shù)據(jù)進(jìn)行交互,理論上 Claude 2.1 可以更好地進(jìn)行總結(jié)、執(zhí)行問(wèn)答、預(yù)測(cè)趨勢(shì)以及對(duì)比多個(gè)文檔等。AI 創(chuàng)業(yè)者兼開(kāi)發(fā)者 Greg Kamradt 在測(cè)試中,確實(shí)發(fā)現(xiàn)了 Claude 2.1 在性能上的進(jìn)步。
此外,Claude 2.1 在對(duì)抗大模型「幻覺(jué)」方面也取得了一定進(jìn)步。與之前的 Claude 2.0 模型相比,Claude 2.1 虛假陳述的概率降低了 2 倍。
根據(jù) Anthropic 的說(shuō)法,他們?cè)O(shè)置了大量復(fù)雜的事實(shí)問(wèn)題進(jìn)行測(cè)試,測(cè)試顯示 Claude 2.1 在面對(duì)錯(cuò)誤信息以及不確定信息時(shí)更可能提出異議,而不是提供不正確的信息。比如反駁用戶給出的「玻利維亞人口第五多的城市是蒙特(錯(cuò)誤信息)」,或是承認(rèn)「我不確定玻利維亞人口第五多的城市是什么」。
這使企業(yè)能夠構(gòu)建高性能的人工智能應(yīng)用程序,解決具體的業(yè)務(wù)問(wèn)題,并以更高的信任度和可靠性在其運(yùn)營(yíng)中部署人工智能。
視頻版Stable Diffusion發(fā)布即開(kāi)源,再一次改變視頻生成?
文本生成領(lǐng)域有 ChatGPT 和 Claude,圖像生成領(lǐng)域有 Midjourney 和 Stable Diffusion,但在視頻生成領(lǐng)域始終沒(méi)有一個(gè)模型可以跑出。
這不是說(shuō)沒(méi)有公司嘗試,谷歌、Meta 很早就有公布 AI 生成視頻的 Demo,還有大量初創(chuàng)團(tuán)隊(duì)都在「掘金」視頻生成領(lǐng)域,比如 Runway 就接連發(fā)布了 Gen-1、Gen-2 兩代,實(shí)現(xiàn)了真正的從零開(kāi)始生成視頻。當(dāng)然,Gen-2 仍然存在細(xì)節(jié)模糊、形態(tài)扭曲等等品質(zhì)問(wèn)題,所以始終沒(méi)能破圈。
Stable Video Diffusion 會(huì)改變一切嗎?
還是北京時(shí)間 11 月 22 日,Stable Diffusion 背后的公司 Stability AI 發(fā)布了旗下首個(gè)視頻生成模型——Stable Video Diffusion。
在很多人的意料之中,Stable Video Diffusion 基于圖片生成模型 Stable Diffusion 進(jìn)行開(kāi)發(fā)而成,Stability AI 已經(jīng)在 Github 上開(kāi)源了全部代碼,同時(shí)也上線了 Hugging Face 社區(qū)。
要指出的是,目前 Stable Video Diffusion 有兩種輸出形式,能以每秒 3 到 30 幀的可定制幀速生成 14 和 25 幀。換句話說(shuō),Stable Video Diffusion 目前最多也只能生成 8 秒左右的低幀率視頻。
但不要低估開(kāi)源迭代的力量。Stable Diffusion 模型 2022 年最開(kāi)始發(fā)布的時(shí)候,圖片生成質(zhì)量也比不上 OpenAI 的 DALL·E-2。然而由于開(kāi)源的策略,Stable Diffusion 被各路初創(chuàng)公司、開(kāi)發(fā)者、玩家頻繁應(yīng)用與改進(jìn),最終讓 AI 生成圖片徹底火出圈外,引發(fā)了一系列的變化。
同時(shí)在開(kāi)源力量的幫助下,不到半年內(nèi) Stable Diffusion 模型就迭代到了 2.1 版本。
誠(chéng)然,Stable Diffusion 的成功未必能夠復(fù)刻,但可以肯定的是,不同于 Gen-2 這類私有模型,Stable Video Diffusion 可以聚集開(kāi)源社區(qū)更多的開(kāi)發(fā)力量,加速視頻生成模型的迭代改進(jìn)。
生成式 AI,從來(lái)不只是 OpenAI
11 月 15 日,Sam Altman 在還沒(méi)有被董事會(huì)辭退之前就在 X(Twitter)上表示,OpenAI 將暫停新的 ChatGPT Plus(付費(fèi))用戶注冊(cè),原因是使用量的激增已經(jīng)超出了自身的承受能力。直到 11 月 22 日,OpenAI 依然還沒(méi)有開(kāi)放 Plus 用戶注冊(cè)。
但與此同時(shí),AI 時(shí)代的浪潮還在滾滾向前,Claude 2.1 和 Stable Video Diffusion 的發(fā)布之外:
- 谷歌 DeepMind 在最新發(fā)布的音樂(lè)生成模型中采用了人耳聽(tīng)不見(jiàn)的「水印」;
- 微軟發(fā)布僅 130 億參數(shù)規(guī)模的「大」模型,官方宣稱其性能比起 700 億參數(shù)的 Meta Llama-2 Chat 還要好;
- 在下個(gè)月舉行的 re:Invent 大會(huì)上,亞馬遜云(AWS)預(yù)計(jì)也會(huì)重點(diǎn)介紹旗下 Olympus 大模型的能力。
今年還有一個(gè)可能是最值得期待的大模型——谷歌 Gemini。根據(jù)此前半導(dǎo)體研究機(jī)構(gòu) SemiAnalysis 的報(bào)道,谷歌下一代大模型 Gemini 的算力高達(dá) GPT-4 的 5 倍,同時(shí)谷歌手握自研 TPUv5 的數(shù)量比 OpenAI、Meta、Coreweave、甲骨文以及亞馬遜擁有的 GPU 加起來(lái)還多。
在此基礎(chǔ)上,Gemini 還整合使用了強(qiáng)化學(xué)習(xí)和樹(shù)搜索的 AlphaGO,以及機(jī)器人、神經(jīng)科學(xué)等領(lǐng)域的技術(shù),擁有語(yǔ)言和視覺(jué)兩大能力。OpenAI 的首席科學(xué)家 Ilya Sutskever 在 2020 年就表示,僅文字就可以表達(dá)關(guān)于世界的大量信息,但它是不完整的,因?yàn)槲覀円采钤谝曈X(jué)世界中。
說(shuō)到底,生成式 AI 從來(lái)不只是 OpenAI 一家公司,不論圍繞 OpenAI 的「大戲」結(jié)局會(huì)走向何處,都擋不住 AI 大潮的來(lái)勢(shì)洶洶。