正在閱讀:

OpenAI內斗這幾天,競爭對手一刻也沒閑著

掃一掃下載界面新聞APP

OpenAI內斗這幾天,競爭對手一刻也沒閑著

大戲已落幕,但另一場更大戲還在上演。

文|雷科技 

過去幾天,作為新一輪 AI 浪潮的領頭羊,OpenAI 面臨一次的分崩離析的重大危機,從董事會宣布辭退創(chuàng)始人兼 CEO Sam Altman,到回歸又被否,期間還經歷了多次反轉,包括 Altman 加入微軟、員工逼宮、與 Anthropic(Claude)合并等。

到了北京時間 11 月 22 日下午,OpenAI 又表示原則上同意 Altman 重返 OpenAI 擔任 CEO,并組建新一屆董事會,具體細節(jié)還在敲定中。

在事情還沒有正式敲定前就公開披露,可見現(xiàn)任董事會也明白 OpenAI 急需「穩(wěn)定軍心」,否則競爭對手還會繼續(xù)「掏空」OpenAI。緊隨官方之后,Sam Altman 以及之前剛辭任的總裁 Greg Brockman 也都發(fā)布了一條暗示回歸 OpenAI 的推文,不管初衷如何,實質上也確實起到了「穩(wěn)定軍心」的作用。

根據(jù)此前公開報道,包括 X(Twitter)、微軟、谷歌、Anthropic 以及一大批有志于這一輪 AI 浪潮的公司都在重金挖角 OpenAI 員工,而很多 OpenAI 員工也在考慮跳槽事宜,這顯然也會嚴重影響到 OpenAI 原定的一系列計劃。

與此同時,競爭對手們也不只是「圍觀看戲」,還希望抓住 OpenAI 犯錯的機會,加快推陳出新的節(jié)奏,加速趕超 OpenAI。

Token翻倍、“幻覺”減弱,Claude 2.1終于來了

就在同一天,從 OpenAI 分化出來又背靠谷歌的 Anthropic 發(fā)布了新的聊天機器人——Claude 2.1。

作為 ChatGPT 最有力的競爭者之一,Claude 2 原本就在上下文長度和語言理解上有一定的優(yōu)勢,同時還較早支持了鏈接和文檔讀取能力。在 Claude 2.1 上,更是將最大支持 Token 數(shù)量從 10 萬個增加到了 20 萬個,遠高于 ChatGPT 的最大 3.2 萬個 Token。

Token 相當于機器視角的「字數(shù)」。

經常使用 ChatGPT 或者類似聊天機器人的讀者應該都知道,如果在上下文窗口內,一旦對話長度超過了 Token 限制,上下文窗口就會發(fā)生變化,聊天機器人會丟失早期對話的內容,等于忘記了之前的對話背景,會直接影響到后面的回答。

甚至不需要超出 Token 限制,只要對話長度到一定階段,機器就會開始遺忘早先的一些背景和要求,需要重復提醒。

而  20 萬個 Token 的長度,意味著將近 270 頁文檔的上下文和更強的「記憶容量」。換言之,Claude 2.1 用戶現(xiàn)在可以上傳整個代碼庫等技術文檔、S-1 等財務報表,甚至是《伊利亞特》或《奧德賽》等長篇文學作品。

通過能夠與大量內容或數(shù)據(jù)進行交互,理論上 Claude 2.1 可以更好地進行總結、執(zhí)行問答、預測趨勢以及對比多個文檔等。AI 創(chuàng)業(yè)者兼開發(fā)者 Greg Kamradt 在測試中,確實發(fā)現(xiàn)了 Claude 2.1 在性能上的進步。

此外,Claude 2.1 在對抗大模型「幻覺」方面也取得了一定進步。與之前的 Claude 2.0 模型相比,Claude 2.1 虛假陳述的概率降低了 2 倍。

根據(jù) Anthropic 的說法,他們設置了大量復雜的事實問題進行測試,測試顯示 Claude 2.1 在面對錯誤信息以及不確定信息時更可能提出異議,而不是提供不正確的信息。比如反駁用戶給出的「玻利維亞人口第五多的城市是蒙特(錯誤信息)」,或是承認「我不確定玻利維亞人口第五多的城市是什么」。

這使企業(yè)能夠構建高性能的人工智能應用程序,解決具體的業(yè)務問題,并以更高的信任度和可靠性在其運營中部署人工智能。

視頻版Stable Diffusion發(fā)布即開源,再一次改變視頻生成?

文本生成領域有 ChatGPT 和 Claude,圖像生成領域有 Midjourney 和 Stable Diffusion,但在視頻生成領域始終沒有一個模型可以跑出。

這不是說沒有公司嘗試,谷歌、Meta 很早就有公布 AI 生成視頻的 Demo,還有大量初創(chuàng)團隊都在「掘金」視頻生成領域,比如 Runway 就接連發(fā)布了 Gen-1、Gen-2 兩代,實現(xiàn)了真正的從零開始生成視頻。當然,Gen-2 仍然存在細節(jié)模糊、形態(tài)扭曲等等品質問題,所以始終沒能破圈。

Stable Video Diffusion 會改變一切嗎?

還是北京時間 11 月 22 日,Stable Diffusion 背后的公司 Stability AI 發(fā)布了旗下首個視頻生成模型——Stable Video Diffusion。

在很多人的意料之中,Stable Video Diffusion 基于圖片生成模型 Stable Diffusion 進行開發(fā)而成,Stability AI 已經在 Github 上開源了全部代碼,同時也上線了 Hugging Face 社區(qū)。

要指出的是,目前 Stable Video Diffusion 有兩種輸出形式,能以每秒 3 到 30 幀的可定制幀速生成 14 和 25 幀。換句話說,Stable Video Diffusion 目前最多也只能生成 8 秒左右的低幀率視頻。

但不要低估開源迭代的力量。Stable Diffusion 模型 2022 年最開始發(fā)布的時候,圖片生成質量也比不上 OpenAI 的 DALL·E-2。然而由于開源的策略,Stable Diffusion 被各路初創(chuàng)公司、開發(fā)者、玩家頻繁應用與改進,最終讓 AI 生成圖片徹底火出圈外,引發(fā)了一系列的變化。

同時在開源力量的幫助下,不到半年內 Stable Diffusion 模型就迭代到了 2.1 版本。

誠然,Stable Diffusion 的成功未必能夠復刻,但可以肯定的是,不同于 Gen-2 這類私有模型,Stable Video Diffusion 可以聚集開源社區(qū)更多的開發(fā)力量,加速視頻生成模型的迭代改進。

生成式 AI,從來不只是 OpenAI

11 月 15 日,Sam Altman 在還沒有被董事會辭退之前就在 X(Twitter)上表示,OpenAI 將暫停新的 ChatGPT Plus(付費)用戶注冊,原因是使用量的激增已經超出了自身的承受能力。直到 11 月 22 日,OpenAI 依然還沒有開放 Plus 用戶注冊。

但與此同時,AI 時代的浪潮還在滾滾向前,Claude 2.1 和 Stable Video Diffusion 的發(fā)布之外:

- 谷歌 DeepMind 在最新發(fā)布的音樂生成模型中采用了人耳聽不見的「水印」;

- 微軟發(fā)布僅 130 億參數(shù)規(guī)模的「大」模型,官方宣稱其性能比起 700 億參數(shù)的 Meta Llama-2 Chat 還要好;

- 在下個月舉行的 re:Invent 大會上,亞馬遜云(AWS)預計也會重點介紹旗下 Olympus 大模型的能力。

今年還有一個可能是最值得期待的大模型——谷歌 Gemini。根據(jù)此前半導體研究機構 SemiAnalysis 的報道,谷歌下一代大模型 Gemini 的算力高達 GPT-4 的 5 倍,同時谷歌手握自研 TPUv5 的數(shù)量比 OpenAI、Meta、Coreweave、甲骨文以及亞馬遜擁有的 GPU 加起來還多。

在此基礎上,Gemini 還整合使用了強化學習和樹搜索的 AlphaGO,以及機器人、神經科學等領域的技術,擁有語言和視覺兩大能力。OpenAI 的首席科學家 Ilya Sutskever 在 2020 年就表示,僅文字就可以表達關于世界的大量信息,但它是不完整的,因為我們也生活在視覺世界中。

說到底,生成式 AI 從來不只是 OpenAI 一家公司,不論圍繞 OpenAI 的「大戲」結局會走向何處,都擋不住 AI 大潮的來勢洶洶。

本文為轉載內容,授權事宜請聯(lián)系原著作權人。

OpenAI

  • 帕蘭泰爾和安杜里爾據(jù)悉與科技集團聯(lián)手競標五角大樓國防合同
  • OpenAI:正在測試推理模型o3和o3 mini

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

OpenAI內斗這幾天,競爭對手一刻也沒閑著

大戲已落幕,但另一場更大戲還在上演。

文|雷科技 

過去幾天,作為新一輪 AI 浪潮的領頭羊,OpenAI 面臨一次的分崩離析的重大危機,從董事會宣布辭退創(chuàng)始人兼 CEO Sam Altman,到回歸又被否,期間還經歷了多次反轉,包括 Altman 加入微軟、員工逼宮、與 Anthropic(Claude)合并等。

到了北京時間 11 月 22 日下午,OpenAI 又表示原則上同意 Altman 重返 OpenAI 擔任 CEO,并組建新一屆董事會,具體細節(jié)還在敲定中。

在事情還沒有正式敲定前就公開披露,可見現(xiàn)任董事會也明白 OpenAI 急需「穩(wěn)定軍心」,否則競爭對手還會繼續(xù)「掏空」OpenAI。緊隨官方之后,Sam Altman 以及之前剛辭任的總裁 Greg Brockman 也都發(fā)布了一條暗示回歸 OpenAI 的推文,不管初衷如何,實質上也確實起到了「穩(wěn)定軍心」的作用。

根據(jù)此前公開報道,包括 X(Twitter)、微軟、谷歌、Anthropic 以及一大批有志于這一輪 AI 浪潮的公司都在重金挖角 OpenAI 員工,而很多 OpenAI 員工也在考慮跳槽事宜,這顯然也會嚴重影響到 OpenAI 原定的一系列計劃。

與此同時,競爭對手們也不只是「圍觀看戲」,還希望抓住 OpenAI 犯錯的機會,加快推陳出新的節(jié)奏,加速趕超 OpenAI。

Token翻倍、“幻覺”減弱,Claude 2.1終于來了

就在同一天,從 OpenAI 分化出來又背靠谷歌的 Anthropic 發(fā)布了新的聊天機器人——Claude 2.1。

作為 ChatGPT 最有力的競爭者之一,Claude 2 原本就在上下文長度和語言理解上有一定的優(yōu)勢,同時還較早支持了鏈接和文檔讀取能力。在 Claude 2.1 上,更是將最大支持 Token 數(shù)量從 10 萬個增加到了 20 萬個,遠高于 ChatGPT 的最大 3.2 萬個 Token。

Token 相當于機器視角的「字數(shù)」。

經常使用 ChatGPT 或者類似聊天機器人的讀者應該都知道,如果在上下文窗口內,一旦對話長度超過了 Token 限制,上下文窗口就會發(fā)生變化,聊天機器人會丟失早期對話的內容,等于忘記了之前的對話背景,會直接影響到后面的回答。

甚至不需要超出 Token 限制,只要對話長度到一定階段,機器就會開始遺忘早先的一些背景和要求,需要重復提醒。

而  20 萬個 Token 的長度,意味著將近 270 頁文檔的上下文和更強的「記憶容量」。換言之,Claude 2.1 用戶現(xiàn)在可以上傳整個代碼庫等技術文檔、S-1 等財務報表,甚至是《伊利亞特》或《奧德賽》等長篇文學作品。

通過能夠與大量內容或數(shù)據(jù)進行交互,理論上 Claude 2.1 可以更好地進行總結、執(zhí)行問答、預測趨勢以及對比多個文檔等。AI 創(chuàng)業(yè)者兼開發(fā)者 Greg Kamradt 在測試中,確實發(fā)現(xiàn)了 Claude 2.1 在性能上的進步。

此外,Claude 2.1 在對抗大模型「幻覺」方面也取得了一定進步。與之前的 Claude 2.0 模型相比,Claude 2.1 虛假陳述的概率降低了 2 倍。

根據(jù) Anthropic 的說法,他們設置了大量復雜的事實問題進行測試,測試顯示 Claude 2.1 在面對錯誤信息以及不確定信息時更可能提出異議,而不是提供不正確的信息。比如反駁用戶給出的「玻利維亞人口第五多的城市是蒙特(錯誤信息)」,或是承認「我不確定玻利維亞人口第五多的城市是什么」。

這使企業(yè)能夠構建高性能的人工智能應用程序,解決具體的業(yè)務問題,并以更高的信任度和可靠性在其運營中部署人工智能。

視頻版Stable Diffusion發(fā)布即開源,再一次改變視頻生成?

文本生成領域有 ChatGPT 和 Claude,圖像生成領域有 Midjourney 和 Stable Diffusion,但在視頻生成領域始終沒有一個模型可以跑出。

這不是說沒有公司嘗試,谷歌、Meta 很早就有公布 AI 生成視頻的 Demo,還有大量初創(chuàng)團隊都在「掘金」視頻生成領域,比如 Runway 就接連發(fā)布了 Gen-1、Gen-2 兩代,實現(xiàn)了真正的從零開始生成視頻。當然,Gen-2 仍然存在細節(jié)模糊、形態(tài)扭曲等等品質問題,所以始終沒能破圈。

Stable Video Diffusion 會改變一切嗎?

還是北京時間 11 月 22 日,Stable Diffusion 背后的公司 Stability AI 發(fā)布了旗下首個視頻生成模型——Stable Video Diffusion。

在很多人的意料之中,Stable Video Diffusion 基于圖片生成模型 Stable Diffusion 進行開發(fā)而成,Stability AI 已經在 Github 上開源了全部代碼,同時也上線了 Hugging Face 社區(qū)。

要指出的是,目前 Stable Video Diffusion 有兩種輸出形式,能以每秒 3 到 30 幀的可定制幀速生成 14 和 25 幀。換句話說,Stable Video Diffusion 目前最多也只能生成 8 秒左右的低幀率視頻。

但不要低估開源迭代的力量。Stable Diffusion 模型 2022 年最開始發(fā)布的時候,圖片生成質量也比不上 OpenAI 的 DALL·E-2。然而由于開源的策略,Stable Diffusion 被各路初創(chuàng)公司、開發(fā)者、玩家頻繁應用與改進,最終讓 AI 生成圖片徹底火出圈外,引發(fā)了一系列的變化。

同時在開源力量的幫助下,不到半年內 Stable Diffusion 模型就迭代到了 2.1 版本。

誠然,Stable Diffusion 的成功未必能夠復刻,但可以肯定的是,不同于 Gen-2 這類私有模型,Stable Video Diffusion 可以聚集開源社區(qū)更多的開發(fā)力量,加速視頻生成模型的迭代改進。

生成式 AI,從來不只是 OpenAI

11 月 15 日,Sam Altman 在還沒有被董事會辭退之前就在 X(Twitter)上表示,OpenAI 將暫停新的 ChatGPT Plus(付費)用戶注冊,原因是使用量的激增已經超出了自身的承受能力。直到 11 月 22 日,OpenAI 依然還沒有開放 Plus 用戶注冊。

但與此同時,AI 時代的浪潮還在滾滾向前,Claude 2.1 和 Stable Video Diffusion 的發(fā)布之外:

- 谷歌 DeepMind 在最新發(fā)布的音樂生成模型中采用了人耳聽不見的「水印」;

- 微軟發(fā)布僅 130 億參數(shù)規(guī)模的「大」模型,官方宣稱其性能比起 700 億參數(shù)的 Meta Llama-2 Chat 還要好;

- 在下個月舉行的 re:Invent 大會上,亞馬遜云(AWS)預計也會重點介紹旗下 Olympus 大模型的能力。

今年還有一個可能是最值得期待的大模型——谷歌 Gemini。根據(jù)此前半導體研究機構 SemiAnalysis 的報道,谷歌下一代大模型 Gemini 的算力高達 GPT-4 的 5 倍,同時谷歌手握自研 TPUv5 的數(shù)量比 OpenAI、Meta、Coreweave、甲骨文以及亞馬遜擁有的 GPU 加起來還多。

在此基礎上,Gemini 還整合使用了強化學習和樹搜索的 AlphaGO,以及機器人、神經科學等領域的技術,擁有語言和視覺兩大能力。OpenAI 的首席科學家 Ilya Sutskever 在 2020 年就表示,僅文字就可以表達關于世界的大量信息,但它是不完整的,因為我們也生活在視覺世界中。

說到底,生成式 AI 從來不只是 OpenAI 一家公司,不論圍繞 OpenAI 的「大戲」結局會走向何處,都擋不住 AI 大潮的來勢洶洶。

本文為轉載內容,授權事宜請聯(lián)系原著作權人。