正在閱讀:

OpenAI為什么總是領先一個版本

掃一掃下載界面新聞APP

OpenAI為什么總是領先一個版本

Sora,AI視頻的GPT時刻。

文 | 藍媒匯  陶然

編輯 | 魏曉

Sora視頻模型的發(fā)布,幾乎復刻了一年半之前GPT-3初登場時的AI圈盛況:

突然出現(xiàn),引起熱議,廣為震驚。

北京時間2月16日,在沒有任何消息外泄、事先預告的情況下,OpenAI在社交平臺X(原推特)發(fā)帖,首次對外公布了名為Sora的文生視頻AI模型。

一句“Introducing Sora, our text-to-video model(介紹一下Sora,我們的文本轉(zhuǎn)視頻模型)”,切入正題之簡短,比起宣發(fā),更像是一則告知:是的,我們又掏出大的來了。

之后,便是對Sora模型的能力介紹:Sora可以創(chuàng)建長達60秒的視頻,其中包含高度詳細的場景、復雜的攝像機運動以及充滿活力、情感的多個角色。

還附上了演示案例的對應Prompt(提示詞):美麗、白雪皚皚的東京城很繁華。鏡頭穿過熙熙攘攘的城市街道,跟隨幾個人享受美麗的雪天并在附近的攤位購物。美麗的櫻花花瓣隨著雪花在風中飛舞。

對于Sora,業(yè)界評價并不統(tǒng)一:

有人100%認可,也有人120%、200%認可。

360創(chuàng)始人周鴻祎發(fā)文稱,Sora意味著實現(xiàn)通用人工智能可能從10年縮短至1年,該模型展現(xiàn)的不僅是視頻制作的能力,還展現(xiàn)了大模型對真實世界有了理解和模擬之后,會帶來新的成果和突破。

英偉達人工智能研究院首席研究科學家Jim Fan將Sora稱作是視頻生成領域的GPT-3時刻:Sora是一個“數(shù)據(jù)驅(qū)動的物理引擎”,一個可學習的模擬器或“世界模型”。

高強度網(wǎng)上沖浪且一向心直口快的馬斯克則直接打出gg human(人類輸了)。

暫且不去深究后續(xù)影響到底是積極還是消極,能給AI、影視、社媒等一眾行業(yè)同步帶來顛覆性王炸、劃時代之感的,又是OpenAI,總是OpenAI。

像是一群工程師還在討論如何進一步完善登月計劃,OpenAI的團隊已經(jīng)從火星傳回來一組自拍——他們總是領先一個版本,為什么?

前文英偉達AI研究院科學家Jim Fan對于Sora的評價,從技術層面來看很有參考性:他將Sora定義為物理引擎和世界模型。傳統(tǒng)意義上的視頻畫面是二維,而人們身處的物理世界是三維的。

這成為了AI視頻模型設計之初的理念區(qū)別:在生成視頻的過程中,AI的作用到底應該是將多段視頻片段拆分組合,還是應該作為一個主體,構建并記錄一個虛擬的AI空間。

OpenAI的選擇是后者。

其官網(wǎng)發(fā)布的Sora技術報告中,有一句話值得注意:“我們的結(jié)果表明,發(fā)展能夠模擬物理世界動態(tài)的通用模擬器是一條充滿希望的途徑,具有前所未有的準確度和現(xiàn)實感?!?/p>

做一個粗淺的理解就是,Sora不是編輯視頻,而是在生成視頻之前先建模一個空間,然后變成一個鏡頭記錄這個三維立體的虛擬空間。

立體建模能展現(xiàn)信息量遠遠多于平面圖,從設計思路上OpenAI就領先了一個維度,或者說提前了一個版本。

當然,更多的信息量意味著更龐大的數(shù)據(jù)流,在有限算力內(nèi)跑出更好效果、在保證效果的前提下盡量節(jié)約算力,本質(zhì)上是同一個問題:AI計算效率。

但對于OpenAI來說,這些問題都有經(jīng)驗可循——從ChatGPT到GPT-4等等項目的技術積累,成為OpenAI構建Sora模型的良好地基。

受大語言模型成功案例啟發(fā),OpenAI在探索視頻模型時就在思考“如何獲得類似的好處”:大模型運轉(zhuǎn)期間,token(詞匯單元)作為自然語言處理任務中的最小文本單位,承載著輸入信息的作用,幫助模型對文本進行處理和理解。ChatGPT將代碼、數(shù)學以及各種不同的自然語言一并拆分為token,再交由模型對token進行處理和理解,并能夠通過學習token之間的關系來獲取更多的語義信息。

同理,在視頻生成模型中,OpenAI也創(chuàng)造了與token對應的數(shù)據(jù)單位“Patch”(圖像單元),將圖形語言轉(zhuǎn)化為對應格式的Patch進行計算,在保證模型擴展性的同時,大幅提升單位算力內(nèi)的運算效率。

而在模型的前端,OpenAI同樣用上了自己在GPT系列模型的成果:

和文本對話類似,訓練文生視頻的過程中,除了需要視頻素材案例之外,同樣需要大量對應的文字說明。OpenAI采用了最初在DALL·E 3中提出的“重新加標題”模式,用具備高度描述性的標題生成器為訓練集中的視頻素材生成文字說明。生成結(jié)果也證明了,在制作期間為素材添加額外的說明,可以提高包括準確性在內(nèi)的整體視頻質(zhì)量。

此外,仿照DALL·E 3的做法,OpenAI還另外使用GPT對用戶輸入的簡短提示詞進行了更便于AI理解的擴寫,把用戶輸入的文字擴充成更長、更詳盡的說明,再交由視頻生成模型進行處理。

對于OpenAI這類技術驅(qū)動型公司來說,經(jīng)驗和技術的積累都是加速度,有跡可循的成功經(jīng)驗疊加團隊自身對AI概念領先理解,讓OpenAI總是能踩在自己的肩膀向上,或是推著自己加速向前。

比技術領先更可怕或者說更值得友商在意的,是這種領先往往會成為慣性,一步快步步快。指望靠加速追趕和對標與OpenAI看齊,在配套設施愈發(fā)成熟的階段,難度恐怕只會不降反增。真正的增量,仍在頂層設計的創(chuàng)新之中。

所以,與其說是AI擠占了人的創(chuàng)新空間,倒不如說是AI拉高了有效創(chuàng)新的門檻:設計AI,或者能超越AI創(chuàng)意的設計,才是大模型時代的有效增量。

本文為轉(zhuǎn)載內(nèi)容,授權事宜請聯(lián)系原著作權人。

OpenAI

  • 科技早報|奧爾特曼辟謠OpenAI新模型消息;英特爾宣布投資280多億美元建兩家芯片廠
  • 奧爾特曼辟謠OpenAI新模型消息

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

OpenAI為什么總是領先一個版本

Sora,AI視頻的GPT時刻。

文 | 藍媒匯  陶然

編輯 | 魏曉

Sora視頻模型的發(fā)布,幾乎復刻了一年半之前GPT-3初登場時的AI圈盛況:

突然出現(xiàn),引起熱議,廣為震驚。

北京時間2月16日,在沒有任何消息外泄、事先預告的情況下,OpenAI在社交平臺X(原推特)發(fā)帖,首次對外公布了名為Sora的文生視頻AI模型。

一句“Introducing Sora, our text-to-video model(介紹一下Sora,我們的文本轉(zhuǎn)視頻模型)”,切入正題之簡短,比起宣發(fā),更像是一則告知:是的,我們又掏出大的來了。

之后,便是對Sora模型的能力介紹:Sora可以創(chuàng)建長達60秒的視頻,其中包含高度詳細的場景、復雜的攝像機運動以及充滿活力、情感的多個角色。

還附上了演示案例的對應Prompt(提示詞):美麗、白雪皚皚的東京城很繁華。鏡頭穿過熙熙攘攘的城市街道,跟隨幾個人享受美麗的雪天并在附近的攤位購物。美麗的櫻花花瓣隨著雪花在風中飛舞。

對于Sora,業(yè)界評價并不統(tǒng)一:

有人100%認可,也有人120%、200%認可。

360創(chuàng)始人周鴻祎發(fā)文稱,Sora意味著實現(xiàn)通用人工智能可能從10年縮短至1年,該模型展現(xiàn)的不僅是視頻制作的能力,還展現(xiàn)了大模型對真實世界有了理解和模擬之后,會帶來新的成果和突破。

英偉達人工智能研究院首席研究科學家Jim Fan將Sora稱作是視頻生成領域的GPT-3時刻:Sora是一個“數(shù)據(jù)驅(qū)動的物理引擎”,一個可學習的模擬器或“世界模型”。

高強度網(wǎng)上沖浪且一向心直口快的馬斯克則直接打出gg human(人類輸了)。

暫且不去深究后續(xù)影響到底是積極還是消極,能給AI、影視、社媒等一眾行業(yè)同步帶來顛覆性王炸、劃時代之感的,又是OpenAI,總是OpenAI。

像是一群工程師還在討論如何進一步完善登月計劃,OpenAI的團隊已經(jīng)從火星傳回來一組自拍——他們總是領先一個版本,為什么?

前文英偉達AI研究院科學家Jim Fan對于Sora的評價,從技術層面來看很有參考性:他將Sora定義為物理引擎和世界模型。傳統(tǒng)意義上的視頻畫面是二維,而人們身處的物理世界是三維的。

這成為了AI視頻模型設計之初的理念區(qū)別:在生成視頻的過程中,AI的作用到底應該是將多段視頻片段拆分組合,還是應該作為一個主體,構建并記錄一個虛擬的AI空間。

OpenAI的選擇是后者。

其官網(wǎng)發(fā)布的Sora技術報告中,有一句話值得注意:“我們的結(jié)果表明,發(fā)展能夠模擬物理世界動態(tài)的通用模擬器是一條充滿希望的途徑,具有前所未有的準確度和現(xiàn)實感?!?/p>

做一個粗淺的理解就是,Sora不是編輯視頻,而是在生成視頻之前先建模一個空間,然后變成一個鏡頭記錄這個三維立體的虛擬空間。

立體建模能展現(xiàn)信息量遠遠多于平面圖,從設計思路上OpenAI就領先了一個維度,或者說提前了一個版本。

當然,更多的信息量意味著更龐大的數(shù)據(jù)流,在有限算力內(nèi)跑出更好效果、在保證效果的前提下盡量節(jié)約算力,本質(zhì)上是同一個問題:AI計算效率。

但對于OpenAI來說,這些問題都有經(jīng)驗可循——從ChatGPT到GPT-4等等項目的技術積累,成為OpenAI構建Sora模型的良好地基。

受大語言模型成功案例啟發(fā),OpenAI在探索視頻模型時就在思考“如何獲得類似的好處”:大模型運轉(zhuǎn)期間,token(詞匯單元)作為自然語言處理任務中的最小文本單位,承載著輸入信息的作用,幫助模型對文本進行處理和理解。ChatGPT將代碼、數(shù)學以及各種不同的自然語言一并拆分為token,再交由模型對token進行處理和理解,并能夠通過學習token之間的關系來獲取更多的語義信息。

同理,在視頻生成模型中,OpenAI也創(chuàng)造了與token對應的數(shù)據(jù)單位“Patch”(圖像單元),將圖形語言轉(zhuǎn)化為對應格式的Patch進行計算,在保證模型擴展性的同時,大幅提升單位算力內(nèi)的運算效率。

而在模型的前端,OpenAI同樣用上了自己在GPT系列模型的成果:

和文本對話類似,訓練文生視頻的過程中,除了需要視頻素材案例之外,同樣需要大量對應的文字說明。OpenAI采用了最初在DALL·E 3中提出的“重新加標題”模式,用具備高度描述性的標題生成器為訓練集中的視頻素材生成文字說明。生成結(jié)果也證明了,在制作期間為素材添加額外的說明,可以提高包括準確性在內(nèi)的整體視頻質(zhì)量。

此外,仿照DALL·E 3的做法,OpenAI還另外使用GPT對用戶輸入的簡短提示詞進行了更便于AI理解的擴寫,把用戶輸入的文字擴充成更長、更詳盡的說明,再交由視頻生成模型進行處理。

對于OpenAI這類技術驅(qū)動型公司來說,經(jīng)驗和技術的積累都是加速度,有跡可循的成功經(jīng)驗疊加團隊自身對AI概念領先理解,讓OpenAI總是能踩在自己的肩膀向上,或是推著自己加速向前。

比技術領先更可怕或者說更值得友商在意的,是這種領先往往會成為慣性,一步快步步快。指望靠加速追趕和對標與OpenAI看齊,在配套設施愈發(fā)成熟的階段,難度恐怕只會不降反增。真正的增量,仍在頂層設計的創(chuàng)新之中。

所以,與其說是AI擠占了人的創(chuàng)新空間,倒不如說是AI拉高了有效創(chuàng)新的門檻:設計AI,或者能超越AI創(chuàng)意的設計,才是大模型時代的有效增量。

本文為轉(zhuǎn)載內(nèi)容,授權事宜請聯(lián)系原著作權人。