正在閱讀:

AI寫作、繪畫、游戲、編程……一窺AIGC時代下APP的最新發(fā)展趨勢

掃一掃下載界面新聞APP

AI寫作、繪畫、游戲、編程……一窺AIGC時代下APP的最新發(fā)展趨勢

這股AI新浪潮對于創(chuàng)業(yè)公司來說,意味著什么?

文|經(jīng)緯創(chuàng)投

每隔一段時間,一項技術(shù)就會捕獲全世界的想象力。從硅谷、華爾街、中關(guān)村、到世界各個角落的辦公室和大學教室,人們都在熱烈地討論ChatGPT及人工智能的未來。

面對這個剛剛開始的顛覆性變革,我們有太多問題想問,有太多問題值得思考。但本文將聚焦在:

  • ChatGPT對于創(chuàng)業(yè)公司來說意味著什么?
  • 這一波AI產(chǎn)品可能的應用場景有哪些?
  • 未來可能會形成怎樣的新AI產(chǎn)業(yè)生態(tài)?
  • 我們根據(jù)GPT-3 Demo及其他相關(guān)網(wǎng)站,來看看海外當下,有哪些熱門創(chuàng)業(yè)方向(App和應用案例)?

1、引子:為什么這次不一樣

最近幾乎所有大型人工智能的前沿突破,都來自巨頭公司,因為他們擁有強大的資金和算力。ChatGPT與上一波人工智能產(chǎn)品蘋果Siri、微軟小冰的核心不同是,過去都是小模型,而如今是真正的大模型。

以前,小模型的人工智能中,其實包含了若干Agent(類似于執(zhí)行具體任務(wù)的程序),一個專門負責聊天對話、一個專門負責詩詞生成、一個專門負責代碼生成、一個專門負責營銷文案等等,如果想添加新功能,可以去訓練新Agent。一旦用戶的問題超出了這個范圍,人工智能就會變成人工智障。

而如今的ChatGPT之所以被稱為真正的人工智能,就在于采用了成百上千億參數(shù)的大模型,比如GPT-3模型就有1750億個參數(shù)。而GPT本身是一個單項模型,是從左到右進行閱讀,所以更擅長“寫作文”。與谷歌BERT不同,BERT是一個雙向模型,可以聯(lián)系上下文進行分析,更擅長“完形填空”,但GPT與人類的思維方式更接近,所以我們能看到基于ChatGPT的創(chuàng)意寫作應用,或是制作繪本。

InstructGPT的技術(shù)邏輯:RLHF的主要改變在于人工監(jiān)督數(shù)據(jù)與調(diào)整后的獎勵模型;圖片來源:OpenAI

但大模型的高昂投入,讓普通創(chuàng)業(yè)公司難以為繼,因此參與者都是科技巨頭。2022年OpenAI的收入為3000萬美元,但凈虧損總額預計為5.445億美元。而GPT3訓練一次的費用,大概是460萬美元。當模型被訓練好之后,仍然有使用成本,目前ChatGPT單輪對話的平均費用,大概在0.01-0.2美元之間。

并且先發(fā)優(yōu)勢會非常明顯,因為這里有一個“數(shù)據(jù)和模型的飛輪效應”。在GPT-3之后,OpenAI所有的模型都沒有開源,而是提供了API調(diào)用。在這個過程中,OpenAI可以借助ChatGPT建立真實用戶調(diào)用和模型迭代之間的飛輪,OpenAI非常重視真實世界數(shù)據(jù)的調(diào)用,以及這些數(shù)據(jù)對模型的迭代。

 

文本模型的訓練成本;圖片來源:東吳證券

對于AI的發(fā)展來說,工程的重要性不亞于科學,創(chuàng)建一個迭代反饋的閉環(huán)至關(guān)重要。這也將是后來者,趕超ChatGPT的重要難點。

那么,這股AI新浪潮對于創(chuàng)業(yè)公司來說,意味著什么?

2、對創(chuàng)業(yè)公司來說意味著什么?

OpenAI的創(chuàng)始人山姆·阿爾特曼(Sam Altman),曾對AI產(chǎn)業(yè)生態(tài)有過一個預測,他認為:

“將來應該會出現(xiàn)幾個大型的基礎(chǔ)模型,開發(fā)人員都將基于這些基礎(chǔ)模型研發(fā)AI應用。但目前的情況依然是某一家公司開發(fā)出一個大型語言模型,然后開放API供他人使用。

我認為,將來在基礎(chǔ)模型和具體AI應用研發(fā)之間會有一個中間層:出現(xiàn)一批專門負責調(diào)整大型模型以適應具體AI應用需求的初創(chuàng)企業(yè)。能做好這一點的初創(chuàng)公司將會非常成功,但這取決于它們能在「數(shù)據(jù)飛輪」上走多遠。

創(chuàng)業(yè)公司會訓練自己的模型,只不過不是從頭開始。他們將采用基礎(chǔ)模型,這些模型已經(jīng)經(jīng)過大量的計算和數(shù)據(jù)訓練,然后在這些模型之上進行訓練,為每個垂類創(chuàng)建模型。

他們所做的 1% 的訓練,對于應用來說至關(guān)重要。我認為,這些創(chuàng)業(yè)公司將會非常成功,并且與眾不同??赡馨ㄒ欢螘r間內(nèi)存在的 prompt engineering(提示工程)或基礎(chǔ)核心模型(core base model)。

將來承擔模型訓練角色的應該不會是初創(chuàng)公司,但這些企業(yè)可以在上述的中間層角色中發(fā)揮巨大價值。我認為中間那一層會創(chuàng)造很多價值?!?/p>

總結(jié)來說,這個產(chǎn)業(yè)生態(tài)可能會是:

1、基礎(chǔ)設(shè)施層:在最底層,是提供芯片、云計算等基礎(chǔ)能力的廠商。

2、模型層:大公司負責訓練基礎(chǔ)大模型,這種基礎(chǔ)能力可能會逐漸走向開放。一種可能是,最終形成類似ISO 和Android兩大陣營,或是類似云計算的格局,一般這種量級的生態(tài)圈最終不會容納太多家,但也不會被一家壟斷。目前來看微軟(OpenAI拔得頭籌)vs谷歌(旗下有Deepmind)已經(jīng)開戰(zhàn),但巨頭的基礎(chǔ)模型之間是否會形成差異?以及會形成怎樣的差異性?這個問題也值得觀察。但無論如何,這將會是繼移動互聯(lián)網(wǎng)之后,下一個史詩級的重大戰(zhàn)略窗口,中國公司也需要積極加入戰(zhàn)局。

國內(nèi)外互聯(lián)網(wǎng)大廠紛紛推出自研AI大模型;圖片來源:安信證券

3、應用中間層:在大模型的基礎(chǔ)上,不同垂直領(lǐng)域會有各自的特殊情況,比如醫(yī)療、司法等等領(lǐng)域,這些特定領(lǐng)域的數(shù)據(jù)本身也是稀缺的。創(chuàng)業(yè)公司可以扎根各自的垂直領(lǐng)域,基于特定的數(shù)據(jù)集+行業(yè)knowhow,形成各自的商業(yè)化路徑,并保護用戶數(shù)據(jù)和隱私。

4、重構(gòu)“AI應用”?此外,在Sam Altman所說的應用中間層之上,在AI應用端本身,是否存在一個重構(gòu)當下App的機遇?是現(xiàn)有玩家往AI轉(zhuǎn)型,還是會涌現(xiàn)新玩家,這個問題也值得持續(xù)觀察,還未達成市場共識。

在現(xiàn)有玩家往AI的轉(zhuǎn)型中,最典型的莫過于微軟。微軟計劃將ChatGPT模塊,應用于搜索引擎Bing中,以對抗占據(jù)主導市場份額的谷歌,New Bing可能在今年一季度就能落地。搜索引擎還只是前菜,微軟還計劃將OpenAI與自身業(yè)務(wù)進行更大程度的融合,比如嵌入Word、PowerPoint、Excel、Outlook等等,對于用戶來說,只需給人工智能直接下達指令,就能獲得自動生成的文章、Excel表格、PPT,或是電子郵件,這將是AI進入C端的一次巨大突破。

而在新玩家中,涌現(xiàn)了一批AI繪畫、AI編程、各類自動化工具等等方向的創(chuàng)新項目,類似當年移動互聯(lián)網(wǎng),這些新方向也有可能誕生一批優(yōu)秀的新公司。

現(xiàn)在,已經(jīng)有一些新老玩家,在使用已經(jīng)訓練好的基礎(chǔ)模型,然后再基于這些模型進一步優(yōu)化,例如GitHub的Copilot功能,以及Notion的協(xié)助功能,都是基于OpenAI的相關(guān)模型開發(fā)而來。隨著模型不斷被AI應用平臺使用,下一步就是訓練數(shù)據(jù),甚至整個業(yè)務(wù)邏輯。新老玩家們,未來可能會在一些領(lǐng)域激烈競爭。

這個發(fā)展過程也許可以類比云計算。當年云計算最初通過便利性,來吸引用戶把計算放在云端。然后隨著計算逐漸遷移到云端,數(shù)據(jù)也開始搬遷到云上,然后再是整個公司的業(yè)務(wù)邏輯,都在云上運行?;贠penAI GPT-3、Deepmind Gopher等基礎(chǔ)模型,各個應用層面的新老玩家,未來都會在“云”上提供更豐富的服務(wù),最終形成龐大生態(tài)。

我們也非常想知道,基于ChatGPT,當下全球最流行、最有潛力的應用場景到底是什么?我們做了一個初步的研究,根據(jù):

  • GPT-3 Demo所羅列的651款App(這是一個實時統(tǒng)計基于GPT-3所誕生的App的網(wǎng)站,不斷更新中)
  • 當下市場上熱門的AIGC應用
  • ChatGPT自己給出的答案

我們羅列了10款熱門應用,其中的一些或許會令你眼前一亮,一些或許還比較稚嫩,但我們認為AI變革這次不一樣,在大浪潮的初始,這些探索者值得被持續(xù)關(guān)注。

  • AI寫作:Jasper AI
  • AI寫作:Copy.ai
  • AI聲音:podcast.ai
  • AI繪圖:Midjourney
  • AI繪圖:Stability AI
  • AI修圖:Lensa
  • AI音視頻編輯:Descript
  • AI編程:GitHub Copilot
  • AI筆記:Mem
  • AI游戲:AI Dungeon

1) AI寫作:Jasper AI

作為 AIGC 圈新貴,Jasper AI已經(jīng)不是一個陌生的名字。在去年10月,Jasper AI就宣布了以15億美元估值的A輪融資,而Jasper AI的產(chǎn)品上線也就18個月時間。

Jasper以“AI文字生成”為主打產(chǎn)品,用戶借助AI可以輕松生成各類文字,例如幫著起Instagram的標題、編寫TikTok視頻腳本、廣告營銷文本、博客、電子郵件內(nèi)容等等,這些功能,令Jasper在社交媒體、電商、視頻制作等多個領(lǐng)域非?;鸨?/p>

Jasper的底層技術(shù)就是OpenAI的GPT-3,但團隊在此基礎(chǔ)上,對語言模型做了大量的改進,特別是在廣告和營銷的內(nèi)容生成這部分,Jasper也加大了用戶在生成內(nèi)容時的反饋機制。相比于其他AI寫作應用,Jasper更專注于長篇內(nèi)容。

除了文字內(nèi)容外,Jasper也推出了AI繪圖產(chǎn)品Jasper Art,與其他熱門產(chǎn)品類似,也是用戶輸入圖片描述,AI會自動生成圖片。當然Jasper 的定位會更偏向市場營銷應用設(shè)計。

2) AI寫作:Copy.ai

Copy.ai與剛剛介紹的Jasper AI類似,也是基于GPT-3模型的AI寫作創(chuàng)業(yè)項目,Copy.ai可以用幾秒鐘,就生成高質(zhì)量的廣告和營銷文案,針對ToB企業(yè)場景。

Copy.ai也引入了人工修正,不斷訓練出更優(yōu)秀的人工智能模型。Copy.ai的核心目標不是完全取代人工,而是通過AI的建議,將人類創(chuàng)作文案的構(gòu)思階段縮短80%,營銷人員用自己的創(chuàng)造力來填補剩余的20%。Copy.ai提供了大量的場景模版,幾乎涵蓋了市場營銷需要文案的所有場景。

對于用戶來說,只需要輸入標題和簡單的幾句話介紹來描述需求,例如根據(jù)內(nèi)容發(fā)布平臺的調(diào)性,來選擇文章的調(diào)性。如果有語法錯誤,還可以通過另一款應用Grammarly來自動修改。

3) AI聲音:podcast.ai

Podcast.ai是一個完全由AI生成的播客,每周都會深入探討一個新話題。

Podcast.ai的第一期節(jié)目引爆全網(wǎng),Podcast.ai通過喬布斯的傳記,和收集網(wǎng)絡(luò)上關(guān)于他的所有錄音,用Play.ht的語言模型大量訓練,最終生成了一段美國知名播客主持人Joe Rogan采訪喬布斯的播客內(nèi)容。在這期播客里,喬布斯的各種語音、語調(diào)都模擬的非常相似。

在這段20分鐘的對話里,喬布斯“死而復生”,與Joe Rogan討論了關(guān)于曾經(jīng)的大學時光、對計算機的看法、工作狀態(tài)以及信仰等等。

圖片來源:https://podcast.ai/

Podcast.ai所采用的Play.ht,是一個AI文本轉(zhuǎn)換語音生成器,模型覆蓋了數(shù)千種說話的聲音,還可以學習人類的情感、說話語氣以及笑聲等。從文本語言模型到音頻語言模型時,音頻數(shù)據(jù)速率增高是一個大難題,一個句子的幾十個字符用音頻波形表達,所包含的數(shù)值往往多達數(shù)十萬個。此外,由于文本和音頻之間的一對多關(guān)系,也即是一個語句可以有不同的說話風格、情感等,這也成為了語音模型研究中需要解決的問題。

總體來說,Podcast.ai的效果已經(jīng)相當接近真人,感興趣的朋友可以去這里聽一下Podcast.ai關(guān)于喬布斯的這期節(jié)目:https://podcast.ai/

4) AI繪圖:Midjourney

Midjourney是一眾AI繪畫產(chǎn)品中的佼佼者,高質(zhì)量、高精度、耗時短,在網(wǎng)上非常出圈。Midjourney目前直接搭載在Discord頻道上,你不需要寫代碼,只需輸入描述指令,AI就幫你生成驚艷的繪畫,這個過程和發(fā)微信聊天幾乎一樣。

圖片來源:https://discord.com/channels/662267976984297473/@home

如今,無數(shù)人都在用Midjourney生成圖片。例如《經(jīng)濟學人》用Midjourney生成的圖片做了雜志封面:

以及《空間歌劇院》,在美國科羅拉多州博覽會上獲得一等獎,隨后其作者Jason Allen才透露,這幅作品是出自Midjourney AI之手。

再比如英國藝術(shù)家Daniel Oxford,運用Maya、PS等軟件配合AI輔助創(chuàng)作,一幅幅油畫質(zhì)感的CG從他手下產(chǎn)生:

又或者是當你輸入“指環(huán)王”,Midjourney生成的是這樣的:

由于用Midjourney畫畫,基本上和用微信聊天差不多,所以你的描述非常重要,比如你需要想清楚:

What:種類是什么?油畫?水彩?陶瓷?木雕?

Who:主題是什么?人?物?景?

When:何時?早中晚?季節(jié)?年代?時期?

Where:何地?什么場景?陸海空?外太空?

How:怎么畫?風格?引擎?渲染?照明?鏡頭?清晰度?真實度?

這些問題都可獨立,也可搭配在一起,看你想讓AI畫到什么程度。描述的越多,AI會以自己的理解,按權(quán)重優(yōu)先級進行繪制;而如果描述的少,AI也會根據(jù)自己的理解繪畫,也許能給出驚喜的創(chuàng)意。

建筑師也在使用來尋找靈感。例如芝加哥建筑師斯蒂芬·庫拉斯(Stephen Coorlas)使用Midjourney為芝加哥北岸地區(qū)設(shè)計的露天展館。

圖片來源:庫拉斯建筑(Coorlas Architecture)

基于這個概念圖像進行簡單的3D建模后,庫拉斯將這些模型的圖像反饋給Midjourney,并令其迭代建筑圖紙。然后就得到了這個展館的建筑圖紙,雖然還缺乏細節(jié)。

圖片來源:Coorlas建筑

扎哈·哈迪德建筑倫敦工作室的計算研究小組(ZHACODE)設(shè)計師Tim Fu,使用Midjourney設(shè)計的鋼琴家的住宅:

由Tim Fu使用Midjourney設(shè)計的鋼琴家的住宅。圖片來源:Tim Fu

這些進步,得益于生成擴散模型和多模態(tài)預訓練模型等技術(shù)的快速發(fā)展,在圖文生成效果上有了顯著進步,讓AI可以快速、靈活地生成不同模態(tài)的數(shù)據(jù)內(nèi)容。

在2021年之前,AIGC還主要是文字生成。而新一代的模型可以處理任何內(nèi)容格式,包含文字、語音、代碼、圖像、視頻、3D模型、機器人的動作等等。比如近期以DALL-E2和stable-diffusion為代表的AIGC技術(shù)在圖文生成效果上,能夠廣泛應用于內(nèi)容生成、編輯和創(chuàng)作等領(lǐng)域。

5)AI繪圖:Stability AI

Stability AI也在去年10月宣布完成了1.01億美金的種子輪融資,估值達10億美金,Stability AI成立僅2年時間。

與Midjourney類似,Stability AI也是一個開放的AI繪圖工具,用戶輸入描述圖片的文字信息,來創(chuàng)建圖像。

圖片來源:https://stability.ai/

Stability AI是一項開源技術(shù),用戶可以在其代碼的基礎(chǔ)上構(gòu)建與設(shè)計、電影、增強現(xiàn)實、視頻游戲、廣告甚至電子商務(wù)相關(guān)的應用程序。通過這套開源技術(shù),Stability AI的社區(qū)已經(jīng)創(chuàng)造出了幾乎涵蓋所有媒體內(nèi)容形態(tài)的AI模型,包括圖像、語言、音頻、視頻以及3D內(nèi)容。

圖片來源:https://stability.ai/

Stability AI在訓練自己的模型時,也花費了很高的成本。根據(jù)Business Insider的報道,Stability AI目前擁有一個,在AWS中運行的由4000多個Nvidia A100 GPU組成的芯片集群,用于訓練Stability的各個AI模型,這導致其在運營和云服務(wù)方面的支出超過了5000萬美元。AI公司在訓練方面的確耗資巨大,此前微軟對OpenAI的10億美元投資,其中一半是用云計算等服務(wù)折算的。

由此也可以看出Stability AI的野心,它并未聚焦于某個單一場景,而是通過開源來拓展場景,再去尋找具體的商業(yè)模式。當然,更大的想象空間,也需要更多的投入,所以Stability AI在種子輪就拿了這么多錢。

Stability建立的社區(qū),包括了全球各地的專家與合作伙伴,他們正在為圖像、語言、音頻、視頻、3D和生物學等,開發(fā)最先進的開放式人工智能模型。

圖片來源:https://stability.ai/

6) AI修圖:Lensa

剛剛介紹了幾款AI繪圖應用,下面我們要介紹的,是一款AI修圖產(chǎn)品。

圖片來源:https://prisma-ai.com/lensa

Lensa的日常操作,其實與美圖秀秀、VSCO類似,只不過后者需要手動,而Lensa加入了一些AI能力。Lensa在Twitter等社交媒體上爆紅,主要是它的Magic Avatars功能,可以供你生成魔法頭像。用戶需要上傳10-20張自拍照,然后選擇一個性別,Magic Avatars就會通過AI自動生成上百張不同風格的頭像。

這些AI生成的照片風格各異,有動漫效果、科幻色彩、水彩感、或是油畫風格等等,一下子形成了病毒式傳播。此外,這是一個完全付費的產(chǎn)品,生成的這50/100/200張的價格分別為3.99/5.99/7.99美元。

圖片來源:https://prisma-ai.com/lensa

Lensa引爆了C端,這也是對AIGC市場非常重要的價值。

7)AI音視頻編輯:Descript

去年11月,Descript宣布了5000萬美金的融資,這一輪由OpenAI旗下的OpenAI Startup Fund領(lǐng)投。

Descript想結(jié)合AI實現(xiàn)的目標,是重新設(shè)計視頻編輯器,讓制作音視頻的過程,像修改Word文檔和做PPT一樣簡單。

圖片來源:https://www.descript.com/

Descript首先第一個打破的,就是傳統(tǒng)編輯器中的時間軸概念,以期在不觸及時間軸的情況下完成各種新的操作,可能是對視頻中的每個畫面利用AI做更多操作,例如刪除視頻里面的背景,添加新畫面等等。

第二個好用的功能是語音克隆,也就是用戶先錄好一段聲音后,后續(xù)只需要寫文本就能實現(xiàn)整個錄制,AI會用克隆好的聲音自動錄制出來。也可以選擇其模版庫里的其它聲音模版。當你對文本進行修改,錄音也會自動調(diào)整。

第三是通過AI自動刪除語氣詞或是重復的短句。剪輯過音頻的朋友都知道,我們?nèi)粘Uf話時其實會有大量的語氣詞或是重復詞,說的時候沒感覺,但在聽錄音的時候非常明顯。但這種剪輯很麻煩,需要一點一點去摳。如今通過AI自動處理,很方便也令音視頻更加專業(yè)。另外就是字幕處理,Descript會根據(jù)上下文自動調(diào)整字幕的停頓斷句,也會自動補充各種日常習慣語法。

圖片來源:https://www.descript.com/

8) AI編程:GitHub Copilot

AI編程也是近幾年新崛起的重要賽道,美國風投界認為2023年AI編程投資會非?;馃帷?/p>

GitHub Copilot是微軟旗下代碼托管平臺GitHub推出的AI編程工具,Copilot的主要定位是提供代碼補全與建議功能,可根據(jù)當前文件的內(nèi)容和光標位置自動生成代碼。

圖片來源:https://github.com/features/copilot

GitHub Copilot支持的編程語言包括Python、JavaScript、TypeScript、Java、Ruby和Go。有了GitHub Copilot,軟件開發(fā)人員可以在編輯器中使用內(nèi)聯(lián)注釋來獲取JavaScript、Python、TypeScript和Ruby等編程語言的代碼建議。

然后只要用戶給出提示,GitHub Copilot就可以根據(jù)上下文自動編寫完整的函數(shù),或?qū)崿F(xiàn)完整的功能,包括docstrings、注釋、函數(shù)名、代碼。

在底層技術(shù)方面,GitHub Copilot就是基于OpenAI的文本生成技術(shù)。曾經(jīng)有GitHub Copilot高管對其描述是:

“這就像有一個小機器人坐在你的肩膀上,你們坐在桌子的同一側(cè),目視同樣的東西,當這個機器人可以‘出手’的時候,它會自動為你提供幫助?!罱豁椦芯康慕y(tǒng)計數(shù)據(jù)非常有趣,該研究要求程序員從頭開始編寫Web服務(wù)器代碼,程序員在使用Copilot的情況下完成這一任務(wù)的速度要比不使用Copilot快50%以上。然后,我們從遙測中得知,在啟用這一功能的情況下,在程序員編寫新代碼的過程中,例如Python 等流行編碼語言中,Copilot為程序員編寫了多達40%的代碼。這是個了不起的成就?!?/p>

圖片來源:https://github.com/features/copilot

9)AI筆記:Mem

Mem是一款專注于工作的應用程序,可以利用AI自動組織筆記。Mem也是OpenAI領(lǐng)投的,投資金額為2350萬美元,投資后估值為1.1億美元。

Mem由華裔工程師Dennis Xu和Kevin Moody共同創(chuàng)辦,他們曾表示,Mem與傳統(tǒng)記事應用程序的不同之處在于它的“輕量級”。

簡單來說,Mem像是一種整合個人信息數(shù)據(jù)的工具,將你的個人郵件、日歷活動和筆記信息等自動匯集到一起,并利用AI來自動整合這些信息,并在特定的時間點上給你所需要的。

 

在工作流程上,Mem主打快速記錄與內(nèi)容搜索,圍繞搜索和按時間順序排列的時間線,可以附加主題標簽,標記其他用戶,并為筆記添加循環(huán)提醒信息。

當然,快速記錄信息只是最開始的第一步,Mem如何將信息數(shù)據(jù)從其他平臺快速同步整合到Mem上更為重要。Mem在背后形成了一個知識圖譜,由一個個Node(節(jié)點)組成,每個節(jié)點都是一個Entity,這個Entity可以是一條Mem(筆記),也可以是某個具體的日程活動、一個聯(lián)系人信息或者是一條任務(wù)等等。Mem會通過AI將這些不同節(jié)點上的Entity進行分析和連接,比如你在一條筆記中提到了某位朋友推薦的一家餐館,這兩個信息點都會在知識圖譜中進行分析和歸類,并自動形成關(guān)聯(lián),當外部條件觸發(fā)時,這些信息就會自動呈現(xiàn)在用戶的面前。

Mem也做了AI Writer的部分,可以說是基于個人信息數(shù)據(jù)的AI寫作助理。比如一個可能的場景就是當你在寫作中提到某個日程安排或者某條視頻內(nèi)容時,Mem會自動將這些信息自動同步到文檔中,同時這個AI Writer還具備GPT-3的所有能力,可以將各種網(wǎng)上的信息比如最暢銷的10本書等等進行自動搜集和補全。

10) AI游戲:AI Dungeon

AI Dungeon是一個由AI驅(qū)動的基于文本的RPG游戲,也可以說是由AI驅(qū)動劇情發(fā)展的游戲。通過AI應用,用戶可以在能想象到的任何場景中,去進行角色扮演編寫故事,與其他人物互動。

AI 會根據(jù)故事大背景設(shè)定的世界觀,來設(shè)計不同角色的性格和任務(wù),并且實時根據(jù)用戶的行動,回以新的事件和對話,對每個人都會反饋出不同的答案和行動,所以在劇情拓展方面,不可預測并且自由度空前。

圖片來源:https://play.aidungeon.io/

AI Dungeon目前使用GPT-3的模型來生成故事。

AI Dungeon文本游戲雖然還很稚嫩,但AI應用于游戲代表了游戲業(yè)的未來。

圖片來源:https://play.aidungeon.io/

AI Dungeon代表了ChatGPT對游戲行業(yè)可能的顛覆性。當AI應用于游戲,游戲里的劇情將變得不可預測,而是會根據(jù)每個用戶的選擇,形成無限的可能性。并且游戲里的NPC都可以有各自的“生活”,或是影響游戲結(jié)局,從而給玩家?guī)愍毺氐捏w驗。

當然,當下的AI游戲大多數(shù)還是基于文本,所以其互動效果類似ChatGPT,事實上這塊能力也是基于OpenAI的語言模型構(gòu)建的。不同點在于游戲版會更具邏輯性,也能夠保留對過去交互的記憶,并且是基于大的故事背景而做出的互動。

但在可以想見的未來,當游戲制作時,把游戲中的每一個人物都設(shè)計一個AI模型,那將是AIGC深度開發(fā)的巨大潛力與機會,制作出真正沉浸感的新游戲。

AIGC會令游戲行業(yè)變得更加靈活與復雜;圖片來源:A16Z

這10款應用只是AIGC領(lǐng)域的冰山一角,從GPT-3、Bloom的文本生成,DALL-E和Stable Diffusion的圖像生成,以及RunwayML、Make-A-Video的視頻生成,各類生成式AI產(chǎn)品在近幾年中如雨后春筍般涌現(xiàn)。

正如OpenAI CEO Sam Altman所說,AI將是移動互聯(lián)網(wǎng)后新的基礎(chǔ)平臺,之后會出現(xiàn)新公司的爆炸式增長。

當然,對于中國來說,當務(wù)之急可能還不在應用層,而是模型層。眾多有意思的AI產(chǎn)品,背后的基石都是GPT-3.5等基礎(chǔ)模型,而國內(nèi)現(xiàn)在還缺乏一個足夠好的基礎(chǔ)大模型。這就類似于新AI時代的“IOS、Android”、或是比喻成“云計算操作系統(tǒng)”,如果沒有它也就根本無法開發(fā)應用,這是一個必須的基礎(chǔ)設(shè)施。而基于“數(shù)據(jù)和模型的飛輪效應”,AI大模型開發(fā)的時間窗口正在迅速縮短。

當然,目前的GPT-3.5,并不具備真正的推理能力,雖然ChatGPT能回答各種問題,但事實上對回答背后的意義,或是數(shù)學公式的理解、詩詞背后的情感,ChatGPT還是沒有概念的。GPT從1.0發(fā)展到3.5,迭代的是收集整合和語言組織能力,而非思維層面。

就像清華教授錢穎一曾經(jīng)說的,未來人工智能在知識層面會做的很好,但“大學教育的價值不在于記住很多事實,而是訓練大腦會思考?!?/p>

創(chuàng)造性思維=知識×好奇心和想象力,這在AIGC時代將尤為重要。

References:

1、部分對app應用的描述來源自:Memo AIGC(https://vcsmemo.com/?page_id=852),這是一個追蹤AIGC領(lǐng)域最新動向的網(wǎng)站

2、 GPT-3 DEMO:https://gpt3demo.com/

3、 Citipedia:AI與城市|Midjourney:建筑版ChatGPT設(shè)計的超現(xiàn)實世界

4、 wuhu動畫人空間:地表最強AI繪畫工具?!Midjourney到底厲害在什么地方?

5、 AI繪畫 Midjourney關(guān)鍵詞輸入全技巧

6、 安信證券:AIGC與ChatGPT正掀起新一輪的產(chǎn)業(yè)浪潮

7、 UBS Equities:美國互聯(lián)網(wǎng)行業(yè):ChatGPT揭示消費者AI的未來

8、 Morgan Stanley:ChatGPT: What is it? Why it Matters? Is it a Google Threat...and Broader Industry Implications

9、 經(jīng)濟學人:The race of the AI labs heats up

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

AI寫作、繪畫、游戲、編程……一窺AIGC時代下APP的最新發(fā)展趨勢

這股AI新浪潮對于創(chuàng)業(yè)公司來說,意味著什么?

文|經(jīng)緯創(chuàng)投

每隔一段時間,一項技術(shù)就會捕獲全世界的想象力。從硅谷、華爾街、中關(guān)村、到世界各個角落的辦公室和大學教室,人們都在熱烈地討論ChatGPT及人工智能的未來。

面對這個剛剛開始的顛覆性變革,我們有太多問題想問,有太多問題值得思考。但本文將聚焦在:

  • ChatGPT對于創(chuàng)業(yè)公司來說意味著什么?
  • 這一波AI產(chǎn)品可能的應用場景有哪些?
  • 未來可能會形成怎樣的新AI產(chǎn)業(yè)生態(tài)?
  • 我們根據(jù)GPT-3 Demo及其他相關(guān)網(wǎng)站,來看看海外當下,有哪些熱門創(chuàng)業(yè)方向(App和應用案例)?

1、引子:為什么這次不一樣

最近幾乎所有大型人工智能的前沿突破,都來自巨頭公司,因為他們擁有強大的資金和算力。ChatGPT與上一波人工智能產(chǎn)品蘋果Siri、微軟小冰的核心不同是,過去都是小模型,而如今是真正的大模型。

以前,小模型的人工智能中,其實包含了若干Agent(類似于執(zhí)行具體任務(wù)的程序),一個專門負責聊天對話、一個專門負責詩詞生成、一個專門負責代碼生成、一個專門負責營銷文案等等,如果想添加新功能,可以去訓練新Agent。一旦用戶的問題超出了這個范圍,人工智能就會變成人工智障。

而如今的ChatGPT之所以被稱為真正的人工智能,就在于采用了成百上千億參數(shù)的大模型,比如GPT-3模型就有1750億個參數(shù)。而GPT本身是一個單項模型,是從左到右進行閱讀,所以更擅長“寫作文”。與谷歌BERT不同,BERT是一個雙向模型,可以聯(lián)系上下文進行分析,更擅長“完形填空”,但GPT與人類的思維方式更接近,所以我們能看到基于ChatGPT的創(chuàng)意寫作應用,或是制作繪本。

InstructGPT的技術(shù)邏輯:RLHF的主要改變在于人工監(jiān)督數(shù)據(jù)與調(diào)整后的獎勵模型;圖片來源:OpenAI

但大模型的高昂投入,讓普通創(chuàng)業(yè)公司難以為繼,因此參與者都是科技巨頭。2022年OpenAI的收入為3000萬美元,但凈虧損總額預計為5.445億美元。而GPT3訓練一次的費用,大概是460萬美元。當模型被訓練好之后,仍然有使用成本,目前ChatGPT單輪對話的平均費用,大概在0.01-0.2美元之間。

并且先發(fā)優(yōu)勢會非常明顯,因為這里有一個“數(shù)據(jù)和模型的飛輪效應”。在GPT-3之后,OpenAI所有的模型都沒有開源,而是提供了API調(diào)用。在這個過程中,OpenAI可以借助ChatGPT建立真實用戶調(diào)用和模型迭代之間的飛輪,OpenAI非常重視真實世界數(shù)據(jù)的調(diào)用,以及這些數(shù)據(jù)對模型的迭代。

 

文本模型的訓練成本;圖片來源:東吳證券

對于AI的發(fā)展來說,工程的重要性不亞于科學,創(chuàng)建一個迭代反饋的閉環(huán)至關(guān)重要。這也將是后來者,趕超ChatGPT的重要難點。

那么,這股AI新浪潮對于創(chuàng)業(yè)公司來說,意味著什么?

2、對創(chuàng)業(yè)公司來說意味著什么?

OpenAI的創(chuàng)始人山姆·阿爾特曼(Sam Altman),曾對AI產(chǎn)業(yè)生態(tài)有過一個預測,他認為:

“將來應該會出現(xiàn)幾個大型的基礎(chǔ)模型,開發(fā)人員都將基于這些基礎(chǔ)模型研發(fā)AI應用。但目前的情況依然是某一家公司開發(fā)出一個大型語言模型,然后開放API供他人使用。

我認為,將來在基礎(chǔ)模型和具體AI應用研發(fā)之間會有一個中間層:出現(xiàn)一批專門負責調(diào)整大型模型以適應具體AI應用需求的初創(chuàng)企業(yè)。能做好這一點的初創(chuàng)公司將會非常成功,但這取決于它們能在「數(shù)據(jù)飛輪」上走多遠。

創(chuàng)業(yè)公司會訓練自己的模型,只不過不是從頭開始。他們將采用基礎(chǔ)模型,這些模型已經(jīng)經(jīng)過大量的計算和數(shù)據(jù)訓練,然后在這些模型之上進行訓練,為每個垂類創(chuàng)建模型。

他們所做的 1% 的訓練,對于應用來說至關(guān)重要。我認為,這些創(chuàng)業(yè)公司將會非常成功,并且與眾不同。可能包括一段時間內(nèi)存在的 prompt engineering(提示工程)或基礎(chǔ)核心模型(core base model)。

將來承擔模型訓練角色的應該不會是初創(chuàng)公司,但這些企業(yè)可以在上述的中間層角色中發(fā)揮巨大價值。我認為中間那一層會創(chuàng)造很多價值?!?/p>

總結(jié)來說,這個產(chǎn)業(yè)生態(tài)可能會是:

1、基礎(chǔ)設(shè)施層:在最底層,是提供芯片、云計算等基礎(chǔ)能力的廠商。

2、模型層:大公司負責訓練基礎(chǔ)大模型,這種基礎(chǔ)能力可能會逐漸走向開放。一種可能是,最終形成類似ISO 和Android兩大陣營,或是類似云計算的格局,一般這種量級的生態(tài)圈最終不會容納太多家,但也不會被一家壟斷。目前來看微軟(OpenAI拔得頭籌)vs谷歌(旗下有Deepmind)已經(jīng)開戰(zhàn),但巨頭的基礎(chǔ)模型之間是否會形成差異?以及會形成怎樣的差異性?這個問題也值得觀察。但無論如何,這將會是繼移動互聯(lián)網(wǎng)之后,下一個史詩級的重大戰(zhàn)略窗口,中國公司也需要積極加入戰(zhàn)局。

國內(nèi)外互聯(lián)網(wǎng)大廠紛紛推出自研AI大模型;圖片來源:安信證券

3、應用中間層:在大模型的基礎(chǔ)上,不同垂直領(lǐng)域會有各自的特殊情況,比如醫(yī)療、司法等等領(lǐng)域,這些特定領(lǐng)域的數(shù)據(jù)本身也是稀缺的。創(chuàng)業(yè)公司可以扎根各自的垂直領(lǐng)域,基于特定的數(shù)據(jù)集+行業(yè)knowhow,形成各自的商業(yè)化路徑,并保護用戶數(shù)據(jù)和隱私。

4、重構(gòu)“AI應用”?此外,在Sam Altman所說的應用中間層之上,在AI應用端本身,是否存在一個重構(gòu)當下App的機遇?是現(xiàn)有玩家往AI轉(zhuǎn)型,還是會涌現(xiàn)新玩家,這個問題也值得持續(xù)觀察,還未達成市場共識。

在現(xiàn)有玩家往AI的轉(zhuǎn)型中,最典型的莫過于微軟。微軟計劃將ChatGPT模塊,應用于搜索引擎Bing中,以對抗占據(jù)主導市場份額的谷歌,New Bing可能在今年一季度就能落地。搜索引擎還只是前菜,微軟還計劃將OpenAI與自身業(yè)務(wù)進行更大程度的融合,比如嵌入Word、PowerPoint、Excel、Outlook等等,對于用戶來說,只需給人工智能直接下達指令,就能獲得自動生成的文章、Excel表格、PPT,或是電子郵件,這將是AI進入C端的一次巨大突破。

而在新玩家中,涌現(xiàn)了一批AI繪畫、AI編程、各類自動化工具等等方向的創(chuàng)新項目,類似當年移動互聯(lián)網(wǎng),這些新方向也有可能誕生一批優(yōu)秀的新公司。

現(xiàn)在,已經(jīng)有一些新老玩家,在使用已經(jīng)訓練好的基礎(chǔ)模型,然后再基于這些模型進一步優(yōu)化,例如GitHub的Copilot功能,以及Notion的協(xié)助功能,都是基于OpenAI的相關(guān)模型開發(fā)而來。隨著模型不斷被AI應用平臺使用,下一步就是訓練數(shù)據(jù),甚至整個業(yè)務(wù)邏輯。新老玩家們,未來可能會在一些領(lǐng)域激烈競爭。

這個發(fā)展過程也許可以類比云計算。當年云計算最初通過便利性,來吸引用戶把計算放在云端。然后隨著計算逐漸遷移到云端,數(shù)據(jù)也開始搬遷到云上,然后再是整個公司的業(yè)務(wù)邏輯,都在云上運行?;贠penAI GPT-3、Deepmind Gopher等基礎(chǔ)模型,各個應用層面的新老玩家,未來都會在“云”上提供更豐富的服務(wù),最終形成龐大生態(tài)。

我們也非常想知道,基于ChatGPT,當下全球最流行、最有潛力的應用場景到底是什么?我們做了一個初步的研究,根據(jù):

  • GPT-3 Demo所羅列的651款App(這是一個實時統(tǒng)計基于GPT-3所誕生的App的網(wǎng)站,不斷更新中)
  • 當下市場上熱門的AIGC應用
  • ChatGPT自己給出的答案

我們羅列了10款熱門應用,其中的一些或許會令你眼前一亮,一些或許還比較稚嫩,但我們認為AI變革這次不一樣,在大浪潮的初始,這些探索者值得被持續(xù)關(guān)注。

  • AI寫作:Jasper AI
  • AI寫作:Copy.ai
  • AI聲音:podcast.ai
  • AI繪圖:Midjourney
  • AI繪圖:Stability AI
  • AI修圖:Lensa
  • AI音視頻編輯:Descript
  • AI編程:GitHub Copilot
  • AI筆記:Mem
  • AI游戲:AI Dungeon

1) AI寫作:Jasper AI

作為 AIGC 圈新貴,Jasper AI已經(jīng)不是一個陌生的名字。在去年10月,Jasper AI就宣布了以15億美元估值的A輪融資,而Jasper AI的產(chǎn)品上線也就18個月時間。

Jasper以“AI文字生成”為主打產(chǎn)品,用戶借助AI可以輕松生成各類文字,例如幫著起Instagram的標題、編寫TikTok視頻腳本、廣告營銷文本、博客、電子郵件內(nèi)容等等,這些功能,令Jasper在社交媒體、電商、視頻制作等多個領(lǐng)域非?;鸨?/p>

Jasper的底層技術(shù)就是OpenAI的GPT-3,但團隊在此基礎(chǔ)上,對語言模型做了大量的改進,特別是在廣告和營銷的內(nèi)容生成這部分,Jasper也加大了用戶在生成內(nèi)容時的反饋機制。相比于其他AI寫作應用,Jasper更專注于長篇內(nèi)容。

除了文字內(nèi)容外,Jasper也推出了AI繪圖產(chǎn)品Jasper Art,與其他熱門產(chǎn)品類似,也是用戶輸入圖片描述,AI會自動生成圖片。當然Jasper 的定位會更偏向市場營銷應用設(shè)計。

2) AI寫作:Copy.ai

Copy.ai與剛剛介紹的Jasper AI類似,也是基于GPT-3模型的AI寫作創(chuàng)業(yè)項目,Copy.ai可以用幾秒鐘,就生成高質(zhì)量的廣告和營銷文案,針對ToB企業(yè)場景。

Copy.ai也引入了人工修正,不斷訓練出更優(yōu)秀的人工智能模型。Copy.ai的核心目標不是完全取代人工,而是通過AI的建議,將人類創(chuàng)作文案的構(gòu)思階段縮短80%,營銷人員用自己的創(chuàng)造力來填補剩余的20%。Copy.ai提供了大量的場景模版,幾乎涵蓋了市場營銷需要文案的所有場景。

對于用戶來說,只需要輸入標題和簡單的幾句話介紹來描述需求,例如根據(jù)內(nèi)容發(fā)布平臺的調(diào)性,來選擇文章的調(diào)性。如果有語法錯誤,還可以通過另一款應用Grammarly來自動修改。

3) AI聲音:podcast.ai

Podcast.ai是一個完全由AI生成的播客,每周都會深入探討一個新話題。

Podcast.ai的第一期節(jié)目引爆全網(wǎng),Podcast.ai通過喬布斯的傳記,和收集網(wǎng)絡(luò)上關(guān)于他的所有錄音,用Play.ht的語言模型大量訓練,最終生成了一段美國知名播客主持人Joe Rogan采訪喬布斯的播客內(nèi)容。在這期播客里,喬布斯的各種語音、語調(diào)都模擬的非常相似。

在這段20分鐘的對話里,喬布斯“死而復生”,與Joe Rogan討論了關(guān)于曾經(jīng)的大學時光、對計算機的看法、工作狀態(tài)以及信仰等等。

圖片來源:https://podcast.ai/

Podcast.ai所采用的Play.ht,是一個AI文本轉(zhuǎn)換語音生成器,模型覆蓋了數(shù)千種說話的聲音,還可以學習人類的情感、說話語氣以及笑聲等。從文本語言模型到音頻語言模型時,音頻數(shù)據(jù)速率增高是一個大難題,一個句子的幾十個字符用音頻波形表達,所包含的數(shù)值往往多達數(shù)十萬個。此外,由于文本和音頻之間的一對多關(guān)系,也即是一個語句可以有不同的說話風格、情感等,這也成為了語音模型研究中需要解決的問題。

總體來說,Podcast.ai的效果已經(jīng)相當接近真人,感興趣的朋友可以去這里聽一下Podcast.ai關(guān)于喬布斯的這期節(jié)目:https://podcast.ai/

4) AI繪圖:Midjourney

Midjourney是一眾AI繪畫產(chǎn)品中的佼佼者,高質(zhì)量、高精度、耗時短,在網(wǎng)上非常出圈。Midjourney目前直接搭載在Discord頻道上,你不需要寫代碼,只需輸入描述指令,AI就幫你生成驚艷的繪畫,這個過程和發(fā)微信聊天幾乎一樣。

圖片來源:https://discord.com/channels/662267976984297473/@home

如今,無數(shù)人都在用Midjourney生成圖片。例如《經(jīng)濟學人》用Midjourney生成的圖片做了雜志封面:

以及《空間歌劇院》,在美國科羅拉多州博覽會上獲得一等獎,隨后其作者Jason Allen才透露,這幅作品是出自Midjourney AI之手。

再比如英國藝術(shù)家Daniel Oxford,運用Maya、PS等軟件配合AI輔助創(chuàng)作,一幅幅油畫質(zhì)感的CG從他手下產(chǎn)生:

又或者是當你輸入“指環(huán)王”,Midjourney生成的是這樣的:

由于用Midjourney畫畫,基本上和用微信聊天差不多,所以你的描述非常重要,比如你需要想清楚:

What:種類是什么?油畫?水彩?陶瓷?木雕?

Who:主題是什么?人?物?景?

When:何時?早中晚?季節(jié)?年代?時期?

Where:何地?什么場景?陸????外太空?

How:怎么畫?風格?引擎?渲染?照明?鏡頭?清晰度?真實度?

這些問題都可獨立,也可搭配在一起,看你想讓AI畫到什么程度。描述的越多,AI會以自己的理解,按權(quán)重優(yōu)先級進行繪制;而如果描述的少,AI也會根據(jù)自己的理解繪畫,也許能給出驚喜的創(chuàng)意。

建筑師也在使用來尋找靈感。例如芝加哥建筑師斯蒂芬·庫拉斯(Stephen Coorlas)使用Midjourney為芝加哥北岸地區(qū)設(shè)計的露天展館。

圖片來源:庫拉斯建筑(Coorlas Architecture)

基于這個概念圖像進行簡單的3D建模后,庫拉斯將這些模型的圖像反饋給Midjourney,并令其迭代建筑圖紙。然后就得到了這個展館的建筑圖紙,雖然還缺乏細節(jié)。

圖片來源:Coorlas建筑

扎哈·哈迪德建筑倫敦工作室的計算研究小組(ZHACODE)設(shè)計師Tim Fu,使用Midjourney設(shè)計的鋼琴家的住宅:

由Tim Fu使用Midjourney設(shè)計的鋼琴家的住宅。圖片來源:Tim Fu

這些進步,得益于生成擴散模型和多模態(tài)預訓練模型等技術(shù)的快速發(fā)展,在圖文生成效果上有了顯著進步,讓AI可以快速、靈活地生成不同模態(tài)的數(shù)據(jù)內(nèi)容。

在2021年之前,AIGC還主要是文字生成。而新一代的模型可以處理任何內(nèi)容格式,包含文字、語音、代碼、圖像、視頻、3D模型、機器人的動作等等。比如近期以DALL-E2和stable-diffusion為代表的AIGC技術(shù)在圖文生成效果上,能夠廣泛應用于內(nèi)容生成、編輯和創(chuàng)作等領(lǐng)域。

5)AI繪圖:Stability AI

Stability AI也在去年10月宣布完成了1.01億美金的種子輪融資,估值達10億美金,Stability AI成立僅2年時間。

與Midjourney類似,Stability AI也是一個開放的AI繪圖工具,用戶輸入描述圖片的文字信息,來創(chuàng)建圖像。

圖片來源:https://stability.ai/

Stability AI是一項開源技術(shù),用戶可以在其代碼的基礎(chǔ)上構(gòu)建與設(shè)計、電影、增強現(xiàn)實、視頻游戲、廣告甚至電子商務(wù)相關(guān)的應用程序。通過這套開源技術(shù),Stability AI的社區(qū)已經(jīng)創(chuàng)造出了幾乎涵蓋所有媒體內(nèi)容形態(tài)的AI模型,包括圖像、語言、音頻、視頻以及3D內(nèi)容。

圖片來源:https://stability.ai/

Stability AI在訓練自己的模型時,也花費了很高的成本。根據(jù)Business Insider的報道,Stability AI目前擁有一個,在AWS中運行的由4000多個Nvidia A100 GPU組成的芯片集群,用于訓練Stability的各個AI模型,這導致其在運營和云服務(wù)方面的支出超過了5000萬美元。AI公司在訓練方面的確耗資巨大,此前微軟對OpenAI的10億美元投資,其中一半是用云計算等服務(wù)折算的。

由此也可以看出Stability AI的野心,它并未聚焦于某個單一場景,而是通過開源來拓展場景,再去尋找具體的商業(yè)模式。當然,更大的想象空間,也需要更多的投入,所以Stability AI在種子輪就拿了這么多錢。

Stability建立的社區(qū),包括了全球各地的專家與合作伙伴,他們正在為圖像、語言、音頻、視頻、3D和生物學等,開發(fā)最先進的開放式人工智能模型。

圖片來源:https://stability.ai/

6) AI修圖:Lensa

剛剛介紹了幾款AI繪圖應用,下面我們要介紹的,是一款AI修圖產(chǎn)品。

圖片來源:https://prisma-ai.com/lensa

Lensa的日常操作,其實與美圖秀秀、VSCO類似,只不過后者需要手動,而Lensa加入了一些AI能力。Lensa在Twitter等社交媒體上爆紅,主要是它的Magic Avatars功能,可以供你生成魔法頭像。用戶需要上傳10-20張自拍照,然后選擇一個性別,Magic Avatars就會通過AI自動生成上百張不同風格的頭像。

這些AI生成的照片風格各異,有動漫效果、科幻色彩、水彩感、或是油畫風格等等,一下子形成了病毒式傳播。此外,這是一個完全付費的產(chǎn)品,生成的這50/100/200張的價格分別為3.99/5.99/7.99美元。

圖片來源:https://prisma-ai.com/lensa

Lensa引爆了C端,這也是對AIGC市場非常重要的價值。

7)AI音視頻編輯:Descript

去年11月,Descript宣布了5000萬美金的融資,這一輪由OpenAI旗下的OpenAI Startup Fund領(lǐng)投。

Descript想結(jié)合AI實現(xiàn)的目標,是重新設(shè)計視頻編輯器,讓制作音視頻的過程,像修改Word文檔和做PPT一樣簡單。

圖片來源:https://www.descript.com/

Descript首先第一個打破的,就是傳統(tǒng)編輯器中的時間軸概念,以期在不觸及時間軸的情況下完成各種新的操作,可能是對視頻中的每個畫面利用AI做更多操作,例如刪除視頻里面的背景,添加新畫面等等。

第二個好用的功能是語音克隆,也就是用戶先錄好一段聲音后,后續(xù)只需要寫文本就能實現(xiàn)整個錄制,AI會用克隆好的聲音自動錄制出來。也可以選擇其模版庫里的其它聲音模版。當你對文本進行修改,錄音也會自動調(diào)整。

第三是通過AI自動刪除語氣詞或是重復的短句。剪輯過音頻的朋友都知道,我們?nèi)粘Uf話時其實會有大量的語氣詞或是重復詞,說的時候沒感覺,但在聽錄音的時候非常明顯。但這種剪輯很麻煩,需要一點一點去摳。如今通過AI自動處理,很方便也令音視頻更加專業(yè)。另外就是字幕處理,Descript會根據(jù)上下文自動調(diào)整字幕的停頓斷句,也會自動補充各種日常習慣語法。

圖片來源:https://www.descript.com/

8) AI編程:GitHub Copilot

AI編程也是近幾年新崛起的重要賽道,美國風投界認為2023年AI編程投資會非?;馃帷?/p>

GitHub Copilot是微軟旗下代碼托管平臺GitHub推出的AI編程工具,Copilot的主要定位是提供代碼補全與建議功能,可根據(jù)當前文件的內(nèi)容和光標位置自動生成代碼。

圖片來源:https://github.com/features/copilot

GitHub Copilot支持的編程語言包括Python、JavaScript、TypeScript、Java、Ruby和Go。有了GitHub Copilot,軟件開發(fā)人員可以在編輯器中使用內(nèi)聯(lián)注釋來獲取JavaScript、Python、TypeScript和Ruby等編程語言的代碼建議。

然后只要用戶給出提示,GitHub Copilot就可以根據(jù)上下文自動編寫完整的函數(shù),或?qū)崿F(xiàn)完整的功能,包括docstrings、注釋、函數(shù)名、代碼。

在底層技術(shù)方面,GitHub Copilot就是基于OpenAI的文本生成技術(shù)。曾經(jīng)有GitHub Copilot高管對其描述是:

“這就像有一個小機器人坐在你的肩膀上,你們坐在桌子的同一側(cè),目視同樣的東西,當這個機器人可以‘出手’的時候,它會自動為你提供幫助?!罱豁椦芯康慕y(tǒng)計數(shù)據(jù)非常有趣,該研究要求程序員從頭開始編寫Web服務(wù)器代碼,程序員在使用Copilot的情況下完成這一任務(wù)的速度要比不使用Copilot快50%以上。然后,我們從遙測中得知,在啟用這一功能的情況下,在程序員編寫新代碼的過程中,例如Python 等流行編碼語言中,Copilot為程序員編寫了多達40%的代碼。這是個了不起的成就?!?/p>

圖片來源:https://github.com/features/copilot

9)AI筆記:Mem

Mem是一款專注于工作的應用程序,可以利用AI自動組織筆記。Mem也是OpenAI領(lǐng)投的,投資金額為2350萬美元,投資后估值為1.1億美元。

Mem由華裔工程師Dennis Xu和Kevin Moody共同創(chuàng)辦,他們曾表示,Mem與傳統(tǒng)記事應用程序的不同之處在于它的“輕量級”。

簡單來說,Mem像是一種整合個人信息數(shù)據(jù)的工具,將你的個人郵件、日歷活動和筆記信息等自動匯集到一起,并利用AI來自動整合這些信息,并在特定的時間點上給你所需要的。

 

在工作流程上,Mem主打快速記錄與內(nèi)容搜索,圍繞搜索和按時間順序排列的時間線,可以附加主題標簽,標記其他用戶,并為筆記添加循環(huán)提醒信息。

當然,快速記錄信息只是最開始的第一步,Mem如何將信息數(shù)據(jù)從其他平臺快速同步整合到Mem上更為重要。Mem在背后形成了一個知識圖譜,由一個個Node(節(jié)點)組成,每個節(jié)點都是一個Entity,這個Entity可以是一條Mem(筆記),也可以是某個具體的日程活動、一個聯(lián)系人信息或者是一條任務(wù)等等。Mem會通過AI將這些不同節(jié)點上的Entity進行分析和連接,比如你在一條筆記中提到了某位朋友推薦的一家餐館,這兩個信息點都會在知識圖譜中進行分析和歸類,并自動形成關(guān)聯(lián),當外部條件觸發(fā)時,這些信息就會自動呈現(xiàn)在用戶的面前。

Mem也做了AI Writer的部分,可以說是基于個人信息數(shù)據(jù)的AI寫作助理。比如一個可能的場景就是當你在寫作中提到某個日程安排或者某條視頻內(nèi)容時,Mem會自動將這些信息自動同步到文檔中,同時這個AI Writer還具備GPT-3的所有能力,可以將各種網(wǎng)上的信息比如最暢銷的10本書等等進行自動搜集和補全。

10) AI游戲:AI Dungeon

AI Dungeon是一個由AI驅(qū)動的基于文本的RPG游戲,也可以說是由AI驅(qū)動劇情發(fā)展的游戲。通過AI應用,用戶可以在能想象到的任何場景中,去進行角色扮演編寫故事,與其他人物互動。

AI 會根據(jù)故事大背景設(shè)定的世界觀,來設(shè)計不同角色的性格和任務(wù),并且實時根據(jù)用戶的行動,回以新的事件和對話,對每個人都會反饋出不同的答案和行動,所以在劇情拓展方面,不可預測并且自由度空前。

圖片來源:https://play.aidungeon.io/

AI Dungeon目前使用GPT-3的模型來生成故事。

AI Dungeon文本游戲雖然還很稚嫩,但AI應用于游戲代表了游戲業(yè)的未來。

圖片來源:https://play.aidungeon.io/

AI Dungeon代表了ChatGPT對游戲行業(yè)可能的顛覆性。當AI應用于游戲,游戲里的劇情將變得不可預測,而是會根據(jù)每個用戶的選擇,形成無限的可能性。并且游戲里的NPC都可以有各自的“生活”,或是影響游戲結(jié)局,從而給玩家?guī)愍毺氐捏w驗。

當然,當下的AI游戲大多數(shù)還是基于文本,所以其互動效果類似ChatGPT,事實上這塊能力也是基于OpenAI的語言模型構(gòu)建的。不同點在于游戲版會更具邏輯性,也能夠保留對過去交互的記憶,并且是基于大的故事背景而做出的互動。

但在可以想見的未來,當游戲制作時,把游戲中的每一個人物都設(shè)計一個AI模型,那將是AIGC深度開發(fā)的巨大潛力與機會,制作出真正沉浸感的新游戲。

AIGC會令游戲行業(yè)變得更加靈活與復雜;圖片來源:A16Z

這10款應用只是AIGC領(lǐng)域的冰山一角,從GPT-3、Bloom的文本生成,DALL-E和Stable Diffusion的圖像生成,以及RunwayML、Make-A-Video的視頻生成,各類生成式AI產(chǎn)品在近幾年中如雨后春筍般涌現(xiàn)。

正如OpenAI CEO Sam Altman所說,AI將是移動互聯(lián)網(wǎng)后新的基礎(chǔ)平臺,之后會出現(xiàn)新公司的爆炸式增長。

當然,對于中國來說,當務(wù)之急可能還不在應用層,而是模型層。眾多有意思的AI產(chǎn)品,背后的基石都是GPT-3.5等基礎(chǔ)模型,而國內(nèi)現(xiàn)在還缺乏一個足夠好的基礎(chǔ)大模型。這就類似于新AI時代的“IOS、Android”、或是比喻成“云計算操作系統(tǒng)”,如果沒有它也就根本無法開發(fā)應用,這是一個必須的基礎(chǔ)設(shè)施。而基于“數(shù)據(jù)和模型的飛輪效應”,AI大模型開發(fā)的時間窗口正在迅速縮短。

當然,目前的GPT-3.5,并不具備真正的推理能力,雖然ChatGPT能回答各種問題,但事實上對回答背后的意義,或是數(shù)學公式的理解、詩詞背后的情感,ChatGPT還是沒有概念的。GPT從1.0發(fā)展到3.5,迭代的是收集整合和語言組織能力,而非思維層面。

就像清華教授錢穎一曾經(jīng)說的,未來人工智能在知識層面會做的很好,但“大學教育的價值不在于記住很多事實,而是訓練大腦會思考。”

創(chuàng)造性思維=知識×好奇心和想象力,這在AIGC時代將尤為重要。

References:

1、部分對app應用的描述來源自:Memo AIGC(https://vcsmemo.com/?page_id=852),這是一個追蹤AIGC領(lǐng)域最新動向的網(wǎng)站

2、 GPT-3 DEMO:https://gpt3demo.com/

3、 Citipedia:AI與城市|Midjourney:建筑版ChatGPT設(shè)計的超現(xiàn)實世界

4、 wuhu動畫人空間:地表最強AI繪畫工具?!Midjourney到底厲害在什么地方?

5、 AI繪畫 Midjourney關(guān)鍵詞輸入全技巧

6、 安信證券:AIGC與ChatGPT正掀起新一輪的產(chǎn)業(yè)浪潮

7、 UBS Equities:美國互聯(lián)網(wǎng)行業(yè):ChatGPT揭示消費者AI的未來

8、 Morgan Stanley:ChatGPT: What is it? Why it Matters? Is it a Google Threat...and Broader Industry Implications

9、 經(jīng)濟學人:The race of the AI labs heats up

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。