正在閱讀:

草莓難救被“月拋”的AI對(duì)話產(chǎn)品?

掃一掃下載界面新聞APP

草莓難救被“月拋”的AI對(duì)話產(chǎn)品?

坐擁數(shù)億注冊(cè)用戶但日活很低的AI對(duì)話類產(chǎn)品,新的草莓大模型能否拯救呢?

文|AI鯨選社 陳佳惠

編輯|楊曉鶴

OpenAI揭開草莓模型神秘面紗,能不能算GPT-5,坊間爭(zhēng)議聲音很大。

這就是今日凌晨一點(diǎn),OpenAI發(fā)布的兩個(gè)模型:o1 mini,o1 preview。

據(jù)官方消息,與GPT-4一樣,OpenAI o1也以AI對(duì)話和API接口的形式呈現(xiàn);而與GPT-4系列不同的是,o1可以解決比GPT時(shí)期的科學(xué)、編碼和數(shù)學(xué)模型更難的問題。具體來看,之前的GPT模型旨在模仿其訓(xùn)練數(shù)據(jù)中的模式,而o1的訓(xùn)練旨在讓其獨(dú)立解決問題。

意味著o1模型可以像人一樣,需要花更多的時(shí)間去思考問題,嘗試不同的策略,甚至能意識(shí)到自己的錯(cuò)誤。

聽著很厲害對(duì)不對(duì)?但實(shí)際4O、O1等大模型“寄生”的AI對(duì)話類產(chǎn)品,他們的用戶數(shù)并不高。

而據(jù)QuestionMobile,AIGC APP在工作日期間的活躍度高于雙休日,推測(cè)現(xiàn)階段AI與用戶辦公場(chǎng)景的適配性更強(qiáng),AI主要圍繞工作場(chǎng)景,為用戶生成文本、圖片等內(nèi)容信息。

o1模型雖在物理、化學(xué)、生物、編程等領(lǐng)域表現(xiàn)得像博士生一樣好,但對(duì)與編程能力來說,755萬程序員占國(guó)內(nèi)人口不足1%,可用武之地并不多,對(duì)C端大多數(shù)用戶來說帶來的效益并不高。

尤其近日,AI對(duì)話類App的用戶留存問題被推至風(fēng)口浪尖,更衍生出了“大模型六小虎泡沫即將破滅”的說法,AI對(duì)話的處境岌岌可危。盡管阿里原技術(shù)副總裁賈揚(yáng)清已經(jīng)提出質(zhì)疑,下圖30日國(guó)產(chǎn)5大AI對(duì)話類產(chǎn)品留存率接近0,這一數(shù)據(jù)應(yīng)該不準(zhǔn)確,但AI對(duì)話現(xiàn)在確實(shí)有一點(diǎn)“盛名之下,其實(shí)難副”

圖源:賈揚(yáng)清朋友圈

根據(jù)QuestMobile 權(quán)威數(shù)據(jù)顯示,頭部AIGC APP運(yùn)營(yíng)數(shù)據(jù)活躍率低,均在20%以下;忠誠(chéng)度方面,3日留存均在50%以下;流失風(fēng)險(xiǎn)高,部分APP的卸載率在50%以上。

坐擁數(shù)億注冊(cè)用戶但日活很低的AI對(duì)話類產(chǎn)品,新的草莓大模型能否拯救呢?

9.11還是9.9大?AI界的亙古難題

曾經(jīng)AI對(duì)話因回答錯(cuò)“9.11還是9.9大”被熱議,現(xiàn)在國(guó)內(nèi)各家都迭代了多代大模型,文心、豆包、Kimi等都能答對(duì)這道簡(jiǎn)單的數(shù)字題。但是OpenAI新更新的o1模型卻還是沉迷自己不知名的邏輯怪圈里,找不到正確答案。

但國(guó)內(nèi)大模型也并沒有領(lǐng)先多少,但當(dāng)我們問對(duì)話大模型一些客觀的問題,如“草莓的單詞里有幾個(gè)r”、“打了警犬算襲警嗎”等問題時(shí),就會(huì)發(fā)現(xiàn),這個(gè)剛剛還無所不能的AI助手突然變得手舞足蹈、不知所云了起來。

目前來說,對(duì)話大模型在簡(jiǎn)單的場(chǎng)景仍易漏洞百出,網(wǎng)友戲言:就這?取代我們?nèi)祟悾?/p>

誠(chéng)然,大模型幻覺率高的問題,始終制約著AI對(duì)話在C端的滲透。專注于用戶體驗(yàn)的研究機(jī)構(gòu)Nielsen Norman Group在23年9月發(fā)布的一篇研究文章中提到,在曾經(jīng)使用過AI工具的人中,大多數(shù)(78%)將 AI 工具用于工作和個(gè)人目的;8%的人僅將 AI 用于個(gè)人用途。

而在精益求精的工作用途中,大模型幻覺顯得更加致命。不僅如此,工作場(chǎng)景中精確的指令反而更易讓大模型“發(fā)懵”,AI對(duì)話的表現(xiàn)也并不出色。

在十字路口與脫口秀演員毛東的播客中,毛東提到,在用AI對(duì)話啟發(fā)脫口秀文本創(chuàng)作的過程中,需要提前對(duì)對(duì)話模型進(jìn)行5分鐘左右的預(yù)訓(xùn)練,而預(yù)訓(xùn)練后對(duì)話AI生成的稿件也并不能直接起作用。輸入一些稍復(fù)雜的指令,如要求大模型同時(shí)將“模仿路易·C.K.脫口秀風(fēng)格”、“加入結(jié)婚話題的段子”、“帶一些北京方言”融入文本創(chuàng)作,大模型就會(huì)分不清重點(diǎn),生成的脫口秀文本索然無味。

同樣的,Nielsen Norman Group的用戶研究也指出,在使用對(duì)話AI時(shí)用戶幾乎總是進(jìn)行多步迭代,因?yàn)槿斯ぶ悄軣o法準(zhǔn)確提供用戶想要的東西——它只能猜測(cè)意圖。假如問對(duì)話AI“從上海出差到北京,近十五天有什么天氣變化?有哪些穿衣建議”,則需要先對(duì)AI下達(dá)查詢近15日天氣的指令,然后引導(dǎo)其回答上海與北京的溫度差異,以及針對(duì)北京溫度進(jìn)行穿衣建議。

然而,對(duì)于同一問題,似乎國(guó)內(nèi)AI對(duì)話還有部分進(jìn)步空間,Claude、ChatGPT的回答更精準(zhǔn)一些。

對(duì)話AI的記憶也限制了其用戶體驗(yàn)。通常在與AI進(jìn)行超過7-10輪對(duì)話后,AI的回答開始變得混亂或不連貫。這就像你在跟一個(gè)注意力持續(xù)時(shí)間只有5分鐘的人聊天,每過一會(huì)兒就得重新介紹一遍背景,導(dǎo)致AI對(duì)話用戶體驗(yàn)感平庸。

正如我們所見,無論是線性的還是非線性的回答,人們?cè)跐L動(dòng)對(duì)話記錄,尋找合適的回答時(shí)都容易迷失方向。這個(gè)過程中,對(duì)話大模型理解和表達(dá)能力有限,整體用戶體驗(yàn)平庸,大多數(shù)用戶們也經(jīng)歷了從新鮮感到失望,AI對(duì)話也難以高效留存住用戶。

多模態(tài)交互技術(shù)不夠成熟,距離“Her”實(shí)現(xiàn)尚遠(yuǎn)?

電影《Her》中的人工智能不是一個(gè)簡(jiǎn)單的對(duì)話式AI,她不僅能通過聲音表現(xiàn)出極為復(fù)雜的情感,比如幽默、溫柔、關(guān)懷甚至是嫉妒,還具有高度的情感智能和自主學(xué)習(xí)能力,能夠理解人們的情感需求,并根據(jù)互動(dòng)不斷優(yōu)化自己的言行。

仿真的語音對(duì)話交互、流暢的多模態(tài)體驗(yàn),使故事的男主人很快忘記了面前的“女聲”只是一團(tuán)冰冷的算法,深陷愛河。

而5月,OpenAI的ChatGPT-4o發(fā)布會(huì)結(jié)束后,Sam Altman在Twitter上發(fā)了一個(gè)簡(jiǎn)短的詞:“her”,暗示著OpenAI已接近于完成科幻電影《Her》中,那位女性語音智能機(jī)器人的能力。

GPT-4o支持文本、音頻和圖像的任意組合的輸入和輸出。Mark Chen演示GPT-4o的多模態(tài)成果時(shí),他告知ChatGPT自己正在做演示,詢問GPT自己非常緊張應(yīng)該怎么辦。ChatGPT提示他:“深呼吸一下吧,記住你是個(gè)專家!”隨后,Mark Chen用非常急促的幾聲喘息回應(yīng),ChatGPT則用吃驚語氣下的“慢點(diǎn)呼吸,你可不是個(gè)吸塵器!”來回答他,幽默的回答令人忍俊不禁。

GPT高效的生成速度,帶來流暢的多模態(tài)交互體驗(yàn),雖然暫時(shí)還不能如《Her》中一樣流暢地進(jìn)行視頻對(duì)話,但演示案例中的語音對(duì)話已非常接近。

現(xiàn)實(shí)是,4o語音能力還沒發(fā)布,o1還不具備瀏覽網(wǎng)頁(yè)或處理文件分析功能。盡管它具備圖像分析功能,但該功能暫時(shí)關(guān)閉,等待進(jìn)一步測(cè)試。

但國(guó)內(nèi)月活第一的豆包APP的互動(dòng)能力卻稍顯遜色。豆包雖然能識(shí)別語音,并進(jìn)行對(duì)話,但其生成速度卻不及GPT,百度的文心生成速度則更慢。不僅如此,豆包也無法識(shí)別對(duì)話過程中的語氣。AI鯨選社在與豆包交流時(shí),用很沮喪的語氣說“今天天氣可真好啊”,可豆包卻判斷出對(duì)話者的情緒是不錯(cuò)的。

圖注:與豆包語音交互過程的文字記錄

百度的文小言語音對(duì)話,雖有AI虛擬角色豐富用戶的視覺體驗(yàn),但其生成內(nèi)容實(shí)在是慢,用戶在交互過程中盯著虛擬角色遲遲不“說話”,很容易“跳戲”。

圖注:文小言語音交互界面截圖

智譜清言于9月5日上線了“視頻通話”功能,向著Her的目標(biāo)又邁進(jìn)了一步。然而,智譜的視覺能力不太完善,把圖中的紫色看成粉色,綠色誤認(rèn)為灰色,堪稱一位“色弱”的AI助手。不過,它的視頻對(duì)話機(jī)器人非常活躍,善于引發(fā)話題,它會(huì)夸贊你的窗簾很有設(shè)計(jì)感,還會(huì)自己找話題,問你有沒有什么拿手的菜。值得一提的是,智譜的生成速度比文心和豆包都稍快一些,交互體驗(yàn)還不錯(cuò)。

圖注:智譜清言視頻聊天截圖

雖然現(xiàn)階段語音、圖像識(shí)別等技術(shù)正在快速發(fā)展,但真正流暢、自然的多模態(tài)AI對(duì)話體驗(yàn)仍然任重道遠(yuǎn),目前來說,國(guó)內(nèi)AI對(duì)話的多模態(tài)交互還不夠成熟。

但無論是“her”還是GPT-4o,可見的是,具備多模態(tài)交互的AI對(duì)話產(chǎn)品,是AI對(duì)話發(fā)揮能力的關(guān)鍵。

AI對(duì)話對(duì)“Her”的向往,也是能留住用戶的關(guān)鍵。這種最接近人類的聊天方式,才是打破只有專業(yè)人士用Prompt,才能和AI對(duì)話產(chǎn)品交互的桎梏。

AI對(duì)話還在尋找自己的killer feature

現(xiàn)在的AI對(duì)話應(yīng)用確實(shí)有不少花哨的功能。它可以回答我們?nèi)粘K鶈枺梢詭臀覀儗懬闀?,甚至還能和它玩角色扮演......

但據(jù)《2024年中國(guó)移動(dòng)互聯(lián)網(wǎng)半年報(bào)告》,國(guó)內(nèi)AIGC用戶不穩(wěn)定,AIGC行業(yè)人均使用時(shí)長(zhǎng)同比下滑了23.5%。AI對(duì)話類APP功能雖多,卻都是一些“花拳繡腿”,獲客成果并不理想。

周鴻祎曾指出,通用大模型留存率低的原因主要在于承諾什么都能做的同時(shí),卻什么都做不精。也正是因?yàn)楣δ苓^多過于繁雜,AI對(duì)話類APP還沒有找到那個(gè)讓用戶欲罷不能的killer feature。

互聯(lián)網(wǎng)時(shí)代,使支付寶、微信、抖音、美團(tuán)真正殺出重圍的,是它們都找到了自己的“殺手锏”。購(gòu)物支付會(huì)想到支付寶,社交聊天會(huì)想到微信,閑暇時(shí)間會(huì)想要看看抖音,“飯來張口”會(huì)想到美團(tuán)外賣......反觀AI對(duì)話呢?它好像什么都能做,又好像什么都做不好。

目前,國(guó)內(nèi)AI對(duì)話產(chǎn)品中,Kimi是較早找到應(yīng)用場(chǎng)景的。知識(shí)高效獲取一直都是職場(chǎng)、學(xué)生和科研人士的痛點(diǎn)問題,用戶們拿到的資料往往都是大段資料,知識(shí)獲取速度較慢。

Kimi抓住用戶這一痛點(diǎn),主打長(zhǎng)文本和文檔處理兩個(gè)功能,能幫用戶快速抓取文檔重點(diǎn),取得了還不錯(cuò)的用戶體驗(yàn)。據(jù)AI數(shù)智源發(fā)表的8月國(guó)內(nèi)AI榜單來看,Kimi仍以22.85M的數(shù)據(jù)領(lǐng)先其他家。但是實(shí)際上Kimi預(yù)訓(xùn)練較弱,模型本身能力并不強(qiáng)。但正是抓住了有效場(chǎng)景,Kimi的數(shù)據(jù)穩(wěn)居國(guó)內(nèi)大模型前列。

數(shù)據(jù)來源:Similarweb

目前其他家大模型,包括豆包、文心等,也都跟進(jìn)了長(zhǎng)文本處理和文檔解讀功能,能夠滿足用戶日常工作所需。不僅如此,百度專門推出“橙篇”對(duì)標(biāo)Kimi(橙篇提供專業(yè)的知識(shí)檢索和問答、超長(zhǎng)圖文理解和生成、深度編輯和跨模態(tài)自由創(chuàng)作等功能)。這么看來,Kimi曾經(jīng)的專長(zhǎng)也并不顯優(yōu)勢(shì)了。

而在龍頭OpenAI內(nèi)斗的這些日子里,Anthropic暗暗發(fā)力。據(jù) Datos對(duì)ChatGPT調(diào)用場(chǎng)景的調(diào)查數(shù)據(jù),編程問題占據(jù)了 29%,在所有使用場(chǎng)景中排名第一。Claude 3.5 Sonnet更新的“工坊模式”,強(qiáng)化編碼能力,使生成代碼速度更快,效率超過之前的GPT-4。編程作為最高頻、剛需的AI應(yīng)用場(chǎng)景之一,給市場(chǎng)帶來了機(jī)會(huì)與收入。

OpenAI不放手編程場(chǎng)景。這次更新的o1模型主打強(qiáng)推理、強(qiáng)編碼能力,有網(wǎng)友體驗(yàn)稱其代碼正確率確實(shí)有提升,“以前很少能一次run成功的”。o1還未正式開放,其效果究竟如何還待檢驗(yàn)。

Claude 3.5的文本生成能力也在新Prompt“漢語新解”中得到了詮釋。Claude于6月24日發(fā)布3.5模型,六月底,Claude流量激增135%。

找到殺手級(jí)場(chǎng)景的AI對(duì)話產(chǎn)品風(fēng)光創(chuàng)收,不禁讓其他家焦慮了起來,各大AI公司都在絞盡腦汁找辦法。

近日的外灘交流會(huì)上,阿里發(fā)布了“支小寶”全家桶,布局AI生活管家。百度也暗中轉(zhuǎn)變戰(zhàn)略,升級(jí)文心一言,并更名為“文小言”,定位“新搜索”智能助手。值得一提的是,百度改名的“文小言”,頗有“轉(zhuǎn)戰(zhàn)搜索”的意味。9月11日,字節(jié)也被爆出布局AI硬件的消息,開發(fā)與豆包大模型和豆包APP聯(lián)動(dòng)的智能耳機(jī)、智能眼鏡,探索大模型與硬件結(jié)合的賽道。大家都在努力找殺手級(jí)場(chǎng)景,形成自己的特色能力。

AI對(duì)話現(xiàn)在像是一個(gè)天賦異稟但還在青春期的少年,有著無限的潛力,卻還不知道如何施展自己的才華,正四處嘗試。

但是,似乎行業(yè)的共識(shí)也正如周鴻祎所表達(dá)的,AI對(duì)話的未來不在于創(chuàng)造一個(gè)通用的超級(jí)助手,而在于為每個(gè)特定的人類需求打造契合的AI解決方案。也許這才是AI對(duì)話類產(chǎn)品,自己被用戶新鮮感過后月拋,這一難題的的核心解決辦法。

 
本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無評(píng)論哦,快來評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

草莓難救被“月拋”的AI對(duì)話產(chǎn)品?

坐擁數(shù)億注冊(cè)用戶但日活很低的AI對(duì)話類產(chǎn)品,新的草莓大模型能否拯救呢?

文|AI鯨選社 陳佳惠

編輯|楊曉鶴

OpenAI揭開草莓模型神秘面紗,能不能算GPT-5,坊間爭(zhēng)議聲音很大。

這就是今日凌晨一點(diǎn),OpenAI發(fā)布的兩個(gè)模型:o1 mini,o1 preview。

據(jù)官方消息,與GPT-4一樣,OpenAI o1也以AI對(duì)話和API接口的形式呈現(xiàn);而與GPT-4系列不同的是,o1可以解決比GPT時(shí)期的科學(xué)、編碼和數(shù)學(xué)模型更難的問題。具體來看,之前的GPT模型旨在模仿其訓(xùn)練數(shù)據(jù)中的模式,而o1的訓(xùn)練旨在讓其獨(dú)立解決問題。

意味著o1模型可以像人一樣,需要花更多的時(shí)間去思考問題,嘗試不同的策略,甚至能意識(shí)到自己的錯(cuò)誤。

聽著很厲害對(duì)不對(duì)?但實(shí)際4O、O1等大模型“寄生”的AI對(duì)話類產(chǎn)品,他們的用戶數(shù)并不高。

而據(jù)QuestionMobile,AIGC APP在工作日期間的活躍度高于雙休日,推測(cè)現(xiàn)階段AI與用戶辦公場(chǎng)景的適配性更強(qiáng),AI主要圍繞工作場(chǎng)景,為用戶生成文本、圖片等內(nèi)容信息。

o1模型雖在物理、化學(xué)、生物、編程等領(lǐng)域表現(xiàn)得像博士生一樣好,但對(duì)與編程能力來說,755萬程序員占國(guó)內(nèi)人口不足1%,可用武之地并不多,對(duì)C端大多數(shù)用戶來說帶來的效益并不高。

尤其近日,AI對(duì)話類App的用戶留存問題被推至風(fēng)口浪尖,更衍生出了“大模型六小虎泡沫即將破滅”的說法,AI對(duì)話的處境岌岌可危。盡管阿里原技術(shù)副總裁賈揚(yáng)清已經(jīng)提出質(zhì)疑,下圖30日國(guó)產(chǎn)5大AI對(duì)話類產(chǎn)品留存率接近0,這一數(shù)據(jù)應(yīng)該不準(zhǔn)確,但AI對(duì)話現(xiàn)在確實(shí)有一點(diǎn)“盛名之下,其實(shí)難副”

圖源:賈揚(yáng)清朋友圈

根據(jù)QuestMobile 權(quán)威數(shù)據(jù)顯示,頭部AIGC APP運(yùn)營(yíng)數(shù)據(jù)活躍率低,均在20%以下;忠誠(chéng)度方面,3日留存均在50%以下;流失風(fēng)險(xiǎn)高,部分APP的卸載率在50%以上。

坐擁數(shù)億注冊(cè)用戶但日活很低的AI對(duì)話類產(chǎn)品,新的草莓大模型能否拯救呢?

9.11還是9.9大?AI界的亙古難題

曾經(jīng)AI對(duì)話因回答錯(cuò)“9.11還是9.9大”被熱議,現(xiàn)在國(guó)內(nèi)各家都迭代了多代大模型,文心、豆包、Kimi等都能答對(duì)這道簡(jiǎn)單的數(shù)字題。但是OpenAI新更新的o1模型卻還是沉迷自己不知名的邏輯怪圈里,找不到正確答案。

但國(guó)內(nèi)大模型也并沒有領(lǐng)先多少,但當(dāng)我們問對(duì)話大模型一些客觀的問題,如“草莓的單詞里有幾個(gè)r”、“打了警犬算襲警嗎”等問題時(shí),就會(huì)發(fā)現(xiàn),這個(gè)剛剛還無所不能的AI助手突然變得手舞足蹈、不知所云了起來。

目前來說,對(duì)話大模型在簡(jiǎn)單的場(chǎng)景仍易漏洞百出,網(wǎng)友戲言:就這?取代我們?nèi)祟悾?/p>

誠(chéng)然,大模型幻覺率高的問題,始終制約著AI對(duì)話在C端的滲透。專注于用戶體驗(yàn)的研究機(jī)構(gòu)Nielsen Norman Group在23年9月發(fā)布的一篇研究文章中提到,在曾經(jīng)使用過AI工具的人中,大多數(shù)(78%)將 AI 工具用于工作和個(gè)人目的;8%的人僅將 AI 用于個(gè)人用途。

而在精益求精的工作用途中,大模型幻覺顯得更加致命。不僅如此,工作場(chǎng)景中精確的指令反而更易讓大模型“發(fā)懵”,AI對(duì)話的表現(xiàn)也并不出色。

在十字路口與脫口秀演員毛東的播客中,毛東提到,在用AI對(duì)話啟發(fā)脫口秀文本創(chuàng)作的過程中,需要提前對(duì)對(duì)話模型進(jìn)行5分鐘左右的預(yù)訓(xùn)練,而預(yù)訓(xùn)練后對(duì)話AI生成的稿件也并不能直接起作用。輸入一些稍復(fù)雜的指令,如要求大模型同時(shí)將“模仿路易·C.K.脫口秀風(fēng)格”、“加入結(jié)婚話題的段子”、“帶一些北京方言”融入文本創(chuàng)作,大模型就會(huì)分不清重點(diǎn),生成的脫口秀文本索然無味。

同樣的,Nielsen Norman Group的用戶研究也指出,在使用對(duì)話AI時(shí)用戶幾乎總是進(jìn)行多步迭代,因?yàn)槿斯ぶ悄軣o法準(zhǔn)確提供用戶想要的東西——它只能猜測(cè)意圖。假如問對(duì)話AI“從上海出差到北京,近十五天有什么天氣變化?有哪些穿衣建議”,則需要先對(duì)AI下達(dá)查詢近15日天氣的指令,然后引導(dǎo)其回答上海與北京的溫度差異,以及針對(duì)北京溫度進(jìn)行穿衣建議。

然而,對(duì)于同一問題,似乎國(guó)內(nèi)AI對(duì)話還有部分進(jìn)步空間,Claude、ChatGPT的回答更精準(zhǔn)一些。

對(duì)話AI的記憶也限制了其用戶體驗(yàn)。通常在與AI進(jìn)行超過7-10輪對(duì)話后,AI的回答開始變得混亂或不連貫。這就像你在跟一個(gè)注意力持續(xù)時(shí)間只有5分鐘的人聊天,每過一會(huì)兒就得重新介紹一遍背景,導(dǎo)致AI對(duì)話用戶體驗(yàn)感平庸。

正如我們所見,無論是線性的還是非線性的回答,人們?cè)跐L動(dòng)對(duì)話記錄,尋找合適的回答時(shí)都容易迷失方向。這個(gè)過程中,對(duì)話大模型理解和表達(dá)能力有限,整體用戶體驗(yàn)平庸,大多數(shù)用戶們也經(jīng)歷了從新鮮感到失望,AI對(duì)話也難以高效留存住用戶。

多模態(tài)交互技術(shù)不夠成熟,距離“Her”實(shí)現(xiàn)尚遠(yuǎn)?

電影《Her》中的人工智能不是一個(gè)簡(jiǎn)單的對(duì)話式AI,她不僅能通過聲音表現(xiàn)出極為復(fù)雜的情感,比如幽默、溫柔、關(guān)懷甚至是嫉妒,還具有高度的情感智能和自主學(xué)習(xí)能力,能夠理解人們的情感需求,并根據(jù)互動(dòng)不斷優(yōu)化自己的言行。

仿真的語音對(duì)話交互、流暢的多模態(tài)體驗(yàn),使故事的男主人很快忘記了面前的“女聲”只是一團(tuán)冰冷的算法,深陷愛河。

而5月,OpenAI的ChatGPT-4o發(fā)布會(huì)結(jié)束后,Sam Altman在Twitter上發(fā)了一個(gè)簡(jiǎn)短的詞:“her”,暗示著OpenAI已接近于完成科幻電影《Her》中,那位女性語音智能機(jī)器人的能力。

GPT-4o支持文本、音頻和圖像的任意組合的輸入和輸出。Mark Chen演示GPT-4o的多模態(tài)成果時(shí),他告知ChatGPT自己正在做演示,詢問GPT自己非常緊張應(yīng)該怎么辦。ChatGPT提示他:“深呼吸一下吧,記住你是個(gè)專家!”隨后,Mark Chen用非常急促的幾聲喘息回應(yīng),ChatGPT則用吃驚語氣下的“慢點(diǎn)呼吸,你可不是個(gè)吸塵器!”來回答他,幽默的回答令人忍俊不禁。

GPT高效的生成速度,帶來流暢的多模態(tài)交互體驗(yàn),雖然暫時(shí)還不能如《Her》中一樣流暢地進(jìn)行視頻對(duì)話,但演示案例中的語音對(duì)話已非常接近。

現(xiàn)實(shí)是,4o語音能力還沒發(fā)布,o1還不具備瀏覽網(wǎng)頁(yè)或處理文件分析功能。盡管它具備圖像分析功能,但該功能暫時(shí)關(guān)閉,等待進(jìn)一步測(cè)試。

但國(guó)內(nèi)月活第一的豆包APP的互動(dòng)能力卻稍顯遜色。豆包雖然能識(shí)別語音,并進(jìn)行對(duì)話,但其生成速度卻不及GPT,百度的文心生成速度則更慢。不僅如此,豆包也無法識(shí)別對(duì)話過程中的語氣。AI鯨選社在與豆包交流時(shí),用很沮喪的語氣說“今天天氣可真好啊”,可豆包卻判斷出對(duì)話者的情緒是不錯(cuò)的。

圖注:與豆包語音交互過程的文字記錄

百度的文小言語音對(duì)話,雖有AI虛擬角色豐富用戶的視覺體驗(yàn),但其生成內(nèi)容實(shí)在是慢,用戶在交互過程中盯著虛擬角色遲遲不“說話”,很容易“跳戲”。

圖注:文小言語音交互界面截圖

智譜清言于9月5日上線了“視頻通話”功能,向著Her的目標(biāo)又邁進(jìn)了一步。然而,智譜的視覺能力不太完善,把圖中的紫色看成粉色,綠色誤認(rèn)為灰色,堪稱一位“色弱”的AI助手。不過,它的視頻對(duì)話機(jī)器人非常活躍,善于引發(fā)話題,它會(huì)夸贊你的窗簾很有設(shè)計(jì)感,還會(huì)自己找話題,問你有沒有什么拿手的菜。值得一提的是,智譜的生成速度比文心和豆包都稍快一些,交互體驗(yàn)還不錯(cuò)。

圖注:智譜清言視頻聊天截圖

雖然現(xiàn)階段語音、圖像識(shí)別等技術(shù)正在快速發(fā)展,但真正流暢、自然的多模態(tài)AI對(duì)話體驗(yàn)仍然任重道遠(yuǎn),目前來說,國(guó)內(nèi)AI對(duì)話的多模態(tài)交互還不夠成熟。

但無論是“her”還是GPT-4o,可見的是,具備多模態(tài)交互的AI對(duì)話產(chǎn)品,是AI對(duì)話發(fā)揮能力的關(guān)鍵。

AI對(duì)話對(duì)“Her”的向往,也是能留住用戶的關(guān)鍵。這種最接近人類的聊天方式,才是打破只有專業(yè)人士用Prompt,才能和AI對(duì)話產(chǎn)品交互的桎梏。

AI對(duì)話還在尋找自己的killer feature

現(xiàn)在的AI對(duì)話應(yīng)用確實(shí)有不少花哨的功能。它可以回答我們?nèi)粘K鶈?,它可以幫我們寫情書,甚至還能和它玩角色扮演......

但據(jù)《2024年中國(guó)移動(dòng)互聯(lián)網(wǎng)半年報(bào)告》,國(guó)內(nèi)AIGC用戶不穩(wěn)定,AIGC行業(yè)人均使用時(shí)長(zhǎng)同比下滑了23.5%。AI對(duì)話類APP功能雖多,卻都是一些“花拳繡腿”,獲客成果并不理想。

周鴻祎曾指出,通用大模型留存率低的原因主要在于承諾什么都能做的同時(shí),卻什么都做不精。也正是因?yàn)楣δ苓^多過于繁雜,AI對(duì)話類APP還沒有找到那個(gè)讓用戶欲罷不能的killer feature。

互聯(lián)網(wǎng)時(shí)代,使支付寶、微信、抖音、美團(tuán)真正殺出重圍的,是它們都找到了自己的“殺手锏”。購(gòu)物支付會(huì)想到支付寶,社交聊天會(huì)想到微信,閑暇時(shí)間會(huì)想要看看抖音,“飯來張口”會(huì)想到美團(tuán)外賣......反觀AI對(duì)話呢?它好像什么都能做,又好像什么都做不好。

目前,國(guó)內(nèi)AI對(duì)話產(chǎn)品中,Kimi是較早找到應(yīng)用場(chǎng)景的。知識(shí)高效獲取一直都是職場(chǎng)、學(xué)生和科研人士的痛點(diǎn)問題,用戶們拿到的資料往往都是大段資料,知識(shí)獲取速度較慢。

Kimi抓住用戶這一痛點(diǎn),主打長(zhǎng)文本和文檔處理兩個(gè)功能,能幫用戶快速抓取文檔重點(diǎn),取得了還不錯(cuò)的用戶體驗(yàn)。據(jù)AI數(shù)智源發(fā)表的8月國(guó)內(nèi)AI榜單來看,Kimi仍以22.85M的數(shù)據(jù)領(lǐng)先其他家。但是實(shí)際上Kimi預(yù)訓(xùn)練較弱,模型本身能力并不強(qiáng)。但正是抓住了有效場(chǎng)景,Kimi的數(shù)據(jù)穩(wěn)居國(guó)內(nèi)大模型前列。

數(shù)據(jù)來源:Similarweb

目前其他家大模型,包括豆包、文心等,也都跟進(jìn)了長(zhǎng)文本處理和文檔解讀功能,能夠滿足用戶日常工作所需。不僅如此,百度專門推出“橙篇”對(duì)標(biāo)Kimi(橙篇提供專業(yè)的知識(shí)檢索和問答、超長(zhǎng)圖文理解和生成、深度編輯和跨模態(tài)自由創(chuàng)作等功能)。這么看來,Kimi曾經(jīng)的專長(zhǎng)也并不顯優(yōu)勢(shì)了。

而在龍頭OpenAI內(nèi)斗的這些日子里,Anthropic暗暗發(fā)力。據(jù) Datos對(duì)ChatGPT調(diào)用場(chǎng)景的調(diào)查數(shù)據(jù),編程問題占據(jù)了 29%,在所有使用場(chǎng)景中排名第一。Claude 3.5 Sonnet更新的“工坊模式”,強(qiáng)化編碼能力,使生成代碼速度更快,效率超過之前的GPT-4。編程作為最高頻、剛需的AI應(yīng)用場(chǎng)景之一,給市場(chǎng)帶來了機(jī)會(huì)與收入。

OpenAI不放手編程場(chǎng)景。這次更新的o1模型主打強(qiáng)推理、強(qiáng)編碼能力,有網(wǎng)友體驗(yàn)稱其代碼正確率確實(shí)有提升,“以前很少能一次run成功的”。o1還未正式開放,其效果究竟如何還待檢驗(yàn)。

Claude 3.5的文本生成能力也在新Prompt“漢語新解”中得到了詮釋。Claude于6月24日發(fā)布3.5模型,六月底,Claude流量激增135%。

找到殺手級(jí)場(chǎng)景的AI對(duì)話產(chǎn)品風(fēng)光創(chuàng)收,不禁讓其他家焦慮了起來,各大AI公司都在絞盡腦汁找辦法。

近日的外灘交流會(huì)上,阿里發(fā)布了“支小寶”全家桶,布局AI生活管家。百度也暗中轉(zhuǎn)變戰(zhàn)略,升級(jí)文心一言,并更名為“文小言”,定位“新搜索”智能助手。值得一提的是,百度改名的“文小言”,頗有“轉(zhuǎn)戰(zhàn)搜索”的意味。9月11日,字節(jié)也被爆出布局AI硬件的消息,開發(fā)與豆包大模型和豆包APP聯(lián)動(dòng)的智能耳機(jī)、智能眼鏡,探索大模型與硬件結(jié)合的賽道。大家都在努力找殺手級(jí)場(chǎng)景,形成自己的特色能力。

AI對(duì)話現(xiàn)在像是一個(gè)天賦異稟但還在青春期的少年,有著無限的潛力,卻還不知道如何施展自己的才華,正四處嘗試。

但是,似乎行業(yè)的共識(shí)也正如周鴻祎所表達(dá)的,AI對(duì)話的未來不在于創(chuàng)造一個(gè)通用的超級(jí)助手,而在于為每個(gè)特定的人類需求打造契合的AI解決方案。也許這才是AI對(duì)話類產(chǎn)品,自己被用戶新鮮感過后月拋,這一難題的的核心解決辦法。

 
本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。