正在閱讀:

GPT-4o恩怨開局,Google再次躺槍

掃一掃下載界面新聞APP

GPT-4o恩怨開局,Google再次躺槍

“戲精”O(jiān)penAI。

圖片來源:界面新聞 匡達

文|零態(tài)LT 吳狄

編輯|胡展嘉

要說全世界戲最多的AI,非OpenAI莫屬。

這家公司簡直就是熱搜制造機,剛推出新產品,就送走老領導,剛和蘋果結盟,就逼跌谷歌股價;連OpenAI高管的一個離職動態(tài),都能引發(fā)網上的OpenAI離職潮。

短短幾天時間,以OpenAI為中心,接連引發(fā)地震級別的事件。不僅可能對OpenAI這家公司的未來產生重大影響,甚至有可能導致整個科技行業(yè)的重新洗牌。

01 僅憑語音對話就撐起無限可能的GPT-4o

美國時間5月13日,OpenAI推出了全新旗艦產品GPT-4o。在發(fā)布會上,OpenAI僅僅展示了GPT-4o的語音對話能力,沒有炫酷的視覺效果、沒有狂拽的新功能,但仍然再次引發(fā)了一波行業(yè)地震,因為GPT-4o向全世界展示了其它AI產品可能敢想,但沒敢干的事情。

用上GPT-4o后,用戶可以隨時打斷AI的施法,不要額外任何操作。而AI則能夠根據新的對話內容,結合上下文繼續(xù)進行交流,甚至可以通過語氣腔調來識別用戶的情緒,并以此給出反饋。

用過AI對話產品的家人,應該對下面那個“終止”按鈕不陌生。

圖:ChatGPT iOS app

這個按鈕是用來讓AI閉嘴的。比如你讓AI講個故事,聽了個開頭想讓它換一個,就需要用到這個按鈕。如果是隔空喊話的AI,則需要喊出一個“安全詞”,比如“hey siri”“小度小度”等。

這種體驗對日常交互來說非常難受,但還有難受的。

用過AI產品的家人,應該對AI那種塵世閑游級別的響應速度不陌生。

舉個例子,GPT-3.5的延遲大概是2.8秒,GPT-4的延遲高達5.4秒。相比而言,特斯拉Model 3的百公里加速是2.1秒。

這是因為以前的工作流程是先由一個語音轉文字的模型,將輸入的語音轉成文字,再由負責生成答案的模型輸出文字內容,最后由文字轉語音的模型把文字轉成語音。這三個模型互不干涉。這就導致在整個過程中,大量背景信息丟失了。

看過綜藝節(jié)目里的“傳聲筒”游戲吧?

AI比這個更搞笑。因為文字不能展示語音語調,所以當很多人一起說話的時候,GPT沒辦法判斷說“俺也一樣”的是關羽還是張飛,也不知道“我在5點20睡覺13點14準時醒”是生活習慣還是歌詞。

如果你想讓AI根據聲音給出反饋,比如讓GPT-4幫忙判斷一下深呼吸做的到不到位,它只會甩給你一篇教程,讓你自己對照體會。

這其實是目前是市面上AI的通病,但GPT-4o的出現,讓事情發(fā)生了巨大的轉變。

技術層面,GPT-4o把3個互不相關的模型整合成了一個Omni模型,文字、圖像、聲音的輸入和輸出均由這個模型進行處理。這樣就提高了GPT的響應速度,根據OpenAI官方介紹,GPT-4o對音頻輸入的平均響應時間只有0.3秒。實際體驗是,和GPT-4o對話的時候,基本感覺不到延遲。

不僅如此,因為GPT-4o掌握了所有背景信息,從而能夠識別說話主體,甚至還能識別情緒,并根據情感狀態(tài)給出反饋。

換句話說,AI從此具備了“察言觀色”的能力。想象一下,以后AI能根據你說話的語氣判斷你的情緒,聽到你聲音虛弱馬上幫你想好請假話術;男/女朋友在場的時候自動屏蔽前任信息提示;甚至在你翹班蹦迪的時候,模仿你的腔調去應付老板…

這么智能的AI目前OpenAI也不敢想。實際上,他們在官網上謙虛的表示,公司頭一次嘗試GPT-4o這種模式,自己也在摸索這個模型的能力和短板。

目前GPT-4o已經可以被用戶使用了,不過免費用戶每天使用GPT-4o的次數是有限的,而GPT-3.5則是不限量供應。兩者的區(qū)別在于,可能不是那么容易感受出區(qū)別。另外ChatGPT也將迎來桌面端app,用戶在電腦上也可以和ChatGPT對話了。

圖:GPT-4o版本ChatGPT

02 一邊推出新產品,一邊送走老領導

就在OpenAI為新產品造勢的時候,團隊創(chuàng)始成員之一、奧特曼罷免風波關鍵人物、OpenAI超對齊項目創(chuàng)始人、首席科學家Ilya Sutskever宣布退出。幾個小時后,超對齊項目負責人Jan Leike宣布離職。

Leike的離職動態(tài)迅速引發(fā)了一股“I resigned from @OpenAI”的“離職潮”,更具體的內容可以觀看我們的視頻。

而離開OpenAI后的第一天,也就是美國時間5月17日下午,Leike發(fā)了一連串動態(tài),表示自己一直都非常熱愛自己的團隊和工作,此次無奈離職,是因為和現在核心管理層的理念分歧到達了無可調和的地步。

他說自己來OpenAI是沖著這里的學術氛圍和對AI安全的宏愿,然而現在的OpenAI高層只在乎出爆款。

他還表達了對OpenAI走向AGI的擔憂,強調OpenAI必須是一個安全先行的AGI公司,話里話外都透露出了絲絲苦澀。

圖:Jan Leike對OpenAI的最后寄托

安全,同樣也是Ilya的執(zhí)念。正是出于對AGI不可知的未來的擔憂,才有了OpenAI的超對齊項目。

如今,隨著兩位負責人的離開,超對齊項目組已經徹底解散,項目組成員被拆散到不同研究領域。相當于是為現在每個研究領域,都配備了一個安保人員。

相比Leike,Ilya的理由平平無奇。他表示“將投身于某個對我個人來說,具有非凡意義的項目”,項目細節(jié)將會在未來公開。

在分手信中,Ilya不出意外的表揚了薩姆奧特曼、Greg Brockman、Mira Murita對OpenAI的貢獻,同時也“堅信在三位的領導下,OpenAI將會構建一個安全高效的AGI”。

這句話現在聽起來,既是客氣,也是懇求。

圖:OpenAI領導團隊

而奧特曼在夸獎了Ilya并表示遺憾后,宣布Ilya的位置將有上圖中左一Jakub Pachocki接手。

盡管分手雙方都表現出了應有的風度,不過經歷了種種風波后,相信各位看官應該都心照不宣。

緊接著,Google AI老大Jeff Dean就在Ilya下面回復了一條非常曖昧的評論:我好喜歡和你相遇,即便只是一起喝杯咖啡。

看得出,Google這次是真的有點著急。

03 蘋果OpenAI結盟在即,谷歌孤立無援四面楚歌

曾經一度是AI領頭羊的Google,如今卻被OpenAI吊打:只要OpenAI趕在Google后面推出新產品,Google必然被搶風頭;只要Google晚OpenAI一步推出新產品,必然淹沒在GPT的熱浪中。

就在OpenAI推出GPT-4o的第二天,谷歌在Google I/O上推出了Gemini 1.5 Pro。相比OpenAI的Spring Update,Google I/O要正式的多,推出了對標Sora的視頻生成工具Veo等,并展示了被Gemini 1.5 pro加強后的產品,包括Google助手、搜索、Photos等等。

首席執(zhí)行官Sundar Pichai表示,新產品“提供了迄今為止所有基礎模型中最長的上下文窗口”。

谷歌副總裁兼Gemini體驗總經理Sissie Hsiao表示,Gemini 1.5 Pro很快將能夠處理一小時的視頻內容或超過3萬行的代碼庫。

Google AI助手的新功能Project Astra讓人印象深刻。通過手機攝像頭,智能助手可以識別出鏡頭中的物體,無論桌面上的橘子、電腦屏幕里的代碼,還是手繪在白板上的圖案。

尤其是在問了一圈AI各種問題后,演示人員突然問AI“你看見我的眼鏡了嗎?”AI表示看見了,并且指出了位置,瞬間引爆全場。

更讓人激動的是,現在我們有機會在Google搜索體驗AI功能了,只不過可能需要一點小法術才能召喚出來。

圖:想用上Google的AI搜索需要一點小花招

然而,他們最有熱度的消息,是讓Gemini觀看GPT-4o的發(fā)布會。

或許Gemini最能證明自己、最能刷出存在感的途徑,就是整合到iPhone中。這樣一來,蘋果提升了產品的AI濃度,Gemini也實現了破圈。但跟蘋果的談判八字還沒一撇呢,又被OpenAI截胡了。

據彭博社報道,蘋果即將與OpenAI達成合作協議,蘋果用戶有望在iOS 18上用上被GPT加強過的Siri。消息一出,Google股價大跌。

可想而知,一旦OpenAI和蘋果建立合作關系,作為OpenAI背后的最大金主,微軟必將給Google的搜索業(yè)務帶來更大的長期風險。

不過,在OpenAI沒有完全搞明白GPT的思維邏輯之前,預言Google的敗局似乎還為時過早。

04 GPT仍然沒能解決幻覺和胡編的問題

GPT-4o中的o,是拉丁文Omni的首字母,意為“全部的”“每一個”或“全面的”,意味著該產品在處理多種語言和模態(tài)(如文本、音頻和視覺)方面,具有十分全面的能力。

盡管OpenAI表示,GPT-4o的出現,標志著我們向“更自然的人機交互”又近了一步。然而其背后的運行方式、思維邏輯仍然成謎,OpenAI自己對GPT突然獲得“指數級進化”的預測能力,毫無頭緒。

于是你就看到了這樣的搞笑一幕。

當你用英文詢問GPT“第一頭游過英吉利海峽的大象是誰”,GPT會煞有介事的告訴你,是一只叫做Jumbo的亞洲象。但同一個問題,換成中文就會得到一個十分合理的回答。

圖:GPT-4o亂回答

圖:GPT-4o合理的回答

也就是說,盡管GPT可以在不同語言之間自由切換,但它們理解一個問題的方式似乎存在著差異,不免讓人對Omni產生懷疑。

尤其是當你用同樣的問題問另外一個AI,它卻給出了完全合理的回答的時候。

圖:另一款AI的回答

類似的奇怪回答層出不窮,比如問它圓周率最后5位數字,是這么回答的。

圖:2串數字都是真實的,但不一定符合用戶的需求

盡管OpenaI很快修復了這些“熱門bug”,但也不免讓人產生一個疑問:GPT-4o背后,到底有多少只能多少人工?GPT-4o到底是離AGI更近了一步,還是圍著AGI又繞了一圈呢?

本文為轉載內容,授權事宜請聯系原著作權人。

OpenAI

  • 科大訊飛宣布星火X1升級,并發(fā)布星火一體機等系列新品
  • OpenAI“高情商”模型GPT-4.5發(fā)布,定價高過GPT-4o

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

GPT-4o恩怨開局,Google再次躺槍

“戲精”O(jiān)penAI。

圖片來源:界面新聞 匡達

文|零態(tài)LT 吳狄

編輯|胡展嘉

要說全世界戲最多的AI,非OpenAI莫屬。

這家公司簡直就是熱搜制造機,剛推出新產品,就送走老領導,剛和蘋果結盟,就逼跌谷歌股價;連OpenAI高管的一個離職動態(tài),都能引發(fā)網上的OpenAI離職潮。

短短幾天時間,以OpenAI為中心,接連引發(fā)地震級別的事件。不僅可能對OpenAI這家公司的未來產生重大影響,甚至有可能導致整個科技行業(yè)的重新洗牌。

01 僅憑語音對話就撐起無限可能的GPT-4o

美國時間5月13日,OpenAI推出了全新旗艦產品GPT-4o。在發(fā)布會上,OpenAI僅僅展示了GPT-4o的語音對話能力,沒有炫酷的視覺效果、沒有狂拽的新功能,但仍然再次引發(fā)了一波行業(yè)地震,因為GPT-4o向全世界展示了其它AI產品可能敢想,但沒敢干的事情。

用上GPT-4o后,用戶可以隨時打斷AI的施法,不要額外任何操作。而AI則能夠根據新的對話內容,結合上下文繼續(xù)進行交流,甚至可以通過語氣腔調來識別用戶的情緒,并以此給出反饋。

用過AI對話產品的家人,應該對下面那個“終止”按鈕不陌生。

圖:ChatGPT iOS app

這個按鈕是用來讓AI閉嘴的。比如你讓AI講個故事,聽了個開頭想讓它換一個,就需要用到這個按鈕。如果是隔空喊話的AI,則需要喊出一個“安全詞”,比如“hey siri”“小度小度”等。

這種體驗對日常交互來說非常難受,但還有難受的。

用過AI產品的家人,應該對AI那種塵世閑游級別的響應速度不陌生。

舉個例子,GPT-3.5的延遲大概是2.8秒,GPT-4的延遲高達5.4秒。相比而言,特斯拉Model 3的百公里加速是2.1秒。

這是因為以前的工作流程是先由一個語音轉文字的模型,將輸入的語音轉成文字,再由負責生成答案的模型輸出文字內容,最后由文字轉語音的模型把文字轉成語音。這三個模型互不干涉。這就導致在整個過程中,大量背景信息丟失了。

看過綜藝節(jié)目里的“傳聲筒”游戲吧?

AI比這個更搞笑。因為文字不能展示語音語調,所以當很多人一起說話的時候,GPT沒辦法判斷說“俺也一樣”的是關羽還是張飛,也不知道“我在5點20睡覺13點14準時醒”是生活習慣還是歌詞。

如果你想讓AI根據聲音給出反饋,比如讓GPT-4幫忙判斷一下深呼吸做的到不到位,它只會甩給你一篇教程,讓你自己對照體會。

這其實是目前是市面上AI的通病,但GPT-4o的出現,讓事情發(fā)生了巨大的轉變。

技術層面,GPT-4o把3個互不相關的模型整合成了一個Omni模型,文字、圖像、聲音的輸入和輸出均由這個模型進行處理。這樣就提高了GPT的響應速度,根據OpenAI官方介紹,GPT-4o對音頻輸入的平均響應時間只有0.3秒。實際體驗是,和GPT-4o對話的時候,基本感覺不到延遲。

不僅如此,因為GPT-4o掌握了所有背景信息,從而能夠識別說話主體,甚至還能識別情緒,并根據情感狀態(tài)給出反饋。

換句話說,AI從此具備了“察言觀色”的能力。想象一下,以后AI能根據你說話的語氣判斷你的情緒,聽到你聲音虛弱馬上幫你想好請假話術;男/女朋友在場的時候自動屏蔽前任信息提示;甚至在你翹班蹦迪的時候,模仿你的腔調去應付老板…

這么智能的AI目前OpenAI也不敢想。實際上,他們在官網上謙虛的表示,公司頭一次嘗試GPT-4o這種模式,自己也在摸索這個模型的能力和短板。

目前GPT-4o已經可以被用戶使用了,不過免費用戶每天使用GPT-4o的次數是有限的,而GPT-3.5則是不限量供應。兩者的區(qū)別在于,可能不是那么容易感受出區(qū)別。另外ChatGPT也將迎來桌面端app,用戶在電腦上也可以和ChatGPT對話了。

圖:GPT-4o版本ChatGPT

02 一邊推出新產品,一邊送走老領導

就在OpenAI為新產品造勢的時候,團隊創(chuàng)始成員之一、奧特曼罷免風波關鍵人物、OpenAI超對齊項目創(chuàng)始人、首席科學家Ilya Sutskever宣布退出。幾個小時后,超對齊項目負責人Jan Leike宣布離職。

Leike的離職動態(tài)迅速引發(fā)了一股“I resigned from @OpenAI”的“離職潮”,更具體的內容可以觀看我們的視頻。

而離開OpenAI后的第一天,也就是美國時間5月17日下午,Leike發(fā)了一連串動態(tài),表示自己一直都非常熱愛自己的團隊和工作,此次無奈離職,是因為和現在核心管理層的理念分歧到達了無可調和的地步。

他說自己來OpenAI是沖著這里的學術氛圍和對AI安全的宏愿,然而現在的OpenAI高層只在乎出爆款。

他還表達了對OpenAI走向AGI的擔憂,強調OpenAI必須是一個安全先行的AGI公司,話里話外都透露出了絲絲苦澀。

圖:Jan Leike對OpenAI的最后寄托

安全,同樣也是Ilya的執(zhí)念。正是出于對AGI不可知的未來的擔憂,才有了OpenAI的超對齊項目。

如今,隨著兩位負責人的離開,超對齊項目組已經徹底解散,項目組成員被拆散到不同研究領域。相當于是為現在每個研究領域,都配備了一個安保人員。

相比Leike,Ilya的理由平平無奇。他表示“將投身于某個對我個人來說,具有非凡意義的項目”,項目細節(jié)將會在未來公開。

在分手信中,Ilya不出意外的表揚了薩姆奧特曼、Greg Brockman、Mira Murita對OpenAI的貢獻,同時也“堅信在三位的領導下,OpenAI將會構建一個安全高效的AGI”。

這句話現在聽起來,既是客氣,也是懇求。

圖:OpenAI領導團隊

而奧特曼在夸獎了Ilya并表示遺憾后,宣布Ilya的位置將有上圖中左一Jakub Pachocki接手。

盡管分手雙方都表現出了應有的風度,不過經歷了種種風波后,相信各位看官應該都心照不宣。

緊接著,Google AI老大Jeff Dean就在Ilya下面回復了一條非常曖昧的評論:我好喜歡和你相遇,即便只是一起喝杯咖啡。

看得出,Google這次是真的有點著急。

03 蘋果OpenAI結盟在即,谷歌孤立無援四面楚歌

曾經一度是AI領頭羊的Google,如今卻被OpenAI吊打:只要OpenAI趕在Google后面推出新產品,Google必然被搶風頭;只要Google晚OpenAI一步推出新產品,必然淹沒在GPT的熱浪中。

就在OpenAI推出GPT-4o的第二天,谷歌在Google I/O上推出了Gemini 1.5 Pro。相比OpenAI的Spring Update,Google I/O要正式的多,推出了對標Sora的視頻生成工具Veo等,并展示了被Gemini 1.5 pro加強后的產品,包括Google助手、搜索、Photos等等。

首席執(zhí)行官Sundar Pichai表示,新產品“提供了迄今為止所有基礎模型中最長的上下文窗口”。

谷歌副總裁兼Gemini體驗總經理Sissie Hsiao表示,Gemini 1.5 Pro很快將能夠處理一小時的視頻內容或超過3萬行的代碼庫。

Google AI助手的新功能Project Astra讓人印象深刻。通過手機攝像頭,智能助手可以識別出鏡頭中的物體,無論桌面上的橘子、電腦屏幕里的代碼,還是手繪在白板上的圖案。

尤其是在問了一圈AI各種問題后,演示人員突然問AI“你看見我的眼鏡了嗎?”AI表示看見了,并且指出了位置,瞬間引爆全場。

更讓人激動的是,現在我們有機會在Google搜索體驗AI功能了,只不過可能需要一點小法術才能召喚出來。

圖:想用上Google的AI搜索需要一點小花招

然而,他們最有熱度的消息,是讓Gemini觀看GPT-4o的發(fā)布會。

或許Gemini最能證明自己、最能刷出存在感的途徑,就是整合到iPhone中。這樣一來,蘋果提升了產品的AI濃度,Gemini也實現了破圈。但跟蘋果的談判八字還沒一撇呢,又被OpenAI截胡了。

據彭博社報道,蘋果即將與OpenAI達成合作協議,蘋果用戶有望在iOS 18上用上被GPT加強過的Siri。消息一出,Google股價大跌。

可想而知,一旦OpenAI和蘋果建立合作關系,作為OpenAI背后的最大金主,微軟必將給Google的搜索業(yè)務帶來更大的長期風險。

不過,在OpenAI沒有完全搞明白GPT的思維邏輯之前,預言Google的敗局似乎還為時過早。

04 GPT仍然沒能解決幻覺和胡編的問題

GPT-4o中的o,是拉丁文Omni的首字母,意為“全部的”“每一個”或“全面的”,意味著該產品在處理多種語言和模態(tài)(如文本、音頻和視覺)方面,具有十分全面的能力。

盡管OpenAI表示,GPT-4o的出現,標志著我們向“更自然的人機交互”又近了一步。然而其背后的運行方式、思維邏輯仍然成謎,OpenAI自己對GPT突然獲得“指數級進化”的預測能力,毫無頭緒。

于是你就看到了這樣的搞笑一幕。

當你用英文詢問GPT“第一頭游過英吉利海峽的大象是誰”,GPT會煞有介事的告訴你,是一只叫做Jumbo的亞洲象。但同一個問題,換成中文就會得到一個十分合理的回答。

圖:GPT-4o亂回答

圖:GPT-4o合理的回答

也就是說,盡管GPT可以在不同語言之間自由切換,但它們理解一個問題的方式似乎存在著差異,不免讓人對Omni產生懷疑。

尤其是當你用同樣的問題問另外一個AI,它卻給出了完全合理的回答的時候。

圖:另一款AI的回答

類似的奇怪回答層出不窮,比如問它圓周率最后5位數字,是這么回答的。

圖:2串數字都是真實的,但不一定符合用戶的需求

盡管OpenaI很快修復了這些“熱門bug”,但也不免讓人產生一個疑問:GPT-4o背后,到底有多少只能多少人工?GPT-4o到底是離AGI更近了一步,還是圍著AGI又繞了一圈呢?

本文為轉載內容,授權事宜請聯系原著作權人。