正在閱讀:

阿里開源首個(gè)全模態(tài)大模型,將給產(chǎn)業(yè)帶來哪些機(jī)會(huì)?

掃一掃下載界面新聞APP

阿里開源首個(gè)全模態(tài)大模型,將給產(chǎn)業(yè)帶來哪些機(jī)會(huì)?

在全新的技術(shù)架構(gòu)下,通義千問Qwen2.5-Omni的交互能力又上了一個(gè)新的臺(tái)階。

攝影:匡達(dá)

界面新聞?dòng)浾?| 肖芳

界面新聞編輯 | 文姝琪

3月27日凌晨,阿里巴巴發(fā)布并開源首個(gè)端到端全模態(tài)大模型通義千問Qwen2.5-Omni,可同時(shí)處理文本、圖像、音頻和視頻等多種輸入,并實(shí)時(shí)生成文本與自然語音合成輸出。

目前,市場(chǎng)全模態(tài)大模型較為有限。在此之前,國內(nèi)外主流科技公司只有OpenAI發(fā)布全模態(tài)大模型GPT-4o。GPT-4o參數(shù)規(guī)模為200B,Qwen2.5-Omni僅為7B,這一尺寸對(duì)于端側(cè)部署特別是手機(jī)本地部署十分友好。

在一系列同等規(guī)模的單模態(tài)模型權(quán)威基準(zhǔn)測(cè)試中,Qwen2.5-Omni展現(xiàn)出了全球最強(qiáng)的全模態(tài)優(yōu)異性能。其中,Hugging Face測(cè)試顯示,Qwen2.5-Omni在語音理解、圖片理解、視頻理解、語音生成等領(lǐng)域的測(cè)評(píng)分?jǐn)?shù),均領(lǐng)先于專門的Qwen2-Audio以及Qwen2.5-VL模型,且語音生成測(cè)評(píng)分?jǐn)?shù)(4.51)達(dá)到了與人類持平的能力。

據(jù)界面新聞了解,Qwen2.5-Omni參數(shù)規(guī)模情況下全模態(tài)性能表現(xiàn)優(yōu)異主要原因技術(shù)的創(chuàng)新突破。Qwen2.5-Omni采用了通義團(tuán)隊(duì)全新首創(chuàng)的Thinker-Talker雙核架構(gòu)、Position Embedding(位置嵌入)融合音視頻技術(shù)、位置編碼算法TMRoPE(Time-aligned Multimodal RoPE)。相比之下GPT-4o的基礎(chǔ)仍然是Transformer架構(gòu),只是針對(duì)多模態(tài)數(shù)據(jù)進(jìn)行了優(yōu)化。

具體來講Transformer架構(gòu)是單一流式計(jì)算,采用自注意力機(jī)制,一次性處理整個(gè)輸入序列,不區(qū)分“思考”和“表達(dá)”,所有計(jì)算都在同一層次上完成,導(dǎo)致大模型在推理復(fù)雜問題時(shí)計(jì)算開銷較高。Thinker-Talker雙核架構(gòu)區(qū)分“思考”和“表達(dá)”Thinker負(fù)責(zé)深度推理、邏輯思維和復(fù)雜認(rèn)知任Talker負(fù)責(zé)將思考結(jié)果高效轉(zhuǎn)化為流暢的語言表達(dá)或其他輸出。Thinker進(jìn)行多步推理,而Talker只需高效生成結(jié)果,從而優(yōu)化計(jì)算效率。

全新技術(shù)架構(gòu),這款全模態(tài)模型的交互能力又上了一個(gè)新的臺(tái)階,不僅讓阿里AI在C端(用戶)的應(yīng)用多了幾分想象空間,也給智能終端行業(yè)帶來了更多想象空間

以接近人類的多感官方式交互,還能感知情緒

界面新聞?dòng)浾咴?/span>Qwen Chat體驗(yàn)這款模型對(duì)話,用戶選擇語音或者視頻通過Qwen2.5-Omni進(jìn)行交互。

記者輸入語音指令,要求Qwen2.5-Omni幫忙總結(jié)文章主要內(nèi)容,它能通過語音方式進(jìn)行總結(jié)說話聲音語調(diào)、語氣變化整體交互感受屏幕之外另一個(gè)進(jìn)行語音電話。當(dāng)記者要求Qwen2.5-Omni唱一首歌時(shí),目前無法實(shí)現(xiàn),回復(fù)并不生硬哎呀我還不會(huì)唱歌。可以使用QQ音樂上面很多唱歌。

在播放歌曲《老男孩》的一個(gè)片段時(shí),Qwen2.5-Omni能夠聽出來這是一段民謠曲風(fēng)音樂,還能聽出來這是C大調(diào)。同時(shí)推薦趙雷成都、周杰倫七里香詢問使用者是否喜歡當(dāng)記者非常焦躁語氣說話時(shí),不僅能感知到情緒異常,還能朋友一樣開導(dǎo)稱不要煩心事放在心上

記者和它進(jìn)行視頻通話時(shí),通過視頻畫面窗戶窗簾判斷使用者室內(nèi),以此話題展開聊天。多人場(chǎng)景,Qwen2.5-Omni還能夠理解不同說話人的語音和視頻的對(duì)應(yīng)關(guān)系,定位到不同說話人的穿著等狀態(tài),判斷意識(shí)流視頻里的情緒,這是以往單一模態(tài)的模型和AI應(yīng)用所不具備的能力。

體驗(yàn)之后界面新聞?dòng)浾?/span>整體感覺,Qwen2.5-Omni多模態(tài)方面交互能力已經(jīng)非常接近人類交互方式,說話的音色和語氣、語調(diào)也更接近真人,在實(shí)時(shí)交互過程中的延遲較小,基本感覺不到卡頓幾年前智能音箱相比,Qwen2.5-Omni不再只是單純回復(fù)用戶給出指令還會(huì)主動(dòng)詢問用戶問題,聊天變成一個(gè)可持續(xù)過程。

除了日常對(duì)話之外,界面新聞一位阿里云內(nèi)部人士了解,Qwen2.5-Omni還能處理更加復(fù)雜、專業(yè)問題。比如,醫(yī)療領(lǐng)域診斷通常需要結(jié)合影像、病歷文本患者語言描述完成,Qwen2.5-Omni多模態(tài)能力能夠滿足這些需求相關(guān)醫(yī)療機(jī)構(gòu)使用大模型輔助診斷時(shí)無需為不同模態(tài)任務(wù)部署獨(dú)立模型,降低開發(fā)和維護(hù)成本。

C端應(yīng)用呼之欲出

Qwen2.5-Omni接近人類交互方式感知到情緒,這讓此前業(yè)界看好AI陪伴應(yīng)用有了規(guī)?;?/span>落地空間

據(jù)界面新聞了解,阿里AI to C應(yīng)用嘗試這個(gè)方向去年12,阿里旗下AI應(yīng)用“通義”近期正式從阿里云分拆,并入阿里智能信息事業(yè)群。調(diào)整后通義PC及App團(tuán)隊(duì)與智能搜索產(chǎn)品“夸克”平級(jí),通義To C方向的產(chǎn)品經(jīng)理以及相關(guān)的工程團(tuán)隊(duì),他們將一并調(diào)整至阿里智能信息事業(yè)群。

界面新聞從一位阿里智能信息事業(yè)群人士了解,架構(gòu)調(diào)整之后夸克通義定位進(jìn)行區(qū)分夸克主要解決用戶學(xué)習(xí)工作場(chǎng)景問題,通義主要解決用戶生活問題以及情感陪伴需求。

Qwen2.5-Omni發(fā)布之后,底層模型能力已經(jīng)能夠滿足用戶各種復(fù)雜需求通義團(tuán)隊(duì)需要產(chǎn)品打磨搶占先機(jī)

除此之外,Qwen2.5-Omni小尺寸方便智能終端行業(yè)進(jìn)行部署。在GPT-4o仍然保持閉源的情況下,Qwen2.5-Omni以寬松的Apache2.0協(xié)議開源,且阿里云百煉平臺(tái)提供API服務(wù),所有人均可下載和商用。無論手機(jī)、智能音箱還是家電尋求更好用戶交互體驗(yàn),Qwen2.5-Omni交互能力這些行業(yè)更多想象空間。

比如,目前老板電器等廚房電器企業(yè)正在探索通過大模型菜譜推薦、智能烹飪、個(gè)性化交互整合到全流程服務(wù)中,打造更智能的廚房體驗(yàn)。全模態(tài)大模型的核心優(yōu)勢(shì)在于能夠理解文本、語音、圖像、視頻、傳感器數(shù)據(jù)多種模態(tài)的數(shù)據(jù),從而提供更加自然、精準(zhǔn)的烹飪輔助。

Qwen2.5-Omni具備視覺、聽覺、語音等多感官交互能力,在家庭機(jī)器人領(lǐng)域有著較為廣闊的應(yīng)用前景。它不僅能完成日常任務(wù),還能更智能地理解用戶需求、實(shí)時(shí)適應(yīng)環(huán)境,并提供更加人性化的互動(dòng)。尤其家庭陪伴護(hù)理場(chǎng)景,識(shí)別老人摔倒異常情況以及識(shí)別用戶低落情緒非常關(guān)鍵底層能力

此前,阿里巴巴聯(lián)合創(chuàng)始人、董事局主席蔡崇信確認(rèn)蘋果和阿里巴巴將合作為中國iPhone用戶開發(fā)AI功能。實(shí)際上,OPPO、vivo、榮耀、傳音等國內(nèi)超90%的手機(jī)品牌都已接入千問。Qwen2.5-Omni出現(xiàn)或許也會(huì)這些品牌手機(jī)帶來新用戶交互體驗(yàn)。

阿里AI大模型布局顯示出非常決心阿里巴巴集團(tuán)CEO吳泳銘此前宣布,未來三年,阿里將投入超過3800億元,用于建設(shè)云和AI硬件基礎(chǔ)設(shè)施,總額超過過去十年總和

AI資本市場(chǎng)重估阿里價(jià)值。2025年以來,阿里巴巴美股股價(jià)已上漲55.96%。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。

評(píng)論

暫無評(píng)論哦,快來評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

阿里開源首個(gè)全模態(tài)大模型,將給產(chǎn)業(yè)帶來哪些機(jī)會(huì)?

在全新的技術(shù)架構(gòu)下,通義千問Qwen2.5-Omni的交互能力又上了一個(gè)新的臺(tái)階。

攝影:匡達(dá)

界面新聞?dòng)浾?| 肖芳

界面新聞編輯 | 文姝琪

3月27日凌晨,阿里巴巴發(fā)布并開源首個(gè)端到端全模態(tài)大模型通義千問Qwen2.5-Omni,可同時(shí)處理文本、圖像、音頻和視頻等多種輸入,并實(shí)時(shí)生成文本與自然語音合成輸出。

目前,市場(chǎng)全模態(tài)大模型較為有限。在此之前,國內(nèi)外主流科技公司只有OpenAI發(fā)布全模態(tài)大模型GPT-4oGPT-4o參數(shù)規(guī)模為200B,Qwen2.5-Omni僅為7B,這一尺寸對(duì)于端側(cè)部署特別是手機(jī)本地部署十分友好。

在一系列同等規(guī)模的單模態(tài)模型權(quán)威基準(zhǔn)測(cè)試中,Qwen2.5-Omni展現(xiàn)出了全球最強(qiáng)的全模態(tài)優(yōu)異性能。其中,Hugging Face測(cè)試顯示,Qwen2.5-Omni在語音理解、圖片理解、視頻理解、語音生成等領(lǐng)域的測(cè)評(píng)分?jǐn)?shù),均領(lǐng)先于專門的Qwen2-Audio以及Qwen2.5-VL模型,且語音生成測(cè)評(píng)分?jǐn)?shù)(4.51)達(dá)到了與人類持平的能力。

據(jù)界面新聞了解,Qwen2.5-Omni參數(shù)規(guī)模情況下全模態(tài)性能表現(xiàn)優(yōu)異主要原因技術(shù)的創(chuàng)新突破。Qwen2.5-Omni采用了通義團(tuán)隊(duì)全新首創(chuàng)的Thinker-Talker雙核架構(gòu)、Position Embedding(位置嵌入)融合音視頻技術(shù)、位置編碼算法TMRoPE(Time-aligned Multimodal RoPE)。相比之下GPT-4o的基礎(chǔ)仍然是Transformer架構(gòu),只是針對(duì)多模態(tài)數(shù)據(jù)進(jìn)行了優(yōu)化。

具體來講Transformer架構(gòu)是單一流式計(jì)算,采用自注意力機(jī)制,一次性處理整個(gè)輸入序列,不區(qū)分“思考”和“表達(dá)”,所有計(jì)算都在同一層次上完成,導(dǎo)致大模型在推理復(fù)雜問題時(shí)計(jì)算開銷較高。Thinker-Talker雙核架構(gòu)區(qū)分“思考”和“表達(dá)”,Thinker負(fù)責(zé)深度推理、邏輯思維和復(fù)雜認(rèn)知任,Talker負(fù)責(zé)將思考結(jié)果高效轉(zhuǎn)化為流暢的語言表達(dá)或其他輸出。Thinker進(jìn)行多步推理,而Talker只需高效生成結(jié)果,從而優(yōu)化計(jì)算效率。

全新技術(shù)架構(gòu),這款全模態(tài)模型的交互能力又上了一個(gè)新的臺(tái)階,不僅讓阿里AI在C端(用戶)的應(yīng)用多了幾分想象空間,也給智能終端行業(yè)帶來了更多想象空間。

以接近人類的多感官方式交互,還能感知情緒

界面新聞?dòng)浾咴?/span>Qwen Chat體驗(yàn)這款模型。對(duì)話,用戶選擇語音或者視頻通過Qwen2.5-Omni進(jìn)行交互。

記者輸入語音指令,要求Qwen2.5-Omni幫忙總結(jié)文章主要內(nèi)容,它能通過語音方式進(jìn)行總結(jié)說話聲音語調(diào)、語氣變化,整體交互感受屏幕之外另一個(gè)進(jìn)行語音電話。當(dāng)記者要求Qwen2.5-Omni唱一首歌時(shí),目前無法實(shí)現(xiàn),回復(fù)并不生硬哎呀我還不會(huì)唱歌。可以使用QQ音樂上面很多唱歌。

在播放歌曲《老男孩》的一個(gè)片段時(shí),Qwen2.5-Omni能夠聽出來這是一段民謠曲風(fēng)音樂還能聽出來這是C大調(diào)。同時(shí)推薦趙雷成都、周杰倫七里香詢問使用者是否喜歡當(dāng)記者非常焦躁語氣說話時(shí),不僅能感知到情緒異常,還能朋友一樣開導(dǎo)稱不要煩心事放在心上。

記者和它進(jìn)行視頻通話時(shí)通過視頻畫面窗戶窗簾判斷使用者室內(nèi),以此話題展開聊天。多人場(chǎng)景,Qwen2.5-Omni還能夠理解不同說話人的語音和視頻的對(duì)應(yīng)關(guān)系,定位到不同說話人的穿著等狀態(tài),判斷意識(shí)流視頻里的情緒,這是以往單一模態(tài)的模型和AI應(yīng)用所不具備的能力。

體驗(yàn)之后,界面新聞?dòng)浾?/span>整體感覺,Qwen2.5-Omni多模態(tài)方面交互能力已經(jīng)非常接近人類交互方式,說話的音色和語氣、語調(diào)也更接近真人,在實(shí)時(shí)交互過程中的延遲較小基本感覺不到卡頓。幾年前智能音箱相比,Qwen2.5-Omni不再只是單純回復(fù)用戶給出指令還會(huì)主動(dòng)詢問用戶問題,聊天變成一個(gè)可持續(xù)過程

除了日常對(duì)話之外,界面新聞一位阿里云內(nèi)部人士了解,Qwen2.5-Omni還能處理更加復(fù)雜、專業(yè)問題。比如,醫(yī)療領(lǐng)域診斷通常需要結(jié)合影像、病歷文本患者語言描述完成,Qwen2.5-Omni多模態(tài)能力能夠滿足這些需求,相關(guān)醫(yī)療機(jī)構(gòu)使用大模型輔助診斷時(shí)無需為不同模態(tài)任務(wù)部署獨(dú)立模型,降低開發(fā)和維護(hù)成本。

C端應(yīng)用呼之欲出

Qwen2.5-Omni接近人類交互方式,感知到情緒,這讓此前業(yè)界看好AI陪伴應(yīng)用有了規(guī)?;?/span>落地空間。

據(jù)界面新聞了解,阿里AI to C應(yīng)用嘗試這個(gè)方向。去年12阿里旗下AI應(yīng)用“通義”近期正式從阿里云分拆,并入阿里智能信息事業(yè)群。調(diào)整后通義PC及App團(tuán)隊(duì)與智能搜索產(chǎn)品“夸克”平級(jí),通義To C方向的產(chǎn)品經(jīng)理以及相關(guān)的工程團(tuán)隊(duì),他們將一并調(diào)整至阿里智能信息事業(yè)群。

界面新聞從一位阿里智能信息事業(yè)群人士了解架構(gòu)調(diào)整之后,夸克通義定位進(jìn)行區(qū)分夸克主要解決用戶學(xué)習(xí)工作場(chǎng)景問題,通義主要解決用戶生活問題以及情感陪伴需求

Qwen2.5-Omni發(fā)布之后,底層模型能力已經(jīng)能夠滿足用戶各種復(fù)雜需求通義團(tuán)隊(duì)需要產(chǎn)品打磨搶占先機(jī)。

除此之外,Qwen2.5-Omni小尺寸方便智能終端行業(yè)進(jìn)行部署。在GPT-4o仍然保持閉源的情況下,Qwen2.5-Omni以寬松的Apache2.0協(xié)議開源,且阿里云百煉平臺(tái)提供API服務(wù),所有人均可下載和商用。無論手機(jī)、智能音箱還是家電,尋求更好用戶交互體驗(yàn),Qwen2.5-Omni交互能力這些行業(yè)更多想象空間。

比如,目前老板電器等廚房電器企業(yè)正在探索通過大模型菜譜推薦、智能烹飪、個(gè)性化交互整合到全流程服務(wù)中,打造更智能的廚房體驗(yàn)。全模態(tài)大模型的核心優(yōu)勢(shì)在于能夠理解文本、語音、圖像、視頻、傳感器數(shù)據(jù)多種模態(tài)的數(shù)據(jù),從而提供更加自然、精準(zhǔn)的烹飪輔助。

Qwen2.5-Omni具備視覺、聽覺、語音等多感官交互能力,在家庭機(jī)器人領(lǐng)域有著較為廣闊的應(yīng)用前景。它不僅能完成日常任務(wù),還能更智能地理解用戶需求、實(shí)時(shí)適應(yīng)環(huán)境,并提供更加人性化的互動(dòng)。尤其家庭陪伴護(hù)理場(chǎng)景識(shí)別老人摔倒異常情況以及識(shí)別用戶低落情緒非常關(guān)鍵底層能力。

此前阿里巴巴聯(lián)合創(chuàng)始人、董事局主席蔡崇信確認(rèn)蘋果和阿里巴巴將合作為中國iPhone用戶開發(fā)AI功能。實(shí)際上,OPPO、vivo、榮耀、傳音等國內(nèi)超90%的手機(jī)品牌都已接入千問。Qwen2.5-Omni出現(xiàn)或許也會(huì)這些品牌手機(jī)帶來新用戶交互體驗(yàn)。

阿里AI大模型布局顯示出非常決心。阿里巴巴集團(tuán)CEO吳泳銘此前宣布,未來三年,阿里將投入超過3800億元,用于建設(shè)云和AI硬件基礎(chǔ)設(shè)施,總額超過過去十年總和。

AI資本市場(chǎng)重估阿里價(jià)值2025年以來,阿里巴巴美股股價(jià)已上漲55.96%。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。