国产亚洲欧美在线人成,欧美a级在线现免费观看,在线不卡免费av

界面新聞?dòng)浾?| 肖芳
界面新聞編輯 | 文姝琪

3月27日凌晨，阿里巴巴發(fā)布并開源首個(gè)端到端全模態(tài)大模型通義千問Qwen2.5-Omni，可同時(shí)處理文本、圖像、音頻和視頻等多種輸入，并實(shí)時(shí)生成文本與自然語音合成輸出。

目前，市場(chǎng)上的全模態(tài)大模型較為有限。在此之前，國內(nèi)外主流科技公司只有OpenAI發(fā)布過全模態(tài)大模型GPT-4o。GPT-4o的參數(shù)規(guī)模為200B，而Qwen2.5-Omni僅為7B，這一尺寸對(duì)于端側(cè)部署特別是手機(jī)本地部署十分友好。

在一系列同等規(guī)模的單模態(tài)模型權(quán)威基準(zhǔn)測(cè)試中，Qwen2.5-Omni展現(xiàn)出了全球最強(qiáng)的全模態(tài)優(yōu)異性能。其中，Hugging Face的測(cè)試顯示，Qwen2.5-Omni在語音理解、圖片理解、視頻理解、語音生成等領(lǐng)域的測(cè)評(píng)分?jǐn)?shù)，均領(lǐng)先于專門的Qwen2-Audio以及Qwen2.5-VL模型，且語音生成測(cè)評(píng)分?jǐn)?shù)（4.51）達(dá)到了與人類持平的能力。

據(jù)界面新聞了解，Qwen2.5-Omni在低參數(shù)規(guī)模情況下全模態(tài)性能表現(xiàn)優(yōu)異的主要原因是技術(shù)的創(chuàng)新突破。Qwen2.5-Omni采用了通義團(tuán)隊(duì)全新首創(chuàng)的Thinker-Talker雙核架構(gòu)、Position Embedding（位置嵌入）融合音視頻技術(shù)、位置編碼算法TMRoPE（Time-aligned Multimodal RoPE）。相比之下，GPT-4o的基礎(chǔ)仍然是Transformer架構(gòu)，只是針對(duì)多模態(tài)數(shù)據(jù)進(jìn)行了優(yōu)化。

具體來講，Transformer架構(gòu)是單一流式計(jì)算，采用自注意力機(jī)制，一次性處理整個(gè)輸入序列，不區(qū)分“思考”和“表達(dá)”，所有計(jì)算都在同一層次上完成，導(dǎo)致大模型在推理復(fù)雜問題時(shí)計(jì)算開銷較高。Thinker-Talker雙核架構(gòu)區(qū)分“思考”和“表達(dá)”，Thinker負(fù)責(zé)深度推理、邏輯思維和復(fù)雜認(rèn)知任，Talker負(fù)責(zé)將思考結(jié)果高效轉(zhuǎn)化為流暢的語言表達(dá)或其他輸出。Thinker進(jìn)行多步推理，而Talker只需高效生成結(jié)果，從而優(yōu)化計(jì)算效率。

在全新的技術(shù)架構(gòu)下，這款全模態(tài)模型的交互能力又上了一個(gè)新的臺(tái)階，不僅讓阿里AI在C端（用戶）的應(yīng)用多了幾分想象空間，也給智能終端行業(yè)帶來了更多的想象空間。

以接近人類的多感官方式交互，還能感知情緒

界面新聞?dòng)浾咴?/span>Qwen Chat中體驗(yàn)到了這款模型。在對(duì)話框中，用戶可選擇語音或者視頻通過和Qwen2.5-Omni進(jìn)行交互。

記者輸入語音指令，要求Qwen2.5-Omni幫忙總結(jié)一篇文章的主要內(nèi)容，它能通過語音的方式進(jìn)行總結(jié)，說話的聲音有語調(diào)、語氣的變化，整體的交互感受是像和屏幕之外的另一個(gè)人進(jìn)行語音電話。當(dāng)記者要求Qwen2.5-Omni唱一首歌時(shí)，它目前還無法實(shí)現(xiàn)，但它的回復(fù)并不生硬：“哎呀，我還不會(huì)唱歌呢。你可以使用QQ音樂，上面有很多人唱歌。”

在播放歌曲《老男孩》的一個(gè)片段時(shí)，Qwen2.5-Omni能夠聽出來這是一段民謠曲風(fēng)的音樂，還能聽出來這是C大調(diào)。同時(shí)，它還推薦了趙雷的《成都》、周杰倫的《七里香》并詢問使用者是否喜歡。當(dāng)記者用非常焦躁的語氣和它說話時(shí)，它不僅能感知到的情緒異常，還能像朋友一樣來開導(dǎo)稱不要把煩心事放在心上。

記者和它進(jìn)行視頻通話時(shí)，它能通過視頻畫面中的窗戶和窗簾判斷使用者在室內(nèi)，并以此為話題展開聊天。在多人的場(chǎng)景中，Qwen2.5-Omni還能夠理解不同說話人的語音和視頻的對(duì)應(yīng)關(guān)系，定位到不同說話人的穿著等狀態(tài)，判斷意識(shí)流視頻里的情緒，這是以往單一模態(tài)的模型和AI應(yīng)用所不具備的能力。

體驗(yàn)之后，界面新聞?dòng)浾?/span>整體的感覺是，Qwen2.5-Omni在多模態(tài)方面的交互能力已經(jīng)非常接近人類的交互方式，說話的音色和語氣、語調(diào)也更接近真人，在實(shí)時(shí)交互的過程中的延遲較小，基本感覺不到卡頓。和幾年前的智能音箱相比，Qwen2.5-Omni不再只是單純的回復(fù)用戶給出的指令，還會(huì)主動(dòng)詢問用戶問題，讓聊天變成一個(gè)可持續(xù)的過程。

除了日常的對(duì)話之外，界面新聞從一位阿里云內(nèi)部人士處了解到，Qwen2.5-Omni還能處理更加復(fù)雜、專業(yè)的問題。比如，在醫(yī)療領(lǐng)域，診斷通常需要結(jié)合影像、病歷文本和患者的語言描述完成，Qwen2.5-Omni的多模態(tài)能力能夠滿足這些需求，相關(guān)醫(yī)療機(jī)構(gòu)在使用大模型輔助診斷時(shí)，無需為不同模態(tài)任務(wù)部署獨(dú)立模型，降低開發(fā)和維護(hù)成本。

C端應(yīng)用呼之欲出

Qwen2.5-Omni更接近人類的交互方式，且能感知到人的情緒，這讓此前被業(yè)界看好的AI陪伴應(yīng)用有了規(guī)?；?/span>落地的空間。

據(jù)界面新聞了解，阿里AI to C的應(yīng)用也在嘗試這個(gè)方向。去年12月，阿里旗下AI應(yīng)用“通義”近期正式從阿里云分拆，并入阿里智能信息事業(yè)群。調(diào)整后通義PC及App團(tuán)隊(duì)與智能搜索產(chǎn)品“夸克”平級(jí)，通義To C方向的產(chǎn)品經(jīng)理以及相關(guān)的工程團(tuán)隊(duì)，他們將一并調(diào)整至阿里智能信息事業(yè)群。

界面新聞從一位阿里智能信息事業(yè)群人士處了解到，架構(gòu)調(diào)整之后，夸克和通義在定位上進(jìn)行了區(qū)分，夸克主要解決用戶在學(xué)習(xí)工作場(chǎng)景中的問題，而通義主要解決用戶生活中的問題以及情感陪伴需求。

Qwen2.5-Omni發(fā)布之后，底層模型能力已經(jīng)能夠滿足用戶各種復(fù)雜的需求，通義團(tuán)隊(duì)需要把產(chǎn)品打磨好來搶占先機(jī)。

除此之外，Qwen2.5-Omni的小尺寸更方便智能終端行業(yè)進(jìn)行部署。在GPT-4o仍然保持閉源的情況下，Qwen2.5-Omni以寬松的Apache2.0協(xié)議開源，且阿里云百煉平臺(tái)提供API服務(wù)，所有人均可下載和商用。無論是手機(jī)、智能音箱還是家電，都在尋求更好的用戶交互體驗(yàn)，Qwen2.5-Omni的交互能力給了這些行業(yè)更多想象空間。

比如，目前老板電器等廚房電器企業(yè)正在探索通過大模型把菜譜推薦、智能烹飪、個(gè)性化交互整合到全流程服務(wù)中，打造更智能的廚房體驗(yàn)。全模態(tài)大模型的核心優(yōu)勢(shì)在于能夠理解文本、語音、圖像、視頻、傳感器數(shù)據(jù)等多種模態(tài)的數(shù)據(jù)，從而提供更加自然、精準(zhǔn)的烹飪輔助。

Qwen2.5-Omni具備視覺、聽覺、語音等多感官交互能力，在家庭機(jī)器人領(lǐng)域有著較為廣闊的應(yīng)用前景。它不僅能完成日常任務(wù)，還能更智能地理解用戶需求、實(shí)時(shí)適應(yīng)環(huán)境，并提供更加人性化的互動(dòng)。尤其在家庭陪伴和護(hù)理等場(chǎng)景中，識(shí)別老人摔倒等異常情況以及識(shí)別用戶低落情緒都是非常關(guān)鍵的底層能力。

此前，阿里巴巴聯(lián)合創(chuàng)始人、董事局主席蔡崇信已確認(rèn)蘋果和阿里巴巴將合作為中國iPhone用戶開發(fā)AI功能。實(shí)際上，OPPO、vivo、榮耀、傳音等國內(nèi)超90%的手機(jī)品牌都已接入千問。Qwen2.5-Omni的出現(xiàn)或許也會(huì)給這些品牌的手機(jī)帶來新的用戶交互體驗(yàn)。

阿里在AI大模型上的布局上顯示出了非常大的決心。阿里巴巴集團(tuán)CEO吳泳銘此前宣布，未來三年，阿里將投入超過3800億元，用于建設(shè)云和AI硬件基礎(chǔ)設(shè)施，總額超過過去十年總和。

AI也讓資本市場(chǎng)重估阿里的價(jià)值。2025年以來，阿里巴巴美股股價(jià)已上漲55.96%。

界面新聞?dòng)浾?| 肖芳
界面新聞編輯 | 文姝琪

以接近人類的多感官方式交互，還能感知情緒

界面新聞?dòng)浾咴?/span>Qwen Chat中體驗(yàn)到了這款模型。在對(duì)話框中，用戶可選擇語音或者視頻通過和Qwen2.5-Omni進(jìn)行交互。

C端應(yīng)用呼之欲出

Qwen2.5-Omni更接近人類的交互方式，且能感知到人的情緒，這讓此前被業(yè)界看好的AI陪伴應(yīng)用有了規(guī)?；?/span>落地的空間。

Qwen2.5-Omni發(fā)布之后，底層模型能力已經(jīng)能夠滿足用戶各種復(fù)雜的需求，通義團(tuán)隊(duì)需要把產(chǎn)品打磨好來搶占先機(jī)。

AI也讓資本市場(chǎng)重估阿里的價(jià)值。2025年以來，阿里巴巴美股股價(jià)已上漲55.96%。

歷史搜索全部刪除

熱門搜索

阿里開源首個(gè)全模態(tài)大模型，將給產(chǎn)業(yè)帶來哪些機(jī)會(huì)？

以接近人類的多感官方式交互，還能感知情緒

C端應(yīng)用呼之欲出

評(píng)論

阿里開源首個(gè)全模態(tài)大模型，將給產(chǎn)業(yè)帶來哪些機(jī)會(huì)？

以接近人類的多感官方式交互，還能感知情緒

C端應(yīng)用呼之欲出

阿里開源首個(gè)全模態(tài)大模型，將給產(chǎn)業(yè)帶來哪些機(jī)會(huì)？

以接近人類的多感官方式交互，還能感知情緒

C端應(yīng)用呼之欲出

評(píng)論

阿里開源首個(gè)全模態(tài)大模型，將給產(chǎn)業(yè)帶來哪些機(jī)會(huì)？

以接近人類的多感官方式交互，還能感知情緒

C端應(yīng)用呼之欲出

阿里開源首個(gè)全模態(tài)大模型，將給產(chǎn)業(yè)帶來哪些機(jī)會(huì)？

以接近人類的多感官方式交互，還能感知情緒

以接近人類的多感官方式交互，還能感知情緒