成全影视在线观看,自拍偷区亚洲及综合第一页,xxxxx尤物在线一区

界面新聞記者 | 伍洋宇
界面新聞編輯 | 文姝琪

時隔一周，零一萬物再次更新其千億參數(shù)閉源大模型Yi-Large的動態(tài)，這次是榜單成績。

5月21日，零一萬物表示，在LMSYS盲測競技場最新排名中，Yi-Large總榜排名世界模型第7。在總榜上，GPT系列占了前十中的四位，以機構排序，零一萬物位于OpenAI，Google和Anthropic之后。

此外，其中文分榜排名與GPT4o并列第一（嚴格來說分數(shù)更低一些），編程能力（Coding）和長提問（Long query）位列第二。

LMSYS Org是一個針對大型語言模型（LLMs）的研究組織，其發(fā)布的大語言模型評估排行榜也被稱為大模型匿名競技場。榜單會讓大量用戶輸入問題，并由不同模型生成回答，用戶在不知道模型與答案對應關系的情況下根據(jù)答案質量進行投票，從而對模型進行評估。

此次刷新的“Chatbot Arena”是LMSYS排行榜的主要基準之一，使用Elo評級方法（一項基于統(tǒng)計學原理的評價體系）進行計算結果，這一場全球用戶投票數(shù)超過1170萬。

這次成績之所以被零一萬物重視，一方面是因為它是國內大模型領域唯一進入前十的公司（智譜GLM4、阿里Qwen Max、Qwen 1.5也參與了這次盲測），但客觀來看，它不能完全驗證自己是國內第一的說法，因為國內參賽選手僅有三家。

另一方面在于排在Yi-Large前面的大模型都是萬億參數(shù)級別，而Yi-Large以千億參數(shù)量級達成了相近的表現(xiàn)?！?/span>如果我們有10倍GPU，我們的萬億模型完全可以達到第一名。”零一萬物創(chuàng)始人兼CEO李開復表示。

事實上，大模型曾因刷榜亂象廣受爭議，大量榜單由于題目缺乏動態(tài)性、可針對性刷題等問題，已經喪失了一部分公信力。對此，零一萬物模型負責人黃文灝表示，團隊之所以強調LMSYS的排名價值，是因為看重其題目動態(tài)隨機、基于用戶打分等機制帶來的客觀性。

而關于用戶輸出的“prompt”（提示詞）在專業(yè)水平上是否不如專業(yè)評測集，黃文灝的理解是，一方面，盲測競技場的方式更貼近用戶真實使用場景，這是其主要價值所在；另一方面，LMSYS也有“hard prompt”部分，這一板塊對于模型智力其實提出了很高挑戰(zhàn)。

除去榜單本身傳遞出來的技術信息，這背后還呈現(xiàn)出中美大模型領域差距等更宏大長遠的議題。

李開復表示，團隊尊重美國在科技領域的創(chuàng)造性，但后發(fā)有后發(fā)的優(yōu)勢?！?/span>中國人的聰明、勤奮、努力是不容忽視的。”他指出，零一萬物用一年時間把過去幾年的技術差距縮短到目前的6個月（在榜單上超過了6個月前更新的海外大模型），“6個月的差別我覺得不是很大，這是以一個不可思議的超級速度在追趕。”

在追趕問題上，李開復多次提到了算力局限問題，但算力對模型發(fā)展的限制客觀存在，當世界第一梯隊已經處于領先位置，并且擁有更深厚的資源，國內大模型公司可以采取什么戰(zhàn)術？

在李開復看來，這件事本質上可以分為兩個方向，一是“把一張GPU擠出更多的價值”（主要指提高MFU，模型FLOPs利用率），二是優(yōu)化模型表現(xiàn)，這涉及數(shù)據(jù)配比、如何引入多模態(tài)等技術細節(jié)，“我覺得我們在這方面是不輸于美國。”他說。

對于行業(yè)趨勢，零一萬物繞不開的就是當前已經開展的B端（企業(yè)端）服務“價格戰(zhàn)”。

此前，李開復明確表示，不應在行業(yè)內按照ofo的燒錢打法重蹈覆轍。但接連幾日以來，字節(jié)跳動旗下豆包大模型宣布降價，其通用模型pro-32k的推理輸入價格僅為0.0008元/千Tokens，比行業(yè)便宜近一半；隨即，阿里云通義千問主力模型Qwen-Long的API輸入價格直降97%降至0.0005元/千Tokens；百度文心大模型也宣布兩款主力模型ENIRE Speed和ENIRE Lite免費。

李開復表示已經關注到這一現(xiàn)象，但他認為零一萬物目前定價合理，且團隊也在花很大精力進行降價?！?/span>行業(yè)每年降低10倍推理成本是可以期待的，而且也應該是必然發(fā)生的?！彼f。

但他堅持認為價格戰(zhàn)是一個“雙輸”的打法，大模型公司不會這樣不理智。當他認定自己的技術值得的時候，就會堅持一個合適的價格，而絕不會靠貼錢、賠錢去做生意。

“如果你再問，以后可能中國就是這么卷，大家寧可賠光通輸也不讓你贏，那我們就走外國市場?！崩铋_復表示。

界面新聞記者 | 伍洋宇
界面新聞編輯 | 文姝琪

時隔一周，零一萬物再次更新其千億參數(shù)閉源大模型Yi-Large的動態(tài)，這次是榜單成績。

此外，其中文分榜排名與GPT4o并列第一（嚴格來說分數(shù)更低一些），編程能力（Coding）和長提問（Long query）位列第二。

另一方面在于排在Yi-Large前面的大模型都是萬億參數(shù)級別，而Yi-Large以千億參數(shù)量級達成了相近的表現(xiàn)。“如果我們有10倍GPU，我們的萬億模型完全可以達到第一名。”零一萬物創(chuàng)始人兼CEO李開復表示。

除去榜單本身傳遞出來的技術信息，這背后還呈現(xiàn)出中美大模型領域差距等更宏大長遠的議題。

對于行業(yè)趨勢，零一萬物繞不開的就是當前已經開展的B端（企業(yè)端）服務“價格戰(zhàn)”。

李開復表示已經關注到這一現(xiàn)象，但他認為零一萬物目前定價合理，且團隊也在花很大精力進行降價。“行業(yè)每年降低10倍推理成本是可以期待的，而且也應該是必然發(fā)生的?！彼f。

“如果你再問，以后可能中國就是這么卷，大家寧可賠光通輸也不讓你贏，那我們就走外國市場?！崩铋_復表示。

歷史搜索全部刪除

熱門搜索

李開復：大模型價格戰(zhàn)是“雙輸”的打法

李開復

評論

李開復：大模型價格戰(zhàn)是“雙輸”的打法