x7x7x7任意噪,高清无码一区二区三区四区,99久久国产综合精品青草

文|娛樂(lè)資本論

編輯|James

這是娛樂(lè)資本論·視智未來(lái)在第一次做大語(yǔ)言模型文本應(yīng)用能力測(cè)試時(shí)，寫(xiě)下的第一句話。

當(dāng)時(shí)，對(duì)于不少?gòu)臉I(yè)者而言，AI大模型的重點(diǎn)不是能不能做順口溜或回答哲學(xué)問(wèn)題，而是在于AI是否能夠在實(shí)際工作中發(fā)揮作用，提升效率。時(shí)至今日，這一基本需求仍未改變。

為了解決這樣的疑問(wèn)，我們特意咨詢了編輯、寫(xiě)手、編劇、公關(guān)等許多內(nèi)容行業(yè)的專業(yè)人士，征詢到18個(gè)問(wèn)題，針對(duì)國(guó)內(nèi)的大型語(yǔ)言模型，進(jìn)行了一次全面的，不同于以往科技工作者的文本應(yīng)用能力測(cè)試。

時(shí)隔半年，情況發(fā)生了怎樣的變化呢？

8月底，首批八款國(guó)產(chǎn)大模型完成備案，允許對(duì)公眾開(kāi)放：百度（文心一言）、抖音（云雀大模型）、智譜 AI（GLM 大模型）、中科院（紫東太初大模型）、百川智能（百川大模型）、商湯（日日新大模型）、MiniMax（ABAB 大模型）、上海人工智能實(shí)驗(yàn)室（書(shū)生通用大模型）。

這也讓9月成為國(guó)產(chǎn)AI大模型的“節(jié)日”。這八款大模型中絕大部分免費(fèi)開(kāi)放，吸引了許多人的使用。很多媒體也在第一時(shí)間進(jìn)行了簡(jiǎn)單的上手測(cè)試，而一些側(cè)重于邏輯推理等能力的基準(zhǔn)評(píng)測(cè)也迅速展開(kāi)，各自產(chǎn)生了不同的結(jié)果。

越來(lái)越多的國(guó)產(chǎn)大模型在生成結(jié)果時(shí)默認(rèn)加入網(wǎng)絡(luò)搜索內(nèi)容，以避免大模型生成錯(cuò)誤的敘述，還有些國(guó)產(chǎn)大模型表示已經(jīng)超越了GPT-3.5。此時(shí)，我們認(rèn)為是展開(kāi)第二輪AI大模型實(shí)用性評(píng)測(cè)的絕佳時(shí)機(jī)。

本次測(cè)試有如下創(chuàng)新內(nèi)容：

為盡可能排除測(cè)試中的干擾因素，使人們可以輕松地比較結(jié)果差異與提示詞（prompt）之間的關(guān)系，我們的問(wèn)題是模塊化的。首先，按照大的任務(wù)分類，指定一些基礎(chǔ)的提示詞片段；然后，依據(jù)不同場(chǎng)景，逐級(jí)插入相應(yīng)的段落。

考慮到目前大模型已經(jīng)陸續(xù)接入網(wǎng)絡(luò)，我們?yōu)橥粋€(gè)問(wèn)題準(zhǔn)備了聯(lián)網(wǎng)和不聯(lián)網(wǎng)的兩種版本。本次測(cè)試中將有6個(gè)具體產(chǎn)品是聯(lián)網(wǎng)的，有2個(gè)產(chǎn)品是不聯(lián)網(wǎng)的。另有2個(gè)產(chǎn)品只參加跟寫(xiě)作能力有關(guān)的測(cè)試。

我們著重測(cè)試了通過(guò)自己長(zhǎng)期使用，總結(jié)出來(lái)大模型最擅長(zhǎng)的幾種能力，包括對(duì)文章進(jìn)行擴(kuò)寫(xiě)、縮寫(xiě)和變換寫(xiě)作風(fēng)格的改寫(xiě)，以及總結(jié)長(zhǎng)文章的要點(diǎn)等。

這將是一篇特別長(zhǎng)的評(píng)測(cè)。請(qǐng)坐穩(wěn)扶好，我們現(xiàn)在出發(fā)。

測(cè)試過(guò)程簡(jiǎn)述：我們的測(cè)試并非旨在提供學(xué)術(shù)上的嚴(yán)謹(jǐn)標(biāo)準(zhǔn)，我們的目標(biāo)是：從實(shí)用的角度出發(fā)，分析這些大模型在各種文本應(yīng)用場(chǎng)景的綜合表現(xiàn)，為文娛、傳媒行業(yè)從業(yè)者提供參考。我們會(huì)基于以下5個(gè)維度，為每個(gè)答案打0-5分，來(lái)評(píng)判大模型的表現(xiàn)。1.語(yǔ)言表達(dá)能力：文本是否通順、流暢，語(yǔ)法是否正確。2.準(zhǔn)確性：模型是否能正確理解問(wèn)題，并給出準(zhǔn)確的信息。3.完整性：文本內(nèi)容是否足夠完整，是否涵蓋了問(wèn)題的主要內(nèi)容，是否達(dá)到了基本可用的標(biāo)準(zhǔn)。4.交互性：模型是否能猜測(cè)不太準(zhǔn)確的問(wèn)題背后，用戶的真實(shí)意圖。5.加分項(xiàng)：任何創(chuàng)新、獨(dú)特、讓人眼前一亮的內(nèi)容（不作具體要求）。本測(cè)試的題目是互相分開(kāi)的，不設(shè)總分。讀者可以自行計(jì)算模型之間的總分，但對(duì)總分的比較沒(méi)有顯著意義。讀者只需要留意每一道題的具體分?jǐn)?shù)即可。包含所有題目及回答的詳細(xì)測(cè)試表單，將通過(guò)公眾號(hào)“視智未來(lái)”發(fā)布。讀者可以掃描/長(zhǎng)按下列二維碼查看詳情：

部分測(cè)試項(xiàng)目及結(jié)果展示

因篇幅限制，本文不會(huì)一一展示所有問(wèn)題的測(cè)試結(jié)果及結(jié)論，會(huì)挑一些有代表性的展示給大家。我們?cè)谙旅嬲故镜陌咐?，由此?lái)反映測(cè)試中突出的一些問(wèn)題，以及尋求其中的一些閃光點(diǎn)。聯(lián)網(wǎng)能力判斷對(duì)于判斷某個(gè)大模型是否真聯(lián)網(wǎng)，我們用了兩個(gè)問(wèn)題：

請(qǐng)問(wèn)現(xiàn)在通過(guò)備案的8款國(guó)產(chǎn)大模型都叫什么？

請(qǐng)問(wèn)李凱爾會(huì)不會(huì)打杭州亞運(yùn)

如果是有聯(lián)網(wǎng)開(kāi)關(guān)的大模型，一律使用其最佳狀態(tài)測(cè)試。至于不聯(lián)網(wǎng)問(wèn)題僅針對(duì)不能聯(lián)網(wǎng)的模型，計(jì)分標(biāo)準(zhǔn)一致。有些時(shí)候，有些大模型的聯(lián)網(wǎng)功能不完全，例如文心一言只能百度搜索prompt里面的關(guān)鍵字，不能讀取指定網(wǎng)址鏈接。此時(shí)該問(wèn)題會(huì)降級(jí)到測(cè)試不聯(lián)網(wǎng)的版本。本次測(cè)試僅僅使用娛樂(lè)資本論·視智未來(lái)能接觸到的模型，不代表各家公司的最新技術(shù)。例如百川剛宣布的Baichuan2-7B用不上，就只測(cè)試現(xiàn)有的Baichuan-7B。Minimax對(duì)外發(fā)布的產(chǎn)品是WPS AI 和Glow（它基本不能用，不參與本次測(cè)試），它們使用的大模型可能也不是最新的版本，其它家的情況也類似。小紅書(shū)文案-產(chǎn)品介紹向

僅有百川、360智腦等在回答中提到華為Mate 60 Pro采用了麒麟9000s芯片，以及這是一款5G手機(jī)。不過(guò)，百川的回答錯(cuò)誤地說(shuō)該機(jī)用的是EMUI而不是鴻蒙。另一邊，通義千問(wèn)的某一次回答提到該手機(jī)的衛(wèi)星通訊功能，卻把處理器說(shuō)成了驍龍8+。因此，這些模型通過(guò)聯(lián)網(wǎng)來(lái)確保準(zhǔn)確性的能力都比較差。

ChatGPT和Bing在網(wǎng)絡(luò)結(jié)果中都用了華為官網(wǎng)的宣傳頁(yè)面，而因?yàn)楸娝苤奶厥庠?，官網(wǎng)信息對(duì)處理器和5G功能隱而不宣。其它用到外部結(jié)果的模型，居然一個(gè)都沒(méi)有提到“遙遙領(lǐng)先”“4G+鴻蒙>5G”等梗，而且也充滿了沒(méi)查到結(jié)果時(shí)候的腦補(bǔ)，非常令人失望。要解決這個(gè)問(wèn)題，一個(gè)可能的辦法是分步推理，首先用一個(gè)專門(mén)的步驟去搜索所有和該手機(jī)有關(guān)的功能點(diǎn)，下一步再生成文案。在我們的測(cè)試中，你會(huì)發(fā)現(xiàn)很多問(wèn)題如果用幾個(gè)連續(xù)的prompt提問(wèn)，而不是在一個(gè)問(wèn)題中提問(wèn)，效果都會(huì)更好。小紅書(shū)文案-買家秀向我們本來(lái)是希望從商家角度和買家角度分別推斷新品推介文案的差異，在小紅書(shū)上同時(shí)存在這兩種賬號(hào)。不過(guò)實(shí)際測(cè)試后，“產(chǎn)品介紹向”和“買家秀向”的區(qū)別不大，所以這部分我們展示兩款不能聯(lián)網(wǎng)的大模型的表現(xiàn)。對(duì)于不聯(lián)網(wǎng)的模型，我們讓它們介紹iPhone X，這款手機(jī)的基礎(chǔ)知識(shí)在大多數(shù)模型訓(xùn)練的期限之內(nèi)。

商湯的商量感覺(jué)還可以，對(duì)基礎(chǔ)知識(shí)的調(diào)用比較準(zhǔn)確，信息沒(méi)有錯(cuò)漏；但格式較為死板，“互動(dòng)引導(dǎo)”也出現(xiàn)在里面就需要更多的手動(dòng)修改，也沒(méi)有emoji。

智譜清言相對(duì)更為敷衍，但幸虧還是讀完了題目的所有要求。相對(duì)而言，它沒(méi)有很明確地介紹專屬于iPhone X的功能。作為對(duì)比，GPT-3.5的腦力輸出就比較慷慨了。

總的來(lái)說(shuō)，雖然小紅書(shū)屬于一種簡(jiǎn)略的文體，但越是短小的段落，其實(shí)越難寫(xiě)。當(dāng)然，讓AI像專業(yè)文案作者那樣工作是強(qiáng)“?！彼y，AIGC比較適合完成對(duì)質(zhì)量要求不高，但批量出品的那種工作。直播文案-淘寶直播

非常遺憾的是，沒(méi)有模型在這個(gè)測(cè)試中給出“3、2、1，上鏈接”這句話，只有通義千問(wèn)化用了“所有女生”，即使我們已經(jīng)非常明確地提示了你要模仿的人是李佳琦。所以說(shuō)，大模型的“理解”和“讀懂”很多時(shí)候仍然只是人類用戶善意腦補(bǔ)后的結(jié)果。

可能相對(duì)比較好的有字節(jié)的豆包：（上圖1）如果以標(biāo)志性的語(yǔ)句為判斷依據(jù)，那么通義千問(wèn)也還可以：（上圖2）如果佳琦哥是這么回答直播間提問(wèn)的，他倒是一定不會(huì)翻車。直播文案-抖音直播這個(gè)測(cè)試用兩個(gè)問(wèn)題來(lái)測(cè)試模型是不是真的能聯(lián)網(wǎng)。一般第一個(gè)問(wèn)題（8個(gè)大模型的名稱）已經(jīng)可以確定是否聯(lián)網(wǎng)，但判斷不準(zhǔn)時(shí)會(huì)加入第二個(gè)問(wèn)題（李凱爾）。對(duì)這兩個(gè)問(wèn)題的回答，所有聯(lián)網(wǎng)模型表現(xiàn)都很好，除了使用插件的GPT-4和360智腦——它即使打開(kāi)了所謂的“搜索增強(qiáng)”，對(duì)問(wèn)題的回答也有很大偏差。

我們用最近成為熱搜焦點(diǎn)的“秀才”作為問(wèn)題，看這些模型是不是能Get到他的直播風(fēng)格是：“秀才的視頻拍攝地多為鄉(xiāng)村場(chǎng)景，內(nèi)容主要是‘認(rèn)真做事、假裝被發(fā)現(xiàn)、挑眉、吐舌、扶額對(duì)口型唱歌’的動(dòng)作套路呈現(xiàn)?！绷硗?，如果確定看過(guò)秀才的介紹文章，就會(huì)發(fā)現(xiàn)他在直播中一般不直接帶貨。結(jié)果可想而知是不行。比如360智腦的常規(guī)版本：

360智腦還有一個(gè)“數(shù)字人廣場(chǎng)”。記得這個(gè)大模型正式發(fā)布的時(shí)候說(shuō)：

360將依托360智腦大模型能力，重新定義“數(shù)字人”。區(qū)別于傳統(tǒng)數(shù)字人只能按既定腳本輸出內(nèi)容，360AI數(shù)字人的特點(diǎn)在于有記憶、有人設(shè)和性格，能夠復(fù)刻思維方式和人生經(jīng)歷。據(jù)了解，360AI數(shù)字人目前擁有200多個(gè)角色，分為數(shù)字名人和數(shù)字員工兩類。數(shù)字名人包括歷史人物、偶像明星、文學(xué)形象等，讓用戶在與數(shù)字人的開(kāi)放對(duì)話中實(shí)現(xiàn)與偶像的近距離接觸，與先賢的思想交流。數(shù)字員工則可成為企業(yè)員工的知識(shí)助手和辦公助手，提升企業(yè)運(yùn)營(yíng)效能。周鴻祎現(xiàn)場(chǎng)演示了“法務(wù)專員”數(shù)字人角色，對(duì)中小企業(yè)常見(jiàn)的公章管理和合同審核問(wèn)題給與了專業(yè)回答。

我還真的以為是他們一個(gè)一個(gè)訓(xùn)練了小模型。當(dāng)我真正用上的時(shí)候，我發(fā)現(xiàn)“數(shù)字人”的背后其實(shí)就是一行預(yù)設(shè)prompt：

確實(shí)，加入預(yù)設(shè)角色后的效果好了不少，但是仍然距離理想狀態(tài)有很大差距。對(duì)于360智腦來(lái)說(shuō)，下一步如果不是預(yù)先選擇角色，而是首先分析用戶的輸入，再根據(jù)用戶意圖推薦切換到某個(gè)角色，相信這樣的用戶體驗(yàn)會(huì)極大增強(qiáng)。

長(zhǎng)文章寫(xiě)作-歷史類

bing給我們開(kāi)了個(gè)好頭。它充分利用了聯(lián)網(wǎng)搜索，給出了網(wǎng)上優(yōu)質(zhì)回答的文獻(xiàn)綜述，信息量很大，只可惜因?yàn)樽謹(jǐn)?shù)限制沒(méi)有寫(xiě)完。相比之下，GPT-4的結(jié)果因?yàn)榧尤胩嗝庳?zé)條款式的內(nèi)容而顯得啰嗦和“水”。

在豆包的各種預(yù)制角色里面，搞笑的是居然就有一個(gè)“曹操”。我們立馬用不聯(lián)網(wǎng)的三國(guó)題測(cè)試了一下：

可以說(shuō)很努力的在角色扮演了，但是太短。豆包的回答普遍都特別短，跟bing類似，這使得它難以完成本測(cè)試中的大多數(shù)題目。另外，豆包在很多問(wèn)題的回答都沒(méi)有利用網(wǎng)絡(luò)搜索，它似乎只有在明確提出“xxx是怎么回事”這樣的單純問(wèn)題時(shí)，才會(huì)試圖聯(lián)網(wǎng)查詢。這里還想提一下昆侖萬(wàn)維的天工。我們額外用題干測(cè)試了天工AI搜索。它給出答案的問(wèn)題是字?jǐn)?shù)太少，不過(guò)通過(guò)適當(dāng)追問(wèn)，你可以將其中每個(gè)段落都補(bǔ)充一些內(nèi)容，從而生成非?？捎玫某善?。

天工AI搜索可以直接回答問(wèn)答類問(wèn)題，所以只需要輸入問(wèn)題本身。輸入完整的提示詞反而不行，因?yàn)樘L(zhǎng)了。它對(duì)我們所有問(wèn)題的完整提示詞都無(wú)法回答。長(zhǎng)文章寫(xiě)作-科普類

我們希望參與測(cè)試的模型們可以自己尋找一個(gè)給定主題（醫(yī)美）的近期熱點(diǎn)，然后解答這個(gè)熱點(diǎn)。除了百川之外，其它模型的表現(xiàn)都不太好。特別是GPT-4，在插件搜索一番無(wú)功而返以后，為了滿足prompt的要求，它只好編了一個(gè)前因后果都不明的故事作為引子。

相比之下，百川給出的兩個(gè)具體的醫(yī)美關(guān)鍵字，我們可以通過(guò)小紅書(shū)搜索發(fā)現(xiàn)它們確實(shí)是近期醫(yī)美愛(ài)好者比較關(guān)心的手術(shù)項(xiàng)目。

因此，這種給出具體項(xiàng)目的對(duì)比介紹就比泛泛的討論醫(yī)療手術(shù)的風(fēng)險(xiǎn)與如何防范等，更符合我們題目的意思。當(dāng)然，我們都不是醫(yī)學(xué)專業(yè)人士，如果可以確認(rèn)這些回答里面有明顯的事實(shí)錯(cuò)誤，將會(huì)成為重大的減分項(xiàng)。文章調(diào)整-改寫(xiě)

絕大部分模型都無(wú)法通過(guò)我們的測(cè)試，它們號(hào)稱聯(lián)網(wǎng)，但無(wú)法準(zhǔn)確抓到《孤注一擲》的劇情，因此只是隨手亂答。

例如通義千問(wèn)的結(jié)果：（上圖1）不僅如此，通義千問(wèn)還錯(cuò)誤地將我們的兩個(gè)需求變成了自己的節(jié)標(biāo)題，這說(shuō)明它沒(méi)有讀懂問(wèn)題。實(shí)際上要完成這個(gè)題目，大模型需要自己學(xué)會(huì)分步完成，即先搜索劇情，再類比出結(jié)果。這是Bing的結(jié)果（上圖2），其思考過(guò)程很明顯地反映了上述正確的步驟。而ChatGPT聯(lián)網(wǎng)后的結(jié)果則更為驚艷：（上圖3、4）文章調(diào)整-擴(kuò)寫(xiě)

本來(lái)我對(duì)于模型們寫(xiě)出跟跳水大爺有機(jī)結(jié)合的天津愛(ài)情故事沒(méi)有任何期待。但在選擇了Bing的“更有創(chuàng)造力”版本后，它給出了一篇任何角度看都當(dāng)之無(wú)愧的滿分作文，一個(gè)字都不用改。

理解這個(gè)題目的關(guān)鍵是需要通過(guò)聯(lián)網(wǎng)準(zhǔn)確地獲取“大爺跳水”的本質(zhì)，是一種積極的運(yùn)動(dòng)方式。有的模型為了安排情節(jié)，將女方寫(xiě)成了新聞?dòng)浾?，還有的寫(xiě)成了勇救落水大爺，所以效果都比較遺憾。文章調(diào)整-縮寫(xiě) 大部分模型表現(xiàn)都中規(guī)中矩，以WPS為例：

WPS AI本身提供“總結(jié)”的功能選項(xiàng)，但是當(dāng)輸入我們的prompt時(shí)，它并不能正常工作：（下圖1）

如果覺(jué)得官方“總結(jié)”字?jǐn)?shù)太少，可以“續(xù)寫(xiě)”，但通常來(lái)說(shuō)效果不佳。這段文字“續(xù)寫(xiě)”兩次后是這樣：（上圖2）不過(guò)，當(dāng)文章篇幅增長(zhǎng)時(shí)，WPS AI會(huì)變得更好用一些。這篇3000字的文章只能在prompt里涵蓋前1000字，但對(duì)于全文的總結(jié)，WPS AI明顯強(qiáng)于對(duì)剛才的前1000字的總結(jié)。（上圖3）我們實(shí)際測(cè)試也發(fā)現(xiàn)，如果你需要指定字?jǐn)?shù)的縮寫(xiě)，使用“全文處理-縮短篇幅”可能會(huì)比較好。文章調(diào)整-仿寫(xiě) 在這個(gè)問(wèn)題上優(yōu)秀的回答，必然是調(diào)用了一整篇文章所總結(jié)的相關(guān)知識(shí)，我們本來(lái)也沒(méi)期待大模型們用自己的方法一條一條地總結(jié)。但不管黑貓白貓，只要給出結(jié)果能用就好。

ChatGPT正確地給出了基于搜索總結(jié)的2022年經(jīng)典營(yíng)銷案例（來(lái)自一個(gè)知乎專欄），它給出的蜜雪冰城文案乍一看可能不相關(guān)，但仔細(xì)看會(huì)發(fā)現(xiàn)是用了“王心凌浪姐”里面提到的懷舊概念。

當(dāng)Bing說(shuō)出“叫人想樂(lè)”的時(shí)候那場(chǎng)面是真的叫人想樂(lè)。文心一言也正確地實(shí)現(xiàn)了總結(jié)，但在最后關(guān)頭的仿寫(xiě)上全面失敗?？紤]到問(wèn)題兩部分要完整地看，因此雖然百度沒(méi)能完成給定任務(wù)，但總結(jié)得不錯(cuò)，算是加分項(xiàng)，最后這道題給了3分。

結(jié)論

包含所有題目及回答的詳細(xì)測(cè)試表單，將通過(guò)公眾號(hào)“視智未來(lái)”發(fā)布。

以下是參與本次評(píng)測(cè)的幾款大模型在測(cè)試中的表現(xiàn)概述：

1.GPT-3.5/4：不聯(lián)網(wǎng)時(shí)發(fā)揮出色，聯(lián)網(wǎng)使用第三方插件，可能因?yàn)椴寮憩F(xiàn)不穩(wěn)定而大大影響了效果。

2.Bing：充分利用聯(lián)網(wǎng)搜索，提供了大量信息，但有時(shí)因字?jǐn)?shù)限制未能完成回答。

3.文心一言：展現(xiàn)了較好的總結(jié)能力，在仿寫(xiě)上表現(xiàn)不佳，但總體尚可。

4.通義千問(wèn)：針對(duì)直播場(chǎng)景的表現(xiàn)很好；其他場(chǎng)景一般。

5.百川：在某些情況下能提供準(zhǔn)確的信息，長(zhǎng)文章寫(xiě)作能力出色，但有時(shí)難以正確理解問(wèn)題。

6.豆包：回答通常較短，基本不能聯(lián)網(wǎng)查詢，難以完成測(cè)試中的多數(shù)題目。

7.360智腦：基本不能聯(lián)網(wǎng)，默認(rèn)設(shè)置效果不好，但使用預(yù)設(shè)角色（“數(shù)字人”）后有改善。

8.智譜清言：回答相對(duì)敷衍，但通常讀取了題目的所有要求。

9.商量：對(duì)基礎(chǔ)知識(shí)的調(diào)用準(zhǔn)確，但回答格式較為死板。

10.WPS AI（minimax）：在一些情況下無(wú)法正常工作。在文章總的篇幅增加時(shí)，其總結(jié)、縮寫(xiě)能力更強(qiáng)。

11.天工：AI搜索的回答字?jǐn)?shù)較少，但通過(guò)適當(dāng)追問(wèn)，可以生成可用的成品。

AI寫(xiě)作的風(fēng)格類似于GPT-4。大多數(shù)模型在不同類型的測(cè)試中表現(xiàn)都有一些問(wèn)題，需要進(jìn)一步改進(jìn)，以提供更準(zhǔn)確和有用的回答。

讀者可以注意到，我們對(duì)每個(gè)項(xiàng)目的評(píng)分基本在2到4分之間浮動(dòng)。這是因?yàn)楹茈y找到能夠獲得額外加分的項(xiàng)目，而通順的語(yǔ)言表達(dá)通常都能夠滿足要求，所以2分是實(shí)際上的“最低分”，表示當(dāng)大模型不能準(zhǔn)確理解問(wèn)題，或者答非所問(wèn)的情況。在上面的摘要中，我們也提供了一些獲得額外加分的示例。

關(guān)于聯(lián)網(wǎng)功能對(duì)大模型是否有用的問(wèn)題，我們目前只能很遺憾的回答，還不是特別有用。大部分聯(lián)網(wǎng)動(dòng)作的結(jié)果都是找到一篇文章（大概率是知乎上的），然后總結(jié)其主要內(nèi)容作為回答。它的搜索結(jié)果特別“碰運(yùn)氣”，而且往往難以對(duì)相關(guān)內(nèi)容做事實(shí)核查。

由于每個(gè)大模型的優(yōu)化方向和訓(xùn)練素材都不同，所以將它們的總分進(jìn)行比較并不是特別有意義。在處理特定問(wèn)題時(shí)，讀者可以參考相關(guān)具體項(xiàng)目的評(píng)分，結(jié)合自己的經(jīng)驗(yàn)來(lái)進(jìn)行選擇。

下一步計(jì)劃

和之前一樣，在測(cè)試過(guò)程中可能依然存在一些遺漏和不成熟的地方。我們會(huì)根據(jù)大模型的升級(jí)換代和應(yīng)用場(chǎng)景的變化，及時(shí)進(jìn)行更新，也歡迎大家在公眾號(hào)“視智未來(lái)”下關(guān)注并留言，貢獻(xiàn)出自己想問(wèn)的問(wèn)題，我們后期將再做測(cè)試。

由于時(shí)間倉(cāng)促，以下在規(guī)劃中的項(xiàng)目將會(huì)在下一次大模型評(píng)測(cè)時(shí)引入：

1.我們的未來(lái)評(píng)測(cè)將更側(cè)重于已經(jīng)聯(lián)網(wǎng)的模型。下一次評(píng)測(cè)將引入聯(lián)網(wǎng)模型專屬的一些問(wèn)題，包括但不限于：

實(shí)時(shí)新聞、天氣預(yù)報(bào)等查詢

相關(guān)新聞、時(shí)間線等查詢

產(chǎn)品比較、電影推薦等基于查詢結(jié)果的分析

股票分析、旅行建議等復(fù)雜的解決方案

事實(shí)核查和辟謠

2.本次使用的GPT-4插件VoxScript是編輯日常使用的，但效果不一定是ChatGPT眾多聯(lián)網(wǎng)插件中最好的。這次GPT-4對(duì)一些問(wèn)題令人失望的回答可能與此有關(guān)。在下次測(cè)試前，我們會(huì)首先完成對(duì)GPT-4聯(lián)網(wǎng)插件的能力測(cè)試，并確定下次使用的插件型號(hào)。

3.部分廠家有插件及多模態(tài)能力，但相對(duì)比較分散。我們會(huì)根據(jù)各廠商的后續(xù)發(fā)展，確定是否在下次測(cè)試時(shí)引入多模態(tài)類內(nèi)容。

4.翻譯也是大模型的長(zhǎng)項(xiàng)，但是由于需要專業(yè)的語(yǔ)言知識(shí)，所以我們這次不會(huì)測(cè)試翻譯相關(guān)的內(nèi)容。如果大家對(duì)此期望很高，我們會(huì)在下一次測(cè)試引入。

給讀者的建議

這次我們有一些基本建議，對(duì)于大家更好的使用AI大模型，更高效率的產(chǎn)出想要的內(nèi)容可能會(huì)有所幫助：

首先，在GPT-4沒(méi)有官方的網(wǎng)絡(luò)搜索能力時(shí)，使用第三方聯(lián)網(wǎng)插件可能反而會(huì)降低它的表現(xiàn)。由于準(zhǔn)確度較低，ChatGPT與必應(yīng)的集成在前段時(shí)間已經(jīng)暫停了。所以人們只能通過(guò)一些插件來(lái)訪問(wèn)搜索結(jié)果并將其代入GPT-4。但這些插件的工作原理各不相同，而且它們現(xiàn)在很難訪問(wèn)谷歌，大多數(shù)都改用免費(fèi)的搜索引擎DuckDuckGo，這也影響了最終能搜到的東西。另外，有一些網(wǎng)站如微信公眾號(hào)文章并不能被讀取。

在prompt要求生成結(jié)果結(jié)合網(wǎng)絡(luò)搜索之后，GPT的表現(xiàn)會(huì)變得難以預(yù)測(cè)。在實(shí)際使用中，建議大家分步來(lái)完成過(guò)程，特別是在寫(xiě)長(zhǎng)文章時(shí)。第1步，讓它先搜索網(wǎng)絡(luò)上的結(jié)果，獲得相關(guān)的文章鏈接及其摘要。第2步，再請(qǐng)它以此為基礎(chǔ)來(lái)寫(xiě)文章。如果有必要，也可以先自己搜索，然后將相關(guān)文章的純文本提供給GPT，讓它總結(jié)，讀完文章之后可以繼續(xù)寫(xiě)作。

第二，對(duì)于特定任務(wù)，使用針對(duì)性優(yōu)化過(guò)的國(guó)產(chǎn)模型，效果確實(shí)可能好于GPT。

GPT并不是不可超越的玄學(xué)。不能說(shuō)OpenAI這一家公司掌握的技術(shù)，一定比所有開(kāi)源社區(qū)共同努力的結(jié)果都好。關(guān)鍵在于，如果確實(shí)出現(xiàn)了超越，那么我們需要確定這種超越是否符合基本邏輯，以及背后的原因是什么。在本次測(cè)試中，通過(guò)發(fā)現(xiàn)GPT在特定場(chǎng)景下的弱點(diǎn)，我們對(duì)這個(gè)問(wèn)題有了更準(zhǔn)確的解釋。

與今年三月時(shí)的情況相比，現(xiàn)在國(guó)產(chǎn)大模型確實(shí)在不斷迭代進(jìn)步中。這種進(jìn)步背后的原因并不復(fù)雜，人們已經(jīng)發(fā)現(xiàn)，通過(guò)特定的素材進(jìn)行小樣本的專項(xiàng)訓(xùn)練，可以使開(kāi)源模型的表現(xiàn)超越泛用的ChatGPT。實(shí)際上，對(duì)大模型進(jìn)行小型化和本地化部署，是現(xiàn)在最常見(jiàn)的AIGC創(chuàng)業(yè)模式之一。

因此，各家公司執(zhí)行特定任務(wù)的大模型應(yīng)用，比如最常見(jiàn)的擴(kuò)寫(xiě)、縮寫(xiě)、總結(jié)、翻譯等，實(shí)際上是展示他們?cè)谒接谢渴疬@方面的技術(shù)能力。昆侖萬(wàn)維的天工大模型就分成了搜索、聊天和寫(xiě)作三個(gè)不同的功能入口，用它們來(lái)執(zhí)行同一任務(wù)，效果也不盡相同。

讀者不必迷信ChatGPT，可以根據(jù)上面測(cè)試結(jié)果和自己的經(jīng)驗(yàn)，靈活選擇最適合執(zhí)行某個(gè)任務(wù)的模型品種。

AI作圖 by 娛樂(lè)資本論

第三，別急著說(shuō)“大模型出來(lái)的東西效果不好”，應(yīng)該通過(guò)更好的提問(wèn)方法來(lái)引導(dǎo)。

實(shí)際上，在這次測(cè)試中，每個(gè)題目只使用了一個(gè)prompt，不帶追問(wèn)，這可能不會(huì)產(chǎn)生最佳結(jié)果。如前所述的結(jié)合網(wǎng)絡(luò)搜索來(lái)寫(xiě)作，就是一個(gè)通過(guò)分步驟提問(wèn)來(lái)優(yōu)化生成結(jié)果的例子。此外，如果你在提問(wèn)中提供更多的專業(yè)知識(shí)和術(shù)語(yǔ)，就會(huì)引導(dǎo)模型調(diào)用這方面的知識(shí)，從而朝著更專業(yè)的方向思考。

你可以通過(guò)自學(xué)和摸索，不斷調(diào)整提問(wèn)方式，來(lái)優(yōu)化模型的回答，也可以尋求專業(yè)提示詞優(yōu)化服務(wù)的幫助。在這里，我們也想重新推薦娛樂(lè)資本論·視智未來(lái)出品的《ChatGPT白皮書(shū)》，當(dāng)中提出了一些簡(jiǎn)單易懂的優(yōu)化提示詞基本規(guī)則。如果你對(duì)此感興趣希望進(jìn)一步了解，或者需要系統(tǒng)培訓(xùn)自己或者本企業(yè)的員工，都?xì)g迎與我們聯(lián)系，我們很愿意提供進(jìn)一步協(xié)助。

作者

文|娛樂(lè)資本論

編輯|James

這是娛樂(lè)資本論·視智未來(lái)在第一次做大語(yǔ)言模型文本應(yīng)用能力測(cè)試時(shí)，寫(xiě)下的第一句話。

時(shí)隔半年，情況發(fā)生了怎樣的變化呢？

本次測(cè)試有如下創(chuàng)新內(nèi)容：

這將是一篇特別長(zhǎng)的評(píng)測(cè)。請(qǐng)坐穩(wěn)扶好，我們現(xiàn)在出發(fā)。