正在閱讀:

我們內(nèi)測(cè)了文心一言,結(jié)果令人意想不到

掃一掃下載界面新聞APP

我們內(nèi)測(cè)了文心一言,結(jié)果令人意想不到

文心一言的初體驗(yàn),確實(shí)還沒(méi)ready。

文|硅兔賽跑 蔓蔓周

硬著頭皮也好,萬(wàn)眾期待也罷,北京時(shí)間3月16日下午,百度新一代大語(yǔ)言模型文心一言發(fā)布了。

怎么說(shuō)呢,雖然一開(kāi)始就知道可能會(huì)輸給GPT-4(李廠(chǎng)長(zhǎng)自己說(shuō):這個(gè)門(mén)檻有點(diǎn)高),但還是盼著文心一言好,盼著百度好,盼著中國(guó)首個(gè)生成式AI產(chǎn)品好。

但伴隨著發(fā)布會(huì)的,是百度港股市值的大跳水,雖然最后回調(diào)了一波,但二級(jí)市場(chǎng)對(duì)中國(guó)版“ChatGPT”似乎信心不足。

發(fā)布會(huì)期間百度股價(jià)實(shí)時(shí)數(shù)據(jù)

即使吸取了谷歌發(fā)布Bard時(shí)的前車(chē)之鑒,用提前準(zhǔn)備好的錄制視頻展示,但依然沒(méi)能阻止股價(jià)受挫。反而李廠(chǎng)長(zhǎng)的皮帶鏈接和容顏青春永駐,成了彈幕留言關(guān)注的焦點(diǎn)。

被調(diào)侃的李彥宏

據(jù)百度透露,文心一言新聞發(fā)布會(huì)后三小時(shí),企業(yè)版API調(diào)用服務(wù)測(cè)試的企業(yè)用戶(hù)達(dá)6.5萬(wàn),與百度智能云基于文心一言展開(kāi)合作咨詢(xún)達(dá)到5590條。

01 測(cè)試開(kāi)始,有驚有喜

根據(jù)發(fā)布會(huì)上的展示,文心一言具備五種能力,包括了文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解、多模態(tài)生成。

硅兔君拿到了內(nèi)測(cè)邀請(qǐng)碼后,第一時(shí)間開(kāi)始了測(cè)試。

文學(xué)創(chuàng)作

發(fā)布會(huì)緊跟潮流,用最近熱度上的《三體》,對(duì)文心一言的文學(xué)創(chuàng)作進(jìn)行展示。提出的6個(gè)問(wèn)題,文心一言都可以從容應(yīng)答。

硅兔君用《哈利波特》再考了考他(畢竟都是史詩(shī)級(jí)巨作)。

對(duì)于《哈利波特》的創(chuàng)作背景和作者簡(jiǎn)介,文心一言剛開(kāi)始給了一個(gè)“省事”的答案。

但我并不滿(mǎn)意,又問(wèn)了一遍,這個(gè)版本就明顯學(xué)術(shù)了很多。

緊接著我問(wèn)了發(fā)布會(huì)上同樣的問(wèn)題,讓文心一言為續(xù)寫(xiě)《哈利波特》提供思路,答得還可以。

硅兔君又問(wèn)了個(gè)比較八卦的感情線(xiàn)問(wèn)題:赫敏和哈利波特之間,有愛(ài)情嗎?

文心一言給出的答案建議各大明星經(jīng)紀(jì)公司參考一下,以后回應(yīng)戀情別只會(huì)發(fā)律師函。

商業(yè)文案創(chuàng)作

針對(duì)商業(yè)文案創(chuàng)作這塊,硅兔君就拿自己做個(gè)測(cè)試,提問(wèn):

如果要新建一個(gè)關(guān)于硅谷科技創(chuàng)投新聞的自媒體賬號(hào),融入“兔”這個(gè)字,可以給賬號(hào)起個(gè)什么名字?

文心一言給出的答案其實(shí)挺贊,考慮到硅谷的屬性,甚至也有英文的名字。

VentureBuddies這個(gè)名字你別說(shuō),你還真別說(shuō)~

在我給這個(gè)名字予以肯定后,讓文心一言幫我寫(xiě)個(gè)簡(jiǎn)介,畫(huà)風(fēng)直接變成了英文,不過(guò)直接給我安上了“最近在居家辦公”的設(shè)定,不知為何。

說(shuō)實(shí)話(huà)不咋地,亂七八糟的。

邏輯數(shù)理

邏輯數(shù)理推算是生成式大模型的一道坎兒,不僅考數(shù)理,更考邏輯。

發(fā)布會(huì)上用了ChatGPT剛上線(xiàn)時(shí)翻車(chē)過(guò)的的雞兔同籠,文心一言能發(fā)現(xiàn)問(wèn)題中的錯(cuò)誤并在糾正后正確回答出來(lái)。

可當(dāng)硅兔君嘗試問(wèn)了幾個(gè)小學(xué)生邏輯數(shù)學(xué)題,文心一言翻車(chē)了!

張老師15年前15歲,15年后多少歲?

文心一言答錯(cuò)了,怕描述不夠清楚又問(wèn)一遍,依然令人遺憾...

(知道答案的朋友可以評(píng)論區(qū)見(jiàn),看看多少人答對(duì))

接著問(wèn)了個(gè)更繞的:

一個(gè)西瓜進(jìn)價(jià)50元,賣(mài)了70元,老板收了100元假幣,請(qǐng)問(wèn)老板一共損失多少錢(qián)?

這個(gè)問(wèn)題同樣問(wèn)了ChatGPT,它一頓邏輯推理瘋狂輸出之后,給出了一個(gè)不同答案。

事情變得很有意思了,你們說(shuō)誰(shuí)對(duì)?

中文理解

在中文理解上,硅兔君用了常被錯(cuò)誤理解的成語(yǔ)來(lái)提問(wèn),結(jié)果ChatGPT確實(shí)錯(cuò)誤地學(xué)習(xí)了現(xiàn)代用法。

“差強(qiáng)人意”是什么意思?

正確答案

錯(cuò)誤答案

一題見(jiàn)分曉,這一局文心一言完勝了。

多模態(tài)生成

最后,也是最令人期待的多模態(tài)生成。硅兔君按照發(fā)布會(huì)的語(yǔ)言范本試了兩次,都沒(méi)有給出滿(mǎn)意的答案,不得不說(shuō)和GPT-4的差距不是一點(diǎn)半點(diǎn)。

生成視頻方面也沒(méi)有實(shí)現(xiàn),并且給出了“無(wú)法生成視頻”的回復(fù)(難怪發(fā)布會(huì)上用的錄像,不然大型翻車(chē)現(xiàn)場(chǎng))。

還有一個(gè)被忽略的點(diǎn)就是編程能力,在發(fā)布會(huì)上并沒(méi)有展現(xiàn),也是ChatGPT的優(yōu)勢(shì)之一。硅兔君讓文心一言用C語(yǔ)言編一個(gè)小游戲,這是它給出的回答:

02 文心一言 vs ChatGPT

作為一個(gè)人工智能語(yǔ)言模型,ChatGPT也存在一些缺點(diǎn)和局限性。以下是我對(duì)ChatGPT的缺點(diǎn)評(píng)價(jià):

1. 知識(shí)庫(kù)的深度和廣度仍需要進(jìn)一步提高:雖然ChatGPT可以回答各種領(lǐng)域的問(wèn)題,但它的知識(shí)庫(kù)還不夠完備,有些問(wèn)題可能無(wú)法找到合適的回答。

2. 生成式對(duì)話(huà)的質(zhì)量還有待提高:盡管ChatGPT可以生成自然流暢的對(duì)話(huà),但它的生成式對(duì)話(huà)還不如人類(lèi)專(zhuān)業(yè)演員,有時(shí)可能會(huì)出現(xiàn)口誤或重復(fù)等問(wèn)題。

3. 某些情況下可能會(huì)出現(xiàn)錯(cuò)誤或不準(zhǔn)確的回答:由于訓(xùn)練數(shù)據(jù)的限制,ChatGPT在某些情況下可能無(wú)法正確理解用戶(hù)的意圖,或者回答內(nèi)容可能不夠準(zhǔn)確或恰當(dāng)。

4. 依賴(lài)于預(yù)先訓(xùn)練的數(shù)據(jù)集:目前的ChatGPT主要是基于文本進(jìn)行對(duì)話(huà)生成的,如果未來(lái)想要擴(kuò)展功能或使用場(chǎng)景,可能需要更多地依賴(lài)于預(yù)先訓(xùn)練的數(shù)據(jù)集,這會(huì)增加開(kāi)發(fā)難度和維護(hù)成本。

5. 中文表達(dá)能力有待改進(jìn):作為一個(gè)英文名稱(chēng)為GPT的機(jī)器學(xué)習(xí)模型,其中文名稱(chēng)“小微”似乎并沒(méi)有體現(xiàn)出與真實(shí)世界中的Micronesia相關(guān)的含義和特點(diǎn),這可能會(huì)影響其普及程度和應(yīng)用范圍。

總之,盡管ChatGPT在許多方面都表現(xiàn)出色,但它也存在一些缺點(diǎn)和局限性。

以上是文心一言對(duì)ChatGPT的評(píng)價(jià),把人家的缺點(diǎn)安排得明明白白。

麥克風(fēng)交給ChatGPT,很遺憾,它好像還不知道文心一言的到來(lái)...

總的來(lái)講,百度這波發(fā)布,正如李彥宏所說(shuō):“因?yàn)橛惺袌?chǎng)需求,百度各個(gè)產(chǎn)品線(xiàn),大家都在等著用這樣的技術(shù)?!?/p>

(都在催,不得不趕緊上線(xiàn))

也如李彥宏所說(shuō):“懷胎十月,一朝分娩?!?/p>

(我們還只是個(gè)孩子)

不過(guò)全世界都知道前一天GPT-4的問(wèn)世,在這個(gè)節(jié)骨眼上頂著壓力發(fā)布產(chǎn)品的勇氣還是值得肯定的。

硅兔君認(rèn)為我們需要做的,是再給一些耐心。就如開(kāi)頭說(shuō)的那樣——我們都盼著它好。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

我們內(nèi)測(cè)了文心一言,結(jié)果令人意想不到

文心一言的初體驗(yàn),確實(shí)還沒(méi)ready。

文|硅兔賽跑 蔓蔓周

硬著頭皮也好,萬(wàn)眾期待也罷,北京時(shí)間3月16日下午,百度新一代大語(yǔ)言模型文心一言發(fā)布了。

怎么說(shuō)呢,雖然一開(kāi)始就知道可能會(huì)輸給GPT-4(李廠(chǎng)長(zhǎng)自己說(shuō):這個(gè)門(mén)檻有點(diǎn)高),但還是盼著文心一言好,盼著百度好,盼著中國(guó)首個(gè)生成式AI產(chǎn)品好。

但伴隨著發(fā)布會(huì)的,是百度港股市值的大跳水,雖然最后回調(diào)了一波,但二級(jí)市場(chǎng)對(duì)中國(guó)版“ChatGPT”似乎信心不足。

發(fā)布會(huì)期間百度股價(jià)實(shí)時(shí)數(shù)據(jù)

即使吸取了谷歌發(fā)布Bard時(shí)的前車(chē)之鑒,用提前準(zhǔn)備好的錄制視頻展示,但依然沒(méi)能阻止股價(jià)受挫。反而李廠(chǎng)長(zhǎng)的皮帶鏈接和容顏青春永駐,成了彈幕留言關(guān)注的焦點(diǎn)。

被調(diào)侃的李彥宏

據(jù)百度透露,文心一言新聞發(fā)布會(huì)后三小時(shí),企業(yè)版API調(diào)用服務(wù)測(cè)試的企業(yè)用戶(hù)達(dá)6.5萬(wàn),與百度智能云基于文心一言展開(kāi)合作咨詢(xún)達(dá)到5590條。

01 測(cè)試開(kāi)始,有驚有喜

根據(jù)發(fā)布會(huì)上的展示,文心一言具備五種能力,包括了文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解、多模態(tài)生成。

硅兔君拿到了內(nèi)測(cè)邀請(qǐng)碼后,第一時(shí)間開(kāi)始了測(cè)試。

文學(xué)創(chuàng)作

發(fā)布會(huì)緊跟潮流,用最近熱度上的《三體》,對(duì)文心一言的文學(xué)創(chuàng)作進(jìn)行展示。提出的6個(gè)問(wèn)題,文心一言都可以從容應(yīng)答。

硅兔君用《哈利波特》再考了考他(畢竟都是史詩(shī)級(jí)巨作)。

對(duì)于《哈利波特》的創(chuàng)作背景和作者簡(jiǎn)介,文心一言剛開(kāi)始給了一個(gè)“省事”的答案。

但我并不滿(mǎn)意,又問(wèn)了一遍,這個(gè)版本就明顯學(xué)術(shù)了很多。

緊接著我問(wèn)了發(fā)布會(huì)上同樣的問(wèn)題,讓文心一言為續(xù)寫(xiě)《哈利波特》提供思路,答得還可以。

硅兔君又問(wèn)了個(gè)比較八卦的感情線(xiàn)問(wèn)題:赫敏和哈利波特之間,有愛(ài)情嗎?

文心一言給出的答案建議各大明星經(jīng)紀(jì)公司參考一下,以后回應(yīng)戀情別只會(huì)發(fā)律師函。

商業(yè)文案創(chuàng)作

針對(duì)商業(yè)文案創(chuàng)作這塊,硅兔君就拿自己做個(gè)測(cè)試,提問(wèn):

如果要新建一個(gè)關(guān)于硅谷科技創(chuàng)投新聞的自媒體賬號(hào),融入“兔”這個(gè)字,可以給賬號(hào)起個(gè)什么名字?

文心一言給出的答案其實(shí)挺贊,考慮到硅谷的屬性,甚至也有英文的名字。

VentureBuddies這個(gè)名字你別說(shuō),你還真別說(shuō)~

在我給這個(gè)名字予以肯定后,讓文心一言幫我寫(xiě)個(gè)簡(jiǎn)介,畫(huà)風(fēng)直接變成了英文,不過(guò)直接給我安上了“最近在居家辦公”的設(shè)定,不知為何。

說(shuō)實(shí)話(huà)不咋地,亂七八糟的。

邏輯數(shù)理

邏輯數(shù)理推算是生成式大模型的一道坎兒,不僅考數(shù)理,更考邏輯。

發(fā)布會(huì)上用了ChatGPT剛上線(xiàn)時(shí)翻車(chē)過(guò)的的雞兔同籠,文心一言能發(fā)現(xiàn)問(wèn)題中的錯(cuò)誤并在糾正后正確回答出來(lái)。

可當(dāng)硅兔君嘗試問(wèn)了幾個(gè)小學(xué)生邏輯數(shù)學(xué)題,文心一言翻車(chē)了!

張老師15年前15歲,15年后多少歲?

文心一言答錯(cuò)了,怕描述不夠清楚又問(wèn)一遍,依然令人遺憾...

(知道答案的朋友可以評(píng)論區(qū)見(jiàn),看看多少人答對(duì))

接著問(wèn)了個(gè)更繞的:

一個(gè)西瓜進(jìn)價(jià)50元,賣(mài)了70元,老板收了100元假幣,請(qǐng)問(wèn)老板一共損失多少錢(qián)?

這個(gè)問(wèn)題同樣問(wèn)了ChatGPT,它一頓邏輯推理瘋狂輸出之后,給出了一個(gè)不同答案。

事情變得很有意思了,你們說(shuō)誰(shuí)對(duì)?

中文理解

在中文理解上,硅兔君用了常被錯(cuò)誤理解的成語(yǔ)來(lái)提問(wèn),結(jié)果ChatGPT確實(shí)錯(cuò)誤地學(xué)習(xí)了現(xiàn)代用法。

“差強(qiáng)人意”是什么意思?

正確答案

錯(cuò)誤答案

一題見(jiàn)分曉,這一局文心一言完勝了。

多模態(tài)生成

最后,也是最令人期待的多模態(tài)生成。硅兔君按照發(fā)布會(huì)的語(yǔ)言范本試了兩次,都沒(méi)有給出滿(mǎn)意的答案,不得不說(shuō)和GPT-4的差距不是一點(diǎn)半點(diǎn)。

生成視頻方面也沒(méi)有實(shí)現(xiàn),并且給出了“無(wú)法生成視頻”的回復(fù)(難怪發(fā)布會(huì)上用的錄像,不然大型翻車(chē)現(xiàn)場(chǎng))。

還有一個(gè)被忽略的點(diǎn)就是編程能力,在發(fā)布會(huì)上并沒(méi)有展現(xiàn),也是ChatGPT的優(yōu)勢(shì)之一。硅兔君讓文心一言用C語(yǔ)言編一個(gè)小游戲,這是它給出的回答:

02 文心一言 vs ChatGPT

作為一個(gè)人工智能語(yǔ)言模型,ChatGPT也存在一些缺點(diǎn)和局限性。以下是我對(duì)ChatGPT的缺點(diǎn)評(píng)價(jià):

1. 知識(shí)庫(kù)的深度和廣度仍需要進(jìn)一步提高:雖然ChatGPT可以回答各種領(lǐng)域的問(wèn)題,但它的知識(shí)庫(kù)還不夠完備,有些問(wèn)題可能無(wú)法找到合適的回答。

2. 生成式對(duì)話(huà)的質(zhì)量還有待提高:盡管ChatGPT可以生成自然流暢的對(duì)話(huà),但它的生成式對(duì)話(huà)還不如人類(lèi)專(zhuān)業(yè)演員,有時(shí)可能會(huì)出現(xiàn)口誤或重復(fù)等問(wèn)題。

3. 某些情況下可能會(huì)出現(xiàn)錯(cuò)誤或不準(zhǔn)確的回答:由于訓(xùn)練數(shù)據(jù)的限制,ChatGPT在某些情況下可能無(wú)法正確理解用戶(hù)的意圖,或者回答內(nèi)容可能不夠準(zhǔn)確或恰當(dāng)。

4. 依賴(lài)于預(yù)先訓(xùn)練的數(shù)據(jù)集:目前的ChatGPT主要是基于文本進(jìn)行對(duì)話(huà)生成的,如果未來(lái)想要擴(kuò)展功能或使用場(chǎng)景,可能需要更多地依賴(lài)于預(yù)先訓(xùn)練的數(shù)據(jù)集,這會(huì)增加開(kāi)發(fā)難度和維護(hù)成本。

5. 中文表達(dá)能力有待改進(jìn):作為一個(gè)英文名稱(chēng)為GPT的機(jī)器學(xué)習(xí)模型,其中文名稱(chēng)“小微”似乎并沒(méi)有體現(xiàn)出與真實(shí)世界中的Micronesia相關(guān)的含義和特點(diǎn),這可能會(huì)影響其普及程度和應(yīng)用范圍。

總之,盡管ChatGPT在許多方面都表現(xiàn)出色,但它也存在一些缺點(diǎn)和局限性。

以上是文心一言對(duì)ChatGPT的評(píng)價(jià),把人家的缺點(diǎn)安排得明明白白。

麥克風(fēng)交給ChatGPT,很遺憾,它好像還不知道文心一言的到來(lái)...

總的來(lái)講,百度這波發(fā)布,正如李彥宏所說(shuō):“因?yàn)橛惺袌?chǎng)需求,百度各個(gè)產(chǎn)品線(xiàn),大家都在等著用這樣的技術(shù)?!?/p>

(都在催,不得不趕緊上線(xiàn))

也如李彥宏所說(shuō):“懷胎十月,一朝分娩。”

(我們還只是個(gè)孩子)

不過(guò)全世界都知道前一天GPT-4的問(wèn)世,在這個(gè)節(jié)骨眼上頂著壓力發(fā)布產(chǎn)品的勇氣還是值得肯定的。

硅兔君認(rèn)為我們需要做的,是再給一些耐心。就如開(kāi)頭說(shuō)的那樣——我們都盼著它好。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。