文|多鯨資本 蔣錚
自今年三月份 OpenAI 發(fā)布 GPT-3.5 以來,至今已有半年時(shí)間。短短半年內(nèi),國內(nèi)外科技公司紛紛效仿,于半年內(nèi)陸續(xù)推出了通用大模型。除了像 BAT 這樣勢(shì)頭強(qiáng)勁的老牌互聯(lián)網(wǎng)公司,大模型的垂直類端口也取得了革命性的突破。在其中,教育板塊,由于其自身帶有的各種屬性,包括對(duì)于知識(shí)資源的需求,對(duì)于對(duì)話交際的依賴,與大模型的結(jié)合呈現(xiàn)出高度匹配性。教育,成了大模型的下一塊必爭之地。
隨著 AIGC 概念興起,大模型賦能的智能學(xué)習(xí)硬件、AI 語言教學(xué)、AI 虛擬老師等產(chǎn)品也隨之吸引了一大波關(guān)注?!复竽P湍芊裉娲蠋煹穆毮堋惯@一議題,掀起了各方熱議。
近日,各地 2023 年下半年教師資格考試落下帷幕。教師工作司司長任友群在 9 月 6 日教育部舉行的新聞發(fā)布會(huì)上表示,教師資格考試和定期注冊(cè)制度已全面實(shí)行,教師資格考試報(bào)名人數(shù)由 17.2 萬人次躍升至今年的 1144.2 萬人次。由此,筆者萌生了用教資試題這塊「試金石」,測(cè)驗(yàn)大模型能否成為「教師的教師」的想法,并選取了科大訊飛的訊飛星火大模型、百度的文心一言以及阿里的通義千問這三個(gè)通用大模型進(jìn)行檢驗(yàn)。
根據(jù)考綱,教師資格筆試主要考核申請(qǐng)人從事教師職業(yè)所具備的的教育理念、職業(yè)道德和教育法律法規(guī)知識(shí);科學(xué)文化素養(yǎng)和閱讀理解、語言表達(dá)、邏輯推理和信息處理等基本能力;教育教學(xué)、學(xué)生指導(dǎo)和班級(jí)管理的基本知識(shí);擬任教學(xué)科 (專業(yè))領(lǐng)域的基本知識(shí),教學(xué)設(shè)計(jì)、實(shí)施、評(píng)價(jià)的知識(shí)和方式,運(yùn)用所學(xué)知識(shí)分析等。
本文選取了 2023 上半年教師資格證《幼兒綜合素質(zhì)》、《小學(xué)教育教學(xué)知識(shí)與能力》、《中學(xué)綜合素質(zhì)》的筆試真題。題目范圍覆蓋學(xué)科常識(shí)、邏輯判斷、規(guī)范條例、綜合素質(zhì)等多個(gè)方面,力求從多維度比較衡量大模型答題能力。除了最基本的準(zhǔn)確性之外,如果想讓大模型「當(dāng)老師」,其給出的回答也應(yīng)該具備一定的邏輯性和知識(shí)補(bǔ)充作用。更有甚者,如果為了「追趕」真人教學(xué)效果,答題技巧也成了必要的一環(huán)。
圖片順序從上往下依次為科大訊飛的訊飛星火大模型、百度的文心一言以及阿里的通義千問。
1、在 Word 編輯狀態(tài),選擇了文檔全文,要在段落對(duì)話框中設(shè)置行距為 20 磅的格式,下列選項(xiàng)中應(yīng)選擇的是( D )。
A.單倍行距
B.1.5倍行距
C.2倍行距
D.固定值
計(jì)算機(jī)辦公軟件應(yīng)用常識(shí)題,三者都實(shí)現(xiàn)了正確作答。文心一言的回答對(duì)于 Word 行間距的知識(shí)點(diǎn)進(jìn)行了補(bǔ)充。
2、學(xué)齡兒童易感染麻疹病毒。該病毒傳播的主要途徑是(C)。
A.血液
B.消化道
C.呼吸道
D.蚊蟲叮咬
均正確作答,訊飛星火的解釋最優(yōu),列舉了易感的現(xiàn)實(shí)場(chǎng)景,加深本題記憶。
3、中位數(shù)是一組統(tǒng)計(jì)數(shù)據(jù)中的代表性數(shù)值。在一次考試后采集到一組數(shù)據(jù){ 54,66,87,74,78,81,73,83,77 },則這組數(shù)據(jù)的中位數(shù)是( C )。
A.74
B.75
C.77
D.78
均正確作答,訊飛星火對(duì)中位數(shù)概念進(jìn)行了詳細(xì)的補(bǔ)充,并和文心一言一同給出了作答過程。在諸多對(duì)于大模型的測(cè)評(píng)中,數(shù)學(xué)能力普遍成為國產(chǎn)大模型的薄弱項(xiàng),即使是最先進(jìn)的大語言模型也難以正確地回答大量數(shù)學(xué)問題。本題因?yàn)榻藤Y學(xué)科常識(shí)題,題面設(shè)置簡單,而面對(duì)實(shí)際生活中或者數(shù)學(xué)競賽題中眾多的「彎彎繞繞」,還是要警惕大模型產(chǎn)生的「幻覺」。
4、在組織活動(dòng)教學(xué)幼兒認(rèn)識(shí)圖形時(shí),李老師說:「請(qǐng)小朋友找出活動(dòng)室里有圓形和正方形的物品」,李老師的做法體現(xiàn)的幼兒教育的特點(diǎn)是( D )。
A.基礎(chǔ)性
B.整體性
C.淺顯性
D.生活性
均作答準(zhǔn)確,文心一言表現(xiàn)更加突出。訊飛星火僅給出答案,而通義千問的答案更像把題目復(fù)述了一遍,文心一言則對(duì)于相關(guān)規(guī)范以及作答模板呈現(xiàn)出了一定的專業(yè)性,在提供答案的同時(shí)起到了知識(shí)點(diǎn)補(bǔ)足的作用。
5、下列選項(xiàng)中,與「侗服——服裝」的邏輯關(guān)系相同的是( B )。
A.「語文」和「文學(xué)」
B.「汽水」和「飲料」
C.「領(lǐng)帶」和」"圍巾」
D.「皮鞋」和「皮包」
作答均正確,文心一言在答題的基礎(chǔ)上對(duì)每個(gè)選項(xiàng)進(jìn)行了詳盡的說明,包括對(duì)于「交叉關(guān)系」、「種屬關(guān)系」和「并列關(guān)系」專業(yè)名詞的解釋。
6、「 10 以內(nèi)的數(shù)字」一課教學(xué)結(jié)束時(shí),為鞏固所學(xué)內(nèi)容,李老師讓學(xué)生誦讀兒歌:「1 像鉛筆細(xì)長條, 2 像小鴨水上漂,3 像耳朵聽聲音, 4 像小旗迎風(fēng)飄......」這種結(jié)課方式屬于( C )。
A.自然式
B.總結(jié)式
C.游戲式
D.懸念式
訊飛星火作答錯(cuò)誤,并沒有給出具體的解釋。通義千問的回答還是存在著「復(fù)讀機(jī)」的毛病。值得一提的是,筆者將本題歸類到「邏輯判斷」中,是由于學(xué)生真人在進(jìn)行作答時(shí),盡管可能沒有對(duì)于相關(guān)知識(shí)點(diǎn)進(jìn)行背誦,但仍然可以根據(jù)每個(gè)選項(xiàng)的字面闡發(fā)聯(lián)想,進(jìn)而推理得到正確答案。而大模型進(jìn)行作答時(shí),盡管也體現(xiàn)了一定的邏輯判斷能力,其根基還是由海量數(shù)據(jù)投喂而成,由此喪失了一定的靈活性。
7、明明的父母怠于履行監(jiān)護(hù)者義務(wù),讓明明長期處于無人照顧的狀態(tài),根據(jù)《中華人民共和國未成年保護(hù)法》,當(dāng)?shù)孛裾块T應(yīng)當(dāng)采取的措施是( A )。
A.對(duì)明明進(jìn)行臨時(shí)監(jiān)護(hù)
B.對(duì)明明進(jìn)行長期監(jiān)護(hù)
C.撤銷明明父母的監(jiān)護(hù)資格
D.追究明明父母的刑事責(zé)任
通義千問回答錯(cuò)誤。其他兩個(gè)大模型均引述了《中華人民共和國未成年保護(hù)法》條例,訊飛星火具體定位到了條例的第四十二條,而文心一言則對(duì)于此列舉得更加全面,主體界定更加清晰,同時(shí)也指出了 C 混淆選項(xiàng)的錯(cuò)誤。對(duì)于法院,可以依法撤銷監(jiān)護(hù)人的資格;對(duì)于民政部門,可以進(jìn)行臨時(shí)監(jiān)護(hù)。
本部分選擇了三道綜合性題目,分別從教學(xué)觀念、教育設(shè)計(jì)和師風(fēng)引導(dǎo)方面分析大模型的作答能力。從總體的篇幅和結(jié)構(gòu)可以看出,大模型已經(jīng)比較能夠勝任長段落文字的輸出,并且均體現(xiàn)了一定的答題技巧和結(jié)構(gòu),尤其是在「教學(xué)設(shè)計(jì)」一環(huán)節(jié),表現(xiàn)得頗為出彩,環(huán)節(jié)詳盡。
8、周老師組織「太陽當(dāng)空照」教學(xué)活動(dòng)時(shí),陽陽舉起手,大聲地問:「老師,哪里有太陽,根本看不見啊!」周老師說:「看不見太陽?那太陽到哪里去了呢?」陽陽眨著眼睛,想了一會(huì)兒說:「我媽媽說了,太陽讓烏云遮住了?!?/p>
問題:請(qǐng)結(jié)合材料,從教育觀的角度,評(píng)析周老師的教育行為。
9、如指導(dǎo)第二學(xué)段學(xué)生學(xué)習(xí)本文,試擬定教學(xué)目標(biāo),并設(shè)計(jì)第一課時(shí)教學(xué)活動(dòng)并簡要說明理由。
遠(yuǎn)看長城,它像一條長龍,在崇山峻嶺之間蜿蜒盤旋。從東頭的山海關(guān)到西頭的嘉峪關(guān),有一萬三千多里。
長城修筑在八達(dá)嶺上,高大堅(jiān)固,是用巨大的石條和城磚筑成的城墻頂上像很寬的馬路,五六匹馬可以并行。城墻外沿有兩米多高的垛子,垛子上有瞭望口和射口,每隔三百多米就有一座方形的城臺(tái),是屯兵的堡壘。打仗的時(shí)候,城臺(tái)之間可以可以互相呼應(yīng)。
想起古代建筑的勞動(dòng)人民來,單看這數(shù)不清的石塊,一塊就有兩三千斤重,那時(shí)候沒有火車,汽車,沒有起重機(jī),就靠著無數(shù)的肩膀,無數(shù)的手,一步一步的抬上這陡峭的山嶺。多少勞動(dòng)人民的血汗和智慧,才凝結(jié)成這前不見頭,后不見尾的萬里長城。這樣氣魄雄偉的工程,在世界歷史上是一個(gè)偉大的奇跡。
通義千問此題表現(xiàn)不佳,沒有成功提煉出題干多段文本中的答題要求,而訊飛星火和文心一言均表現(xiàn)不錯(cuò),課程環(huán)節(jié)設(shè)計(jì)體現(xiàn)出了一定的遞進(jìn)性。
10、初一時(shí),曉斌經(jīng)常逃課去網(wǎng)吧,還學(xué)會(huì)了抽煙,在學(xué)校,為了顯示自己的「厲害」,他經(jīng)常欺負(fù)其他同學(xué),不遵守班級(jí)紀(jì)律,同學(xué)們對(duì)他避而遠(yuǎn)之,班主任說他「無藥可救」,曉斌反駁說:「對(duì)啊,我沒人管沒人問的!我就是無藥可救!不要你管!」
初二時(shí),班主任換成了李老師,李老師一開學(xué)就認(rèn)真了解班級(jí)每個(gè)同學(xué)的情況,給每個(gè)同學(xué)建立成長檔案,通過跟班級(jí)同學(xué)和其他老師的交流,他發(fā)現(xiàn)曉斌「變壞」是從他父母離婚后開始的,李老師還發(fā)現(xiàn),曉斌雖然有些壞毛病,但也有一些特長,比如他籃球打得好,曾經(jīng)帶領(lǐng)班級(jí)籃球隊(duì)參加比賽獲過獎(jiǎng),還喜歡做航模,李老師耐心與曉斌進(jìn)行溝通,讓曉斌擔(dān)任籃球隊(duì)隊(duì)長并領(lǐng)頭組建航模社團(tuán)。在班級(jí)里,李老師安排學(xué)習(xí)委員做他的同桌,在學(xué)習(xí)上給他提供幫助。隨后,李老師主動(dòng)聯(lián)系曉斌的父母,反映曉斌的情況,希望他們給予曉斌更多關(guān)愛。在李老師耐心地幫助和引導(dǎo)下,曉斌逐漸轉(zhuǎn)變了態(tài)度,學(xué)習(xí)成績也不斷提高。
問題:請(qǐng)結(jié)合材料,從教師職業(yè)道德的角度,評(píng)析李老師的教育行為。
三者回答格式基本正確,基本遵守了「定性+分段回答」的格式,而文心一言和通義千問的回答則彰顯出了一定的技巧性,比如,將要點(diǎn)作為短句精華放置在每個(gè)段落的最前,從人工批閱的角度看更加符合閱卷規(guī)律,而不是直接分析材料,容易導(dǎo)致誤差。
本次測(cè)評(píng)中,筆者選取了教資考試中的部分題目,選取了科大訊飛的訊飛星火大模型、百度的文心一言以及阿里的通義千文這三款國產(chǎn)大模型進(jìn)行了一個(gè)比較粗糙的測(cè)評(píng)。題目范圍覆蓋學(xué)科常識(shí)、邏輯判斷、規(guī)范條例、綜合素質(zhì)等多個(gè)方面,也是想從多個(gè)維度去考察大模型的真實(shí)能力。
僅從本次測(cè)評(píng)來看,文心一言的回答呈現(xiàn)出最高的準(zhǔn)確性和規(guī)范性,更符合考生的需求。比如,除了提供正確答案之外,對(duì)于題目中所要考察的知識(shí)點(diǎn)也進(jìn)行了補(bǔ)充和追溯,在綜合大題中也注意到了一些考試技巧。當(dāng)然,這一結(jié)果與訓(xùn)練數(shù)據(jù)庫包含內(nèi)容掛鉤,所謂的「答題技巧」的呈現(xiàn)也存在偶然性,不能因此判斷各個(gè)廠商是否在訓(xùn)練過程中有意地引導(dǎo)。不過,這依然使得一些能夠優(yōu)化改進(jìn)點(diǎn)的地方浮現(xiàn)出水面。
使用大模型進(jìn)行題目作答,并非突發(fā)奇想,而是本在今年三月 GPT-3.5 出示之時(shí),就有相關(guān)預(yù)測(cè)表示,大模型強(qiáng)大的文本生成能力能夠使其成為教師進(jìn)行備課和教案制作的好幫手,從而幫助老師們減負(fù)增效,更好地將精力投入到課堂教學(xué)中去。三月以來,已經(jīng)有多家公司公開宣稱已經(jīng)將大模型運(yùn)用到機(jī)構(gòu)的教案編撰、繪本編寫等環(huán)節(jié)中去,極大地加快了企業(yè)內(nèi)容生產(chǎn)的流程,并壓縮了其中的人力成本。
相信,如果在人工二次校對(duì)的基礎(chǔ)上,使用國產(chǎn)大模型對(duì)于歷年教資材料進(jìn)行梳理,其速度也將遠(yuǎn)遠(yuǎn)快于手工編寫,并且還能形成一套對(duì)話系統(tǒng)幫助考生鞏固知識(shí)點(diǎn)。我們已經(jīng)能從中看出各大國產(chǎn)大模型的進(jìn)步以及長足的野心。在未來,期待各個(gè)國產(chǎn)大模型能夠充分發(fā)揮好技術(shù)特點(diǎn),在正確性、規(guī)范性和個(gè)性化上不斷取得突破,長效賦能未來教育。