文|深途 黎明
編輯|艾小佳
ChatGPT爆火之后,AI大模型成為眾多科技公司追逐的熱點(diǎn)。從聊天對(duì)話,到圖像生成,再到桌面辦公,仿佛AI在一夜之間具備了顛覆一切的神力。
熱潮蔓延至汽車行業(yè),從業(yè)者開始思考:讓GPT造車,是否可行?
有車企宣布將應(yīng)用大模型技術(shù),也有車企稱要接入第三方大模型,還有車企搶著發(fā)布了帶有GPT字眼的自動(dòng)駕駛系統(tǒng)。
有從業(yè)者對(duì)深途說,智能座艙和自動(dòng)駕駛,或?qū)⑹谴竽P妥钕葢?yīng)用的場(chǎng)景。這其中,尤以自動(dòng)駕駛最讓人期待。
自動(dòng)駕駛是一個(gè)難度極高的賽道。除了谷歌、百度等科技巨頭,一大批天才創(chuàng)業(yè)者投身其中,燒掉數(shù)十億美金,至今也沒達(dá)到讓人滿意的效果。
AI大模型殺入自動(dòng)駕駛,這次會(huì)不一樣嗎?
GPT跟汽車,有幾毛錢關(guān)系?
GPT跟汽車,表面看無(wú)直接關(guān)聯(lián),實(shí)則淵源很深。故事得從六年前說起。
2017年6月,特斯拉的老板馬斯克,從OpenAI挖走了一個(gè)斯洛伐克籍的研究員。這個(gè)人叫Andrej Karpathy,他后來(lái)成為特斯拉的AI總監(jiān)。
當(dāng)時(shí)馬斯克對(duì)人工智能表現(xiàn)出極大興趣,他也是OpenAI的捐資創(chuàng)辦人之一。把Andrej Karpathy招致麾下不久,馬斯克離開OpenAI董事會(huì),他認(rèn)為特斯拉和OpenAI都在研究AI,未來(lái)可能發(fā)生利益沖突。
后來(lái),Andrej Karpathy在特斯拉重寫了自動(dòng)駕駛算法,開發(fā)出BEV純視覺感知技術(shù),讓特斯拉自動(dòng)駕駛進(jìn)入新階段。而他的前東家OpenAI,則將全部籌碼押注在通用人工智能,最終研發(fā)出GPT。
從產(chǎn)品角度看,OpenAI的GPT和特斯拉的BEV,是完全不同的物種。但從技術(shù)底層來(lái)看,它們都依托人工智能技術(shù),尤其是對(duì)谷歌Transformer模型進(jìn)行了應(yīng)用。
Transformer是一種深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)架構(gòu),由谷歌的8位AI科學(xué)家在2017年提出。這是人工智能行業(yè)極其重要的一項(xiàng)發(fā)明,今天大火的ChatGPT中的“T”,就是指Transformer大模型。
與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)RNN和CNN不同,Transformer通過自我注意力機(jī)制,去挖掘序列中不同元素的聯(lián)系及相關(guān)性,具有很好的時(shí)序數(shù)據(jù)處理能力。這讓它在機(jī)器翻譯、文本摘要、問答系統(tǒng)等任務(wù)上,展現(xiàn)出突出的性能。
因此Transformer一開始被人們用在NLP(高級(jí)自然語(yǔ)言處理)領(lǐng)域,用于理解人類的文本和語(yǔ)言。
在Transformer模型上進(jìn)行預(yù)訓(xùn)練,經(jīng)過不斷的微調(diào)、迭代,OpenAI相繼推出了GPT-1、GPT-2、GPT-3、GPT-4等語(yǔ)言訓(xùn)練大模型。ChatGPT是OpenAI對(duì)GPT-3模型微調(diào)后開發(fā)出來(lái)的對(duì)話機(jī)器人。由于它能以對(duì)話的方式進(jìn)行交互,普通人很好上手,且比過去的聊天機(jī)器人顯得更“聰明”,因此大放異彩。
從根本上,ChatGPT的GPT模型、谷歌的LaMDA大模型,以及百度的文心大模型,同宗同源。
來(lái)源 / pexels
將Transformer模型用于自然語(yǔ)言,誕生了ChatGPT這樣的聊天應(yīng)用;將它用在計(jì)算機(jī)視覺,同樣取得了驚人的效果,這方面的先行者是特斯拉。
Andrej Karpathy在擔(dān)任特斯拉AI總監(jiān)期間,負(fù)責(zé)領(lǐng)導(dǎo)自動(dòng)駕駛的計(jì)算機(jī)視覺團(tuán)隊(duì),通過結(jié)合Transformer模型,特斯拉成功開發(fā)出BEV技術(shù)。
BEV全稱是Bird's Eye View,即鳥瞰圖。它可以將攝像頭拍攝的2D圖像拼接轉(zhuǎn)化為3D圖像,統(tǒng)一轉(zhuǎn)換到俯視角度下進(jìn)行處理,形成“上帝視角”。這么做的原因是:開車是在三維空間中進(jìn)行的,人看到的是立體的世界,而不是2D的圖像。
這項(xiàng)全新的感知方案,在2021年8月的特斯拉AI DAY上由Andrej Karpathy對(duì)外展示。為此特斯拉不惜重寫了自動(dòng)駕駛算法,對(duì)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)設(shè)施進(jìn)行了重構(gòu)。
這是大模型技術(shù)首次被應(yīng)用到自動(dòng)駕駛行業(yè)。
今天回過頭來(lái)看,雖然GPT目前主要應(yīng)用在自然語(yǔ)言處理領(lǐng)域,我們并不能讓GPT去駕駛一輛汽車,但它背后的AI大模型技術(shù),尤其是Transformer架構(gòu),實(shí)際上早就已經(jīng)在自動(dòng)駕駛領(lǐng)域應(yīng)用了。
從自然語(yǔ)言處理到計(jì)算機(jī)視覺,兩個(gè)領(lǐng)域基于Transformer架構(gòu)在建模結(jié)構(gòu)上實(shí)現(xiàn)了統(tǒng)一,使聯(lián)合建模更加容易。
而隨著對(duì)AI的理解加深,汽車公司越來(lái)越像人工智能公司。除了特斯拉,理想汽車在今年初公布公司愿景,聲稱要在2030年成為一家人工智能企業(yè)。它將在今年推出的城市NOA導(dǎo)航輔助駕駛系統(tǒng),技術(shù)支撐就是BEV感知和Transformer模型。
讓AI跟人對(duì)話,與讓AI駕駛一輛汽車,似乎本質(zhì)上并無(wú)區(qū)別,只是二者落地場(chǎng)景不同。在將底層技術(shù)應(yīng)用到具體產(chǎn)品這件事上,人類永遠(yuǎn)充滿想象力。
GPT教會(huì)自動(dòng)駕駛的那些事
今年以來(lái),GPT展現(xiàn)出來(lái)的強(qiáng)大能力,讓外界大受震撼。通用人工智能不再是空中樓閣。自動(dòng)駕駛行業(yè)的人開始思考,或許生成式AI在語(yǔ)言模型上的應(yīng)用思路,可以遷移到自動(dòng)駕駛上。
本質(zhì)上,語(yǔ)言模型是對(duì)人類的語(yǔ)言建立的數(shù)學(xué)模型。計(jì)算機(jī)還是不懂自然語(yǔ)言,但它通過數(shù)學(xué)建模,把語(yǔ)言問題變成了數(shù)學(xué)問題。通過給定的文本的歷史,預(yù)測(cè)下一個(gè)詞出現(xiàn)的概率,間接地理解了自然語(yǔ)言。
換到駕駛場(chǎng)景,如果給定當(dāng)前的交通環(huán)境,給定一個(gè)導(dǎo)航地圖,以及一個(gè)駕駛員駕駛行為的歷史,那么,大模型是不是可以預(yù)測(cè)下一個(gè)駕駛動(dòng)作?
地平線創(chuàng)始人余凱在今年4月舉辦的電動(dòng)汽車百人會(huì)論壇上說,ChatGPT給他很大啟發(fā),“我們要繼續(xù)用大數(shù)據(jù)、更大的數(shù)據(jù)、更大的模型,并且無(wú)監(jiān)督地去學(xué)習(xí)人類駕駛的嘗試,就像你從大量的、無(wú)監(jiān)督的、沒有標(biāo)注的自然文本里去學(xué)習(xí)一樣”。他認(rèn)為,每個(gè)駕駛員駕駛控制的序列,就像我們的自然語(yǔ)言文本一樣。下一步,他想構(gòu)建一個(gè)回歸自動(dòng)駕駛的大語(yǔ)言模型。
理論上,這個(gè)思路是可行的。人工智能已經(jīng)具備學(xué)習(xí)能力。根據(jù)自適應(yīng)的語(yǔ)言模型,機(jī)器會(huì)根據(jù)用戶的反饋不斷迭代優(yōu)化,學(xué)習(xí)用戶的習(xí)慣,然后改進(jìn)模型?,F(xiàn)在的ChatGPT就運(yùn)用了這項(xiàng)技術(shù)。那么,讓機(jī)器學(xué)習(xí)司機(jī)的駕駛習(xí)慣,就不是一件很難的事情。
來(lái)源 / pexels
特斯拉的影子模式,就是把真人司機(jī)的駕駛數(shù)據(jù),投喂給機(jī)器學(xué)習(xí)。通過比對(duì)人類駕駛員行為,來(lái)達(dá)到訓(xùn)練算法的目的。
GPT掀起新一輪AI熱潮后,對(duì)行業(yè)造成的一個(gè)認(rèn)知沖擊是,通過把模型的參數(shù)規(guī)模不斷變大,數(shù)據(jù)量指數(shù)型增加,也就是所謂的大模型,在達(dá)到某個(gè)臨界點(diǎn)后,模型會(huì)突然變得很聰明。
過去,模型在訓(xùn)練階段需要的數(shù)據(jù),是經(jīng)過人工標(biāo)注的。以自動(dòng)駕駛為例,數(shù)據(jù)標(biāo)注員通過大量的圖片標(biāo)注,告訴機(jī)器什么是貓,什么是狗,貓和狗各有多少種類。標(biāo)注員就像是機(jī)器的老師,一遍一遍教會(huì)它認(rèn)識(shí)這個(gè)世界。
問題是,老師沒教過的東西,機(jī)器還是不會(huì)。典型的是特斯拉曾多次發(fā)生自動(dòng)駕駛事故,車輛撞上側(cè)翻的大卡車,因?yàn)闄C(jī)器識(shí)別不了。
和高資本創(chuàng)始合伙人何宇華對(duì)深途舉過這樣一個(gè)例子:廣州的夏季雨天頻繁,在一些燈光比較昏暗的場(chǎng)景下,空中會(huì)有大量的飛蟲。當(dāng)汽車駛過時(shí),燈光打過去,可能會(huì)有數(shù)以千計(jì)的飛蟲撞向車頭。在這種情況下,汽車的自動(dòng)駕駛感知系統(tǒng),可能會(huì)誤認(rèn)為是一堵墻。
自動(dòng)駕駛系統(tǒng)不能窮盡所有的corner case(極端場(chǎng)景),是其發(fā)展路上的一大難關(guān)。
ChatGPT抓取的是全網(wǎng)未標(biāo)記的數(shù)據(jù)。在自監(jiān)督學(xué)習(xí)中,數(shù)據(jù)本身被用作監(jiān)督信號(hào),而不是依賴于人工標(biāo)記的標(biāo)簽。有一天人們發(fā)現(xiàn),大模型在消化這些數(shù)據(jù)的過程中,突然具備了舉一反三的能力。
那么,如果自動(dòng)駕駛大模型也能無(wú)監(jiān)督地學(xué)習(xí)人類駕駛行為,不需要“老師”手把手地教,是不是意味著,系統(tǒng)搖身一變,成了“老司機(jī)”?
GPT“開車”,還不靠譜
夢(mèng)想很美好,實(shí)現(xiàn)夢(mèng)想的路總是很骨感。
類似ChatGPT的AI大模型要在自動(dòng)駕駛領(lǐng)域發(fā)揮威力,目前來(lái)看至少有如下幾個(gè)問題需要解決。
首先是數(shù)據(jù)來(lái)源。
ChatGPT的數(shù)據(jù)來(lái)源非常豐富,包括維基百科、書籍、新聞文章、科學(xué)期刊等等,相當(dāng)于全網(wǎng)公開數(shù)據(jù)都是它的養(yǎng)料。
自動(dòng)駕駛不同。駕駛員的駕駛數(shù)據(jù)、車輛行駛數(shù)據(jù)不公開,很多還涉及隱私。汽車廠商、自動(dòng)駕駛公司各自為政,數(shù)據(jù)封閉不流通,這讓獲取數(shù)據(jù)變得困難。沒有數(shù)據(jù),自動(dòng)駕駛就是無(wú)源之水。
聯(lián)想創(chuàng)投總裁賀志強(qiáng)對(duì)深途說,自動(dòng)駕駛的核心是要有數(shù)據(jù),數(shù)據(jù)對(duì)訓(xùn)練模型非常重要。比亞迪這樣的主機(jī)廠有數(shù)據(jù),但算法還需要打磨,“蔚小理”等造車新勢(shì)力擅長(zhǎng)算法,但車的銷量還不夠。既有數(shù)據(jù)也有算法的公司,才能充分用好大模型。
其次是系統(tǒng)的計(jì)算部署方式有限制。
余凱認(rèn)為,OpenAI、ChatGPT是在云端的計(jì)算,在云端有充分的能量供給、電源供給,同時(shí)有非常好的系統(tǒng),可是如果在車上依賴的是電池,依賴的是車端的散熱,那么這個(gè)挑戰(zhàn)是很大的,意味著自動(dòng)駕駛不能用那么大的模型、那么大的計(jì)算。
大模型對(duì)算力的消耗,導(dǎo)致云計(jì)算廠商成為這波AI熱潮中第一批吃到紅利的玩家。大廠開卷云計(jì)算,也是為大模型開路。但是在車端,這會(huì)是一個(gè)矛盾。
更大的問題是,大模型的可靠性尚未驗(yàn)證。
使用過ChatGPT的人知道,ChatGPT有時(shí)候會(huì)胡說八道,時(shí)對(duì)時(shí)錯(cuò)。這在業(yè)內(nèi)被稱為幻覺(hallucination)傾向,即產(chǎn)生完全沒有出處的非真實(shí)內(nèi)容。大模型會(huì)編造內(nèi)容,而不在意內(nèi)容的真實(shí)性和準(zhǔn)確性。
來(lái)源 / pexels
聊天可以胡說八道,自動(dòng)駕駛不可以。任何一次錯(cuò)誤的輸出,導(dǎo)致的結(jié)果都可能是致命的。
“ChatGPT取得巨大進(jìn)展,但自動(dòng)駕駛遲遲沒有到來(lái),因?yàn)樽詣?dòng)駕駛特別是無(wú)人駕駛,可能容錯(cuò)率就是零,那是人命關(guān)天的事情?!庇鄤P說。
曾在硅谷某AI創(chuàng)業(yè)公司擔(dān)任COO的龍志勇認(rèn)為,不可控、不可預(yù)測(cè)和不可靠,是大模型商業(yè)化最大的威脅。典型表現(xiàn)是大模型有幻覺傾向。
現(xiàn)在,要讓自動(dòng)駕駛系統(tǒng)學(xué)會(huì)選擇和辨別,并穩(wěn)定地輸出最優(yōu)解,還不太現(xiàn)實(shí)。
一家人工智能公司的內(nèi)部人士對(duì)深途說:“視覺感知在算法層面的確有不少突破。但車這種場(chǎng)景,要求太高了,我個(gè)人不覺得短期能有大的突破??梢躁P(guān)注一下特斯拉的動(dòng)向?!?/p>
然而最近科技圈有一股風(fēng)氣,大大小小的公司,都要蹭一把GPT的熱點(diǎn)。有一些汽車廠商,宣布即將應(yīng)用類似GPT的技術(shù),一堆炫酷的概念讓人傻傻分不清楚。
比如某傳統(tǒng)車企旗下的自動(dòng)駕駛公司,就發(fā)布了一個(gè)自動(dòng)駕駛生成式大模型,要用這個(gè)模型來(lái)訓(xùn)練自動(dòng)駕駛,號(hào)稱“行業(yè)首例”。
一位長(zhǎng)期關(guān)注智能汽車賽道的投資人,詢問一位行業(yè)大佬怎么看該模型,對(duì)方就回了四個(gè)字:“TM扯淡?!?/p>
“完全就是一個(gè)PR行為?!边@位投資人對(duì)深途評(píng)價(jià)。
自動(dòng)駕駛,會(huì)被推倒重來(lái)嗎?
在特斯拉的帶動(dòng)下,再疊加今年興起的AI浪潮,自動(dòng)駕駛行業(yè)逐漸向大模型、大算力、大數(shù)據(jù)方向不斷靠近。
大模型對(duì)自動(dòng)駕駛的影響,目前還不夠劇烈,但嗅覺敏銳的人已經(jīng)呈現(xiàn)出一種矛盾心態(tài)。
就像當(dāng)年特斯拉利用Transformer將多攝像機(jī)數(shù)據(jù)從圖像空間轉(zhuǎn)化為BEV空間,為此不惜將原有架構(gòu)推翻,重寫算法?,F(xiàn)在大模型的應(yīng)用,也可能意味著原有自動(dòng)駕駛算法,會(huì)被推倒重來(lái)。
賀志強(qiáng)認(rèn)為,大模型會(huì)對(duì)自動(dòng)駕駛有巨大影響。以前自動(dòng)駕駛用到很多小模型,現(xiàn)在變成大模型,可能需要重新來(lái)一遍。自動(dòng)駕駛行業(yè)會(huì)重新洗牌。
一家AI芯片公司的自動(dòng)駕駛總監(jiān)趙東翔對(duì)深途說,整體端到端更改,等于重新做。
洗牌對(duì)新入局者是機(jī)會(huì),對(duì)領(lǐng)先者是威脅。彎道超車的故事,往往發(fā)生在技術(shù)急速變革時(shí)期。在技術(shù)一日千里的時(shí)代,在舊路線投入越多,沉沒成本可能越大,轉(zhuǎn)身越困難。對(duì)于整車廠或自動(dòng)駕駛公司而言,要擁抱一項(xiàng)新技術(shù),不僅要考慮效果,還要考慮成本。
趙東翔表示,就當(dāng)前階段而言,自動(dòng)駕駛變換技術(shù)路線沒意義,“現(xiàn)在行業(yè)技術(shù)能力也不差,大家花那么多錢做了那么久,沒有大幅度提高的話沒有換的動(dòng)力?!?/p>
在去年底的AI DAY上,特斯拉將BEV升級(jí)到占用網(wǎng)絡(luò)(occupancy network),泛化能力得到進(jìn)一步提升。通過占用網(wǎng)絡(luò),特斯拉的自動(dòng)駕駛感知系統(tǒng)可以不需要知道看到的物體是什么,就可以判斷是否需要躲避,由此解決了更多長(zhǎng)尾問題。
不論何種技術(shù)路線,現(xiàn)在都處于快速變化迭代中。過去的小模型可能會(huì)被大模型替代,今天的大模型也可能在未來(lái)被某種新物種替代。
但不管怎樣,蹭熱點(diǎn)、制造噱頭的做法,是無(wú)益于技術(shù)進(jìn)步的?!安錈岫仁锹?xí),踏踏實(shí)實(shí)做產(chǎn)品才有用?!壁w東翔說。
自動(dòng)駕駛真正的“王炸”,還遠(yuǎn)沒有到來(lái)。我們需要做的,是對(duì)每一輪技術(shù)變革保持敬畏之心。被神話的GPT,造不出你的夢(mèng)中神車,但至少,變化已經(jīng)發(fā)生了。
*題圖來(lái)源于《創(chuàng):戰(zhàn)紀(jì)》。
*應(yīng)受訪者要求,趙東翔為化名。
*深途(shentucar)