正在閱讀:

馬斯克“掀桌子”,AI大模型+自動(dòng)駕駛會(huì)誕生什么?

掃一掃下載界面新聞APP

馬斯克“掀桌子”,AI大模型+自動(dòng)駕駛會(huì)誕生什么?

雖然說(shuō)V12的端到端確實(shí)是顛覆性的進(jìn)步,但我們離真正的完全自動(dòng)駕駛還有一條明確紅線。

圖片來(lái)源:界面新聞 范劍磊

文|經(jīng)緯創(chuàng)投

能用最簡(jiǎn)單的方法,做最復(fù)雜的事,才是真正的技術(shù)壁壘。

特斯拉的全自動(dòng)駕駛FSD(Full-Self Driving)V12新版本,很好詮釋了這一點(diǎn)。僅需8個(gè)攝像頭,無(wú)需用上激光雷達(dá)、毫米波雷達(dá)、超聲波攝像頭等等其他零部件,就實(shí)現(xiàn)了老司機(jī)一般的駕駛能力。

馬斯克甚至顛覆了自己,V12新版本比V11有極大變化,很多V11中采取的技術(shù)也被一并拋棄(即便這些技術(shù)可能是領(lǐng)先的)。一個(gè)對(duì)V12最簡(jiǎn)單的理解是:V11之前都需要告訴FSD遇到紅燈需要停,但V12不再需要,而是依靠V12自己學(xué)習(xí),自己“悟”出來(lái)。

于是,原本由人工編寫的30萬(wàn)行代碼,如今驟減到3000行,取而代之的是類似大語(yǔ)言模型的訓(xùn)練芯片矩陣(由上萬(wàn)顆英偉達(dá)H100級(jí)芯片組成),全靠AI神經(jīng)網(wǎng)絡(luò)訓(xùn)練解決。可以說(shuō)V11還是手工作坊式的生產(chǎn)方式,V12已經(jīng)開(kāi)啟了“工業(yè)革命”。

今天這篇文章,我們就來(lái)分析一下FSD V12版本背后有哪些顛覆性變化?以及與其他技術(shù)路線相比,F(xiàn)SD V12這種純視覺(jué)方案,有哪些優(yōu)劣勢(shì)?Enjoy:

01 V12新版本背后,最重要的顛覆性變化是什么?

V12最大的變化,在于部署了“端到端”的AI大模型。這里面有兩大關(guān)鍵點(diǎn),一個(gè)是端到端,一個(gè)是AI大模型。

“端到端”是指,一端指輸入端,一端指輸出端,輸入數(shù)據(jù)的包括攝像頭的感知數(shù)據(jù)、車身的數(shù)據(jù)等等,中間通過(guò)Transformer架構(gòu)的AI大模型推演之后,最終直接輸出到電門、剎車、方向盤。

而通過(guò)Transformer架構(gòu)的AI大模型,是在2022年底,特斯拉Autopilot部門的一位工程師向馬斯克提出的建議,要借鑒ChatGPT,讓神經(jīng)網(wǎng)絡(luò)通過(guò)學(xué)習(xí)人類駕駛員的訓(xùn)練素材,來(lái)實(shí)現(xiàn)路徑規(guī)劃。

馬斯克聽(tīng)后大喜,拍板就這么干。由此開(kāi)始,F(xiàn)SD的規(guī)劃部分,就直接放棄了原來(lái)普遍采用的Rule-base(通過(guò)人為定義的規(guī)則)方案,全面轉(zhuǎn)向神經(jīng)網(wǎng)絡(luò)。

在這里我們簡(jiǎn)短解釋一下什么是Rule-base方案:Rule-base就是人為規(guī)定的規(guī)則式驅(qū)動(dòng)。原來(lái)自動(dòng)駕駛分為幾個(gè)步驟,分別是感知、規(guī)劃、控制,先有攝像頭、激光雷達(dá)、毫米波雷達(dá)等等傳感器獲取信息,然后基于感知結(jié)果和人為設(shè)定的規(guī)則,由自動(dòng)駕駛軟件代碼來(lái)實(shí)現(xiàn)決策。

所以這里面很重要的是,一是怎么獲取到足夠多維和準(zhǔn)確的信息,所以大家都往車上裝各種攝像頭、雷達(dá);二是決策中,由人為設(shè)定的規(guī)則需要覆蓋所有情況。這些代碼的邏輯基本是,如果遇到某種特定情況,算法就會(huì)查詢代碼中預(yù)先編寫好的應(yīng)對(duì)方案,比如遇到紅燈需要停車、直行車道不能轉(zhuǎn)彎等等。

但是日常出現(xiàn)的駕駛情況太多了,并且還會(huì)有不常見(jiàn)的邊角情況(corner case)出現(xiàn),它們往往非常危險(xiǎn),因?yàn)樵谒惴◣?kù)里,可能沒(méi)有編好這種情況下的應(yīng)對(duì)方案。此外,在100種不同的駕駛場(chǎng)景中,你可能需要100種不同的踩剎車和加速的方法,才能達(dá)到平滑的駕駛效果,否則就很容易暈車。顯然,要想讓系統(tǒng)在所有情況下都像人類駕駛那樣流暢,這是人類工程師哪怕日以繼夜地編寫代碼,也難以實(shí)現(xiàn)的。

特斯拉在以往的方法下,已經(jīng)是市場(chǎng)領(lǐng)先。特斯拉在感知層面,采用了一個(gè)叫做九頭蛇(HydraNet)的系統(tǒng)來(lái)進(jìn)行物體識(shí)別。HydraNet首先通過(guò)八個(gè)攝像頭的圖像輸入,進(jìn)入到后端的一個(gè)基干網(wǎng)絡(luò)(backbone),每一個(gè)任務(wù)都由一個(gè)專門的頭(Head)來(lái)負(fù)責(zé),比如進(jìn)行物體檢測(cè)、紅綠燈識(shí)別、車道預(yù)測(cè)等等,特斯拉一共設(shè)計(jì)了50個(gè)Head,對(duì)各種任務(wù)的分類很細(xì)。

而在規(guī)劃部分,特斯拉采用的是類似谷歌AlphaGo下圍棋的方法(蒙特卡洛樹(shù)搜索,加神經(jīng)網(wǎng)絡(luò)輔助),快速窮盡所有可能性,并計(jì)算出其中勝率最高的一條路徑。圍棋要遵守棋規(guī),F(xiàn)SD要遵守交通規(guī)則,這其中就是大量人為定義的規(guī)則。簡(jiǎn)單來(lái)說(shuō),就是根據(jù)預(yù)設(shè)規(guī)則,在所有可能的駕駛軌跡中,計(jì)算出一個(gè)不會(huì)和任何物體碰撞并且不違反交規(guī)的最優(yōu)解。

V12出來(lái)掀了桌子,把之前很多技術(shù)都丟進(jìn)了垃圾桶。V12不再需要通過(guò)代碼寫好“遇到紅燈需要停下”,而是通過(guò)讓AI觀看大量人類駕駛員的駕駛視頻,讓AI自己找出成千上萬(wàn)條規(guī)律,遇到紅綠燈、減速、剎車這是AI自己學(xué)會(huì)的,是自己“悟”出來(lái)的。正是因?yàn)檫@樣的一個(gè)轉(zhuǎn)變,原來(lái)負(fù)責(zé)這一塊的30萬(wàn)行C++代碼,如今變成了3000行。這也是為什么V12版本中,F(xiàn)SD的駕駛表現(xiàn)非常擬人化。

從更底層的角度來(lái)說(shuō),V12“看”的是像素點(diǎn)。V12不需要先識(shí)別畫面中的東西是什么、再到?jīng)Q策部門根據(jù)這個(gè)感知結(jié)果做判斷,而看的是畫面中的最小單位像素點(diǎn),V12把畫面上像素點(diǎn)的位置、組成的形狀以及運(yùn)行的規(guī)律,直接輸入到神經(jīng)網(wǎng)絡(luò)中,通過(guò)數(shù)以億計(jì)的真實(shí)視頻來(lái)學(xué)習(xí)經(jīng)驗(yàn),把現(xiàn)在輸入的像素點(diǎn),與之前學(xué)習(xí)時(shí)遇到的像素位置進(jìn)行對(duì)比,而這些學(xué)習(xí)的視頻,就是真實(shí)人類司機(jī)的駕駛反應(yīng)。然后直接輸出一個(gè)結(jié)果,就是執(zhí)行所需要的剎車、電門、方向盤。

以往視覺(jué)方案中的劣勢(shì),比如異形障礙物識(shí)別失敗的問(wèn)題,現(xiàn)在幾乎不存在了,只要能拍到這個(gè)物體,讓它出現(xiàn)在畫面里,它就會(huì)成為畫面中的一堆像素點(diǎn),V12只需要這些像素點(diǎn)就夠了,所以V12所代表的AI方案被稱為“純視覺(jué)的最終解決方案”。

當(dāng)然,那如果訓(xùn)練所用的視頻數(shù)據(jù)本身是魯莽駕駛,那是不是訓(xùn)練出來(lái)的AI駕駛員就會(huì)非常危險(xiǎn)?答案確實(shí)是,特斯拉的解決辦法是開(kāi)辟汽車保險(xiǎn)業(yè)務(wù)。

比如在美國(guó),特斯拉通過(guò)北美的保險(xiǎn)業(yè)務(wù),延伸出了一套駕駛員行為評(píng)分系統(tǒng),它會(huì)對(duì)人類駕駛員的駕駛行為嚴(yán)格打分。特斯拉用于訓(xùn)練FSD的數(shù)據(jù),全部來(lái)自于90分以上的駕駛員,可以說(shuō)是對(duì)數(shù)據(jù)的要求極為苛刻。

當(dāng)然,V12跟ChatGPT這樣的大模型很像,都是一個(gè)“黑盒模型”,它們需要通過(guò)足夠多的數(shù)據(jù)訓(xùn)練,才能涌現(xiàn)出一些驚人的能力,并且設(shè)計(jì)它的工程師也不知道,為什么會(huì)涌現(xiàn)出這些能力。

這也是為何FSD需要超過(guò)60億英里的驗(yàn)證里程,只有推理得夠多,才能知道如何對(duì)模型進(jìn)行微調(diào)和優(yōu)化,在自動(dòng)駕駛領(lǐng)域重現(xiàn)大語(yǔ)言模型中Scaling law的情況,實(shí)現(xiàn)指數(shù)級(jí)的能力增長(zhǎng)。如馬斯克所言:當(dāng)你有100萬(wàn)個(gè)視頻片段,勉強(qiáng)夠用;200萬(wàn)個(gè),稍好一些;300 萬(wàn)個(gè),就會(huì)感覺(jué)哇塞;1000萬(wàn)個(gè),將變得難以置信。

那么,特斯拉的追趕者能追上嗎?這背后需要的是極其龐大的算力?!艾F(xiàn)在來(lái)看,自動(dòng)駕駛超越人類駕駛就只是時(shí)間上的問(wèn)題。”馬斯克說(shuō)。在今年一季度,特斯拉把總算力又提高了,等同于3.5萬(wàn)塊英偉達(dá)H100的算力,到年底還要翻倍達(dá)到8.5萬(wàn)塊算力規(guī)模,這令特斯拉成為美國(guó)擁有第一流算力規(guī)模的科技公司,與微軟、Meta相當(dāng)。

02 純視覺(jué)方案,有哪些優(yōu)劣勢(shì)?

目前自動(dòng)駕駛領(lǐng)域,主要分為純視覺(jué)和激光雷達(dá)兩個(gè)方案。如今純視覺(jué)通過(guò)結(jié)合AI,實(shí)現(xiàn)了端到端,有了突飛猛進(jìn)的變化。在激光雷達(dá)方案里,還是依靠Rule-base的方法,通過(guò)激光雷達(dá)、毫米波雷達(dá)、超聲波攝像頭這些復(fù)雜的組合方案,現(xiàn)階段其實(shí)也有不錯(cuò)的表現(xiàn)。那么純視覺(jué)+AI和Rule-base+激光雷達(dá)相比,有何優(yōu)劣?

一言以蔽之,純視覺(jué)(+AI大模型)的劣勢(shì)是起步慢,但成長(zhǎng)性更強(qiáng)。原來(lái)的Rule-base在初期能力增長(zhǎng)快,但后期空間嚴(yán)重不足,兩者存在一個(gè)交點(diǎn)。

Rule-base也可以通過(guò)不斷修改來(lái)進(jìn)行迭代。一旦發(fā)現(xiàn)問(wèn)題之后,就可以找到對(duì)應(yīng)的代碼,一般都是if-else語(yǔ)句,if在什么情況下發(fā)生,否則else怎么樣,這是規(guī)則式的核心邏輯。這時(shí)候只要修改某個(gè)if-else語(yǔ)句的參數(shù)量,或者解出錯(cuò)誤的行數(shù),把問(wèn)題修復(fù)就解決了。這里面不需要喂大量的數(shù)據(jù),直接把修復(fù)代碼放在車上重新部署即可。

在到達(dá)兩者的交點(diǎn)之前,意味著Rule-base算法優(yōu)于大模型。這是大模型的特點(diǎn)導(dǎo)致的,當(dāng)數(shù)據(jù)量不夠的時(shí)候,相比于規(guī)則式算法穩(wěn)定性不夠。這也是Rule-base的核心優(yōu)勢(shì),它的解釋性比較強(qiáng),規(guī)則非常明確,當(dāng)把代碼部署到車上之后,會(huì)具備最基本的能力表現(xiàn),能讓車實(shí)現(xiàn)基本的ACC、LCC輔助駕駛功能。但大模型不行,在沒(méi)有經(jīng)過(guò)足夠的數(shù)據(jù)訓(xùn)練之前,產(chǎn)品是非常弱的。

但在兩者的交點(diǎn)之后,純視覺(jué)的端到端模式,則更像是面向未來(lái)的終極方案。由于AI大模型具有通識(shí)能力,它能夠理解以前沒(méi)有看到過(guò)的東西。

比如說(shuō),某一次從前面的車上掉下來(lái)了一個(gè)塑料袋,另一次則掉出來(lái)了一個(gè)啤酒箱,但是在我們的訓(xùn)練數(shù)據(jù)集里,從來(lái)沒(méi)有出現(xiàn)過(guò)這兩種情況。作為人類司機(jī),我們知道塑料袋是軟的,不需要規(guī)避,但啤酒箱是硬的,需要規(guī)避。如果沒(méi)有大模型,自動(dòng)駕駛系統(tǒng)就相當(dāng)于一直生活在車上,它只能解決曾經(jīng)在這個(gè)車上看到的場(chǎng)景。但是真正的人類駕駛員肯定不只生活在車上,他還生活在整個(gè)世界里,而大模型有通識(shí)能力,它能識(shí)別出塑料袋和啤酒箱的區(qū)別,它更接近人類,能應(yīng)對(duì)各種場(chǎng)景,更何況它還有8顆攝像頭。

此外,從硬件角度來(lái)說(shuō),純視覺(jué)的端到端模式完勝,因?yàn)橹恍枰?顆攝像頭,未來(lái)最多是不斷升級(jí)像素,這能極大降低整車成本。而且基本無(wú)需擔(dān)心硬件迭代,所帶來(lái)的技術(shù)斷層問(wèn)題。

如果展望未來(lái),從用戶體驗(yàn)角度來(lái)說(shuō),大模型更能和座艙聯(lián)動(dòng)。未來(lái)的自動(dòng)駕駛AI,可能就會(huì)和真正有一位司機(jī)在開(kāi)車一樣,你可以跟它聊天:比如“剛剛路過(guò)的湖叫什么?”,或者給它下達(dá)命令,比如“現(xiàn)在靠邊停車”或者“我們不太舒服你開(kāi)穩(wěn)一點(diǎn)”等等,這是邁向L4級(jí)自動(dòng)駕駛的重要一步,也是提升自動(dòng)駕駛體驗(yàn)很關(guān)鍵的一點(diǎn)。

當(dāng)然,雖然說(shuō)V12的端到端確實(shí)是顛覆性的進(jìn)步,但我們離真正的完全自動(dòng)駕駛還有一條明確紅線,就是——責(zé)任在人類駕駛員還是在汽車系統(tǒng)身上,無(wú)論從技術(shù)、安全還是產(chǎn)品責(zé)任的角度來(lái)看,這都是一條最重要的分界線。目前,雖然有這么多進(jìn)步,但我們還處于L2以下,我們可能需要足夠多的安全數(shù)據(jù),來(lái)證明自動(dòng)駕駛的事故率小于人類,才有可能真正跨越這條紅線。

References:

1.Morgan Stanley:Tesla Inc Tesla and Nvidia The Journey to AI Supremacy

2.華泰證券:特斯拉(TSLA.US)如何理解特斯拉的當(dāng)下與未來(lái)?

3.中信證券:特斯拉FSD,2023突圍之年

4.西南證券:從特斯拉FSD看人工智能

5.WSJ:Elon Musk Pushes to Increase Use of ‘Full Self-Driving’ Software as Tesla Sales Cool

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

馬斯克“掀桌子”,AI大模型+自動(dòng)駕駛會(huì)誕生什么?

雖然說(shuō)V12的端到端確實(shí)是顛覆性的進(jìn)步,但我們離真正的完全自動(dòng)駕駛還有一條明確紅線。

圖片來(lái)源:界面新聞 范劍磊

文|經(jīng)緯創(chuàng)投

能用最簡(jiǎn)單的方法,做最復(fù)雜的事,才是真正的技術(shù)壁壘。

特斯拉的全自動(dòng)駕駛FSD(Full-Self Driving)V12新版本,很好詮釋了這一點(diǎn)。僅需8個(gè)攝像頭,無(wú)需用上激光雷達(dá)、毫米波雷達(dá)、超聲波攝像頭等等其他零部件,就實(shí)現(xiàn)了老司機(jī)一般的駕駛能力。

馬斯克甚至顛覆了自己,V12新版本比V11有極大變化,很多V11中采取的技術(shù)也被一并拋棄(即便這些技術(shù)可能是領(lǐng)先的)。一個(gè)對(duì)V12最簡(jiǎn)單的理解是:V11之前都需要告訴FSD遇到紅燈需要停,但V12不再需要,而是依靠V12自己學(xué)習(xí),自己“悟”出來(lái)。

于是,原本由人工編寫的30萬(wàn)行代碼,如今驟減到3000行,取而代之的是類似大語(yǔ)言模型的訓(xùn)練芯片矩陣(由上萬(wàn)顆英偉達(dá)H100級(jí)芯片組成),全靠AI神經(jīng)網(wǎng)絡(luò)訓(xùn)練解決??梢哉f(shuō)V11還是手工作坊式的生產(chǎn)方式,V12已經(jīng)開(kāi)啟了“工業(yè)革命”。

今天這篇文章,我們就來(lái)分析一下FSD V12版本背后有哪些顛覆性變化?以及與其他技術(shù)路線相比,F(xiàn)SD V12這種純視覺(jué)方案,有哪些優(yōu)劣勢(shì)?Enjoy:

01 V12新版本背后,最重要的顛覆性變化是什么?

V12最大的變化,在于部署了“端到端”的AI大模型。這里面有兩大關(guān)鍵點(diǎn),一個(gè)是端到端,一個(gè)是AI大模型。

“端到端”是指,一端指輸入端,一端指輸出端,輸入數(shù)據(jù)的包括攝像頭的感知數(shù)據(jù)、車身的數(shù)據(jù)等等,中間通過(guò)Transformer架構(gòu)的AI大模型推演之后,最終直接輸出到電門、剎車、方向盤。

而通過(guò)Transformer架構(gòu)的AI大模型,是在2022年底,特斯拉Autopilot部門的一位工程師向馬斯克提出的建議,要借鑒ChatGPT,讓神經(jīng)網(wǎng)絡(luò)通過(guò)學(xué)習(xí)人類駕駛員的訓(xùn)練素材,來(lái)實(shí)現(xiàn)路徑規(guī)劃。

馬斯克聽(tīng)后大喜,拍板就這么干。由此開(kāi)始,F(xiàn)SD的規(guī)劃部分,就直接放棄了原來(lái)普遍采用的Rule-base(通過(guò)人為定義的規(guī)則)方案,全面轉(zhuǎn)向神經(jīng)網(wǎng)絡(luò)。

在這里我們簡(jiǎn)短解釋一下什么是Rule-base方案:Rule-base就是人為規(guī)定的規(guī)則式驅(qū)動(dòng)。原來(lái)自動(dòng)駕駛分為幾個(gè)步驟,分別是感知、規(guī)劃、控制,先有攝像頭、激光雷達(dá)、毫米波雷達(dá)等等傳感器獲取信息,然后基于感知結(jié)果和人為設(shè)定的規(guī)則,由自動(dòng)駕駛軟件代碼來(lái)實(shí)現(xiàn)決策。

所以這里面很重要的是,一是怎么獲取到足夠多維和準(zhǔn)確的信息,所以大家都往車上裝各種攝像頭、雷達(dá);二是決策中,由人為設(shè)定的規(guī)則需要覆蓋所有情況。這些代碼的邏輯基本是,如果遇到某種特定情況,算法就會(huì)查詢代碼中預(yù)先編寫好的應(yīng)對(duì)方案,比如遇到紅燈需要停車、直行車道不能轉(zhuǎn)彎等等。

但是日常出現(xiàn)的駕駛情況太多了,并且還會(huì)有不常見(jiàn)的邊角情況(corner case)出現(xiàn),它們往往非常危險(xiǎn),因?yàn)樵谒惴◣?kù)里,可能沒(méi)有編好這種情況下的應(yīng)對(duì)方案。此外,在100種不同的駕駛場(chǎng)景中,你可能需要100種不同的踩剎車和加速的方法,才能達(dá)到平滑的駕駛效果,否則就很容易暈車。顯然,要想讓系統(tǒng)在所有情況下都像人類駕駛那樣流暢,這是人類工程師哪怕日以繼夜地編寫代碼,也難以實(shí)現(xiàn)的。

特斯拉在以往的方法下,已經(jīng)是市場(chǎng)領(lǐng)先。特斯拉在感知層面,采用了一個(gè)叫做九頭蛇(HydraNet)的系統(tǒng)來(lái)進(jìn)行物體識(shí)別。HydraNet首先通過(guò)八個(gè)攝像頭的圖像輸入,進(jìn)入到后端的一個(gè)基干網(wǎng)絡(luò)(backbone),每一個(gè)任務(wù)都由一個(gè)專門的頭(Head)來(lái)負(fù)責(zé),比如進(jìn)行物體檢測(cè)、紅綠燈識(shí)別、車道預(yù)測(cè)等等,特斯拉一共設(shè)計(jì)了50個(gè)Head,對(duì)各種任務(wù)的分類很細(xì)。

而在規(guī)劃部分,特斯拉采用的是類似谷歌AlphaGo下圍棋的方法(蒙特卡洛樹(shù)搜索,加神經(jīng)網(wǎng)絡(luò)輔助),快速窮盡所有可能性,并計(jì)算出其中勝率最高的一條路徑。圍棋要遵守棋規(guī),F(xiàn)SD要遵守交通規(guī)則,這其中就是大量人為定義的規(guī)則。簡(jiǎn)單來(lái)說(shuō),就是根據(jù)預(yù)設(shè)規(guī)則,在所有可能的駕駛軌跡中,計(jì)算出一個(gè)不會(huì)和任何物體碰撞并且不違反交規(guī)的最優(yōu)解。

V12出來(lái)掀了桌子,把之前很多技術(shù)都丟進(jìn)了垃圾桶。V12不再需要通過(guò)代碼寫好“遇到紅燈需要停下”,而是通過(guò)讓AI觀看大量人類駕駛員的駕駛視頻,讓AI自己找出成千上萬(wàn)條規(guī)律,遇到紅綠燈、減速、剎車這是AI自己學(xué)會(huì)的,是自己“悟”出來(lái)的。正是因?yàn)檫@樣的一個(gè)轉(zhuǎn)變,原來(lái)負(fù)責(zé)這一塊的30萬(wàn)行C++代碼,如今變成了3000行。這也是為什么V12版本中,F(xiàn)SD的駕駛表現(xiàn)非常擬人化。

從更底層的角度來(lái)說(shuō),V12“看”的是像素點(diǎn)。V12不需要先識(shí)別畫面中的東西是什么、再到?jīng)Q策部門根據(jù)這個(gè)感知結(jié)果做判斷,而看的是畫面中的最小單位像素點(diǎn),V12把畫面上像素點(diǎn)的位置、組成的形狀以及運(yùn)行的規(guī)律,直接輸入到神經(jīng)網(wǎng)絡(luò)中,通過(guò)數(shù)以億計(jì)的真實(shí)視頻來(lái)學(xué)習(xí)經(jīng)驗(yàn),把現(xiàn)在輸入的像素點(diǎn),與之前學(xué)習(xí)時(shí)遇到的像素位置進(jìn)行對(duì)比,而這些學(xué)習(xí)的視頻,就是真實(shí)人類司機(jī)的駕駛反應(yīng)。然后直接輸出一個(gè)結(jié)果,就是執(zhí)行所需要的剎車、電門、方向盤。

以往視覺(jué)方案中的劣勢(shì),比如異形障礙物識(shí)別失敗的問(wèn)題,現(xiàn)在幾乎不存在了,只要能拍到這個(gè)物體,讓它出現(xiàn)在畫面里,它就會(huì)成為畫面中的一堆像素點(diǎn),V12只需要這些像素點(diǎn)就夠了,所以V12所代表的AI方案被稱為“純視覺(jué)的最終解決方案”。

當(dāng)然,那如果訓(xùn)練所用的視頻數(shù)據(jù)本身是魯莽駕駛,那是不是訓(xùn)練出來(lái)的AI駕駛員就會(huì)非常危險(xiǎn)?答案確實(shí)是,特斯拉的解決辦法是開(kāi)辟汽車保險(xiǎn)業(yè)務(wù)。

比如在美國(guó),特斯拉通過(guò)北美的保險(xiǎn)業(yè)務(wù),延伸出了一套駕駛員行為評(píng)分系統(tǒng),它會(huì)對(duì)人類駕駛員的駕駛行為嚴(yán)格打分。特斯拉用于訓(xùn)練FSD的數(shù)據(jù),全部來(lái)自于90分以上的駕駛員,可以說(shuō)是對(duì)數(shù)據(jù)的要求極為苛刻。

當(dāng)然,V12跟ChatGPT這樣的大模型很像,都是一個(gè)“黑盒模型”,它們需要通過(guò)足夠多的數(shù)據(jù)訓(xùn)練,才能涌現(xiàn)出一些驚人的能力,并且設(shè)計(jì)它的工程師也不知道,為什么會(huì)涌現(xiàn)出這些能力。

這也是為何FSD需要超過(guò)60億英里的驗(yàn)證里程,只有推理得夠多,才能知道如何對(duì)模型進(jìn)行微調(diào)和優(yōu)化,在自動(dòng)駕駛領(lǐng)域重現(xiàn)大語(yǔ)言模型中Scaling law的情況,實(shí)現(xiàn)指數(shù)級(jí)的能力增長(zhǎng)。如馬斯克所言:當(dāng)你有100萬(wàn)個(gè)視頻片段,勉強(qiáng)夠用;200萬(wàn)個(gè),稍好一些;300 萬(wàn)個(gè),就會(huì)感覺(jué)哇塞;1000萬(wàn)個(gè),將變得難以置信。

那么,特斯拉的追趕者能追上嗎?這背后需要的是極其龐大的算力?!艾F(xiàn)在來(lái)看,自動(dòng)駕駛超越人類駕駛就只是時(shí)間上的問(wèn)題。”馬斯克說(shuō)。在今年一季度,特斯拉把總算力又提高了,等同于3.5萬(wàn)塊英偉達(dá)H100的算力,到年底還要翻倍達(dá)到8.5萬(wàn)塊算力規(guī)模,這令特斯拉成為美國(guó)擁有第一流算力規(guī)模的科技公司,與微軟、Meta相當(dāng)。

02 純視覺(jué)方案,有哪些優(yōu)劣勢(shì)?

目前自動(dòng)駕駛領(lǐng)域,主要分為純視覺(jué)和激光雷達(dá)兩個(gè)方案。如今純視覺(jué)通過(guò)結(jié)合AI,實(shí)現(xiàn)了端到端,有了突飛猛進(jìn)的變化。在激光雷達(dá)方案里,還是依靠Rule-base的方法,通過(guò)激光雷達(dá)、毫米波雷達(dá)、超聲波攝像頭這些復(fù)雜的組合方案,現(xiàn)階段其實(shí)也有不錯(cuò)的表現(xiàn)。那么純視覺(jué)+AI和Rule-base+激光雷達(dá)相比,有何優(yōu)劣?

一言以蔽之,純視覺(jué)(+AI大模型)的劣勢(shì)是起步慢,但成長(zhǎng)性更強(qiáng)。原來(lái)的Rule-base在初期能力增長(zhǎng)快,但后期空間嚴(yán)重不足,兩者存在一個(gè)交點(diǎn)。

Rule-base也可以通過(guò)不斷修改來(lái)進(jìn)行迭代。一旦發(fā)現(xiàn)問(wèn)題之后,就可以找到對(duì)應(yīng)的代碼,一般都是if-else語(yǔ)句,if在什么情況下發(fā)生,否則else怎么樣,這是規(guī)則式的核心邏輯。這時(shí)候只要修改某個(gè)if-else語(yǔ)句的參數(shù)量,或者解出錯(cuò)誤的行數(shù),把問(wèn)題修復(fù)就解決了。這里面不需要喂大量的數(shù)據(jù),直接把修復(fù)代碼放在車上重新部署即可。

在到達(dá)兩者的交點(diǎn)之前,意味著Rule-base算法優(yōu)于大模型。這是大模型的特點(diǎn)導(dǎo)致的,當(dāng)數(shù)據(jù)量不夠的時(shí)候,相比于規(guī)則式算法穩(wěn)定性不夠。這也是Rule-base的核心優(yōu)勢(shì),它的解釋性比較強(qiáng),規(guī)則非常明確,當(dāng)把代碼部署到車上之后,會(huì)具備最基本的能力表現(xiàn),能讓車實(shí)現(xiàn)基本的ACC、LCC輔助駕駛功能。但大模型不行,在沒(méi)有經(jīng)過(guò)足夠的數(shù)據(jù)訓(xùn)練之前,產(chǎn)品是非常弱的。

但在兩者的交點(diǎn)之后,純視覺(jué)的端到端模式,則更像是面向未來(lái)的終極方案。由于AI大模型具有通識(shí)能力,它能夠理解以前沒(méi)有看到過(guò)的東西。

比如說(shuō),某一次從前面的車上掉下來(lái)了一個(gè)塑料袋,另一次則掉出來(lái)了一個(gè)啤酒箱,但是在我們的訓(xùn)練數(shù)據(jù)集里,從來(lái)沒(méi)有出現(xiàn)過(guò)這兩種情況。作為人類司機(jī),我們知道塑料袋是軟的,不需要規(guī)避,但啤酒箱是硬的,需要規(guī)避。如果沒(méi)有大模型,自動(dòng)駕駛系統(tǒng)就相當(dāng)于一直生活在車上,它只能解決曾經(jīng)在這個(gè)車上看到的場(chǎng)景。但是真正的人類駕駛員肯定不只生活在車上,他還生活在整個(gè)世界里,而大模型有通識(shí)能力,它能識(shí)別出塑料袋和啤酒箱的區(qū)別,它更接近人類,能應(yīng)對(duì)各種場(chǎng)景,更何況它還有8顆攝像頭。

此外,從硬件角度來(lái)說(shuō),純視覺(jué)的端到端模式完勝,因?yàn)橹恍枰?顆攝像頭,未來(lái)最多是不斷升級(jí)像素,這能極大降低整車成本。而且基本無(wú)需擔(dān)心硬件迭代,所帶來(lái)的技術(shù)斷層問(wèn)題。

如果展望未來(lái),從用戶體驗(yàn)角度來(lái)說(shuō),大模型更能和座艙聯(lián)動(dòng)。未來(lái)的自動(dòng)駕駛AI,可能就會(huì)和真正有一位司機(jī)在開(kāi)車一樣,你可以跟它聊天:比如“剛剛路過(guò)的湖叫什么?”,或者給它下達(dá)命令,比如“現(xiàn)在靠邊停車”或者“我們不太舒服你開(kāi)穩(wěn)一點(diǎn)”等等,這是邁向L4級(jí)自動(dòng)駕駛的重要一步,也是提升自動(dòng)駕駛體驗(yàn)很關(guān)鍵的一點(diǎn)。

當(dāng)然,雖然說(shuō)V12的端到端確實(shí)是顛覆性的進(jìn)步,但我們離真正的完全自動(dòng)駕駛還有一條明確紅線,就是——責(zé)任在人類駕駛員還是在汽車系統(tǒng)身上,無(wú)論從技術(shù)、安全還是產(chǎn)品責(zé)任的角度來(lái)看,這都是一條最重要的分界線。目前,雖然有這么多進(jìn)步,但我們還處于L2以下,我們可能需要足夠多的安全數(shù)據(jù),來(lái)證明自動(dòng)駕駛的事故率小于人類,才有可能真正跨越這條紅線。

References:

1.Morgan Stanley:Tesla Inc Tesla and Nvidia The Journey to AI Supremacy

2.華泰證券:特斯拉(TSLA.US)如何理解特斯拉的當(dāng)下與未來(lái)?

3.中信證券:特斯拉FSD,2023突圍之年

4.西南證券:從特斯拉FSD看人工智能

5.WSJ:Elon Musk Pushes to Increase Use of ‘Full Self-Driving’ Software as Tesla Sales Cool

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。