亚洲AⅤ中文无码字幕色,在线观看国产一区二

文|經(jīng)緯創(chuàng)投

能用最簡(jiǎn)單的方法，做最復(fù)雜的事，才是真正的技術(shù)壁壘。

特斯拉的全自動(dòng)駕駛FSD（Full-Self Driving）V12新版本，很好詮釋了這一點(diǎn)。僅需8個(gè)攝像頭，無(wú)需用上激光雷達(dá)、毫米波雷達(dá)、超聲波攝像頭等等其他零部件，就實(shí)現(xiàn)了老司機(jī)一般的駕駛能力。

馬斯克甚至顛覆了自己，V12新版本比V11有極大變化，很多V11中采取的技術(shù)也被一并拋棄（即便這些技術(shù)可能是領(lǐng)先的）。一個(gè)對(duì)V12最簡(jiǎn)單的理解是：V11之前都需要告訴FSD遇到紅燈需要停，但V12不再需要，而是依靠V12自己學(xué)習(xí)，自己“悟”出來(lái)。

于是，原本由人工編寫的30萬(wàn)行代碼，如今驟減到3000行，取而代之的是類似大語(yǔ)言模型的訓(xùn)練芯片矩陣（由上萬(wàn)顆英偉達(dá)H100級(jí)芯片組成），全靠AI神經(jīng)網(wǎng)絡(luò)訓(xùn)練解決。可以說(shuō)V11還是手工作坊式的生產(chǎn)方式，V12已經(jīng)開(kāi)啟了“工業(yè)革命”。

今天這篇文章，我們就來(lái)分析一下FSD V12版本背后有哪些顛覆性變化？以及與其他技術(shù)路線相比，F(xiàn)SD V12這種純視覺(jué)方案，有哪些優(yōu)劣勢(shì)？Enjoy：

01 V12新版本背后，最重要的顛覆性變化是什么？

V12最大的變化，在于部署了“端到端”的AI大模型。這里面有兩大關(guān)鍵點(diǎn)，一個(gè)是端到端，一個(gè)是AI大模型。

“端到端”是指，一端指輸入端，一端指輸出端，輸入數(shù)據(jù)的包括攝像頭的感知數(shù)據(jù)、車身的數(shù)據(jù)等等，中間通過(guò)Transformer架構(gòu)的AI大模型推演之后，最終直接輸出到電門、剎車、方向盤。

而通過(guò)Transformer架構(gòu)的AI大模型，是在2022年底，特斯拉Autopilot部門的一位工程師向馬斯克提出的建議，要借鑒ChatGPT，讓神經(jīng)網(wǎng)絡(luò)通過(guò)學(xué)習(xí)人類駕駛員的訓(xùn)練素材，來(lái)實(shí)現(xiàn)路徑規(guī)劃。

馬斯克聽(tīng)后大喜，拍板就這么干。由此開(kāi)始，F(xiàn)SD的規(guī)劃部分，就直接放棄了原來(lái)普遍采用的Rule-base（通過(guò)人為定義的規(guī)則）方案，全面轉(zhuǎn)向神經(jīng)網(wǎng)絡(luò)。

在這里我們簡(jiǎn)短解釋一下什么是Rule-base方案：Rule-base就是人為規(guī)定的規(guī)則式驅(qū)動(dòng)。原來(lái)自動(dòng)駕駛分為幾個(gè)步驟，分別是感知、規(guī)劃、控制，先有攝像頭、激光雷達(dá)、毫米波雷達(dá)等等傳感器獲取信息，然后基于感知結(jié)果和人為設(shè)定的規(guī)則，由自動(dòng)駕駛軟件代碼來(lái)實(shí)現(xiàn)決策。

所以這里面很重要的是，一是怎么獲取到足夠多維和準(zhǔn)確的信息，所以大家都往車上裝各種攝像頭、雷達(dá)；二是決策中，由人為設(shè)定的規(guī)則需要覆蓋所有情況。這些代碼的邏輯基本是，如果遇到某種特定情況，算法就會(huì)查詢代碼中預(yù)先編寫好的應(yīng)對(duì)方案，比如遇到紅燈需要停車、直行車道不能轉(zhuǎn)彎等等。

但是日常出現(xiàn)的駕駛情況太多了，并且還會(huì)有不常見(jiàn)的邊角情況（corner case）出現(xiàn)，它們往往非常危險(xiǎn)，因?yàn)樵谒惴◣?kù)里，可能沒(méi)有編好這種情況下的應(yīng)對(duì)方案。此外，在100種不同的駕駛場(chǎng)景中，你可能需要100種不同的踩剎車和加速的方法，才能達(dá)到平滑的駕駛效果，否則就很容易暈車。顯然，要想讓系統(tǒng)在所有情況下都像人類駕駛那樣流暢，這是人類工程師哪怕日以繼夜地編寫代碼，也難以實(shí)現(xiàn)的。

特斯拉在以往的方法下，已經(jīng)是市場(chǎng)領(lǐng)先。特斯拉在感知層面，采用了一個(gè)叫做九頭蛇（HydraNet）的系統(tǒng)來(lái)進(jìn)行物體識(shí)別。HydraNet首先通過(guò)八個(gè)攝像頭的圖像輸入，進(jìn)入到后端的一個(gè)基干網(wǎng)絡(luò)（backbone），每一個(gè)任務(wù)都由一個(gè)專門的頭（Head）來(lái)負(fù)責(zé)，比如進(jìn)行物體檢測(cè)、紅綠燈識(shí)別、車道預(yù)測(cè)等等，特斯拉一共設(shè)計(jì)了50個(gè)Head，對(duì)各種任務(wù)的分類很細(xì)。

而在規(guī)劃部分，特斯拉采用的是類似谷歌AlphaGo下圍棋的方法（蒙特卡洛樹(shù)搜索，加神經(jīng)網(wǎng)絡(luò)輔助），快速窮盡所有可能性，并計(jì)算出其中勝率最高的一條路徑。圍棋要遵守棋規(guī)，F(xiàn)SD要遵守交通規(guī)則，這其中就是大量人為定義的規(guī)則。簡(jiǎn)單來(lái)說(shuō)，就是根據(jù)預(yù)設(shè)規(guī)則，在所有可能的駕駛軌跡中，計(jì)算出一個(gè)不會(huì)和任何物體碰撞并且不違反交規(guī)的最優(yōu)解。

V12出來(lái)掀了桌子，把之前很多技術(shù)都丟進(jìn)了垃圾桶。V12不再需要通過(guò)代碼寫好“遇到紅燈需要停下”，而是通過(guò)讓AI觀看大量人類駕駛員的駕駛視頻，讓AI自己找出成千上萬(wàn)條規(guī)律，遇到紅綠燈、減速、剎車這是AI自己學(xué)會(huì)的，是自己“悟”出來(lái)的。正是因?yàn)檫@樣的一個(gè)轉(zhuǎn)變，原來(lái)負(fù)責(zé)這一塊的30萬(wàn)行C++代碼，如今變成了3000行。這也是為什么V12版本中，F(xiàn)SD的駕駛表現(xiàn)非常擬人化。

從更底層的角度來(lái)說(shuō)，V12“看”的是像素點(diǎn)。V12不需要先識(shí)別畫面中的東西是什么、再到?jīng)Q策部門根據(jù)這個(gè)感知結(jié)果做判斷，而看的是畫面中的最小單位像素點(diǎn)，V12把畫面上像素點(diǎn)的位置、組成的形狀以及運(yùn)行的規(guī)律，直接輸入到神經(jīng)網(wǎng)絡(luò)中，通過(guò)數(shù)以億計(jì)的真實(shí)視頻來(lái)學(xué)習(xí)經(jīng)驗(yàn)，把現(xiàn)在輸入的像素點(diǎn)，與之前學(xué)習(xí)時(shí)遇到的像素位置進(jìn)行對(duì)比，而這些學(xué)習(xí)的視頻，就是真實(shí)人類司機(jī)的駕駛反應(yīng)。然后直接輸出一個(gè)結(jié)果，就是執(zhí)行所需要的剎車、電門、方向盤。

以往視覺(jué)方案中的劣勢(shì)，比如異形障礙物識(shí)別失敗的問(wèn)題，現(xiàn)在幾乎不存在了，只要能拍到這個(gè)物體，讓它出現(xiàn)在畫面里，它就會(huì)成為畫面中的一堆像素點(diǎn)，V12只需要這些像素點(diǎn)就夠了，所以V12所代表的AI方案被稱為“純視覺(jué)的最終解決方案”。

當(dāng)然，那如果訓(xùn)練所用的視頻數(shù)據(jù)本身是魯莽駕駛，那是不是訓(xùn)練出來(lái)的AI駕駛員就會(huì)非常危險(xiǎn)？答案確實(shí)是，特斯拉的解決辦法是開(kāi)辟汽車保險(xiǎn)業(yè)務(wù)。

比如在美國(guó)，特斯拉通過(guò)北美的保險(xiǎn)業(yè)務(wù)，延伸出了一套駕駛員行為評(píng)分系統(tǒng)，它會(huì)對(duì)人類駕駛員的駕駛行為嚴(yán)格打分。特斯拉用于訓(xùn)練FSD的數(shù)據(jù)，全部來(lái)自于90分以上的駕駛員，可以說(shuō)是對(duì)數(shù)據(jù)的要求極為苛刻。

當(dāng)然，V12跟ChatGPT這樣的大模型很像，都是一個(gè)“黑盒模型”，它們需要通過(guò)足夠多的數(shù)據(jù)訓(xùn)練，才能涌現(xiàn)出一些驚人的能力，并且設(shè)計(jì)它的工程師也不知道，為什么會(huì)涌現(xiàn)出這些能力。

這也是為何FSD需要超過(guò)60億英里的驗(yàn)證里程，只有推理得夠多，才能知道如何對(duì)模型進(jìn)行微調(diào)和優(yōu)化，在自動(dòng)駕駛領(lǐng)域重現(xiàn)大語(yǔ)言模型中Scaling law的情況，實(shí)現(xiàn)指數(shù)級(jí)的能力增長(zhǎng)。如馬斯克所言：當(dāng)你有100萬(wàn)個(gè)視頻片段，勉強(qiáng)夠用；200萬(wàn)個(gè)，稍好一些；300 萬(wàn)個(gè)，就會(huì)感覺(jué)哇塞；1000萬(wàn)個(gè)，將變得難以置信。

那么，特斯拉的追趕者能追上嗎？這背后需要的是極其龐大的算力?！艾F(xiàn)在來(lái)看，自動(dòng)駕駛超越人類駕駛就只是時(shí)間上的問(wèn)題。”馬斯克說(shuō)。在今年一季度，特斯拉把總算力又提高了，等同于3.5萬(wàn)塊英偉達(dá)H100的算力，到年底還要翻倍達(dá)到8.5萬(wàn)塊算力規(guī)模，這令特斯拉成為美國(guó)擁有第一流算力規(guī)模的科技公司，與微軟、Meta相當(dāng)。

02 純視覺(jué)方案，有哪些優(yōu)劣勢(shì)？

目前自動(dòng)駕駛領(lǐng)域，主要分為純視覺(jué)和激光雷達(dá)兩個(gè)方案。如今純視覺(jué)通過(guò)結(jié)合AI，實(shí)現(xiàn)了端到端，有了突飛猛進(jìn)的變化。在激光雷達(dá)方案里，還是依靠Rule-base的方法，通過(guò)激光雷達(dá)、毫米波雷達(dá)、超聲波攝像頭這些復(fù)雜的組合方案，現(xiàn)階段其實(shí)也有不錯(cuò)的表現(xiàn)。那么純視覺(jué)+AI和Rule-base+激光雷達(dá)相比，有何優(yōu)劣？

一言以蔽之，純視覺(jué)（+AI大模型）的劣勢(shì)是起步慢，但成長(zhǎng)性更強(qiáng)。原來(lái)的Rule-base在初期能力增長(zhǎng)快，但后期空間嚴(yán)重不足，兩者存在一個(gè)交點(diǎn)。

Rule-base也可以通過(guò)不斷修改來(lái)進(jìn)行迭代。一旦發(fā)現(xiàn)問(wèn)題之后，就可以找到對(duì)應(yīng)的代碼，一般都是if-else語(yǔ)句，if在什么情況下發(fā)生，否則else怎么樣，這是規(guī)則式的核心邏輯。這時(shí)候只要修改某個(gè)if-else語(yǔ)句的參數(shù)量，或者解出錯(cuò)誤的行數(shù)，把問(wèn)題修復(fù)就解決了。這里面不需要喂大量的數(shù)據(jù)，直接把修復(fù)代碼放在車上重新部署即可。

在到達(dá)兩者的交點(diǎn)之前，意味著Rule-base算法優(yōu)于大模型。這是大模型的特點(diǎn)導(dǎo)致的，當(dāng)數(shù)據(jù)量不夠的時(shí)候，相比于規(guī)則式算法穩(wěn)定性不夠。這也是Rule-base的核心優(yōu)勢(shì)，它的解釋性比較強(qiáng)，規(guī)則非常明確，當(dāng)把代碼部署到車上之后，會(huì)具備最基本的能力表現(xiàn)，能讓車實(shí)現(xiàn)基本的ACC、LCC輔助駕駛功能。但大模型不行，在沒(méi)有經(jīng)過(guò)足夠的數(shù)據(jù)訓(xùn)練之前，產(chǎn)品是非常弱的。

但在兩者的交點(diǎn)之后，純視覺(jué)的端到端模式，則更像是面向未來(lái)的終極方案。由于AI大模型具有通識(shí)能力，它能夠理解以前沒(méi)有看到過(guò)的東西。

比如說(shuō)，某一次從前面的車上掉下來(lái)了一個(gè)塑料袋，另一次則掉出來(lái)了一個(gè)啤酒箱，但是在我們的訓(xùn)練數(shù)據(jù)集里，從來(lái)沒(méi)有出現(xiàn)過(guò)這兩種情況。作為人類司機(jī)，我們知道塑料袋是軟的，不需要規(guī)避，但啤酒箱是硬的，需要規(guī)避。如果沒(méi)有大模型，自動(dòng)駕駛系統(tǒng)就相當(dāng)于一直生活在車上，它只能解決曾經(jīng)在這個(gè)車上看到的場(chǎng)景。但是真正的人類駕駛員肯定不只生活在車上，他還生活在整個(gè)世界里，而大模型有通識(shí)能力，它能識(shí)別出塑料袋和啤酒箱的區(qū)別，它更接近人類，能應(yīng)對(duì)各種場(chǎng)景，更何況它還有8顆攝像頭。

此外，從硬件角度來(lái)說(shuō)，純視覺(jué)的端到端模式完勝，因?yàn)橹恍枰?顆攝像頭，未來(lái)最多是不斷升級(jí)像素，這能極大降低整車成本。而且基本無(wú)需擔(dān)心硬件迭代，所帶來(lái)的技術(shù)斷層問(wèn)題。

如果展望未來(lái)，從用戶體驗(yàn)角度來(lái)說(shuō)，大模型更能和座艙聯(lián)動(dòng)。未來(lái)的自動(dòng)駕駛AI，可能就會(huì)和真正有一位司機(jī)在開(kāi)車一樣，你可以跟它聊天：比如“剛剛路過(guò)的湖叫什么？”，或者給它下達(dá)命令，比如“現(xiàn)在靠邊停車”或者“我們不太舒服你開(kāi)穩(wěn)一點(diǎn)”等等，這是邁向L4級(jí)自動(dòng)駕駛的重要一步，也是提升自動(dòng)駕駛體驗(yàn)很關(guān)鍵的一點(diǎn)。

當(dāng)然，雖然說(shuō)V12的端到端確實(shí)是顛覆性的進(jìn)步，但我們離真正的完全自動(dòng)駕駛還有一條明確紅線，就是——責(zé)任在人類駕駛員還是在汽車系統(tǒng)身上，無(wú)論從技術(shù)、安全還是產(chǎn)品責(zé)任的角度來(lái)看，這都是一條最重要的分界線。目前，雖然有這么多進(jìn)步，但我們還處于L2以下，我們可能需要足夠多的安全數(shù)據(jù)，來(lái)證明自動(dòng)駕駛的事故率小于人類，才有可能真正跨越這條紅線。

References：

1.Morgan Stanley：Tesla Inc Tesla and Nvidia The Journey to AI Supremacy

2.華泰證券：特斯拉(TSLA.US)如何理解特斯拉的當(dāng)下與未來(lái)？

3.中信證券：特斯拉FSD，2023突圍之年

4.西南證券：從特斯拉FSD看人工智能

5.WSJ：Elon Musk Pushes to Increase Use of ‘Full Self-Driving’ Software as Tesla Sales Cool

文|經(jīng)緯創(chuàng)投

能用最簡(jiǎn)單的方法，做最復(fù)雜的事，才是真正的技術(shù)壁壘。

于是，原本由人工編寫的30萬(wàn)行代碼，如今驟減到3000行，取而代之的是類似大語(yǔ)言模型的訓(xùn)練芯片矩陣（由上萬(wàn)顆英偉達(dá)H100級(jí)芯片組成），全靠AI神經(jīng)網(wǎng)絡(luò)訓(xùn)練解決?？梢哉f(shuō)V11還是手工作坊式的生產(chǎn)方式，V12已經(jīng)開(kāi)啟了“工業(yè)革命”。

01 V12新版本背后，最重要的顛覆性變化是什么？

V12最大的變化，在于部署了“端到端”的AI大模型。這里面有兩大關(guān)鍵點(diǎn)，一個(gè)是端到端，一個(gè)是AI大模型。

02 純視覺(jué)方案，有哪些優(yōu)劣勢(shì)？

References：

1.Morgan Stanley：Tesla Inc Tesla and Nvidia The Journey to AI Supremacy

2.華泰證券：特斯拉(TSLA.US)如何理解特斯拉的當(dāng)下與未來(lái)？

3.中信證券：特斯拉FSD，2023突圍之年

4.西南證券：從特斯拉FSD看人工智能

5.WSJ：Elon Musk Pushes to Increase Use of ‘Full Self-Driving’ Software as Tesla Sales Cool

歷史搜索全部刪除

熱門搜索

馬斯克“掀桌子”，AI大模型+自動(dòng)駕駛會(huì)誕生什么？

01 V12新版本背后，最重要的顛覆性變化是什么？

02 純視覺(jué)方案，有哪些優(yōu)劣勢(shì)？

評(píng)論

馬斯克“掀桌子”，AI大模型+自動(dòng)駕駛會(huì)誕生什么？

01 V12新版本背后，最重要的顛覆性變化是什么？

02 純視覺(jué)方案，有哪些優(yōu)劣勢(shì)？

馬斯克“掀桌子”，AI大模型+自動(dòng)駕駛會(huì)誕生什么？

01 V12新版本背后，最重要的顛覆性變化是什么？

02 純視覺(jué)方案，有哪些優(yōu)劣勢(shì)？

評(píng)論

馬斯克“掀桌子”，AI大模型+自動(dòng)駕駛會(huì)誕生什么？

01 V12新版本背后，最重要的顛覆性變化是什么？

02 純視覺(jué)方案，有哪些優(yōu)劣勢(shì)？

馬斯克“掀桌子”，AI大模型+自動(dòng)駕駛會(huì)誕生什么？

01 V12新版本背后，最重要的顛覆性變化是什么？

02 純視覺(jué)方案，有哪些優(yōu)劣勢(shì)？

馬斯克“掀桌子”，AI大模型+自動(dòng)駕駛會(huì)誕生什么？

01 V12新版本背后，最重要的顛覆性變化是什么？

02 純視覺(jué)方案，有哪些優(yōu)劣勢(shì)？