嫩草av久久伊人妇女超级a,一级毛片黄久久久免费看播放器 ,国产真实乱了全集磁力

文 | 硅谷101

無人駕駛，真的能落地嗎？

人類研發(fā)無人駕駛，已經(jīng)消耗了無數(shù)的時間與資金。到了今天，事故頻發(fā)、燒錢無止境、進度緩慢，引發(fā)了眾多不解與質(zhì)疑：無人駕駛是否是一場騙局，甚至，行業(yè)已死？

這個行業(yè)，真的是我見過最分裂的行業(yè)之一，各個派系觀點各不相同、互相瞧不上、互相指責，神仙打架之后，又各干各的，各踩各的坑，各倒各的閉，各花各的錢。

結(jié)果就是，在2024年之前，無人駕駛走入了寒冬。

但這個寒冬，隨著馬斯克號稱“通過端到端AI技術(shù)“重構(gòu)了特斯拉的FSD，并宣布要進軍無人駕駛出租車（Robotaxi），似乎又出現(xiàn)了一些新的生機和希望。

端到端能否帶領我們走向真正的無人駕駛呢？自動駕駛中定義的L2與L4之間真的相隔甚遠嗎？如今無人駕駛技術(shù)發(fā)展到哪一步了？純視覺與多模態(tài)之爭，真的沒有盡頭嗎？

為了探究無人駕駛行業(yè)到底發(fā)展如何，我們歷時3個月，采訪了全球市場上最前沿的無人駕駛公司，包括Waymo，Cruise的前核心員工、前特斯拉FSD工程師、一二級市場投資人等多達十多位自動駕駛界的專業(yè)人士。

我們發(fā)現(xiàn)這個行業(yè)依然割裂，很多技術(shù)路線業(yè)內(nèi)并沒有達成共識。

這個系列文章我們將從感知、算法、產(chǎn)品、運營、經(jīng)濟、法律等多個角度，全方位一起來探討如今的自動駕駛技術(shù)的最前沿現(xiàn)狀。

本期文章我們先全面聊聊技術(shù)，下期會從運營與經(jīng)濟角度解析。

01 自動駕駛是什么？

我們先來做個概念區(qū)分：無人駕駛和自動駕駛的區(qū)別是什么？

根據(jù)智能化程度的不同，自動駕駛被分為L0到L5共6個等級：

L0為無自動化，L1指駕駛援助，L2指部分自動駕駛，L3指有條件自動駕駛，L4指高度自動駕駛，L5指完全自動駕駛，即真正的無人駕駛。

我們之后提到的Waymo和Cruise，以及侯曉迪做的無人卡車都屬于L4級別，特斯拉FSD屬于L2級別，但馬斯克號稱的特斯拉Robotaxi，卻是L4級別的。

所以目前在這個產(chǎn)業(yè)中，人們說無人駕駛，一般指的是L4的公司，因為現(xiàn)在還沒人能做到L5；而一般說自動駕駛，則是包括了所有級別，是更泛的一個稱呼。

我們再來看看自動駕駛產(chǎn)業(yè)是怎么開始的。

盡管早在100年前人類就開始探索無人駕駛，但公認現(xiàn)代自動駕駛正式起源于2004年美國軍方的DARPA挑戰(zhàn)賽。

經(jīng)過了幾年發(fā)展后，形成了感知（Perception）-規(guī)劃（Planning）-控制（Control）這樣的運行鏈路。其中感知模塊包含了感知（Perception）和預測（Prediction）。

感知層需要通過雷達、攝像頭等傳感器獲取前方路況，并預測物體的運動軌跡、實時生成一張周圍環(huán)境的地圖，也就是我們在車機上常見的鳥瞰圖，再將這些信息傳遞給規(guī)劃層，由系統(tǒng)根據(jù)算法來決定速度與方向，最終再下放到執(zhí)控制層，控制對應的油門、制動和轉(zhuǎn)向機。

后來隨著AI的興起，人們開始讓機器自己去學習如何開車，先讓算法到仿真的數(shù)字世界里開車，等仿真訓練到一定程度，就可以開始上路測試。

而最近這兩年，隨著特斯拉將“端到端”方案應用在FSD V12的版本中，感知-規(guī)劃-控制的運行鏈路也開始改變。

接下來我們著重來聊聊自動駕駛產(chǎn)業(yè)在感知這一層面的兩派技術(shù)路線：純視覺派與多模態(tài)融合派，這兩個派別在過去很多年一直在打架，各說各的好，我們來講講它們的恩怨情仇。

02 感知篇：純視覺Vs.多模態(tài)融合

目前汽車主流的感知方案分為兩種。

第一種是不少公司采用的多模態(tài)融合感知方案，會將激光雷達、毫米波雷達、超聲波傳感器、攝像頭、慣性測量單元等傳感器采集的信息進行匯總?cè)诤?，來判斷周圍環(huán)境。

回到我們上一章說到的DARPA挑戰(zhàn)賽，2004年第一屆中，雖然沒有任何一輛車完賽，但一位名叫David Hall的參賽者在比賽中意識到了激光雷達的重要性，在比賽結(jié)束后，他創(chuàng)辦的Velodyne開始從做音響轉(zhuǎn)向做激光雷達。

當時的激光雷達還是單線掃描，只能對一個方向測距，而David Hall發(fā)明了64線機械旋轉(zhuǎn)式激光雷達，可以360度掃描環(huán)境。

后來他帶著這臺旋轉(zhuǎn)式的激光雷達，參加2005年第二屆的DARPA挑戰(zhàn)賽。終于有臺頭頂著5個激光雷達的車完賽并取得了冠軍。

但這并不是David Hall的車……他的車輛中途因機械故障退賽了，不過他的表現(xiàn)確實讓大家意識到了，激光雷達、是個“外掛”。

到了2007年第三屆DARPA挑戰(zhàn)賽中，完賽的6只隊伍中，5只都用到了Velodyne的激光雷達。至此，激光雷達開始成為自動駕駛界的香餑餑，Velodyne也成為了車載激光雷達的龍頭企業(yè)。

張航

Cruise高級主任科學家：

現(xiàn)在不管是Cruise、Waymo，基于L4在做的一些解決方案，都是基于激光雷達為主了，它可以直接拿到位置信息，這樣的話對于算法本身的要求，就是相對會比較低一些，然后很多可以直接通過傳感器來拿到這些3D的信息，這樣對系統(tǒng)的魯棒性，還有對于安全性，一些長尾問題會比較輕松。

另一個技術(shù)派別就是以特斯拉為代表的純視覺方案了，只靠攝像頭采集環(huán)境信息，然后利用神經(jīng)網(wǎng)絡，將2D的視頻轉(zhuǎn)換成3D的地圖，其中就包含了周邊環(huán)境的障礙物、預測的軌跡、速度等信息。

相比激光雷達方案直接生成3D地圖，純視覺多了一道2D轉(zhuǎn)3D的過程，在張航看來，純靠“視頻”這種缺乏3D信息的訓練數(shù)據(jù)，會給安全性帶來一定挑戰(zhàn)。

張航

Cruise高級主任科學家：

它需要大量的訓練數(shù)據(jù)去學出缺乏3D的信息，這樣的話缺乏監(jiān)管，因為沒有一個參照物，很難去拿到一個現(xiàn)實中的一個ground truth（真值數(shù)據(jù)），如果完全通過這種半監(jiān)督的學習方法，想要達到系統(tǒng)的一個安全性，我覺得是比較難的。我覺得特斯拉主要目的還是控制成本，包括修改一些換擋的機制，都是為了節(jié)約一些零部件方面成本。

但在特斯拉的前AI工程師于振華看來，選擇純視覺并不只是節(jié)約成本那么簡單。

Chapter 2.1 多即是亂？

于振華

前特斯拉AI工程師：

其實特斯拉原來的自動駕駛系統(tǒng)是有毫米波雷達，傳感器融合其實是一個很復雜的算法，就是它做出來了并不一定好。

我當時有一輛車，是最后一批有毫米波雷達的車。在2023年的時候，我的車進行了一次保養(yǎng)，服務工程師就自動把我的雷達給去除了。這一件事情的結(jié)論是什么呢？去掉毫米外雷達不是為了成本，因為我的車已經(jīng)有毫米波雷達在那放著了。根源的原因是純視覺已經(jīng)勝過毫米波雷達了。所以特斯拉是在做減法，把一些他認為不需要的冗余的事情去掉，或者說累贅的事情去掉。

于振華認為，如果融合算法做不好，或者通過純視覺就已經(jīng)能達到足夠好的效果了，那更多傳感器反而成為累贅。

接受我們采訪的很多L4從業(yè)者也同意，信息并不是越多越好，反之，傳感器收集到的太多額外的無效信息會加劇算法的負擔。

那么馬斯克一直倡導的光靠攝像頭這一種傳感器，到底行不行呢？

Chapter 2.2 少即是多？

馬斯克說，既然人類僅通過兩只眼睛就能開車，那么汽車也可以僅憑圖像信息來實現(xiàn)自動駕駛，但業(yè)內(nèi)對于純視覺派的擔心一直是，視覺欺騙，在過去這確實帶來了不少事故。

比如特斯拉將白色卡車識別為天空、把月亮識別為黃燈，又或者理想將廣告牌上內(nèi)容識別為汽車，導致高速急剎追尾等事故。

這些案例是否意味著，少了深度信息的純視覺方案，存在先天性不足呢？

于振華前特斯拉AI工程師：多個信息流確實能提供更多的信息，但是你要解答一個問題，難道攝像頭本身的信息不夠嗎？還是算法挖掘信息的算法能力不足？比如說緊急剎車、在城市道路的時候有頓挫感，其實根源就是它對周圍物體的速度估計、它的角度估計不足，如果是這個原因，那確實激光雷達要比攝像頭好很多，因為它能夠給你提供更直接的信息，就是攝像頭本身其實也給你信息了，只不過我們的算法不足夠好，能夠挖掘出這樣的信息。

于振華不認為視覺欺騙的根本原因是攝像頭的信息不足夠，而是算法不足以處理或挖掘攝像頭給的信息。他認為，特別是在特斯拉FSD V12算法的推出后，更證明了當算法得到了巨大優(yōu)化，攝像頭信息的挖掘和處理就得到了顯著進步。

于振華前特斯拉AI工程師：今天的FSD V12它不是完美的，有很多的問題，但是我到目前為止沒有發(fā)現(xiàn)，哪一個問題是由于傳感器不足。當然在V12之前確實很多是由于傳感器不足，但是今天V12是沒有這個問題。

但是，L4的從業(yè)人員就有不同的觀點了。他們認為攝像頭就是有天然劣勢的。

張航Cruise 高級主任科學家：我個人覺得是有難度的，我覺得不一定是算法本身的問題。首先這個攝像頭本身它不像人眼這么復雜，每個攝像頭它有一些參數(shù)，它有它的局限性。然后就是算法本身的話，人不需要知道200米范圍內(nèi)所有的車的動向都在哪里，我只需要知道哪幾輛車、哪幾個行人可能影響到我的車的行為，我只關注在這幾個點上就夠了，我也不需要很大的算力，可能短期不能夠通過算法來達到這個高度，我覺得激光雷達才作為是一個方式的補充吧。

從事L4研究的張航認為攝像頭無法與人眼媲美，主要原因在于攝像頭的焦距和像素是固定的，而人眼的精度非常高而且可以自動變焦。同時人類跳躍式的思考模式，短期內(nèi)無法應用在計算機上，所以使用激光雷達才能補充攝像頭的缺陷。

但市面上也有其它的看法，認為除了視覺信息，其他傳感器也會帶來干擾信息。

比如說，激光雷達也存在自己的缺陷，由于是通過激光測距，在面對一些反射物體、雨雪天氣，或者其他車發(fā)射的激光時，會對激光雷達帶來干擾，最終造成幻覺效應。

劉冰雁

Kargo軟件負責人：

我是非常堅定的純視覺派，這個世界的道路都是給人和視覺設計的，也就是說除了視覺之外，你采集的信息你可以認為都是干擾，當然你可以采集，但是那些信息提供的干擾，和它提供的真正價值，到底是什么樣的分布？我覺得在視覺越做越好的情況下，可能反而是完全相反的。

如果能做好多傳感器融合算法，讓激光雷達與圖像信息互相驗證，或許會讓系統(tǒng)的安全性進一步提升。

侯曉迪提出了一個形象的比喻：兩個同等水平的學霸在考試時，最終一定是使用計算器的學霸更輕松，只是經(jīng)濟基礎決定了買不買得起計算器而已。

選擇純視覺還是以激光雷達為主的多模態(tài)融合方案，這個辯論已經(jīng)持續(xù)了數(shù)年，并且似乎短期內(nèi)不會有答案?；蛘邔σ恍﹦?chuàng)業(yè)公司來說，什么路線根本也沒那么重要，而成本和經(jīng)濟賬才是最重要的。

侯曉迪

前圖森未來創(chuàng)始人兼CEO，Bot.auto創(chuàng)始人：

我曾經(jīng)被認為是視覺派的，是因為當時買不到激光雷達，所以逼著我們不得不去在視覺上多去找解決方案。

我也不反對激光雷達，激光雷達什么時候便宜了，我第一個去排隊?，F(xiàn)在激光雷達確實便宜了，所以我也在排隊買激光雷達，對我來講就是，抓住耗子的都是好貓。只要這個設備的成本足夠低，只要這個設備能從信息論意義上，給我們提供足夠有價值的信息，我們就該去用它。

大衛(wèi)

《大小馬聊科技》主播：

中國的自動駕駛?cè)芸斓鼐桶堰@些硬件，比如說激光雷達、毫米波雷達，做成了白菜價。在這種狀態(tài)下是不是還要像特斯拉那樣做純視覺？其實很多公司現(xiàn)在就在猶豫了，那我是1000多塊錢買一個固態(tài)激光雷達，還是我用純視覺，但是對算力上會造成很大的浪費。

于振華

前特斯拉AI工程師：

我覺得 1000塊錢太貴了，特斯拉連雨量傳感器都不舍得用。

王辰晟

前特斯拉采購總監(jiān)：

但是我覺得隨著供應鏈的規(guī)模的上升，成本的大幅下降，在激光雷達能做到和攝像頭相似的價格的時候，特別是在端到端的這樣一個應用場景下，是不是純視覺還是一個唯一的路徑？

Chapter 2.3 幡然悔悟？

有意思的是，隨著激光雷達價格大幅下降，業(yè)內(nèi)開始對特斯拉即將發(fā)布的無人駕駛出租車，是否會用上激光雷達產(chǎn)生了分歧。

比如張航就認為，由于Robotaxi沒有人類干預，而且出了事需要企業(yè)負責，特斯拉可能會選擇更保守的路線，會用上曾經(jīng)瞧不起的激光雷達。

張航

Cruise 高級主任科學家：

特別是它需要去為企業(yè)事故負責的時候，它需要更加的保守，我覺得它可能需要一個額外的傳感器。從這個角度看的話，Tesla可能會采取一些，它之前鄙視的技術(shù)，只要這個東西有用，能達到它L4的目的，它會逐漸去采用的。

最近我們也發(fā)現(xiàn)特斯拉在做這個L4、L5的一些方面也在考慮，他也在跟這個激光雷達的一些廠商也在聊一些合作，所以說可能就是大家殊途同歸。

今年激光雷達制造商Luminar發(fā)布了第一季度的財報，顯示特斯拉的訂單達到了10%，成為了其最大客戶。而于振華卻不以為然，認為這并不是什么新鮮事。

于振華

前特斯拉AI工程師：

首先它肯定不是為了以后量產(chǎn)車上使用激光雷達，因為Luminar第一季度總收入好像是2000萬美元，10%就是200萬，也不夠裝幾個激光雷達。其實特斯拉的工程車、測試車上裝激光雷達，也不是什么秘密了，那個激光雷達就是用來采集訓練神經(jīng)網(wǎng)絡的ground truth（真值數(shù)據(jù)），因為人工無法標注那個物體距離你有幾米，必須要用專門的傳感器來標注。

但是Lumina為什么在第一季度披露這件事，我其實也非常疑惑，因為馬斯克也當時就回應了，說我們在V12了之后，我們不需要真值數(shù)據(jù)了，因為端到端了，占用網(wǎng)絡是V11時代的事情，我可能是覺得這里面有一些誤解，就是從財報上或者財務規(guī)則上。

雖然目前不確定特斯拉即將推出的Robotaxi是否會搭載激光雷達，但有一點可以確定的是，以目前特斯拉的感知配置，安全性還不足以達到L4、或者能運營Robotaxi的程度。

劉冰雁

Kargo軟件負責人：

我非常確定現(xiàn)有的特斯拉的這幾個車型，都有非常明確的盲區(qū)，就是視覺不可達的盲區(qū)，而這個盲區(qū)就造成，如果他想實現(xiàn)最終的，不管是L4、L5的自動駕駛，他的下一款車一定需要解決這個盲區(qū)問題。

特斯拉最新的端到端技術(shù)更新，以及10月將公布的Robotaxi細節(jié)猜測，我們會在第三和第四章節(jié)再詳細拆解。接下來我們先探討感知上的另外一個重要的技術(shù)：高精地圖。

Chapter 2.4 歷久彌新？

除了激光雷達外，高精地圖也是自動駕駛感知端中的成本大頭。

高精地圖就是提前采集道路信息，降低感知模塊繪制3D地圖的壓力，并提高準確性。

說來也巧，最早推行高精地圖的人，正是2005年第二屆DARPA挑戰(zhàn)賽的冠軍——那個頭頂了5臺激光雷達的車主，Sebastian Thrun。

在2004年DARPA挑戰(zhàn)賽時，谷歌正在籌備“街景”項目，谷歌創(chuàng)始人Larry Page親自到了比賽現(xiàn)場去物色人才，在2005年比賽結(jié)束后，Page找上了Sebastian Thrun，邀請他加入谷歌，并將繪制地圖的工作交給了他。

在這個過程中，Thrun和Page突然意識到，如果有一種能精確記錄所有車道線、路標、信號燈等道路信息的地圖，那將對無人駕駛帶來巨大的幫助，這也奠定了高精地圖在無人駕駛項目中的重要地位。

但是，制作高精地圖非常昂貴，自動駕駛公司采集高精地圖的平均成本大約為每公里5000美元，如果要覆蓋全美660萬公里的道路，光是采集成本都達到了33億美元。

再加上地圖頻繁的維護成本，最終消耗將是無法想象的天文數(shù)字。

現(xiàn)在已經(jīng)有不少車企，紛紛宣傳舍棄高精地圖的無圖方案，轉(zhuǎn)而由車輛在本地構(gòu)建環(huán)境地圖。

我們匿名采訪的一位自動駕駛工程師對此表示，這些對比宣傳更多的是出于商業(yè)模式的考量，對于做Robotaxi生意的企業(yè)，用上高精地圖能增加安全性，而對于車企來說，舍棄高精地圖能有效降低成本，所以并不意味著舍棄高精地圖技術(shù)水平就會更高。

匿名受訪者

L4工程師：

華為還有理想，他們的解決方案是量產(chǎn)車，你的客戶可能是來自各種城市，你要在任何城市都能開。

那現(xiàn)在主流的這個高精地圖，它的這個主要的門檻在于，它需要有一個地圖采集的過程，這個地圖采集的過程實際上是相對來說比較花時間、人力成本的，然后他也需要專業(yè)的這個地圖采集設備。

所以如果是做這個量產(chǎn)車的生意的話，你不可能說我專門有一個地圖采集車，我把全中國都給你跑遍了，這個是不現(xiàn)實的。

像特斯拉、華為、理想等L2的公司拋棄高精地圖，是因為無法覆蓋每一條大街小巷。

而Waymo、Cruise這樣做Robotaxi的L4公司選擇繼續(xù)使用高精地圖，因為他們發(fā)現(xiàn)，只需要覆蓋一些關鍵的城市，就能拿下足夠的市場了。

所以，是否使用高精地圖成為了Robotaxi公司的經(jīng)濟賬問題，而不是技術(shù)問題。

Minfa Wang

前Waymo高級機器學習工程師：

如果你單看Robotaxi的商業(yè)模式，把美國Robotaxi的需求來劃分，你會發(fā)現(xiàn)前五大的城市，它已經(jīng)占有了全美一半的商業(yè)體量，你不需要讓它在全美任何一個地方都能跑，其實你就已經(jīng)有一個相當大的一個市場了

類似的，我們采訪的另一位做L4自動駕駛卡車的嘉賓也分享到，他們?nèi)绻獢U大運營線路，也就是擴充高精地圖的覆蓋范圍，得先衡量這條線路是否賺錢，否則只是賠本賺吆喝。

這么一圈聊下來，在感知端上，業(yè)內(nèi)也沒有統(tǒng)一的看法，就像侯曉迪說的一樣，抓到耗子就是好貓。

接下來，我們重點聊聊大家最近非常關注的自動駕駛算法層面的最近進展，特別是特斯拉近來大肆宣揚的“端到端”，到底是什么技術(shù)呢？它真會改變自動駕駛的行業(yè)方向嗎？

03 算法篇：端到端是自動駕駛的未來嗎？

Chapter 3.1 何為傳統(tǒng)？

傳統(tǒng)的自動駕駛的運行鏈路是先感知、預測，再規(guī)劃，最后控制。

感知模塊要先通過攝像頭、雷達等傳感器，識別道路，把這些信息翻譯成機器能看到的語言，傳遞給預測模塊。

預測模型就會判斷其他車輛、行人的行駛軌跡，再把這些信息傳遞給規(guī)劃模塊，去找出風險最低的一條路，最后再將控制信號傳遞給操控系統(tǒng)。

這時的算法主要靠“規(guī)則庫”（Rule base）來驅(qū)動，工程師需要不斷寫入各種規(guī)則，比如遇到行人得減速、遇到紅燈要停車等等，為了考慮到各種情況，規(guī)則庫就得盡可能覆蓋到各種可能，相應的，代碼也非常非常長了。

這樣的算法有哪些難點呢？

最大的問題就在于，系統(tǒng)被劃分成了不同的模塊，但模塊之間的信息傳輸會有所損失，如果下游無法拿到全面的信息，預測和規(guī)劃的難度就會增加。

舉個淺顯易懂的例子，大家都聽過多人傳話游戲吧？10個人，從頭到尾傳遞一句話，但經(jīng)常這段話經(jīng)過多人傳遞的過程，細節(jié)就會被丟失或篡改，以至于到達最后一個人那里的時候意思就大相徑庭了。

類似的，在傳統(tǒng)的Rule-based模式下，如果上一層模塊做得不夠好，會影響到下一層的表現(xiàn)。

另一個缺點是，規(guī)則都是由人工設計定義的，但有限的規(guī)則無法覆蓋無限可能的現(xiàn)實情況，一些不常見且被容易被忽略的問題，機器難以拿出對應的解決方法，這被稱為“長尾問題”（long tail case），也叫“極端情況”（corner case），這就會導致規(guī)?；涞氐某杀痉浅８摺?/p>

于振華

前特斯拉AI工程師：

還有一個就是，在分兩個模塊的時候，我認為這個技術(shù)是很難規(guī)模化的，為什么呢？你每次要在一個現(xiàn)實的復雜場景中新加一個任務，那么你就要新加一些接口，你就要去改變感知、改變控制規(guī)劃。

比如說特斯拉，前幾年NHTSA（美國交通安全管理局）要求特斯拉能夠檢測到緊急車輛，比如說消防車、救護車之類的，在感知上你就要求要檢測這個，然后控制規(guī)劃也要做這個，這只是一個任務，可能會成百上千這樣的任務，你要去規(guī)?；?，所以說在華為你們知道有幾千個工程師？大概是6000個工程師，因為你會有這么多不斷涌現(xiàn)的新的任務出現(xiàn)，環(huán)境越復雜任務越多，我認為這不是一個可規(guī)模化的模式。

大衛(wèi)

《大小馬聊科技》主播：

那這種方法還是比較老套，雖然說看起來，如果做Robotaxi行業(yè)是比較靈的一個方法論，但是它不能滿足乘用車、幾百上千萬臺車將來在全世界的路面上行駛。

那有什么辦法能解決這些問題呢？這時候就得聊聊“端到端”（End To End）了。

Chapter 3.2 新超級明星

在自動駕駛領域內(nèi)，目前主流的“端到端”定義是：傳感器收集到的信息，不加任何處理傳遞給基于神經(jīng)網(wǎng)絡的大模型，并直接輸出控制結(jié)果。

也就是說，不再需要人為編寫各種規(guī)則，讓算法跟著投喂的數(shù)據(jù)，自己學會如何開車。

于振華

前特斯拉AI工程師：

因為我們?nèi)祟愰_車，我們腦子里并不是去判斷某輛車的速度和角度的，你就是通過一個復雜環(huán)境來下意識地來做出你的決策。

“讓算法更像人，因為人就是這樣運轉(zhuǎn)的”這樣的思考邏輯，正是馬斯克帶領特斯拉的前進方針，也不奇怪，為什么“端到端”技術(shù)在自動駕駛里并不新，但是卻被特斯拉第一個做出來。

雖然2023年底，特斯拉才第一次將用上了“端到端”的FSD V12推出，但在自動駕駛界，“端到端”并不是什么新鮮事。其實早在2016年，英偉達就有論文提出了“端到端”。

而現(xiàn)在，“端到端”也分為兩種，一種是把部分模塊替換成神經(jīng)網(wǎng)絡，這種分模塊的“端到端”，只是一種過度形式，并不是完全體，因為各個模塊之間要傳遞信息，依然要定義各種接口，造成數(shù)據(jù)損失。

在主流觀點中，只有將多個模塊融為了一個整體，去掉了感知層、預測層、規(guī)劃層這樣的定義，才算純正的“端到端”。

2023年，CVPR的最佳論文《Planning-oriented Autonomous Driving》就提出，過去的“端到端”要么只運行在部分模塊上，要么需要在系統(tǒng)中插入一些組件。

而這篇論文提出了UniAD的模型架構(gòu)，是首次將所有的感知、預測、規(guī)劃模塊，都整合到了一個基于Transformer的端到端網(wǎng)絡框架下。

相比傳統(tǒng)Rule-based（規(guī)則驅(qū)動）的執(zhí)行鏈路，“端到端”不再需要算法工程師去反復完善規(guī)則庫，所以才有了馬斯克發(fā)布FSD V12時，宣稱得“其代碼從30萬行縮減到了2000行”。

雖然自動駕駛中的“端到端”技術(shù)不是特斯拉發(fā)明的，但特斯拉確實是第一家公司把神經(jīng)網(wǎng)絡“端到端”技術(shù)做出來并推向主流市場的。

Chapter 3.3 “端到端”優(yōu)勢

2023年11月，特斯發(fā)布了FSD V12第一個測試版本，但僅向選定的員工開放。到了2024年初，特斯拉開始將FSD V12版本開放給美國所有特斯拉車主，每位車主都有1個月的免費試用權(quán)限。

FSD V12推出后，一時間掀起了軒然大波，從用戶體驗上，我們看到大部分的輿論都認為比之前的特斯拉FSD功能進步非常大，甚至很多人都認為，這是自動駕駛界的“ChatGPT Moment”。

大衛(wèi)

《大小馬聊科技》主播：

真正讓我覺得進步的就是規(guī)劃，比如說過環(huán)島，因為這個過環(huán)島其實是在傳統(tǒng)的 planning方向上面是挺難做的，因為你前面的車要加塞，你還要出環(huán)島，這中間如何設置這種優(yōu)先級？

你即使設置優(yōu)先級，那你跟前車和旁邊的車保持多少的距離才能出去，這是一個其實挺復雜的邏輯，但是這個在新版的FSD上表現(xiàn)確實讓我覺得很驚艷，這是給我一個很大的驚喜。

不少體驗過FSD V12的人表示，這個通過人類駕駛數(shù)據(jù)來學習的系統(tǒng)，駕駛風格非常像人，不再有機械式算法帶來的頓挫感。

但與此同時，也有嘉賓在體驗后認為，F(xiàn)SD V12還沒有好到讓人非用不可，與L4之間還存在一定差距。

莫傑麟（Justin）

某家族辦公室首席投資官：

但是它沒有好到GPT4的那個時刻，就沒有好到說這個東西讓我必須得用，或者說我立馬就要用，能夠適合在我的很多的場景里面去用。

Minfa Wang

前Waymo高級機器學習工程師：

高速路相對它的表現(xiàn)還是比較好的，但在街道上我覺得基本上每開5英里左右，我覺得就需要人工接管一次。

尤其是在那種我們叫unprotected left turn（無保護左轉(zhuǎn)），它還是比較容易做一些，讓我覺得不是很安全的行為，如果你MPI（接管里程數(shù)）只有5的話，那么顯然離L4的自動駕駛還有一定的距離。

我自己也體驗了一下FSD 12.4.4的版本，和Waymo這類L4的車輛比起來，目前的特斯拉FSD依然在某些時候會嚇我一跳，或者有時候表現(xiàn)出莫名其妙的行為。

比如在一個右轉(zhuǎn)彎時，由于它的轉(zhuǎn)彎半徑太大，差點撞到對向來車，我不得不手動接管。

從表現(xiàn)上來看，“端到端”的FSD V12依然還有進步的空間，而從工程、運營和管理角度來看，“端到端”的優(yōu)勢有三點：

第一，能讓系統(tǒng)整體更簡潔。去掉規(guī)則庫后，只需要不斷補充訓練案例，即可進一步提升模型表現(xiàn)，維護和升級成本也將大幅降低。

第二，節(jié)省人力成本。由于“端到端”不再依賴繁雜的規(guī)則庫，因此不必配備龐大的開發(fā)團隊，甚至不再依賴專家。

第三，能實現(xiàn)更大范圍的推廣。大家可以看到目前L4的公司只能在限定地區(qū)運行，拋開法規(guī)牌照的限制，是因為非“端到端”方案，需要針對具體地區(qū)做優(yōu)化，而“端到端”各路況都能應對，更像一個“通用”的司機，這也是為什么特斯拉FSD V12被比作ChatGPT的原因之一。

既然“端到端”有如此多的優(yōu)勢，它能解決目前自動駕駛面臨的技術(shù)問題嗎？

Chapter 3.4 黑盒模型

我們采訪的不少嘉賓認為，在現(xiàn)階段下，進一步發(fā)展端到端的路線是自動領域內(nèi)公認的趨勢，但依然存在不少問題。

張航

Cruise 高級主任科學家：

這個方向我覺得是一個正確的方向，我們不可能通過一直在以打補丁的方式，來做出一個規(guī)?；腖4方案，只不過是目前我覺得要快速地達到一個L4的方案，也不可能完全通過端到端的方案，所以現(xiàn)在是一個矛盾的一個時間點。

為什么目前的端到端距離L4還有一定差距，這就要從它的不確定性說起了。

端到端就像一個黑盒子，這就會帶來較多的不確定性。

比如工程師無法驗證，輸入的數(shù)據(jù)案例是否已經(jīng)被模型學會；或者遇到bug時，無法定位到底是哪個環(huán)節(jié)出了問題；又或者新加入的數(shù)據(jù)，是否會導致已學到的知識被遺忘或覆蓋，這種情況被稱為Catastrophic Forgetting（災難性遺忘）。

比如特斯拉FSD 12.4.2的版本，內(nèi)部早就做出來了，結(jié)果大規(guī)模推送卻花了很長時間，馬斯克就解釋到，因為投喂的數(shù)據(jù)中有很多人工接管的視頻，反而讓模型的水平出現(xiàn)了倒退。

由于端到端的本質(zhì)是模仿，如果遇到的情況恰好在訓練數(shù)據(jù)中有相識的案例，那就會表現(xiàn)的非常好，但如果超出了已有的參考案例，則會表現(xiàn)更差，也就是說，端到端對訓練數(shù)據(jù)的數(shù)量和案例豐富性要求非常高。

張航

Cruise高級主任科學家：

就是在交通路口紅燈的時候，一定不闖紅燈，就這么一個簡單的規(guī)則，如果是heuristic-based（啟發(fā)式的算法），我們可以很簡單的就是一條 if else，就可以達到這樣一個效果。

但是如果是一個完全端到端的模型，它是完全全靠學習的，最后他要學的這樣一條路的話其實是非常難的。所以就是我覺得短時間內(nèi)端到端對L4，還是有很大的差距，我覺得這個算法是不成熟。

劉冰雁

Kargo軟件負責人：

你沒有一些硬性規(guī)則，就是所有的、你設置的這種不能做的事情，他都可以嘗試去做一下。于是就會就是在模擬里邊，也出現(xiàn)了很多一頭撞過去的現(xiàn)象。

同時，端到端帶來的不可解釋性，也是一些人擔心的問題。

所謂的不可解釋性，就是改變其算法模型中的任意一個權(quán)重、結(jié)點或?qū)訑?shù)，都會讓模型的表現(xiàn)產(chǎn)生難以預測的影響，即使是模型的設計者和訓練者，也無法知道中間的推理過程。

與之相對的，是可解釋性，比如在Rule-based的模式下，工程師已經(jīng)寫入了“當檢測到塑料袋飄過時可以繼續(xù)行駛”的規(guī)則，那我們就不用擔心遇到這種情況會突然來個急剎車。

劉冰雁

Kargo軟件負責人：

大家看到V12里，他在屏幕上的顯示也好了很多，但他所謂的端到端，這個顯示從哪兒來的？如果這個顯示來自于，原來的這個模型，那牽扯的一個問題就是，我們實際上在這個模型里邊已經(jīng)加了一層，人為定義的接口，使得你從可以從這個模型中的某一個位置，提取出這個信息。

另一種我覺得是更恐怖的事情，就是這個顯示是完全走了另外的一個路徑，那也意味著車上顯示前面有一輛卡車，不代表控制的模型真的認為前面有一輛卡車，如果這一點被破壞了，那將是非常非?？植赖模憧吹斤@示它前面有一輛車，但你不確定它不會撞上去。

他是否是真正的端到端，我實際有點懷疑，或者說我也許不是懷疑，但是這里邊可能有別的危險性。

王辰晟

前特斯拉采購總監(jiān)：

那對于像自動駕駛這個，對于安全系數(shù)要求這么高的行業(yè)來說，端到端模型帶來的這個不可解釋性，是不是硬幣的另外一面？

由于目前特斯拉還未公布FSD V12的技術(shù)，我們并不知道FSD是否采用了多模塊的策略，但我們發(fā)現(xiàn)，已經(jīng)有車主遇到了畫面顯示與實際行為不符的案例。

比如車輛構(gòu)建的鳥瞰圖顯示前方有人，卻沒有表現(xiàn)出任何剎車的痕跡，而是繼續(xù)行駛過去，所幸只是感知端的誤檢，沒有發(fā)生事故。

這個案例雖然可以看出在端到端算法下，上層錯誤不會影響下層決策的優(yōu)勢，但也表現(xiàn)了規(guī)劃層偶爾會不認可感知層的結(jié)果，印證了劉冰雁的擔憂。

不可解釋性是否會成為阻礙端到端發(fā)展的一大難題呢？接下來就是我們看到的第三個沖突。

于振華

前特斯拉AI工程師：

我認為是這樣的，AI一個很嚴重的問題，就是它的理論性是遠遠滯后的。

AI沒有告訴你這個一定行、一定不行。所以說它是一個實驗性的學科，它不算科學，就需要一個大量的驗證。

V12是全面碾壓V11，所以這是結(jié)果說話的一個問題。那難道你還去會想，端到端有這個不可解釋性那一頓什么什么，因為它全面碾壓，那就是一個非常無腦的，你就應該往下走。

于振華認為，AI作為實驗性的學科，只要結(jié)果達到了預期，就能證明方向正確，應該繼續(xù)推進。而侯曉迪表示，V12表現(xiàn)大幅領先于V11，只是因為V11的基礎太差，其表現(xiàn)距離真正的無人駕駛還比較遠。

王辰晟

前特斯拉采購總監(jiān)：

如果真的是Full Self Driving，以L5來去限制的話，它一定要過監(jiān)管部門，他們需要有一個可解釋性或者可預測性。

再加上對于，世界上有這么多的城市，就在美國來說，它每個城市，它可能都會有不一樣的法律法規(guī)。這個車無論從硬件軟件上，需不需要去去適應當?shù)氐姆煞ㄒ?guī)，變成了這個能不能規(guī)?；囊粋€很大的問題。

端到端不能通過人為定義規(guī)則，來對模型進行微調(diào)，所以能否適應不同法規(guī)，成了端到端規(guī)模化的挑戰(zhàn)。

同樣影響規(guī)模化的因素，在于端到端對數(shù)據(jù)量和傳感器更敏感。

Chapter 3.5 前途未卜

劉冰雁

Kargo軟件負責人：

端到端有一個非常嚴酷的問題，就是它對傳感器會更敏感，也就是說當你換了傳感器或者換了傳感器的分布的時候，你這個模型可以說得完全重頭訓。

從另一個角度來說，工程上不可接受，或者說我們無法想象之后全世界路上跑的都是同一款車。

一旦更改了傳感器分布，會讓模型失效，得重新開始訓練，為了訓練又得采集大量數(shù)據(jù)，必然會帶來巨大的成本。

美國財經(jīng)媒體CNBC報道稱，到2023年初，為了訓練特斯拉FSD，就用到了1000多萬段特斯拉車主的駕駛視頻。

而且這1000多萬段訓練數(shù)據(jù)可不是隨便用的，必須是駕駛水平比較高的人類司機，否則只會讓模型的水平越來越差。

所以訓練端到端模型不光要求數(shù)據(jù)多，還得經(jīng)過復雜的篩選，這個過程中又得消耗大量人力。對于賣車多的特斯拉可能不在話下，但對于其他公司來說，數(shù)據(jù)來源卻成了大問題。

大衛(wèi)

《大小馬聊科技》主播：

很多主機廠因為盲目的追求特斯拉那套方法論，然后導致有點被忽悠瘸了，就是這套東西確實不適合90%的主機廠。

那是否意味著，其他廠商真的無法進入端到端的領域呢？

雖然英偉達和特斯拉都是通過純視覺來驅(qū)動端到端算法運行，但端到端實際上也可以接受多模態(tài)輸入。

目前常用的毫米波雷達、激光雷達、超聲波雷達等傳感器，在車輛上的位置相對固定，特別是激光雷達，基本都在車頂上，所以采用多模態(tài)接入的端到端，就能利用不同車型采集的數(shù)據(jù)，來訓練模型，而且留給主機廠的設計空間也會更大。

又這么一圈聊下來，每種算法都各有千秋，哪種方式能帶我們徹底走向全無人駕駛的未來依然不明朗。

張航

Cruise高級主任科學家：

我不覺得在當下有任何一個算法能，又簡單又規(guī)?；?，然后又能達到L4標準，我覺得這個算法本身是不存在的，這個領域是一個大家一起去推動的。我是非常樂觀，大家會殊途同歸，雖然大家會稍稍有一點點不同的偏差。

Chapter 3.6 無計可施

不論是哪種算法，最終都要面對的是長尾問題。

在傳統(tǒng)Rule-based（規(guī)則驅(qū)動）模型下，編寫規(guī)則庫（rule base）需要龐大的團隊耗費大量精力，還很難做到面面俱到，那有了端到端后，長尾問題能得到解決嗎？

Minfa Wang

前Waymo高級機器學習工程師：

他解決了常規(guī)的的案例，但是長尾的問題我覺得依舊會存在。

Minfa認為，自動駕駛系統(tǒng)的容錯率很低，如果要將一個黑盒系統(tǒng)用在L4上，必須引入其他安全機制，但這樣又回到了Rule-based模式下的成本問題。

自動駕駛算法會先到仿真系統(tǒng)里練習，那仿真訓練可以解決一定的長尾問題嗎？

張航

Cruise高級主任科學家：

目前還沒有一個很好的方案能通過，生成的模擬數(shù)據(jù)，能夠?qū)ξ覀兊默F(xiàn)實中的道路表現(xiàn)有真正有很大的幫助。

Minfa Wang

前Waymo高級機器學習工程師：

像自動駕駛或者機器人的領域里邊，環(huán)境是非常非常復雜的，你要仿真的話，仿真的不只是你自己，這個車會未來怎么動，主要困難的是，當你自己的車的軌跡發(fā)生變化的時候，你會影響周圍的所有的車和人的行為也發(fā)生變化。

如何能夠很好的仿真，然后并且能夠不出現(xiàn) distribution shift（分布偏移），我覺得依舊是一個開放性話題。

既然虛擬的場景無法完全模擬出現(xiàn)實的種種可能，那是否意味著，目前業(yè)內(nèi)沒有辦法解決長尾問題，只能靠漫長地積累經(jīng)驗呢？

匿名受訪者

L4工程師：

某種程度上是吧，但你也不用做到，就是特別完美，對吧？人類也不完美，你只要做得比人好就行。人也有他的事故率，你只要做比這個好就夠了。

侯曉迪

前圖森未來創(chuàng)始人兼CEO，Bot.auto創(chuàng)始人：

我覺得長尾問題其實也是一個偽命題，就這個很高興你們提出來這個事情。

在我看來長尾問題，比如說我見到鱷魚怎么處理？我見著大象怎么處理？我見著一個固定翼飛機停在高速公路上，我怎么處理？

實際上對于很多長尾問題，我們是讓它包裹成一大類問題的，見到我沒見過的物體，怎么處理？如果你把它包裹成了一個更總體的的一類問題的話，它是很好處理的。

比如說我們曾經(jīng)就見到有固定翼飛機停在高速公路上，那我們的處理方案很簡單，停車呀對吧？

長尾問題到底是不是偽命題，或者它是不是需要解決的問題？這個話題可能大家都有自己的答案。而長尾問題對應的是，L4甚至L5何時才能大范圍鋪開，所以接下來，我們就來看看L2與L4的激烈沖突。

04 特斯拉Robotaxi能成嗎：L2與L4的沖突

Chapter 4.1 “成不了”

我們在馬斯克宣布推遲發(fā)布Robotaxi之前就詢問了各位嘉賓的看法，大家對此的看法非常統(tǒng)一，那就是今年特斯拉的無人出租車是不可能上線的。

大家觀點如此統(tǒng)一的最大原因，就在于目前特斯拉已有的車型，達不到L4標準的無人出租車。

劉冰雁

Kargo軟件負責人：

我非常確定現(xiàn)有的特斯拉的這幾個車型，都有非常明確的盲區(qū)，如果他想實現(xiàn)最終的，不管是L4、 L5的自動駕駛，他的下一款車，一定需要解決這個盲區(qū)問題。而解決這盲區(qū)問題又回到我們現(xiàn)剛才說的，它一定要調(diào)整相機傳感器的位置，而傳調(diào)整這些位置立刻帶來的結(jié)果就是，就是之前這個模型會完全失效。

就是現(xiàn)有的車從視覺攝像頭架構(gòu)的角度來說，是不可能達到，可以完全無人接管的FSD的。從這個角度來說，它必須有一款新的硬件出現(xiàn)。

張航

Cruise高級主任科學家：

從傳感器角度，它需要引入一些冗余，這個可能之前L2是不需要的。

在業(yè)內(nèi)人士不看好的情況下，是什么原因讓馬斯克對推出Robotaxi如此有信心呢？

于振華

前特斯拉AI工程師：

我認為主要還是這個FSD V12的幾個技術(shù)突破，作為馬斯克他的這個性格，他看到FSD V12今天這一刻，在他的這個計劃里面，他就覺得Robotaxi應該必須擺上日程了。

所以，F(xiàn)SD V12能讓特斯拉走向L4，承擔起Robotaxi的重任嗎？和目前已有的Waymo或Cruise比起來差距有多大呢？

在采訪侯曉迪這個問題時，他的回答讓我們看到了行業(yè)內(nèi)的另外一派觀點：那就是L2和L4的差距非常遠。

Chapter 4.2 “差很遠”

侯曉迪

前圖森未來創(chuàng)始人兼CEO，Bot.auto創(chuàng)始人：

首先特斯拉做的不是無人駕駛，我們今天談的是去掉人、并且由軟件開發(fā)公司承擔責任的方案，才叫無人駕駛，咱們不要虛假宣傳， FSD叫輔助駕駛，它不是無人駕駛，所以做的不是一個東西。

目前被廣泛應用在車企上的都是L2輔助駕駛，比如特斯拉、小米、華為、小鵬等等，而像Waymo、Cruise、百度等做無人出租車的企業(yè)，則采用的是L4高度自動駕駛，拋開書面的概念定義，這兩者之間的本質(zhì)區(qū)別就在于，誰來承擔責任。

侯曉迪

前圖森未來創(chuàng)始人兼CEO，Bot.auto創(chuàng)始人：

去掉人并且由軟件開發(fā)公司承擔責任的方案才叫無人駕駛。講一笑話，如果特斯拉撞死人了怎么辦？對Elon Musk來講，its not their business（這不關他的事）。

所以，如果特斯拉想做無人出租車，就必須做到自己承擔責任。那輔助駕駛和自動駕駛之間，從技術(shù)上又有哪些區(qū)別呢？

侯曉迪

前圖森未來創(chuàng)始人兼CEO，Bot.auto創(chuàng)始人：

L4無人駕駛要解決的核心問題是什么？是安全性，是冗余，是當一個系統(tǒng)的每一個模塊都有可能會失效的時候，這個系統(tǒng)還仍然能夠保障最底線的安全。這件事是L4最難和最關鍵的部分。在掙錢之前它要先解決安全性的問題，但是這件事情根本不是特斯拉的設計宗旨。

另外一位L4自動駕駛研究員也分別從硬件與軟件的角度，分析了L2和L4之間的區(qū)別。

張航

Cruise高級主任科學家：

L4 的解決方案，首先是我們有比較強的傳感器，這個可能很難在L2場景里面去用，起碼不會用這么高精度的激光雷達。

從算法角度可能L2公司更注重的是一些，更有效能把成本降得很低，然后不需要特別昂貴的傳感器，然后可能更少的計算就可以達到這樣一個效果。這些L2其實不需要考慮這種百萬分之一的案例。

那我們L4追求的是，一百萬英里以上才需要引入一次的人類遠程協(xié)助，就是達到追求的是這種百萬分之一的案例。

總結(jié)一下：L4的方案，采用的傳感器精度更高，芯片的算力會更充足，能應對的場景也更全面。

但L2的方案中，首要考慮的是成本問題，所以硬件水平會稍低一些，同時算法為了適應水平稍低的硬件，會更注重效率而非安全，這樣L2的接管頻率會比L4高很多。

那么，像特斯拉這樣做L2的公司，能否通過提升硬件與軟件，來達到L4的效果呢？

Chapter 4.3 “兩碼事”

侯曉迪

前圖森未來創(chuàng)始人兼CEO，Bot.auto創(chuàng)始人：

我不支持L2緩慢進化到L4、L5的路線，我覺得這件事情又是一個帶有很強這種外推屬性的偽命題。

假以時日，海豚能不能進化出文明來？我覺得有可能，但是我們要知道地球文明已經(jīng)容不下海豚去進化了，因為已經(jīng)有公司做出來了，我這個公司就是為了能夠最快速的把L4落地。我落了地以后就沒你什么事兒了，對吧？智人拿起標槍的時候就沒有海豚去產(chǎn)生文明什么事兒了。

在侯曉迪看來，目前已有的L4公司已經(jīng)筑起了技術(shù)壁壘，激烈競爭下，不會給到L2進化的機會，同時，也有人認為，這并不意味著L4的技術(shù)比L2更高級，只是大家針對的場景不同。

于振華

前特斯拉AI工程師：

如果說，真的L4比L2像大家所想象的，在技術(shù)上是絕對的高級、絕對的領先。那么我想請問為什么L4技術(shù)不能夠直接降級成了L2？

事實上是在過去的很多年里面，L4公司被由于他這個收入的壓力，他都在幫車廠去做L2，但是他不能夠簡單的降級，他基本上都要重新開發(fā)。

那我們也知道在美國，GM（通用汽車）是擁有Cruise L4公司，福特是擁有Argo AI，也是個L4公司，為什么GM不能使用Cruise的技術(shù)在它的量產(chǎn)車上？為什么福特不能使用Argo AI的L4技術(shù)在它量產(chǎn)車上？所以說L4并不是比L2絕對高級，在技術(shù)難度上，我不認為你做L4了，你就顯得非常高級。

為什么L4的技術(shù)不能直接降級成L2使用呢？張航對此解釋道，由于L4所采用的硬件規(guī)格更高，而L2的算法必須適應規(guī)格更低的傳感器和算力較少的處理器，才導致兩者的技術(shù)無法直接遷移。

就像一位建筑設計師，被沒收了電腦，只給他精度不高的尺子和紙筆，他也得重新適應新的畫圖方式。

張航

Cruise高級主任科學家：

就是你前面說的就是這個計算量的問題，L2的解決方案，不可能去支持，我們在一個車的后備箱里面放一個超級計算機，這是一個不現(xiàn)實的一個解決方案。

同時，張航對L2與L4的技術(shù)比較，也表現(xiàn)出了更開放的心態(tài)，L2鋪設的范圍更廣，需要面對的場景更多，只需要解決基本問題即可。而L4的覆蓋范圍有限，但更關注各種細節(jié)。所以兩者之間各有優(yōu)劣。

張航

Cruise高級主任科學家：

L4本身不能通過簡單的去把已有的系統(tǒng)做簡化，去掉冗余，去作為一個L2的解決方案，但反之亦然。L2做想做到L4的標準，這是一個很長的時間去磨練，你需要很長時間的數(shù)據(jù)收集，然后去積累經(jīng)驗。

但我覺得并不是說，我們的技術(shù)路線，或者技術(shù)深度會比L2高，我覺得這個不一定，L4可能很多并不是說很尖端的一些算法，但是就是通過一些，很細心的去設計去解決這些很細節(jié)的一些長尾問題。

你會支持哪個觀點呢？可以留言告訴我們。在我們的采訪中，這個問題在不同的人眼里，都會有自己的答案。

于振華

前特斯拉L2工程師：

我覺得就是在普通的大眾，甚至一些L4公司會給大家灌輸一個概念，就是L4技術(shù)優(yōu)于L3，然后優(yōu)于L2。我覺得這個是一個脫開它的限制場景，來誤導大眾，因為L4 的現(xiàn)在的Robotaxi，它是有很大限制場景的，必須在特定的這個地區(qū)，比如Waymo，它只能在一個地區(qū)一個地區(qū)的運行。

邵旭輝

Foothill Ventures管理合伙投資人：

我個人覺得就是還是會看好L4的公司，因為就是這個邏輯上來說，L4是可以降維打擊的，而L2的話，如果你只做這個，你是升不上去的，或者說非常非常難升上去。

匿名受訪者

L4工程師：

其實在技術(shù)棧上我覺得就沒有說一個特別難的一個門檻，就比如說某家公司，他今天可以宣稱，做L2的公司，那也許明天他加了一些新的技術(shù)，也可以去做L4，對吧？這完全看他應用采用什么技術(shù)，或者說有一些什么新的科技突破，對吧？

侯曉迪

前圖森未來創(chuàng)始人兼CEO，Bot.auto創(chuàng)始人：

輔助駕駛跟無人駕駛是兩個東西。

由于文章長度的原因，我們把自動駕駛的運營、商業(yè)化、以及宏觀經(jīng)濟對自動駕駛行業(yè)的影響，投資人如何看待特斯拉股價等等內(nèi)容放在了下期，很快就會上線，大家別忘了關注我們。

查看原圖 22K

文 | 硅谷101

無人駕駛，真的能落地嗎？

結(jié)果就是，在2024年之前，無人駕駛走入了寒冬。

我們發(fā)現(xiàn)這個行業(yè)依然割裂，很多技術(shù)路線業(yè)內(nèi)并沒有達成共識。

這個系列文章我們將從感知、算法、產(chǎn)品、運營、經(jīng)濟、法律等多個角度，全方位一起來探討如今的自動駕駛技術(shù)的最前沿現(xiàn)狀。

本期文章我們先全面聊聊技術(shù)，下期會從運營與經(jīng)濟角度解析。

01 自動駕駛是什么？

我們先來做個概念區(qū)分：無人駕駛和自動駕駛的區(qū)別是什么？

根據(jù)智能化程度的不同，自動駕駛被分為L0到L5共6個等級：

L0為無自動化，L1指駕駛援助，L2指部分自動駕駛，L3指有條件自動駕駛，L4指高度自動駕駛，L5指完全自動駕駛，即真正的無人駕駛。

我們之后提到的Waymo和Cruise，以及侯曉迪做的無人卡車都屬于L4級別，特斯拉FSD屬于L2級別，但馬斯克號稱的特斯拉Robotaxi，卻是L4級別的。

我們再來看看自動駕駛產(chǎn)業(yè)是怎么開始的。

盡管早在100年前人類就開始探索無人駕駛，但公認現(xiàn)代自動駕駛正式起源于2004年美國軍方的DARPA挑戰(zhàn)賽。

后來隨著AI的興起，人們開始讓機器自己去學習如何開車，先讓算法到仿真的數(shù)字世界里開車，等仿真訓練到一定程度，就可以開始上路測試。

而最近這兩年，隨著特斯拉將“端到端”方案應用在FSD V12的版本中，感知-規(guī)劃-控制的運行鏈路也開始改變。

02 感知篇：純視覺Vs.多模態(tài)融合

目前汽車主流的感知方案分為兩種。

當時的激光雷達還是單線掃描，只能對一個方向測距，而David Hall發(fā)明了64線機械旋轉(zhuǎn)式激光雷達，可以360度掃描環(huán)境。

后來他帶著這臺旋轉(zhuǎn)式的激光雷達，參加2005年第二屆的DARPA挑戰(zhàn)賽。終于有臺頭頂著5個激光雷達的車完賽并取得了冠軍。

但這并不是David Hall的車……他的車輛中途因機械故障退賽了，不過他的表現(xiàn)確實讓大家意識到了，激光雷達、是個“外掛”。

張航

Cruise高級主任科學家：

張航

Cruise高級主任科學家：

但在特斯拉的前AI工程師于振華看來，選擇純視覺并不只是節(jié)約成本那么簡單。

Chapter 2.1 多即是亂？

于振華

前特斯拉AI工程師：

其實特斯拉原來的自動駕駛系統(tǒng)是有毫米波雷達，傳感器融合其實是一個很復雜的算法，就是它做出來了并不一定好。

于振華認為，如果融合算法做不好，或者通過純視覺就已經(jīng)能達到足夠好的效果了，那更多傳感器反而成為累贅。

接受我們采訪的很多L4從業(yè)者也同意，信息并不是越多越好，反之，傳感器收集到的太多額外的無效信息會加劇算法的負擔。

那么馬斯克一直倡導的光靠攝像頭這一種傳感器，到底行不行呢？

Chapter 2.2 少即是多？

比如特斯拉將白色卡車識別為天空、把月亮識別為黃燈，又或者理想將廣告牌上內(nèi)容識別為汽車，導致高速急剎追尾等事故。

這些案例是否意味著，少了深度信息的純視覺方案，存在先天性不足呢？

但是，L4的從業(yè)人員就有不同的觀點了。他們認為攝像頭就是有天然劣勢的。

但市面上也有其它的看法，認為除了視覺信息，其他傳感器也會帶來干擾信息。

劉冰雁

Kargo軟件負責人：

如果能做好多傳感器融合算法，讓激光雷達與圖像信息互相驗證，或許會讓系統(tǒng)的安全性進一步提升。

選擇純視覺還是以激光雷達為主的多模態(tài)融合方案，這個辯論已經(jīng)持續(xù)了數(shù)年，并且似乎短期內(nèi)不會有答案。或者對一些創(chuàng)業(yè)公司來說，什么路線根本也沒那么重要，而成本和經(jīng)濟賬才是最重要的。

侯曉迪

前圖森未來創(chuàng)始人兼CEO，Bot.auto創(chuàng)始人：

我曾經(jīng)被認為是視覺派的，是因為當時買不到激光雷達，所以逼著我們不得不去在視覺上多去找解決方案。

大衛(wèi)

《大小馬聊科技》主播：

于振華

前特斯拉AI工程師：

我覺得 1000塊錢太貴了，特斯拉連雨量傳感器都不舍得用。

王辰晟

前特斯拉采購總監(jiān)：

Chapter 2.3 幡然悔悟？

有意思的是，隨著激光雷達價格大幅下降，業(yè)內(nèi)開始對特斯拉即將發(fā)布的無人駕駛出租車，是否會用上激光雷達產(chǎn)生了分歧。

比如張航就認為，由于Robotaxi沒有人類干預，而且出了事需要企業(yè)負責，特斯拉可能會選擇更保守的路線，會用上曾經(jīng)瞧不起的激光雷達。

張航

Cruise 高級主任科學家：

于振華

前特斯拉AI工程師：

劉冰雁

Kargo軟件負責人：

Chapter 2.4 歷久彌新？

除了激光雷達外，高精地圖也是自動駕駛感知端中的成本大頭。

高精地圖就是提前采集道路信息，降低感知模塊繪制3D地圖的壓力，并提高準確性。

說來也巧，最早推行高精地圖的人，正是2005年第二屆DARPA挑戰(zhàn)賽的冠軍——那個頭頂了5臺激光雷達的車主，Sebastian Thrun。

再加上地圖頻繁的維護成本，最終消耗將是無法想象的天文數(shù)字。

現(xiàn)在已經(jīng)有不少車企，紛紛宣傳舍棄高精地圖的無圖方案，轉(zhuǎn)而由車輛在本地構(gòu)建環(huán)境地圖。

匿名受訪者

L4工程師：

華為還有理想，他們的解決方案是量產(chǎn)車，你的客戶可能是來自各種城市，你要在任何城市都能開。

所以如果是做這個量產(chǎn)車的生意的話，你不可能說我專門有一個地圖采集車，我把全中國都給你跑遍了，這個是不現(xiàn)實的。

像特斯拉、華為、理想等L2的公司拋棄高精地圖，是因為無法覆蓋每一條大街小巷。

而Waymo、Cruise這樣做Robotaxi的L4公司選擇繼續(xù)使用高精地圖，因為他們發(fā)現(xiàn)，只需要覆蓋一些關鍵的城市，就能拿下足夠的市場了。

所以，是否使用高精地圖成為了Robotaxi公司的經(jīng)濟賬問題，而不是技術(shù)問題。

Minfa Wang

前Waymo高級機器學習工程師：

這么一圈聊下來，在感知端上，業(yè)內(nèi)也沒有統(tǒng)一的看法，就像侯曉迪說的一樣，抓到耗子就是好貓。

03 算法篇：端到端是自動駕駛的未來嗎？

Chapter 3.1 何為傳統(tǒng)？

傳統(tǒng)的自動駕駛的運行鏈路是先感知、預測，再規(guī)劃，最后控制。

感知模塊要先通過攝像頭、雷達等傳感器，識別道路，把這些信息翻譯成機器能看到的語言，傳遞給預測模塊。

這樣的算法有哪些難點呢？

類似的，在傳統(tǒng)的Rule-based模式下，如果上一層模塊做得不夠好，會影響到下一層的表現(xiàn)。

于振華

前特斯拉AI工程師：

比如說特斯拉，前幾年NHTSA（美國交通安全管理局）要求特斯拉能夠檢測到緊急車輛，比如說消防車、救護車之類的，在感知上你就要求要檢測這個，然后控制規(guī)劃也要做這個，這只是一個任務，可能會成百上千這樣的任務，你要去規(guī)模化，所以說在華為你們知道有幾千個工程師？大概是6000個工程師，因為你會有這么多不斷涌現(xiàn)的新的任務出現(xiàn)，環(huán)境越復雜任務越多，我認為這不是一個可規(guī)?；哪Ｊ?。

大衛(wèi)

《大小馬聊科技》主播：

那有什么辦法能解決這些問題呢？這時候就得聊聊“端到端”（End To End）了。

Chapter 3.2 新超級明星

也就是說，不再需要人為編寫各種規(guī)則，讓算法跟著投喂的數(shù)據(jù)，自己學會如何開車。

于振華

前特斯拉AI工程師：

因為我們?nèi)祟愰_車，我們腦子里并不是去判斷某輛車的速度和角度的，你就是通過一個復雜環(huán)境來下意識地來做出你的決策。

在主流觀點中，只有將多個模塊融為了一個整體，去掉了感知層、預測層、規(guī)劃層這樣的定義，才算純正的“端到端”。

2023年，CVPR的最佳論文《Planning-oriented Autonomous Driving》就提出，過去的“端到端”要么只運行在部分模塊上，要么需要在系統(tǒng)中插入一些組件。

而這篇論文提出了UniAD的模型架構(gòu)，是首次將所有的感知、預測、規(guī)劃模塊，都整合到了一個基于Transformer的端到端網(wǎng)絡框架下。

Chapter 3.3 “端到端”優(yōu)勢

大衛(wèi)

《大小馬聊科技》主播：

不少體驗過FSD V12的人表示，這個通過人類駕駛數(shù)據(jù)來學習的系統(tǒng)，駕駛風格非常像人，不再有機械式算法帶來的頓挫感。

但與此同時，也有嘉賓在體驗后認為，F(xiàn)SD V12還沒有好到讓人非用不可，與L4之間還存在一定差距。

莫傑麟（Justin）

某家族辦公室首席投資官：

但是它沒有好到GPT4的那個時刻，就沒有好到說這個東西讓我必須得用，或者說我立馬就要用，能夠適合在我的很多的場景里面去用。

Minfa Wang

前Waymo高級機器學習工程師：

高速路相對它的表現(xiàn)還是比較好的，但在街道上我覺得基本上每開5英里左右，我覺得就需要人工接管一次。

我自己也體驗了一下FSD 12.4.4的版本，和Waymo這類L4的車輛比起來，目前的特斯拉FSD依然在某些時候會嚇我一跳，或者有時候表現(xiàn)出莫名其妙的行為。

比如在一個右轉(zhuǎn)彎時，由于它的轉(zhuǎn)彎半徑太大，差點撞到對向來車，我不得不手動接管。

從表現(xiàn)上來看，“端到端”的FSD V12依然還有進步的空間，而從工程、運營和管理角度來看，“端到端”的優(yōu)勢有三點：

第一，能讓系統(tǒng)整體更簡潔。去掉規(guī)則庫后，只需要不斷補充訓練案例，即可進一步提升模型表現(xiàn)，維護和升級成本也將大幅降低。

第二，節(jié)省人力成本。由于“端到端”不再依賴繁雜的規(guī)則庫，因此不必配備龐大的開發(fā)團隊，甚至不再依賴專家。

既然“端到端”有如此多的優(yōu)勢，它能解決目前自動駕駛面臨的技術(shù)問題嗎？

Chapter 3.4 黑盒模型

我們采訪的不少嘉賓認為，在現(xiàn)階段下，進一步發(fā)展端到端的路線是自動領域內(nèi)公認的趨勢，但依然存在不少問題。

張航

Cruise 高級主任科學家：

為什么目前的端到端距離L4還有一定差距，這就要從它的不確定性說起了。

端到端就像一個黑盒子，這就會帶來較多的不確定性。

張航

Cruise高級主任科學家：

劉冰雁

Kargo軟件負責人：

同時，端到端帶來的不可解釋性，也是一些人擔心的問題。

劉冰雁

Kargo軟件負責人：

另一種我覺得是更恐怖的事情，就是這個顯示是完全走了另外的一個路徑，那也意味著車上顯示前面有一輛卡車，不代表控制的模型真的認為前面有一輛卡車，如果這一點被破壞了，那將是非常非?？植赖?，你看到顯示它前面有一輛車，但你不確定它不會撞上去。

他是否是真正的端到端，我實際有點懷疑，或者說我也許不是懷疑，但是這里邊可能有別的危險性。

王辰晟

前特斯拉采購總監(jiān)：

那對于像自動駕駛這個，對于安全系數(shù)要求這么高的行業(yè)來說，端到端模型帶來的這個不可解釋性，是不是硬幣的另外一面？

比如車輛構(gòu)建的鳥瞰圖顯示前方有人，卻沒有表現(xiàn)出任何剎車的痕跡，而是繼續(xù)行駛過去，所幸只是感知端的誤檢，沒有發(fā)生事故。

不可解釋性是否會成為阻礙端到端發(fā)展的一大難題呢？接下來就是我們看到的第三個沖突。

于振華

前特斯拉AI工程師：

我認為是這樣的，AI一個很嚴重的問題，就是它的理論性是遠遠滯后的。

AI沒有告訴你這個一定行、一定不行。所以說它是一個實驗性的學科，它不算科學，就需要一個大量的驗證。

王辰晟

前特斯拉采購總監(jiān)：

如果真的是Full Self Driving，以L5來去限制的話，它一定要過監(jiān)管部門，他們需要有一個可解釋性或者可預測性。

端到端不能通過人為定義規(guī)則，來對模型進行微調(diào)，所以能否適應不同法規(guī)，成了端到端規(guī)?；奶魬?zhàn)。

同樣影響規(guī)?；囊蛩?，在于端到端對數(shù)據(jù)量和傳感器更敏感。

Chapter 3.5 前途未卜

劉冰雁

Kargo軟件負責人：

端到端有一個非常嚴酷的問題，就是它對傳感器會更敏感，也就是說當你換了傳感器或者換了傳感器的分布的時候，你這個模型可以說得完全重頭訓。

從另一個角度來說，工程上不可接受，或者說我們無法想象之后全世界路上跑的都是同一款車。

一旦更改了傳感器分布，會讓模型失效，得重新開始訓練，為了訓練又得采集大量數(shù)據(jù)，必然會帶來巨大的成本。

美國財經(jīng)媒體CNBC報道稱，到2023年初，為了訓練特斯拉FSD，就用到了1000多萬段特斯拉車主的駕駛視頻。

而且這1000多萬段訓練數(shù)據(jù)可不是隨便用的，必須是駕駛水平比較高的人類司機，否則只會讓模型的水平越來越差。

大衛(wèi)

《大小馬聊科技》主播：

很多主機廠因為盲目的追求特斯拉那套方法論，然后導致有點被忽悠瘸了，就是這套東西確實不適合90%的主機廠。

那是否意味著，其他廠商真的無法進入端到端的領域呢？

雖然英偉達和特斯拉都是通過純視覺來驅(qū)動端到端算法運行，但端到端實際上也可以接受多模態(tài)輸入。

又這么一圈聊下來，每種算法都各有千秋，哪種方式能帶我們徹底走向全無人駕駛的未來依然不明朗。

張航

Cruise高級主任科學家：

我不覺得在當下有任何一個算法能，又簡單又規(guī)?；缓笥帜苓_到L4標準，我覺得這個算法本身是不存在的，這個領域是一個大家一起去推動的。我是非常樂觀，大家會殊途同歸，雖然大家會稍稍有一點點不同的偏差。

Chapter 3.6 無計可施

不論是哪種算法，最終都要面對的是長尾問題。

Minfa Wang

前Waymo高級機器學習工程師：

他解決了常規(guī)的的案例，但是長尾的問題我覺得依舊會存在。

自動駕駛算法會先到仿真系統(tǒng)里練習，那仿真訓練可以解決一定的長尾問題嗎？

張航

Cruise高級主任科學家：

目前還沒有一個很好的方案能通過，生成的模擬數(shù)據(jù)，能夠?qū)ξ覀兊默F(xiàn)實中的道路表現(xiàn)有真正有很大的幫助。

Minfa Wang

前Waymo高級機器學習工程師：

如何能夠很好的仿真，然后并且能夠不出現(xiàn) distribution shift（分布偏移），我覺得依舊是一個開放性話題。

既然虛擬的場景無法完全模擬出現(xiàn)實的種種可能，那是否意味著，目前業(yè)內(nèi)沒有辦法解決長尾問題，只能靠漫長地積累經(jīng)驗呢？

匿名受訪者

L4工程師：

某種程度上是吧，但你也不用做到，就是特別完美，對吧？人類也不完美，你只要做得比人好就行。人也有他的事故率，你只要做比這個好就夠了。

侯曉迪

前圖森未來創(chuàng)始人兼CEO，Bot.auto創(chuàng)始人：

我覺得長尾問題其實也是一個偽命題，就這個很高興你們提出來這個事情。

在我看來長尾問題，比如說我見到鱷魚怎么處理？我見著大象怎么處理？我見著一個固定翼飛機停在高速公路上，我怎么處理？

比如說我們曾經(jīng)就見到有固定翼飛機停在高速公路上，那我們的處理方案很簡單，停車呀對吧？

04 特斯拉Robotaxi能成嗎：L2與L4的沖突

Chapter 4.1 “成不了”

我們在馬斯克宣布推遲發(fā)布Robotaxi之前就詢問了各位嘉賓的看法，大家對此的看法非常統(tǒng)一，那就是今年特斯拉的無人出租車是不可能上線的。

大家觀點如此統(tǒng)一的最大原因，就在于目前特斯拉已有的車型，達不到L4標準的無人出租車。

劉冰雁

Kargo軟件負責人：

就是現(xiàn)有的車從視覺攝像頭架構(gòu)的角度來說，是不可能達到，可以完全無人接管的FSD的。從這個角度來說，它必須有一款新的硬件出現(xiàn)。

張航

Cruise高級主任科學家：

從傳感器角度，它需要引入一些冗余，這個可能之前L2是不需要的。

在業(yè)內(nèi)人士不看好的情況下，是什么原因讓馬斯克對推出Robotaxi如此有信心呢？

于振華

前特斯拉AI工程師：

所以，F(xiàn)SD V12能讓特斯拉走向L4，承擔起Robotaxi的重任嗎？和目前已有的Waymo或Cruise比起來差距有多大呢？

在采訪侯曉迪這個問題時，他的回答讓我們看到了行業(yè)內(nèi)的另外一派觀點：那就是L2和L4的差距非常遠。

Chapter 4.2 “差很遠”

侯曉迪

前圖森未來創(chuàng)始人兼CEO，Bot.auto創(chuàng)始人：

侯曉迪

前圖森未來創(chuàng)始人兼CEO，Bot.auto創(chuàng)始人：

所以，如果特斯拉想做無人出租車，就必須做到自己承擔責任。那輔助駕駛和自動駕駛之間，從技術(shù)上又有哪些區(qū)別呢？

侯曉迪

前圖森未來創(chuàng)始人兼CEO，Bot.auto創(chuàng)始人：

另外一位L4自動駕駛研究員也分別從硬件與軟件的角度，分析了L2和L4之間的區(qū)別。

張航

Cruise高級主任科學家：

L4 的解決方案，首先是我們有比較強的傳感器，這個可能很難在L2場景里面去用，起碼不會用這么高精度的激光雷達。

那我們L4追求的是，一百萬英里以上才需要引入一次的人類遠程協(xié)助，就是達到追求的是這種百萬分之一的案例。

總結(jié)一下：L4的方案，采用的傳感器精度更高，芯片的算力會更充足，能應對的場景也更全面。

那么，像特斯拉這樣做L2的公司，能否通過提升硬件與軟件，來達到L4的效果呢？

Chapter 4.3 “兩碼事”

侯曉迪

前圖森未來創(chuàng)始人兼CEO，Bot.auto創(chuàng)始人：

我不支持L2緩慢進化到L4、L5的路線，我覺得這件事情又是一個帶有很強這種外推屬性的偽命題。

于振華

前特斯拉AI工程師：

如果說，真的L4比L2像大家所想象的，在技術(shù)上是絕對的高級、絕對的領先。那么我想請問為什么L4技術(shù)不能夠直接降級成了L2？

事實上是在過去的很多年里面，L4公司被由于他這個收入的壓力，他都在幫車廠去做L2，但是他不能夠簡單的降級，他基本上都要重新開發(fā)。

就像一位建筑設計師，被沒收了電腦，只給他精度不高的尺子和紙筆，他也得重新適應新的畫圖方式。

張航

Cruise高級主任科學家：

張航

Cruise高級主任科學家：

你會支持哪個觀點呢？可以留言告訴我們。在我們的采訪中，這個問題在不同的人眼里，都會有自己的答案。

于振華

前特斯拉L2工程師：

邵旭輝

Foothill Ventures管理合伙投資人：

匿名受訪者

L4工程師：

侯曉迪

前圖森未來創(chuàng)始人兼CEO，Bot.auto創(chuàng)始人：

輔助駕駛跟無人駕駛是兩個東西。

查看原圖 22K

歷史搜索全部刪除

熱門搜索

端到端能帶來新春天？深扒分裂的無人駕駛行業(yè)

01 自動駕駛是什么？

02 感知篇：純視覺Vs.多模態(tài)融合

03 算法篇：端到端是自動駕駛的未來嗎？

04 特斯拉Robotaxi能成嗎：L2與L4的沖突

評論

端到端能帶來新春天？深扒分裂的無人駕駛行業(yè)

01 自動駕駛是什么？

02 感知篇：純視覺Vs.多模態(tài)融合

03 算法篇：端到端是自動駕駛的未來嗎？

04 特斯拉Robotaxi能成嗎：L2與L4的沖突

端到端能帶來新春天？深扒分裂的無人駕駛行業(yè)

01 自動駕駛是什么？

02 感知篇：純視覺Vs.多模態(tài)融合

03 算法篇：端到端是自動駕駛的未來嗎？

04 特斯拉Robotaxi能成嗎：L2與L4的沖突

評論

端到端能帶來新春天？深扒分裂的無人駕駛行業(yè)

01 自動駕駛是什么？

02 感知篇：純視覺Vs.多模態(tài)融合

03 算法篇：端到端是自動駕駛的未來嗎？

04 特斯拉Robotaxi能成嗎：L2與L4的沖突

01 自動駕駛是什么？

端到端能帶來新春天？深扒分裂的無人駕駛行業(yè)

03 算法篇：端到端是自動駕駛的未來嗎？