正在閱讀:

對話理想汽車郎咸朋:智駕“差生”如何追趕特斯拉

掃一掃下載界面新聞APP

對話理想汽車郎咸朋:智駕“差生”如何追趕特斯拉

理想汽車如何在不到兩年時間里,迭代三代版本,最終將與特斯拉的差距縮短至半年以內(nèi)。

圖片來源:界面新聞圖庫

界面新聞記者 | 周姝祺

很長一段時間里,理想汽車都難以接住華為問界在智能駕駛上的宣傳攻勢。這項原本不被納入消費者購車決策前三的選項,成為了兩家汽車品牌在一線競爭中的關鍵角色。

理想汽車銷售人員會通過座艙體驗等其他產(chǎn)品功能,遮掩智駕相對落后的事實,甚至避免直接提及華為。彼時,與理想L系列車型直接對標的問界新M7打開了用戶對于智駕功能的認知,也帶動品牌銷量以令行業(yè)震驚的速度高漲。

但今年劇情的走向出現(xiàn)反轉。理想汽車成為了繼華為之后,第二家“全國都能開”的汽車制造商,反超了原本領先的蔚來和小鵬。

理想汽車銷售也開始主動向用戶推售帶高階智駕軟件的MAX版本車型。最新的數(shù)據(jù)是,用戶選購AD Max的定單占比從5月份的37%提升至7月的49%,其中L9 MAX版本的選購率達到75%。

讓一些競爭對手感到不安的是,理想汽車似乎在極短時間里,快速彌補了智駕短板。這位后來者在傳統(tǒng)人工書寫規(guī)則的時代沒有表現(xiàn)出領先優(yōu)勢,卻在切換至業(yè)內(nèi)前沿的端到端技術后,突然逆襲,這讓外界備受關注。

業(yè)內(nèi)對理想智駕的態(tài)度正在發(fā)生微妙的轉變。一位華為智駕工程師向界面新聞透露,過去內(nèi)部只關注特斯拉和小鵬汽車的研發(fā)進展,但現(xiàn)在理想汽車也被納入了討論話題圈。

理想汽車曾是“蔚小理”里最不被看好的一家,所堅持的增程式路線被詬病技術落后。但現(xiàn)在它的銷量位居新勢力榜首,而增程路線也在被越來越多汽車公司采納。

智能駕駛領域復制了一樣的劇情。理想汽車智能駕駛研發(fā)副總裁郎咸朋和智能駕駛研發(fā)負責人賈鵬接受界面新聞等媒體采訪時復盤,智駕“差生”是如何在不到兩年時間里,迭代三代版本,最終將與特斯拉的差距縮短至半年以內(nèi)。

由于起步時期對利潤和效益的極致追求,理想汽車在智駕領域的投入保守,一直是業(yè)內(nèi)追隨者的姿態(tài)。

拉長時間線來看,在理想汽車剛剛成立那年,華為即啟動了自動駕駛技術研發(fā)。而當2021年理想汽車開始自研智駕之時,同期蔚來汽車和小鵬汽車已經(jīng)落地了高速領航輔助駕駛功能(NOA)。

在去年行業(yè)忙著城區(qū)NOA的比賽時,理想汽車CEO李想在9月召開的秋季戰(zhàn)略會上反思,理想汽車在智駕上全力投入偏晚。他第一次明確,智能駕駛是公司核心戰(zhàn)略,要在2024年成為智駕的絕對頭部。

理想汽車開始大規(guī)模招人,成為當時為數(shù)不多能夠給出高薪資和多崗位的企業(yè)。當時理想汽車認為學習華為的軍團作戰(zhàn)模式,可以通過人才的密度換取研發(fā)的速度。

但實際落地進程并不順利。一年時間里,理想汽車先后嘗試了神經(jīng)先驗網(wǎng)絡(NPN)和無圖兩個方案,投入大量人力迭代、更新和測試,始終無法達到擬人程度。

接連切換技術路線,讓郎咸朋很快意識到技術路線的瓶頸。在他看來,面對無窮的真實場景,人永遠無法提前對所有情況都進行定義。要想從根本解決問題,端到端是當下的最優(yōu)技術路徑。

不同于傳統(tǒng)自動駕駛系統(tǒng)分為感知、規(guī)劃、定位和決策等多個模塊,端到端架構強調(diào)感知決策一體化,其最大優(yōu)勢是減少模塊間信息傳遞損失,提高智駕能力上限。自動駕駛開始真正依靠人工智能而不是詳盡的地圖繪制和編碼來取得進步。

特斯拉是率先切換這一前沿技術的汽車公司,緊接著是國內(nèi)智能電動汽車廠商和華為等自動駕駛供應商。在“開城競賽”的同時,汽車公司在端到端上掀起新一輪的比拼。理想汽車在新技術路線上再一次嘗試。

在實際落地過程中,小鵬汽車和華為采用“分段式端到端”,將感知和規(guī)控用分別的模型取代,而特斯拉和理想汽車是更為激進的“One Model”(一個大模型)。為了安全冗余,理想汽車沒有把控制模塊包含在內(nèi)。

但只有端到端是不夠的。郎咸朋告訴界面新聞,不管是端到端還是傳統(tǒng)的感知決策模型,都是根據(jù)已知的數(shù)據(jù),訓練或者人工設計規(guī)則去滿足場景條件。這蘊含的潛在問題是,如果是沒見過的場景,系統(tǒng)即無法很好工作。

一個典型的實踐是賈鵬在美國體驗特斯拉全自動駕駛軟件FSD V12.3版本。他發(fā)現(xiàn)FSD在東西海岸城市的用戶體驗差異明顯。從波士頓到紐約,特斯拉在不熟悉和道路工況更復雜的城市上,智駕表現(xiàn)急劇下降,接管率大幅提升。

國內(nèi)的道路場景比紐約要更加多變。在車端芯片算力有限的前提下,單獨的端到端模型難以保證無瑕疵運轉。想要讓自動駕駛真正像人一樣思考,理想汽車引入了VLM視覺語言模型,并從去年9月開始了端到端+VLM雙系統(tǒng)的預研。

李想在今年6月召開的中國汽車重慶論壇上,首次向公眾披露了雙系統(tǒng)的概念。系統(tǒng)1運行端到端模型,解決行駛過程中需要及時響應的路況信息;系統(tǒng)2可以像人類一樣讀懂導航地圖等信息內(nèi)容,處理復雜和需要邏輯推演的泛化場景。

賈鵬進一步向界面新聞表示,VLM在整套架構中承擔的角色是,將決策結果和參考軌跡提供給系統(tǒng)1,但端到端模型不一定會采用這個推理信息。這保證了系統(tǒng)1的唯一決策權,避免了兩套系統(tǒng)運行打架。

不過,所有投入端到端的智駕團隊還需要解決同一個問題:怎么測試和驗證端到端模型的能力。

端到端架構使用的神經(jīng)網(wǎng)絡大模型是“黑盒”,VLM也是“黑盒”,兩者最大的弊端在于失效模式不清晰。這讓架構的上限遠高于傳統(tǒng)規(guī)控時代,但同樣也會出現(xiàn)低級錯誤,難以為安全兜底。

由于沒有類目清晰的代碼,這些問題的篩選查找也更為麻煩。一位智駕研發(fā)人員向界面新聞解釋,如果不知道端到端模型運行中哪里有問題,就無法針對性采集數(shù)據(jù)制定訓練策略。

理想汽車的解題思路是引入世界模型,對系統(tǒng)1和系統(tǒng)2進行考試。這個用來驗收訓練成果的考試模型在理想團隊內(nèi)部被稱作系統(tǒng)3。

系統(tǒng)3的題庫一方面來自精挑細選的理想汽車車主實際駕駛過程中的“真題”和“錯題”,且能夠提供這部分“題目”的車主比例不到3%;另一方面,理想汽車會通過重建和生成的方式形成“模擬題”,覆蓋更多的場景。只有模型通過測驗獲得高分后,才將被逐步推送給用戶。

理想汽車利用系統(tǒng)3取代了過去鋪研發(fā)人員,實地駕駛成百上千公里的傳統(tǒng)路測方式。這不僅加快了模型迭代速度,且節(jié)省了高昂的人力成本。

同樣利用虛擬仿真能力的還有蔚來汽車。這家新勢力上個月向外界釋放了國內(nèi)首個智能駕駛世界模型。該模型具備空間重建和時間推演能力,在100毫秒內(nèi)推演出216種可能發(fā)生的場景,尋找到最優(yōu)決策。

賈鵬指出,如果效仿SORA純生成視頻的方式,會造成較多的幻覺,生產(chǎn)場景沒有辦法直接拿來使用。理想汽車是把真實場景重建后,在這基礎上進行泛化生成,并提供可參考的,符合物理規(guī)律的場景。

進入到自動駕駛時代,各家汽車公司比拼的不僅是人才深度,還有數(shù)據(jù)和算力,這將直接影響端到端的上限能力。

郎咸朋提到,理想汽車相似的車型結構,讓所有車上攝像頭配置、安裝位置都一致,可以實現(xiàn)數(shù)據(jù)共用。并且,理想汽車從2019年第一代理想ONE開始進行數(shù)據(jù)閉環(huán)研發(fā),有效累積訓練數(shù)據(jù)量超過12億公里,比另外兩家頭部新勢力更早,也更多。

小鵬汽車CEO何小鵬提出的一個觀點是,數(shù)據(jù)多并不代表能夠做好自動駕駛。郎咸朋同樣指出,除了數(shù)據(jù)的數(shù)量和質(zhì)量,更難的是數(shù)據(jù)的配比。

今年剛開始投入雙系統(tǒng)項目研發(fā)時,理想智駕團隊發(fā)現(xiàn),測試車在等紅燈時,總想變到其他車道。后來他們才知道,導致問題的原因是刪除了用戶在紅燈前長時間等待的數(shù)據(jù)。這一原本被忽視的數(shù)據(jù),卻是讓模型學會分辨等紅燈和堵車兩種不同等待場景的關鍵信息。

事實上,能夠快速發(fā)現(xiàn)并解決這一問題,還在于理想汽車在云端建立了數(shù)據(jù)挖掘模型、場景理解模型等多個小模型。這套完整的工具鏈和基礎能力建設,是自動駕駛里進行數(shù)據(jù)篩選和清洗的重要一環(huán)。

郎咸朋認為,這就好比去醫(yī)院看病,一個問題場景出現(xiàn)后在內(nèi)部有個“分診臺”,自動分析歸屬于哪個場景問題,給到模型分診建議,然后再拿著分診建議找到相類似的場景數(shù)據(jù),補充到訓練樣本里,進行下一步迭代。

在賈鵬看來,將來大部分智駕工程師是在做數(shù)據(jù)和模型測試這一頭一尾的工作,反而中間模型本身的結構設計,可能不需要過多工程師。

隨著業(yè)務模式發(fā)生改變,理想汽車調(diào)整了人力配置和組織架構。傳統(tǒng)自動駕駛模塊化的組織架構體系里,從場景設計到研發(fā)、測試、交付和問題修改,都需要大量人力投入,但轉為端到端后,數(shù)據(jù)搜集、樣本制作、自動化訓練以及自動化迭代等領域,人的參與度大幅降低。

理想汽車智駕團隊經(jīng)歷了一輪擴張后,又裁退了不少人。郎咸朋解釋說:“當時我們要擴張智駕團隊,是從流程看,全國各地都要鋪得很大,需要更多研發(fā)工程師以及測試人員。但是再往后走,即使我可以投資源招到這些人,但是招到之后我依然解決不了往后走到更高能力的問題?!?/p>

當前理想汽車智駕團隊按照RD (Research Development) 和PD(Product Development)兩條脈絡研發(fā)。前者負責技術預研,探索下一代人工智能發(fā)展方向,后者則進行量產(chǎn)工作,針對現(xiàn)行版本向用戶交付和維護。

在外界看來,理想汽車智駕進步速度突飛猛進,但從去年9月開始,包括智駕團隊在內(nèi)的工程師每周都有人工智能周例會,固定和李想分享關于自動駕駛、智能空間等人工智能相關話題。關于雙系統(tǒng)的討論,就是這樣 “慢慢聊出來的”。

理想汽車的快速進步讓外界懷疑,關于智能駕駛的故事劇本里,不存在領先者恒定的高枕無憂。但郎咸朋指出,后來者參與游戲的難度實際上正變得越來越高。自動駕駛比拼的不僅是技術,更是資金,是企業(yè)的盈利能力。

一個最直觀的數(shù)據(jù)是,理想汽車目前僅是在算力的租卡投入上,一年的開銷要達到10億元人民幣,而未來進入到更高級別自動駕駛研發(fā),一年的訓練算力花銷將高達10億美金。據(jù)悉,理想汽車和小鵬汽車智駕云端最新算力儲備分別是4.5EFLOPS和2.51EFLOPS。

過去國內(nèi)新勢力都是摸索特斯拉的技術演進方向,步步跟隨。但在特斯拉不再對外披露技術方案,理想汽車提供了破除端到端迷霧的一套全新方法論。上述華為研發(fā)人員向界面新聞表示, 這將有利于中國智駕不再沿著特斯拉的路徑,亦步亦趨的模仿。

但也有不少智駕工程師懷疑雙系統(tǒng)模式。在他們看來,通過數(shù)據(jù)和算力的不斷提升,可以解決解決極端場景或者未知問題,不需要繞彎路利用VLM模型來輔助,并且VLM模型在實踐中能夠起到多大的作用也存疑。

端到端是不是走向更高級別自動駕駛的的技術終解,郎咸朋以及投身于國內(nèi)智駕熱潮中的先行者,可能都沒有辦法給出回答。

而對于真正購車的用戶來說,采用何種自動駕駛技術從來不是關注的重點,安全、可靠、好用和穩(wěn)定等實際體驗指標才是他們評判優(yōu)劣的恒定標準。

界面新聞節(jié)選了與郎咸朋和賈鵬的對話內(nèi)容,在不影響原意情況下有所編輯:

站在了無人區(qū)的邊緣

Q:目前理想這套端到端+VLM的智駕架構,是基于什么想法設計的,未來發(fā)展如何

郎咸朋:去年戰(zhàn)略會時期,我們參考了包括特斯拉FSD在內(nèi)的智駕方案,發(fā)現(xiàn)想要實現(xiàn)自動駕駛的目標,存在很大的挑戰(zhàn)。不管是端到端,還是傳統(tǒng)的感知決策模型,他的做法都是給大量數(shù)據(jù),根據(jù)已知的數(shù)據(jù),訓練或者人工設計規(guī)則去滿足這些場景條件,這樣潛在問題是,如果沒見過的場景,系統(tǒng)就不能很好的工作。

基于讓系統(tǒng)能正確地處理復雜或者未知的場景,我們探索怎么樣能讓車輛,有像人一樣的思考和決策或者判斷推理的能力。我們采用了跟人類大腦的思考和認知方式比較類似的雙系統(tǒng)架構。系統(tǒng)1我們用的是端到端模型,系統(tǒng)2用了VLM模型。將來有沒有其他的實現(xiàn)方式,我們也在迭代當中,但是現(xiàn)在來看,這套框架和實驗方式是比較適合后面做自動駕駛的。

賈鵬:我們試駕特斯拉FSD V12.3版本時,發(fā)現(xiàn)它在東西海岸表現(xiàn)差異非常大,這促進我們思考,在國內(nèi)做自動駕駛,車端芯片算力有限的情況下,單獨一個模型不是那么有效。我們當時想法是在端到端的基礎上再加一個真正有泛化能力,有邏輯思考能力的一套系統(tǒng),自然而然就想到了VLM,雖然它不直接控車,但是會提供決策。

往后發(fā)展,隨著算力提升,模型規(guī)模變大,系統(tǒng)1和系統(tǒng)2能夠做到比較緊耦合。也可以借鑒現(xiàn)在多模態(tài)模型的大模型發(fā)展趨勢,統(tǒng)一語音,視覺和激光雷達。這套范式可以支撐我們做到L4,可能是我們實現(xiàn)真正人工智能的終極答案。再往后,可能就真的到了無人區(qū),實現(xiàn)自動駕駛真的大規(guī)模量產(chǎn),但目前還沒有看到哪一家跑出來。

Q:端到端和VLM這兩個系統(tǒng)是怎么協(xié)作的?

賈鵬:這倆系統(tǒng)一直都在實時運行。一塊跑端到端,因為模型小一些,幀率比較高,比如跑個十幾赫茲。另外VLM模型規(guī)模參數(shù)量就大的多,是22億參數(shù),目前能跑到大概3.4赫茲3至4赫茲。VLM一直都在,只不過它是把決策結果和參考的軌跡扔給系統(tǒng)1,端到端模型推理后,決定是否用這個信息。

Q:現(xiàn)在VLM是必須的嗎,在這里面的必要性的程度大概是有多少?

郎咸朋:我們在L3起主要的支撐作用還是端到端,它是代表這個人正常的行為下的駕駛能力,但到了L4一定是VLM或者大模型,這里面起到更重要的作用??赡?0%以上的時間它不起作用,但它起作用這些內(nèi)容,是決定這個系統(tǒng)到底是L3還是L4的一個關鍵點,是能真正的能去應對這種未知的場景。

Q:怎么測試和驗證端到端模型,形成固定向用戶推送的周期?

郎咸朋:端到端時代一個很大的挑戰(zhàn)是,它對于能力的評價和測試是不確定性的。除了系統(tǒng)1和系統(tǒng)2,我們用端到端和VLM來落地之外,還有一個試驗模型叫系統(tǒng)3。這個試驗模型實際上是一個考試系統(tǒng),是用試驗模型的能力重建或者生成考題。

這個考題我們有自己的真題庫,人在路上駕駛的正確行為。它的設計是根據(jù)用戶,產(chǎn)品和整車的主觀評價團隊,跟我們內(nèi)部的一些老司機共同制定的老司機標準。我們的80萬車主里面,每個人都打了分數(shù),90分以上的我們稱之為老司機,這個比例大概是占我們所有司機的3%左右。

在正常的測試和開車過程中,用戶的接管和退出,這些是我們的錯題庫。我們還要生成一些模擬題。我們會對每一版模型根據(jù)它的考試分數(shù)去決定它是否可以迭代到車上去,進行下一步驗證?!?/p>

賈鵬:有特別長尾的問題,這樣的數(shù)據(jù)就沒辦法去真實獲取,有一部分生成的工作。我們的世界模型不是純生成,我們覺得純生成式模型幻覺很多很多,沒辦法真的拿去用,我們是重建加生成結合在一起,生成的是符合世界規(guī)律的,也是符合物理規(guī)律的。

比規(guī)模和質(zhì)量更重要的,是數(shù)據(jù)配比

Q:在數(shù)據(jù)這一塊,打算怎么采集或者說一些更高效的方式?

郎咸朋:我們的車L789長得都挺像,但這里有巨大的本質(zhì)好處是我們的數(shù)據(jù)可以共用,所有車上攝像頭配置,包括安裝位置都大體一致。而且從2019年第一代理想one開始,就做數(shù)據(jù)閉環(huán)研發(fā)。到了L789階段,我們有80萬車主,積累了超過12億公里的有效訓練數(shù)據(jù)量,是國內(nèi)最多的沒有之一。

小鵬最早是在2021年開始做這件事情,它的車型也有很多的變化,有轎車、SUV、MPV,它形態(tài)都不太一樣。蔚來是從ET7開始,之前都是供應商方案,它會更晚一點,大概在2022年左右。

Q:怎么考慮做數(shù)據(jù)的篩選和清理,現(xiàn)在大部分的精力是投入到數(shù)據(jù)這一塊的工作,大概會占什么樣的精力?

郎咸朋:我們現(xiàn)在發(fā)現(xiàn),訓練端到端模型,跟古代煉丹沒什么區(qū)別,怎么配比讓自動駕駛的體驗會更好。今年比較早期做項目,我們發(fā)現(xiàn)模型訓練出來等紅燈的時候,車的行為比較怪異,總是想變到旁邊的車道。后來明白我們在訓練時候,刪除了很多在紅燈之前等待的數(shù)據(jù),我們覺得等了幾十秒或者一分鐘的數(shù)據(jù)沒有用。但后來發(fā)現(xiàn)這份數(shù)據(jù)非常重要,它教會了這個模型,有的時候是需要等待的,不是一旦你慢下來就要插空,就要變道。

Q:你們現(xiàn)在發(fā)現(xiàn)紅綠燈的問題,然后去定位紅綠燈的數(shù)據(jù)缺失,跟以前的方式,難度是差不多的嗎?

郎咸朋:我們有一套工具鏈,發(fā)現(xiàn)一個badcase,這case回來之后,內(nèi)部有一個“分診臺”系統(tǒng)。一個場景問題上來,會自動分析它應該屬于哪一類的場景問題,會給一個模型的分診建議,然后再拿著分診建議去找到相類似的場景。其實最終還是回歸到需要補充或者替代什么樣的數(shù)據(jù)到我們現(xiàn)在的訓練樣本里,然后再進行下一步的訓練。

賈鵬:模型主要兩個方面,一是數(shù)據(jù)的配方,類似的場景到底要加多少,能把問題解決掉,這是一個know-how,不同的場景對數(shù)據(jù)的要求不一樣。第二點是模型的超參,加入新的數(shù)據(jù)后,模型參數(shù)如何調(diào)整,一般情況下有5至6版模型會同時提交訓練,然后看哪一版解決了問題,同時得分也高。

Q:算力現(xiàn)在到了什么規(guī)模?

賈鵬:云端算力,我覺得各家口徑不太一樣。至少云供應商的數(shù)據(jù)我們應該是最多的,這個跟每年的花費有關系,一年下來小10個億,你得有利潤。

郎咸朋:我們明年就會有一個指數(shù)上升。到了世界模型,理論上來說想恢復物理世界上所有東西,它的量可能是沒法估計的。我們預計,如果做到 L3和L4自動駕駛,一年的訓練算力花銷得到10億美金,將來我們拼的就是算力和數(shù)據(jù),背后拼的是錢,還是盈利能力。

未經(jīng)正式授權嚴禁轉載本文,侵權必究。

理想汽車

5.1k
  • 理想汽車與首程控股簽署合作協(xié)議,雙方將共同出資成立首程超充
  • 理想汽車在上饒成立銷售服務公司

特斯拉

8.2k
  • 特斯拉Model 3/Y部分車型5年0息購車活動延長至9月底
  • 汽車早報 | 北汽藍谷回應是否入股華為引望 特斯拉又一高管離職

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

對話理想汽車郎咸朋:智駕“差生”如何追趕特斯拉

理想汽車如何在不到兩年時間里,迭代三代版本,最終將與特斯拉的差距縮短至半年以內(nèi)。

圖片來源:界面新聞圖庫

界面新聞記者 | 周姝祺

很長一段時間里,理想汽車都難以接住華為問界在智能駕駛上的宣傳攻勢。這項原本不被納入消費者購車決策前三的選項,成為了兩家汽車品牌在一線競爭中的關鍵角色。

理想汽車銷售人員會通過座艙體驗等其他產(chǎn)品功能,遮掩智駕相對落后的事實,甚至避免直接提及華為。彼時,與理想L系列車型直接對標的問界新M7打開了用戶對于智駕功能的認知,也帶動品牌銷量以令行業(yè)震驚的速度高漲。

但今年劇情的走向出現(xiàn)反轉。理想汽車成為了繼華為之后,第二家“全國都能開”的汽車制造商,反超了原本領先的蔚來和小鵬。

理想汽車銷售也開始主動向用戶推售帶高階智駕軟件的MAX版本車型。最新的數(shù)據(jù)是,用戶選購AD Max的定單占比從5月份的37%提升至7月的49%,其中L9 MAX版本的選購率達到75%。

讓一些競爭對手感到不安的是,理想汽車似乎在極短時間里,快速彌補了智駕短板。這位后來者在傳統(tǒng)人工書寫規(guī)則的時代沒有表現(xiàn)出領先優(yōu)勢,卻在切換至業(yè)內(nèi)前沿的端到端技術后,突然逆襲,這讓外界備受關注。

業(yè)內(nèi)對理想智駕的態(tài)度正在發(fā)生微妙的轉變。一位華為智駕工程師向界面新聞透露,過去內(nèi)部只關注特斯拉和小鵬汽車的研發(fā)進展,但現(xiàn)在理想汽車也被納入了討論話題圈。

理想汽車曾是“蔚小理”里最不被看好的一家,所堅持的增程式路線被詬病技術落后。但現(xiàn)在它的銷量位居新勢力榜首,而增程路線也在被越來越多汽車公司采納。

智能駕駛領域復制了一樣的劇情。理想汽車智能駕駛研發(fā)副總裁郎咸朋和智能駕駛研發(fā)負責人賈鵬接受界面新聞等媒體采訪時復盤,智駕“差生”是如何在不到兩年時間里,迭代三代版本,最終將與特斯拉的差距縮短至半年以內(nèi)。

由于起步時期對利潤和效益的極致追求,理想汽車在智駕領域的投入保守,一直是業(yè)內(nèi)追隨者的姿態(tài)。

拉長時間線來看,在理想汽車剛剛成立那年,華為即啟動了自動駕駛技術研發(fā)。而當2021年理想汽車開始自研智駕之時,同期蔚來汽車和小鵬汽車已經(jīng)落地了高速領航輔助駕駛功能(NOA)。

在去年行業(yè)忙著城區(qū)NOA的比賽時,理想汽車CEO李想在9月召開的秋季戰(zhàn)略會上反思,理想汽車在智駕上全力投入偏晚。他第一次明確,智能駕駛是公司核心戰(zhàn)略,要在2024年成為智駕的絕對頭部。

理想汽車開始大規(guī)模招人,成為當時為數(shù)不多能夠給出高薪資和多崗位的企業(yè)。當時理想汽車認為學習華為的軍團作戰(zhàn)模式,可以通過人才的密度換取研發(fā)的速度。

但實際落地進程并不順利。一年時間里,理想汽車先后嘗試了神經(jīng)先驗網(wǎng)絡(NPN)和無圖兩個方案,投入大量人力迭代、更新和測試,始終無法達到擬人程度。

接連切換技術路線,讓郎咸朋很快意識到技術路線的瓶頸。在他看來,面對無窮的真實場景,人永遠無法提前對所有情況都進行定義。要想從根本解決問題,端到端是當下的最優(yōu)技術路徑。

不同于傳統(tǒng)自動駕駛系統(tǒng)分為感知、規(guī)劃、定位和決策等多個模塊,端到端架構強調(diào)感知決策一體化,其最大優(yōu)勢是減少模塊間信息傳遞損失,提高智駕能力上限。自動駕駛開始真正依靠人工智能而不是詳盡的地圖繪制和編碼來取得進步。

特斯拉是率先切換這一前沿技術的汽車公司,緊接著是國內(nèi)智能電動汽車廠商和華為等自動駕駛供應商。在“開城競賽”的同時,汽車公司在端到端上掀起新一輪的比拼。理想汽車在新技術路線上再一次嘗試。

在實際落地過程中,小鵬汽車和華為采用“分段式端到端”,將感知和規(guī)控用分別的模型取代,而特斯拉和理想汽車是更為激進的“One Model”(一個大模型)。為了安全冗余,理想汽車沒有把控制模塊包含在內(nèi)。

但只有端到端是不夠的。郎咸朋告訴界面新聞,不管是端到端還是傳統(tǒng)的感知決策模型,都是根據(jù)已知的數(shù)據(jù),訓練或者人工設計規(guī)則去滿足場景條件。這蘊含的潛在問題是,如果是沒見過的場景,系統(tǒng)即無法很好工作。

一個典型的實踐是賈鵬在美國體驗特斯拉全自動駕駛軟件FSD V12.3版本。他發(fā)現(xiàn)FSD在東西海岸城市的用戶體驗差異明顯。從波士頓到紐約,特斯拉在不熟悉和道路工況更復雜的城市上,智駕表現(xiàn)急劇下降,接管率大幅提升。

國內(nèi)的道路場景比紐約要更加多變。在車端芯片算力有限的前提下,單獨的端到端模型難以保證無瑕疵運轉。想要讓自動駕駛真正像人一樣思考,理想汽車引入了VLM視覺語言模型,并從去年9月開始了端到端+VLM雙系統(tǒng)的預研。

李想在今年6月召開的中國汽車重慶論壇上,首次向公眾披露了雙系統(tǒng)的概念。系統(tǒng)1運行端到端模型,解決行駛過程中需要及時響應的路況信息;系統(tǒng)2可以像人類一樣讀懂導航地圖等信息內(nèi)容,處理復雜和需要邏輯推演的泛化場景。

賈鵬進一步向界面新聞表示,VLM在整套架構中承擔的角色是,將決策結果和參考軌跡提供給系統(tǒng)1,但端到端模型不一定會采用這個推理信息。這保證了系統(tǒng)1的唯一決策權,避免了兩套系統(tǒng)運行打架。

不過,所有投入端到端的智駕團隊還需要解決同一個問題:怎么測試和驗證端到端模型的能力。

端到端架構使用的神經(jīng)網(wǎng)絡大模型是“黑盒”,VLM也是“黑盒”,兩者最大的弊端在于失效模式不清晰。這讓架構的上限遠高于傳統(tǒng)規(guī)控時代,但同樣也會出現(xiàn)低級錯誤,難以為安全兜底。

由于沒有類目清晰的代碼,這些問題的篩選查找也更為麻煩。一位智駕研發(fā)人員向界面新聞解釋,如果不知道端到端模型運行中哪里有問題,就無法針對性采集數(shù)據(jù)制定訓練策略。

理想汽車的解題思路是引入世界模型,對系統(tǒng)1和系統(tǒng)2進行考試。這個用來驗收訓練成果的考試模型在理想團隊內(nèi)部被稱作系統(tǒng)3。

系統(tǒng)3的題庫一方面來自精挑細選的理想汽車車主實際駕駛過程中的“真題”和“錯題”,且能夠提供這部分“題目”的車主比例不到3%;另一方面,理想汽車會通過重建和生成的方式形成“模擬題”,覆蓋更多的場景。只有模型通過測驗獲得高分后,才將被逐步推送給用戶。

理想汽車利用系統(tǒng)3取代了過去鋪研發(fā)人員,實地駕駛成百上千公里的傳統(tǒng)路測方式。這不僅加快了模型迭代速度,且節(jié)省了高昂的人力成本。

同樣利用虛擬仿真能力的還有蔚來汽車。這家新勢力上個月向外界釋放了國內(nèi)首個智能駕駛世界模型。該模型具備空間重建和時間推演能力,在100毫秒內(nèi)推演出216種可能發(fā)生的場景,尋找到最優(yōu)決策。

賈鵬指出,如果效仿SORA純生成視頻的方式,會造成較多的幻覺,生產(chǎn)場景沒有辦法直接拿來使用。理想汽車是把真實場景重建后,在這基礎上進行泛化生成,并提供可參考的,符合物理規(guī)律的場景。

進入到自動駕駛時代,各家汽車公司比拼的不僅是人才深度,還有數(shù)據(jù)和算力,這將直接影響端到端的上限能力。

郎咸朋提到,理想汽車相似的車型結構,讓所有車上攝像頭配置、安裝位置都一致,可以實現(xiàn)數(shù)據(jù)共用。并且,理想汽車從2019年第一代理想ONE開始進行數(shù)據(jù)閉環(huán)研發(fā),有效累積訓練數(shù)據(jù)量超過12億公里,比另外兩家頭部新勢力更早,也更多。

小鵬汽車CEO何小鵬提出的一個觀點是,數(shù)據(jù)多并不代表能夠做好自動駕駛。郎咸朋同樣指出,除了數(shù)據(jù)的數(shù)量和質(zhì)量,更難的是數(shù)據(jù)的配比。

今年剛開始投入雙系統(tǒng)項目研發(fā)時,理想智駕團隊發(fā)現(xiàn),測試車在等紅燈時,總想變到其他車道。后來他們才知道,導致問題的原因是刪除了用戶在紅燈前長時間等待的數(shù)據(jù)。這一原本被忽視的數(shù)據(jù),卻是讓模型學會分辨等紅燈和堵車兩種不同等待場景的關鍵信息。

事實上,能夠快速發(fā)現(xiàn)并解決這一問題,還在于理想汽車在云端建立了數(shù)據(jù)挖掘模型、場景理解模型等多個小模型。這套完整的工具鏈和基礎能力建設,是自動駕駛里進行數(shù)據(jù)篩選和清洗的重要一環(huán)。

郎咸朋認為,這就好比去醫(yī)院看病,一個問題場景出現(xiàn)后在內(nèi)部有個“分診臺”,自動分析歸屬于哪個場景問題,給到模型分診建議,然后再拿著分診建議找到相類似的場景數(shù)據(jù),補充到訓練樣本里,進行下一步迭代。

在賈鵬看來,將來大部分智駕工程師是在做數(shù)據(jù)和模型測試這一頭一尾的工作,反而中間模型本身的結構設計,可能不需要過多工程師。

隨著業(yè)務模式發(fā)生改變,理想汽車調(diào)整了人力配置和組織架構。傳統(tǒng)自動駕駛模塊化的組織架構體系里,從場景設計到研發(fā)、測試、交付和問題修改,都需要大量人力投入,但轉為端到端后,數(shù)據(jù)搜集、樣本制作、自動化訓練以及自動化迭代等領域,人的參與度大幅降低。

理想汽車智駕團隊經(jīng)歷了一輪擴張后,又裁退了不少人。郎咸朋解釋說:“當時我們要擴張智駕團隊,是從流程看,全國各地都要鋪得很大,需要更多研發(fā)工程師以及測試人員。但是再往后走,即使我可以投資源招到這些人,但是招到之后我依然解決不了往后走到更高能力的問題?!?/p>

當前理想汽車智駕團隊按照RD (Research Development) 和PD(Product Development)兩條脈絡研發(fā)。前者負責技術預研,探索下一代人工智能發(fā)展方向,后者則進行量產(chǎn)工作,針對現(xiàn)行版本向用戶交付和維護。

在外界看來,理想汽車智駕進步速度突飛猛進,但從去年9月開始,包括智駕團隊在內(nèi)的工程師每周都有人工智能周例會,固定和李想分享關于自動駕駛、智能空間等人工智能相關話題。關于雙系統(tǒng)的討論,就是這樣 “慢慢聊出來的”。

理想汽車的快速進步讓外界懷疑,關于智能駕駛的故事劇本里,不存在領先者恒定的高枕無憂。但郎咸朋指出,后來者參與游戲的難度實際上正變得越來越高。自動駕駛比拼的不僅是技術,更是資金,是企業(yè)的盈利能力。

一個最直觀的數(shù)據(jù)是,理想汽車目前僅是在算力的租卡投入上,一年的開銷要達到10億元人民幣,而未來進入到更高級別自動駕駛研發(fā),一年的訓練算力花銷將高達10億美金。據(jù)悉,理想汽車和小鵬汽車智駕云端最新算力儲備分別是4.5EFLOPS和2.51EFLOPS。

過去國內(nèi)新勢力都是摸索特斯拉的技術演進方向,步步跟隨。但在特斯拉不再對外披露技術方案,理想汽車提供了破除端到端迷霧的一套全新方法論。上述華為研發(fā)人員向界面新聞表示, 這將有利于中國智駕不再沿著特斯拉的路徑,亦步亦趨的模仿。

但也有不少智駕工程師懷疑雙系統(tǒng)模式。在他們看來,通過數(shù)據(jù)和算力的不斷提升,可以解決解決極端場景或者未知問題,不需要繞彎路利用VLM模型來輔助,并且VLM模型在實踐中能夠起到多大的作用也存疑。

端到端是不是走向更高級別自動駕駛的的技術終解,郎咸朋以及投身于國內(nèi)智駕熱潮中的先行者,可能都沒有辦法給出回答。

而對于真正購車的用戶來說,采用何種自動駕駛技術從來不是關注的重點,安全、可靠、好用和穩(wěn)定等實際體驗指標才是他們評判優(yōu)劣的恒定標準。

界面新聞節(jié)選了與郎咸朋和賈鵬的對話內(nèi)容,在不影響原意情況下有所編輯:

站在了無人區(qū)的邊緣

Q:目前理想這套端到端+VLM的智駕架構,是基于什么想法設計的,未來發(fā)展如何

郎咸朋:去年戰(zhàn)略會時期,我們參考了包括特斯拉FSD在內(nèi)的智駕方案,發(fā)現(xiàn)想要實現(xiàn)自動駕駛的目標,存在很大的挑戰(zhàn)。不管是端到端,還是傳統(tǒng)的感知決策模型,他的做法都是給大量數(shù)據(jù),根據(jù)已知的數(shù)據(jù),訓練或者人工設計規(guī)則去滿足這些場景條件,這樣潛在問題是,如果沒見過的場景,系統(tǒng)就不能很好的工作。

基于讓系統(tǒng)能正確地處理復雜或者未知的場景,我們探索怎么樣能讓車輛,有像人一樣的思考和決策或者判斷推理的能力。我們采用了跟人類大腦的思考和認知方式比較類似的雙系統(tǒng)架構。系統(tǒng)1我們用的是端到端模型,系統(tǒng)2用了VLM模型。將來有沒有其他的實現(xiàn)方式,我們也在迭代當中,但是現(xiàn)在來看,這套框架和實驗方式是比較適合后面做自動駕駛的。

賈鵬:我們試駕特斯拉FSD V12.3版本時,發(fā)現(xiàn)它在東西海岸表現(xiàn)差異非常大,這促進我們思考,在國內(nèi)做自動駕駛,車端芯片算力有限的情況下,單獨一個模型不是那么有效。我們當時想法是在端到端的基礎上再加一個真正有泛化能力,有邏輯思考能力的一套系統(tǒng),自然而然就想到了VLM,雖然它不直接控車,但是會提供決策。

往后發(fā)展,隨著算力提升,模型規(guī)模變大,系統(tǒng)1和系統(tǒng)2能夠做到比較緊耦合。也可以借鑒現(xiàn)在多模態(tài)模型的大模型發(fā)展趨勢,統(tǒng)一語音,視覺和激光雷達。這套范式可以支撐我們做到L4,可能是我們實現(xiàn)真正人工智能的終極答案。再往后,可能就真的到了無人區(qū),實現(xiàn)自動駕駛真的大規(guī)模量產(chǎn),但目前還沒有看到哪一家跑出來。

Q:端到端和VLM這兩個系統(tǒng)是怎么協(xié)作的?

賈鵬:這倆系統(tǒng)一直都在實時運行。一塊跑端到端,因為模型小一些,幀率比較高,比如跑個十幾赫茲。另外VLM模型規(guī)模參數(shù)量就大的多,是22億參數(shù),目前能跑到大概3.4赫茲3至4赫茲。VLM一直都在,只不過它是把決策結果和參考的軌跡扔給系統(tǒng)1,端到端模型推理后,決定是否用這個信息。

Q:現(xiàn)在VLM是必須的嗎,在這里面的必要性的程度大概是有多少?

郎咸朋:我們在L3起主要的支撐作用還是端到端,它是代表這個人正常的行為下的駕駛能力,但到了L4一定是VLM或者大模型,這里面起到更重要的作用??赡?0%以上的時間它不起作用,但它起作用這些內(nèi)容,是決定這個系統(tǒng)到底是L3還是L4的一個關鍵點,是能真正的能去應對這種未知的場景。

Q:怎么測試和驗證端到端模型,形成固定向用戶推送的周期?

郎咸朋:端到端時代一個很大的挑戰(zhàn)是,它對于能力的評價和測試是不確定性的。除了系統(tǒng)1和系統(tǒng)2,我們用端到端和VLM來落地之外,還有一個試驗模型叫系統(tǒng)3。這個試驗模型實際上是一個考試系統(tǒng),是用試驗模型的能力重建或者生成考題。

這個考題我們有自己的真題庫,人在路上駕駛的正確行為。它的設計是根據(jù)用戶,產(chǎn)品和整車的主觀評價團隊,跟我們內(nèi)部的一些老司機共同制定的老司機標準。我們的80萬車主里面,每個人都打了分數(shù),90分以上的我們稱之為老司機,這個比例大概是占我們所有司機的3%左右。

在正常的測試和開車過程中,用戶的接管和退出,這些是我們的錯題庫。我們還要生成一些模擬題。我們會對每一版模型根據(jù)它的考試分數(shù)去決定它是否可以迭代到車上去,進行下一步驗證。‘’

賈鵬:有特別長尾的問題,這樣的數(shù)據(jù)就沒辦法去真實獲取,有一部分生成的工作。我們的世界模型不是純生成,我們覺得純生成式模型幻覺很多很多,沒辦法真的拿去用,我們是重建加生成結合在一起,生成的是符合世界規(guī)律的,也是符合物理規(guī)律的。

比規(guī)模和質(zhì)量更重要的,是數(shù)據(jù)配比

Q:在數(shù)據(jù)這一塊,打算怎么采集或者說一些更高效的方式?

郎咸朋:我們的車L789長得都挺像,但這里有巨大的本質(zhì)好處是我們的數(shù)據(jù)可以共用,所有車上攝像頭配置,包括安裝位置都大體一致。而且從2019年第一代理想one開始,就做數(shù)據(jù)閉環(huán)研發(fā)。到了L789階段,我們有80萬車主,積累了超過12億公里的有效訓練數(shù)據(jù)量,是國內(nèi)最多的沒有之一。

小鵬最早是在2021年開始做這件事情,它的車型也有很多的變化,有轎車、SUV、MPV,它形態(tài)都不太一樣。蔚來是從ET7開始,之前都是供應商方案,它會更晚一點,大概在2022年左右。

Q:怎么考慮做數(shù)據(jù)的篩選和清理,現(xiàn)在大部分的精力是投入到數(shù)據(jù)這一塊的工作,大概會占什么樣的精力?

郎咸朋:我們現(xiàn)在發(fā)現(xiàn),訓練端到端模型,跟古代煉丹沒什么區(qū)別,怎么配比讓自動駕駛的體驗會更好。今年比較早期做項目,我們發(fā)現(xiàn)模型訓練出來等紅燈的時候,車的行為比較怪異,總是想變到旁邊的車道。后來明白我們在訓練時候,刪除了很多在紅燈之前等待的數(shù)據(jù),我們覺得等了幾十秒或者一分鐘的數(shù)據(jù)沒有用。但后來發(fā)現(xiàn)這份數(shù)據(jù)非常重要,它教會了這個模型,有的時候是需要等待的,不是一旦你慢下來就要插空,就要變道。

Q:你們現(xiàn)在發(fā)現(xiàn)紅綠燈的問題,然后去定位紅綠燈的數(shù)據(jù)缺失,跟以前的方式,難度是差不多的嗎?

郎咸朋:我們有一套工具鏈,發(fā)現(xiàn)一個badcase,這case回來之后,內(nèi)部有一個“分診臺”系統(tǒng)。一個場景問題上來,會自動分析它應該屬于哪一類的場景問題,會給一個模型的分診建議,然后再拿著分診建議去找到相類似的場景。其實最終還是回歸到需要補充或者替代什么樣的數(shù)據(jù)到我們現(xiàn)在的訓練樣本里,然后再進行下一步的訓練。

賈鵬:模型主要兩個方面,一是數(shù)據(jù)的配方,類似的場景到底要加多少,能把問題解決掉,這是一個know-how,不同的場景對數(shù)據(jù)的要求不一樣。第二點是模型的超參,加入新的數(shù)據(jù)后,模型參數(shù)如何調(diào)整,一般情況下有5至6版模型會同時提交訓練,然后看哪一版解決了問題,同時得分也高。

Q:算力現(xiàn)在到了什么規(guī)模?

賈鵬:云端算力,我覺得各家口徑不太一樣。至少云供應商的數(shù)據(jù)我們應該是最多的,這個跟每年的花費有關系,一年下來小10個億,你得有利潤。

郎咸朋:我們明年就會有一個指數(shù)上升。到了世界模型,理論上來說想恢復物理世界上所有東西,它的量可能是沒法估計的。我們預計,如果做到 L3和L4自動駕駛,一年的訓練算力花銷得到10億美金,將來我們拼的就是算力和數(shù)據(jù),背后拼的是錢,還是盈利能力。

未經(jīng)正式授權嚴禁轉載本文,侵權必究。