正在閱讀:

Figure 01視頻被質(zhì)疑“注水”?看看創(chuàng)始人怎么說(shuō)

掃一掃下載界面新聞APP

Figure 01視頻被質(zhì)疑“注水”?看看創(chuàng)始人怎么說(shuō)

端到端(End-to-End)會(huì)成為主流嗎?

文|適道

2023年3月,一家僅創(chuàng)立幾個(gè)月的機(jī)器人公司號(hào)稱(chēng)要推出“世界上第一個(gè)商業(yè)上可行的通用人形機(jī)器人”,并放出了幾張PPT。

接下來(lái)的一年中,這家名為Figure的公司經(jīng)歷了——被質(zhì)疑“碰瓷波士頓動(dòng)力”——?jiǎng)?chuàng)紀(jì)錄地邁出人形機(jī)器人“動(dòng)態(tài)雙足行走”第一步——半個(gè)硅谷科技圈下注, 融資高達(dá)6.75 億美元,估值猛漲至26億美元。

本周三,僅在B輪融資完成后的13天,這位“當(dāng)紅炸子雞”放出了Figure 01的最新視頻。

雖然只用到了一個(gè)“端到端”神經(jīng)網(wǎng)絡(luò),但Figure 01卻可以在你想要食物時(shí),貼心地遞上蘋(píng)果而不是盤(pán)子;還能一邊回答你的問(wèn)題,一邊對(duì)物品進(jìn)行分類(lèi)——將垃圾收拾進(jìn)框子里、將杯子和盤(pán)子歸置放在瀝水架上。而且!它甚至能回答你餐具瀝干水分的大致時(shí)間。

有人說(shuō),F(xiàn)igure只用了1年時(shí)間,就走完了波士頓動(dòng)力20多年的路。于是,壓力給到了波士頓動(dòng)力,讓我們回到實(shí)驗(yàn)室,再扒一些女團(tuán)舞吧(bushi)。

話(huà)說(shuō)回來(lái),F(xiàn)igure 01的最新視頻有沒(méi)有一絲絲“注水”的可能性?難道傳說(shuō)中“世界上第一個(gè)具身智能”機(jī)器人真的來(lái)了?!

Figure創(chuàng)始人Brett Adcock特意在X上強(qiáng)調(diào),視頻是以1.0倍速度拍攝并連續(xù)拍攝的,機(jī)器人是在完全自主的情況下進(jìn)行的行為,沒(méi)有遠(yuǎn)程操作。

言外之意就是“無(wú)剪輯,無(wú)加速,一鏡到底”。

然而,適道和一些相關(guān)領(lǐng)域投資人交流時(shí),獲得了另一條思路:有沒(méi)有一種可能——Figure 01的完美表現(xiàn)是“試”出來(lái)的。

例如在測(cè)試階段,當(dāng)你說(shuō)“我餓了”并指向“蘋(píng)果和碗”,F(xiàn)igure 01會(huì)遞給你碗;當(dāng)你指著“梨子和盤(pán)子”,F(xiàn)igure 01會(huì)遞給你盤(pán)子??赡茉嚵艘淮笸ê?,得出面對(duì)“蘋(píng)果和盤(pán)子”組合,F(xiàn)igure 01的表現(xiàn)是最好的。

但在適道看來(lái),與其說(shuō)這是“注水”,不如說(shuō)這正是Figure神速進(jìn)化的技術(shù)秘籍——“端到端”技術(shù)黑盒。

01 Figure進(jìn)步神速的秘籍 ——“端到端”神經(jīng)網(wǎng)絡(luò)

根據(jù)Brett Adcock的說(shuō)法,F(xiàn)igure 01主要通過(guò)“端到端”神經(jīng)網(wǎng)絡(luò)來(lái)與人類(lèi)進(jìn)行對(duì)話(huà)。大致流程為:OpenAI的LLM提供“大腦”——視覺(jué)推理和語(yǔ)言理解 ;Figure神經(jīng)網(wǎng)絡(luò)提供“小腦”——做出一系列快速、低級(jí)、靈巧的機(jī)器人動(dòng)作。

Figure機(jī)器人操作高級(jí)AI工程師Corey Lynch進(jìn)一步解釋?zhuān)骸斑@些神經(jīng)網(wǎng)絡(luò)以每秒 10 幀的速率接收機(jī)器人內(nèi)置圖像,并能生成每秒200次的24自由度動(dòng)作(包括腕部姿勢(shì)和手指關(guān)節(jié)角度)”

何為“端到端”?

“端到端”(End-to-End)是深度學(xué)習(xí)中的概念,指一個(gè)AI模型,只要輸入原始數(shù)據(jù),就能輸出最終結(jié)果,有點(diǎn)像馬斯克遵循的“第一性原理”。

舉個(gè)簡(jiǎn)單的例子,兩個(gè)同齡小孩,一個(gè)生活在城市,一個(gè)從小長(zhǎng)在河邊。城市小孩想學(xué)游泳,需要找教練,進(jìn)行一系列抱水、換氣、劃水、蹬腿的分解動(dòng)作,才能系統(tǒng)性地掌握蛙泳技能;而在河邊長(zhǎng)大的小孩,看了大人們游泳的姿勢(shì),就去下河摸索,經(jīng)歷了嗆水、訓(xùn)練、強(qiáng)化,也學(xué)會(huì)了游泳,而且游得像魚(yú)一樣?jì)故臁?/p>

如果你要問(wèn)這個(gè)小孩經(jīng)歷了哪些針對(duì)性訓(xùn)練,都有什么訓(xùn)練模塊,他一定答不出所以然。但從結(jié)果來(lái)講,他不僅泳技超群,甚至學(xué)習(xí)時(shí)間還可能更少。

“端到端”的原理跟這個(gè)例子有點(diǎn)類(lèi)似。

例如,想讓機(jī)器人變成“咖啡師”,如果通過(guò)傳統(tǒng)編程,雖然看起來(lái)“透明”“可解釋”,但代碼非常復(fù)雜,靈活性也很差。

而Figure 01的卓越表現(xiàn)證明了,通過(guò)這種“不可解釋”的“端到端”神經(jīng)網(wǎng)絡(luò)(輸入視頻、輸出行動(dòng)軌跡),機(jī)器人能夠在數(shù)小時(shí)訓(xùn)練后就能get新技能。

在1月5日的視頻,F(xiàn)igure 01展示了自己出色的“學(xué)霸”能力,只需觀看10小時(shí)的人類(lèi)煮咖啡錄像,就能學(xué)會(huì)人類(lèi)的動(dòng)作和手勢(shì),并通過(guò)模仿這些動(dòng)作,成為一名real咖啡師。

而“端到端”也正在成為機(jī)器人訓(xùn)練的主流路子。例如,1X EVE 、Digit同樣是通過(guò)“端到端”學(xué)習(xí)新技能。

由此不難得出,雖然目前Figure 01展示的只是做咖啡、物品分類(lèi),但理論上,只要獲取到人類(lèi)的數(shù)據(jù),進(jìn)行“端到端”地訓(xùn)練,它就能掌握更多技能。

我們?cè)倩氐奖弧百|(zhì)疑”的“蘋(píng)果和盤(pán)子組合”——即便Figure 01的完美表現(xiàn)是“試出來(lái)”的,但隨著“端到端”訓(xùn)練量加大,“試錯(cuò)”會(huì)越來(lái)越少,成功率越來(lái)越高,最終Figure 01或許真能輕松拿捏家務(wù),說(shuō)不定還會(huì)在你喊餓時(shí)包出一頓餃子。

這一切正如創(chuàng)始人Brett Adcock所言:機(jī)器人就像我的孩子們一樣,在他們學(xué)習(xí)做某件事的過(guò)程中,盡管可能失敗了很多次,但他們一旦掌握了就不會(huì)忘記,然后他們會(huì)不斷積累新的技能。

02 創(chuàng)始人:人形機(jī)器人成本會(huì)低于一臺(tái)廉價(jià)電動(dòng)汽車(chē)

Figure的創(chuàng)始人Brett Adcock年僅38歲,但Figure已經(jīng)是他創(chuàng)立的第三家科技公司。在去年10月的一次訪談中,Brett 分享了 Figure 01的設(shè)計(jì)過(guò)程,以及他對(duì)于通用人形機(jī)器人領(lǐng)域的預(yù)測(cè)。

Brett 認(rèn)為人形機(jī)器人研發(fā)一定是軟硬件一體的過(guò)程,LLM 為機(jī)器人提供了強(qiáng)大的大腦,是軟件層面的重要補(bǔ)足,而硬件角度,幾乎沒(méi)有成熟的供應(yīng)鏈可供使用,因此,Brett要求團(tuán)隊(duì)在設(shè)計(jì)產(chǎn)品的同時(shí)就要考慮到機(jī)器人重量、計(jì)算處理、現(xiàn)實(shí)環(huán)境等細(xì)節(jié)。

適道也對(duì)訪談進(jìn)行了原文編譯和節(jié)選,請(qǐng)配合食用。

1、簡(jiǎn)單介紹一下 Figure,你們的使命和目標(biāo)是什么?

Brett:Figure 是一家 AI機(jī)器人公司,專(zhuān)注于設(shè)計(jì)自動(dòng)通用人形機(jī)器人(Autonomous General-purpose Humanoids)。自動(dòng)通用人形機(jī)器人是指具備自主能力,能夠自動(dòng)執(zhí)行多種任務(wù),并且在外觀和行為上類(lèi)似于人類(lèi)的機(jī)器人。我們的目標(biāo)是在長(zhǎng)期能夠部署和人類(lèi)數(shù)量一樣多的人形機(jī)器人,讓體力勞動(dòng)成為一種選擇而非必然。

我們的遠(yuǎn)期計(jì)劃是在全球部署 100 億個(gè)人形機(jī)器人。未來(lái) 1-2 年內(nèi),我們的重點(diǎn)將放在開(kāi)發(fā)具有里程碑意義的產(chǎn)品上,希望在未來(lái)一兩年內(nèi),能向公眾展示大量人形機(jī)器人產(chǎn)品的研發(fā)成果,包括 AI 系統(tǒng)、低級(jí)控制(Low-Level Control)等,最終展示能在日常生活中發(fā)揮作用的機(jī)器人。

2、如果能成功降低制造成本、提高生產(chǎn)量,一個(gè)功能完善的人形機(jī)器人制作成本能降低多少?

Brett:如果我們回顧消費(fèi)品或汽車(chē)行業(yè)的發(fā)展歷史時(shí),可以看到產(chǎn)品的價(jià)格與生產(chǎn)量之間存在強(qiáng)相關(guān)。根據(jù)經(jīng)驗(yàn)曲線(xiàn)(Experience Curve),每當(dāng)生產(chǎn)數(shù)量翻倍,產(chǎn)品的價(jià)格或成本就可能下降 20%或 30%。因此,我們可以認(rèn)為價(jià)格取決于生產(chǎn)量。

這個(gè)原理同樣適用于人形機(jī)器人的生產(chǎn)。目前,一個(gè)人形機(jī)器人大約有 1000 個(gè)零件,重量約為 150 磅(68 公斤)。相比之下,一個(gè)電動(dòng)汽車(chē)可能有大約 1 萬(wàn)個(gè)零件,重量可能在 4000-5000 磅(1800-2250 公斤)之間。

從長(zhǎng)期來(lái)看,一個(gè)人形機(jī)器人的成本應(yīng)該低于一臺(tái)廉價(jià)電動(dòng)汽車(chē)。這主要取決于機(jī)器人的執(zhí)行器、電機(jī)組件、傳感器的成本以及計(jì)算成本。

3、你們打算訓(xùn)自己的模型,還是集成其他模型?

Brett:要讓人形機(jī)器人從工廠走進(jìn)家庭,關(guān)鍵在于語(yǔ)言,所以 LLM 或視覺(jué)語(yǔ)言模型對(duì)我們的業(yè)務(wù)幫助很大。我們要讓機(jī)器人能夠從語(yǔ)義層面理解世界,做到理解和回應(yīng)用戶(hù)的需求和指令,恰好 LLM 可以做到這點(diǎn)。

因此,我們會(huì)逐步將視覺(jué)語(yǔ)言模型加入機(jī)器人的研發(fā)過(guò)程,從高層次的行為角度來(lái)幫助人形機(jī)器人理解人類(lèi)在說(shuō)什么,讓它能與人類(lèi)進(jìn)行對(duì)話(huà),同時(shí)推斷和理解人們?cè)谡f(shuō)什么以做出回應(yīng)。

我們很可能不會(huì)自己訓(xùn)模型,但我們可以在機(jī)器人系統(tǒng)上訓(xùn)練視覺(jué)語(yǔ)言模型,關(guān)聯(lián)傳感器數(shù)據(jù)。

打造一個(gè)正確的 AI 數(shù)據(jù)引擎對(duì)我們來(lái)說(shuō)非常重要,它能確保我們對(duì)機(jī)器人產(chǎn)生的數(shù)據(jù)進(jìn)行準(zhǔn)確的訓(xùn)練,對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行正確的訓(xùn)練,以便未來(lái)能夠有效地部署和使用。這也是驅(qū)動(dòng)我們盡快讓產(chǎn)品進(jìn)入市場(chǎng)的動(dòng)力,我們希望將更多的機(jī)器人投放市場(chǎng),收集數(shù)據(jù),從而讓我們未來(lái)的機(jī)器人隊(duì)伍將變得更加智能、學(xué)會(huì)更多技能。

4、為什么需要軟硬件一體開(kāi)發(fā)?

Brett:如果算上做控制系統(tǒng)(control)、中間件(middleware)和自主決策與行動(dòng)能力(autonomy)的人,我們的軟件占比會(huì)比硬件稍微多一些,因?yàn)橛布F(tuán)隊(duì)的員工只有 15 個(gè)左右,軟件規(guī)模要明顯大一些。

長(zhǎng)遠(yuǎn)來(lái)看,軟件會(huì)成為公司最大的業(yè)務(wù)板塊。Figure 作為一家專(zhuān)注于 AI 的公司,以后會(huì)有一個(gè)龐大的 autonomy 團(tuán)隊(duì),并且研發(fā)出關(guān)鍵的 AI 數(shù)據(jù)引擎。

但硬件方面也同樣重要。如果我們真的想做出實(shí)現(xiàn)高性能、高可靠性、高安全性和低成本的人形機(jī)器人,就需要開(kāi)發(fā)自己的執(zhí)行器、電子設(shè)備、電池和幾乎所有軟件,因?yàn)檫@些都沒(méi)有現(xiàn)成的解決方案。

長(zhǎng)時(shí)間從事軟件開(kāi)發(fā)再進(jìn)入硬件領(lǐng)域是真的很困難,研發(fā)硬件需要經(jīng)過(guò)一個(gè)漫長(zhǎng)的迭代周期,這也是我們受挫的主要因素。

5、人形機(jī)器人的潛在大市場(chǎng)在哪里?何時(shí)出現(xiàn)?

Brett:我們計(jì)劃先在未來(lái)十幾年內(nèi)持續(xù)擴(kuò)大在商業(yè)勞動(dòng)力市場(chǎng)的規(guī)模。我們關(guān)注的領(lǐng)域包括醫(yī)療保健、房地產(chǎn)、建筑和零售等,我相信這些領(lǐng)域都有巨大的市場(chǎng)潛力。

另外,還有一些市場(chǎng)尚未應(yīng)用人形機(jī)器人,比如房地產(chǎn)??萍挤康禺a(chǎn)公司開(kāi)發(fā)的在線(xiàn)平臺(tái)可以使用人形機(jī)器人來(lái)代替人類(lèi)經(jīng)紀(jì)人提供服務(wù)。人們可以通過(guò)訪問(wèn)網(wǎng)站預(yù)約看房,然后由人形機(jī)器人打開(kāi)門(mén)迎接他們,在一個(gè)虛擬的房屋中全程介紹。這是一個(gè)價(jià)值數(shù)萬(wàn)億美元的市場(chǎng),但科技公司迄今為止還未涉足,因?yàn)槟壳胺康禺a(chǎn)領(lǐng)域的工作仍然過(guò)于依賴(lài)人力。

此外,還有許多行業(yè)的工作可以通過(guò)遠(yuǎn)程操作或其他技術(shù)來(lái)完成,人形機(jī)器人可以為這些行業(yè)帶來(lái)新的發(fā)展機(jī)會(huì)。

6、人形機(jī)器人會(huì)讓人們失去工作嗎?

Brett:我的觀點(diǎn)是在接下來(lái)的 10-20 年里,機(jī)器人業(yè)務(wù)的發(fā)展將與自動(dòng)駕駛汽車(chē)的發(fā)展路徑類(lèi)似。就像自動(dòng)駕駛汽車(chē),高速公路的測(cè)試視頻會(huì)比城市街道的更早公開(kāi),是因?yàn)槌鞘薪值烙懈叩陌踩蠛透嗟牟淮_定性。

同樣,人形機(jī)器人也會(huì)首先解決相對(duì)容易的問(wèn)題,比如在預(yù)知環(huán)境和任務(wù)的情況下搬運(yùn)貨物。這類(lèi)任務(wù)就像在高速公路上駕駛,相對(duì)簡(jiǎn)單易行。然而,更復(fù)雜的任務(wù),例如在家中烹飪或照顧老年人,就像在城市街道上駕駛,更具挑戰(zhàn)性。

盡管大家對(duì)人形機(jī)器人的期望往往集中在復(fù)雜任務(wù)的解決上,比如谷歌的機(jī)器人做垃圾分類(lèi),豐田研究院在雜貨店等場(chǎng)景的研究,但這些都是非常困難的挑戰(zhàn)。

我很高興有這些研究,但從商業(yè)角度出發(fā),我們的首要任務(wù)應(yīng)該是解決那些簡(jiǎn)單但必要的問(wèn)題,然后逐漸將 AI 數(shù)據(jù)引擎應(yīng)用到更復(fù)雜的任務(wù)中。

所以 ,F(xiàn)igure 和其他研究團(tuán)隊(duì)關(guān)注的事情恰恰相反。我們的目標(biāo)是在倉(cāng)儲(chǔ)制造領(lǐng)域應(yīng)用人形機(jī)器人,這個(gè)領(lǐng)域的勞動(dòng)力短缺問(wèn)題最為嚴(yán)重。全球約一半的 GDP 來(lái)自勞動(dòng)力,我們正在面對(duì)全球范圍內(nèi)的勞動(dòng)力短缺問(wèn)題。隨著嬰兒潮一代的退休和生育率的下降,這個(gè)問(wèn)題將越來(lái)越嚴(yán)重。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

Figure 01視頻被質(zhì)疑“注水”?看看創(chuàng)始人怎么說(shuō)

端到端(End-to-End)會(huì)成為主流嗎?

文|適道

2023年3月,一家僅創(chuàng)立幾個(gè)月的機(jī)器人公司號(hào)稱(chēng)要推出“世界上第一個(gè)商業(yè)上可行的通用人形機(jī)器人”,并放出了幾張PPT。

接下來(lái)的一年中,這家名為Figure的公司經(jīng)歷了——被質(zhì)疑“碰瓷波士頓動(dòng)力”——?jiǎng)?chuàng)紀(jì)錄地邁出人形機(jī)器人“動(dòng)態(tài)雙足行走”第一步——半個(gè)硅谷科技圈下注, 融資高達(dá)6.75 億美元,估值猛漲至26億美元。

本周三,僅在B輪融資完成后的13天,這位“當(dāng)紅炸子雞”放出了Figure 01的最新視頻。

雖然只用到了一個(gè)“端到端”神經(jīng)網(wǎng)絡(luò),但Figure 01卻可以在你想要食物時(shí),貼心地遞上蘋(píng)果而不是盤(pán)子;還能一邊回答你的問(wèn)題,一邊對(duì)物品進(jìn)行分類(lèi)——將垃圾收拾進(jìn)框子里、將杯子和盤(pán)子歸置放在瀝水架上。而且!它甚至能回答你餐具瀝干水分的大致時(shí)間。

有人說(shuō),F(xiàn)igure只用了1年時(shí)間,就走完了波士頓動(dòng)力20多年的路。于是,壓力給到了波士頓動(dòng)力,讓我們回到實(shí)驗(yàn)室,再扒一些女團(tuán)舞吧(bushi)。

話(huà)說(shuō)回來(lái),F(xiàn)igure 01的最新視頻有沒(méi)有一絲絲“注水”的可能性?難道傳說(shuō)中“世界上第一個(gè)具身智能”機(jī)器人真的來(lái)了?!

Figure創(chuàng)始人Brett Adcock特意在X上強(qiáng)調(diào),視頻是以1.0倍速度拍攝并連續(xù)拍攝的,機(jī)器人是在完全自主的情況下進(jìn)行的行為,沒(méi)有遠(yuǎn)程操作。

言外之意就是“無(wú)剪輯,無(wú)加速,一鏡到底”。

然而,適道和一些相關(guān)領(lǐng)域投資人交流時(shí),獲得了另一條思路:有沒(méi)有一種可能——Figure 01的完美表現(xiàn)是“試”出來(lái)的。

例如在測(cè)試階段,當(dāng)你說(shuō)“我餓了”并指向“蘋(píng)果和碗”,F(xiàn)igure 01會(huì)遞給你碗;當(dāng)你指著“梨子和盤(pán)子”,F(xiàn)igure 01會(huì)遞給你盤(pán)子??赡茉嚵艘淮笸ê螅贸雒鎸?duì)“蘋(píng)果和盤(pán)子”組合,F(xiàn)igure 01的表現(xiàn)是最好的。

但在適道看來(lái),與其說(shuō)這是“注水”,不如說(shuō)這正是Figure神速進(jìn)化的技術(shù)秘籍——“端到端”技術(shù)黑盒。

01 Figure進(jìn)步神速的秘籍 ——“端到端”神經(jīng)網(wǎng)絡(luò)

根據(jù)Brett Adcock的說(shuō)法,F(xiàn)igure 01主要通過(guò)“端到端”神經(jīng)網(wǎng)絡(luò)來(lái)與人類(lèi)進(jìn)行對(duì)話(huà)。大致流程為:OpenAI的LLM提供“大腦”——視覺(jué)推理和語(yǔ)言理解 ;Figure神經(jīng)網(wǎng)絡(luò)提供“小腦”——做出一系列快速、低級(jí)、靈巧的機(jī)器人動(dòng)作。

Figure機(jī)器人操作高級(jí)AI工程師Corey Lynch進(jìn)一步解釋?zhuān)骸斑@些神經(jīng)網(wǎng)絡(luò)以每秒 10 幀的速率接收機(jī)器人內(nèi)置圖像,并能生成每秒200次的24自由度動(dòng)作(包括腕部姿勢(shì)和手指關(guān)節(jié)角度)”

何為“端到端”?

“端到端”(End-to-End)是深度學(xué)習(xí)中的概念,指一個(gè)AI模型,只要輸入原始數(shù)據(jù),就能輸出最終結(jié)果,有點(diǎn)像馬斯克遵循的“第一性原理”。

舉個(gè)簡(jiǎn)單的例子,兩個(gè)同齡小孩,一個(gè)生活在城市,一個(gè)從小長(zhǎng)在河邊。城市小孩想學(xué)游泳,需要找教練,進(jìn)行一系列抱水、換氣、劃水、蹬腿的分解動(dòng)作,才能系統(tǒng)性地掌握蛙泳技能;而在河邊長(zhǎng)大的小孩,看了大人們游泳的姿勢(shì),就去下河摸索,經(jīng)歷了嗆水、訓(xùn)練、強(qiáng)化,也學(xué)會(huì)了游泳,而且游得像魚(yú)一樣?jì)故臁?/p>

如果你要問(wèn)這個(gè)小孩經(jīng)歷了哪些針對(duì)性訓(xùn)練,都有什么訓(xùn)練模塊,他一定答不出所以然。但從結(jié)果來(lái)講,他不僅泳技超群,甚至學(xué)習(xí)時(shí)間還可能更少。

“端到端”的原理跟這個(gè)例子有點(diǎn)類(lèi)似。

例如,想讓機(jī)器人變成“咖啡師”,如果通過(guò)傳統(tǒng)編程,雖然看起來(lái)“透明”“可解釋”,但代碼非常復(fù)雜,靈活性也很差。

而Figure 01的卓越表現(xiàn)證明了,通過(guò)這種“不可解釋”的“端到端”神經(jīng)網(wǎng)絡(luò)(輸入視頻、輸出行動(dòng)軌跡),機(jī)器人能夠在數(shù)小時(shí)訓(xùn)練后就能get新技能。

在1月5日的視頻,F(xiàn)igure 01展示了自己出色的“學(xué)霸”能力,只需觀看10小時(shí)的人類(lèi)煮咖啡錄像,就能學(xué)會(huì)人類(lèi)的動(dòng)作和手勢(shì),并通過(guò)模仿這些動(dòng)作,成為一名real咖啡師。

而“端到端”也正在成為機(jī)器人訓(xùn)練的主流路子。例如,1X EVE 、Digit同樣是通過(guò)“端到端”學(xué)習(xí)新技能。

由此不難得出,雖然目前Figure 01展示的只是做咖啡、物品分類(lèi),但理論上,只要獲取到人類(lèi)的數(shù)據(jù),進(jìn)行“端到端”地訓(xùn)練,它就能掌握更多技能。

我們?cè)倩氐奖弧百|(zhì)疑”的“蘋(píng)果和盤(pán)子組合”——即便Figure 01的完美表現(xiàn)是“試出來(lái)”的,但隨著“端到端”訓(xùn)練量加大,“試錯(cuò)”會(huì)越來(lái)越少,成功率越來(lái)越高,最終Figure 01或許真能輕松拿捏家務(wù),說(shuō)不定還會(huì)在你喊餓時(shí)包出一頓餃子。

這一切正如創(chuàng)始人Brett Adcock所言:機(jī)器人就像我的孩子們一樣,在他們學(xué)習(xí)做某件事的過(guò)程中,盡管可能失敗了很多次,但他們一旦掌握了就不會(huì)忘記,然后他們會(huì)不斷積累新的技能。

02 創(chuàng)始人:人形機(jī)器人成本會(huì)低于一臺(tái)廉價(jià)電動(dòng)汽車(chē)

Figure的創(chuàng)始人Brett Adcock年僅38歲,但Figure已經(jīng)是他創(chuàng)立的第三家科技公司。在去年10月的一次訪談中,Brett 分享了 Figure 01的設(shè)計(jì)過(guò)程,以及他對(duì)于通用人形機(jī)器人領(lǐng)域的預(yù)測(cè)。

Brett 認(rèn)為人形機(jī)器人研發(fā)一定是軟硬件一體的過(guò)程,LLM 為機(jī)器人提供了強(qiáng)大的大腦,是軟件層面的重要補(bǔ)足,而硬件角度,幾乎沒(méi)有成熟的供應(yīng)鏈可供使用,因此,Brett要求團(tuán)隊(duì)在設(shè)計(jì)產(chǎn)品的同時(shí)就要考慮到機(jī)器人重量、計(jì)算處理、現(xiàn)實(shí)環(huán)境等細(xì)節(jié)。

適道也對(duì)訪談進(jìn)行了原文編譯和節(jié)選,請(qǐng)配合食用。

1、簡(jiǎn)單介紹一下 Figure,你們的使命和目標(biāo)是什么?

Brett:Figure 是一家 AI機(jī)器人公司,專(zhuān)注于設(shè)計(jì)自動(dòng)通用人形機(jī)器人(Autonomous General-purpose Humanoids)。自動(dòng)通用人形機(jī)器人是指具備自主能力,能夠自動(dòng)執(zhí)行多種任務(wù),并且在外觀和行為上類(lèi)似于人類(lèi)的機(jī)器人。我們的目標(biāo)是在長(zhǎng)期能夠部署和人類(lèi)數(shù)量一樣多的人形機(jī)器人,讓體力勞動(dòng)成為一種選擇而非必然。

我們的遠(yuǎn)期計(jì)劃是在全球部署 100 億個(gè)人形機(jī)器人。未來(lái) 1-2 年內(nèi),我們的重點(diǎn)將放在開(kāi)發(fā)具有里程碑意義的產(chǎn)品上,希望在未來(lái)一兩年內(nèi),能向公眾展示大量人形機(jī)器人產(chǎn)品的研發(fā)成果,包括 AI 系統(tǒng)、低級(jí)控制(Low-Level Control)等,最終展示能在日常生活中發(fā)揮作用的機(jī)器人。

2、如果能成功降低制造成本、提高生產(chǎn)量,一個(gè)功能完善的人形機(jī)器人制作成本能降低多少?

Brett:如果我們回顧消費(fèi)品或汽車(chē)行業(yè)的發(fā)展歷史時(shí),可以看到產(chǎn)品的價(jià)格與生產(chǎn)量之間存在強(qiáng)相關(guān)。根據(jù)經(jīng)驗(yàn)曲線(xiàn)(Experience Curve),每當(dāng)生產(chǎn)數(shù)量翻倍,產(chǎn)品的價(jià)格或成本就可能下降 20%或 30%。因此,我們可以認(rèn)為價(jià)格取決于生產(chǎn)量。

這個(gè)原理同樣適用于人形機(jī)器人的生產(chǎn)。目前,一個(gè)人形機(jī)器人大約有 1000 個(gè)零件,重量約為 150 磅(68 公斤)。相比之下,一個(gè)電動(dòng)汽車(chē)可能有大約 1 萬(wàn)個(gè)零件,重量可能在 4000-5000 磅(1800-2250 公斤)之間。

從長(zhǎng)期來(lái)看,一個(gè)人形機(jī)器人的成本應(yīng)該低于一臺(tái)廉價(jià)電動(dòng)汽車(chē)。這主要取決于機(jī)器人的執(zhí)行器、電機(jī)組件、傳感器的成本以及計(jì)算成本。

3、你們打算訓(xùn)自己的模型,還是集成其他模型?

Brett:要讓人形機(jī)器人從工廠走進(jìn)家庭,關(guān)鍵在于語(yǔ)言,所以 LLM 或視覺(jué)語(yǔ)言模型對(duì)我們的業(yè)務(wù)幫助很大。我們要讓機(jī)器人能夠從語(yǔ)義層面理解世界,做到理解和回應(yīng)用戶(hù)的需求和指令,恰好 LLM 可以做到這點(diǎn)。

因此,我們會(huì)逐步將視覺(jué)語(yǔ)言模型加入機(jī)器人的研發(fā)過(guò)程,從高層次的行為角度來(lái)幫助人形機(jī)器人理解人類(lèi)在說(shuō)什么,讓它能與人類(lèi)進(jìn)行對(duì)話(huà),同時(shí)推斷和理解人們?cè)谡f(shuō)什么以做出回應(yīng)。

我們很可能不會(huì)自己訓(xùn)模型,但我們可以在機(jī)器人系統(tǒng)上訓(xùn)練視覺(jué)語(yǔ)言模型,關(guān)聯(lián)傳感器數(shù)據(jù)。

打造一個(gè)正確的 AI 數(shù)據(jù)引擎對(duì)我們來(lái)說(shuō)非常重要,它能確保我們對(duì)機(jī)器人產(chǎn)生的數(shù)據(jù)進(jìn)行準(zhǔn)確的訓(xùn)練,對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行正確的訓(xùn)練,以便未來(lái)能夠有效地部署和使用。這也是驅(qū)動(dòng)我們盡快讓產(chǎn)品進(jìn)入市場(chǎng)的動(dòng)力,我們希望將更多的機(jī)器人投放市場(chǎng),收集數(shù)據(jù),從而讓我們未來(lái)的機(jī)器人隊(duì)伍將變得更加智能、學(xué)會(huì)更多技能。

4、為什么需要軟硬件一體開(kāi)發(fā)?

Brett:如果算上做控制系統(tǒng)(control)、中間件(middleware)和自主決策與行動(dòng)能力(autonomy)的人,我們的軟件占比會(huì)比硬件稍微多一些,因?yàn)橛布F(tuán)隊(duì)的員工只有 15 個(gè)左右,軟件規(guī)模要明顯大一些。

長(zhǎng)遠(yuǎn)來(lái)看,軟件會(huì)成為公司最大的業(yè)務(wù)板塊。Figure 作為一家專(zhuān)注于 AI 的公司,以后會(huì)有一個(gè)龐大的 autonomy 團(tuán)隊(duì),并且研發(fā)出關(guān)鍵的 AI 數(shù)據(jù)引擎。

但硬件方面也同樣重要。如果我們真的想做出實(shí)現(xiàn)高性能、高可靠性、高安全性和低成本的人形機(jī)器人,就需要開(kāi)發(fā)自己的執(zhí)行器、電子設(shè)備、電池和幾乎所有軟件,因?yàn)檫@些都沒(méi)有現(xiàn)成的解決方案。

長(zhǎng)時(shí)間從事軟件開(kāi)發(fā)再進(jìn)入硬件領(lǐng)域是真的很困難,研發(fā)硬件需要經(jīng)過(guò)一個(gè)漫長(zhǎng)的迭代周期,這也是我們受挫的主要因素。

5、人形機(jī)器人的潛在大市場(chǎng)在哪里?何時(shí)出現(xiàn)?

Brett:我們計(jì)劃先在未來(lái)十幾年內(nèi)持續(xù)擴(kuò)大在商業(yè)勞動(dòng)力市場(chǎng)的規(guī)模。我們關(guān)注的領(lǐng)域包括醫(yī)療保健、房地產(chǎn)、建筑和零售等,我相信這些領(lǐng)域都有巨大的市場(chǎng)潛力。

另外,還有一些市場(chǎng)尚未應(yīng)用人形機(jī)器人,比如房地產(chǎn)??萍挤康禺a(chǎn)公司開(kāi)發(fā)的在線(xiàn)平臺(tái)可以使用人形機(jī)器人來(lái)代替人類(lèi)經(jīng)紀(jì)人提供服務(wù)。人們可以通過(guò)訪問(wèn)網(wǎng)站預(yù)約看房,然后由人形機(jī)器人打開(kāi)門(mén)迎接他們,在一個(gè)虛擬的房屋中全程介紹。這是一個(gè)價(jià)值數(shù)萬(wàn)億美元的市場(chǎng),但科技公司迄今為止還未涉足,因?yàn)槟壳胺康禺a(chǎn)領(lǐng)域的工作仍然過(guò)于依賴(lài)人力。

此外,還有許多行業(yè)的工作可以通過(guò)遠(yuǎn)程操作或其他技術(shù)來(lái)完成,人形機(jī)器人可以為這些行業(yè)帶來(lái)新的發(fā)展機(jī)會(huì)。

6、人形機(jī)器人會(huì)讓人們失去工作嗎?

Brett:我的觀點(diǎn)是在接下來(lái)的 10-20 年里,機(jī)器人業(yè)務(wù)的發(fā)展將與自動(dòng)駕駛汽車(chē)的發(fā)展路徑類(lèi)似。就像自動(dòng)駕駛汽車(chē),高速公路的測(cè)試視頻會(huì)比城市街道的更早公開(kāi),是因?yàn)槌鞘薪值烙懈叩陌踩蠛透嗟牟淮_定性。

同樣,人形機(jī)器人也會(huì)首先解決相對(duì)容易的問(wèn)題,比如在預(yù)知環(huán)境和任務(wù)的情況下搬運(yùn)貨物。這類(lèi)任務(wù)就像在高速公路上駕駛,相對(duì)簡(jiǎn)單易行。然而,更復(fù)雜的任務(wù),例如在家中烹飪或照顧老年人,就像在城市街道上駕駛,更具挑戰(zhàn)性。

盡管大家對(duì)人形機(jī)器人的期望往往集中在復(fù)雜任務(wù)的解決上,比如谷歌的機(jī)器人做垃圾分類(lèi),豐田研究院在雜貨店等場(chǎng)景的研究,但這些都是非常困難的挑戰(zhàn)。

我很高興有這些研究,但從商業(yè)角度出發(fā),我們的首要任務(wù)應(yīng)該是解決那些簡(jiǎn)單但必要的問(wèn)題,然后逐漸將 AI 數(shù)據(jù)引擎應(yīng)用到更復(fù)雜的任務(wù)中。

所以 ,F(xiàn)igure 和其他研究團(tuán)隊(duì)關(guān)注的事情恰恰相反。我們的目標(biāo)是在倉(cāng)儲(chǔ)制造領(lǐng)域應(yīng)用人形機(jī)器人,這個(gè)領(lǐng)域的勞動(dòng)力短缺問(wèn)題最為嚴(yán)重。全球約一半的 GDP 來(lái)自勞動(dòng)力,我們正在面對(duì)全球范圍內(nèi)的勞動(dòng)力短缺問(wèn)題。隨著嬰兒潮一代的退休和生育率的下降,這個(gè)問(wèn)題將越來(lái)越嚴(yán)重。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。