正在閱讀:

第一個“拿起蘋果”的人形機器人,為什么是Figure?

掃一掃下載界面新聞APP

第一個“拿起蘋果”的人形機器人,為什么是Figure?

運氣大于實力。

文丨產(chǎn)業(yè)象限  錢江

編輯丨山茶

3月13日,一則2分34秒的人形機器人視頻引爆了網(wǎng)絡(luò),讓人驚呼具身智能的時代提前到來了。

視頻內(nèi)容是美國人形機器人公司Figure的產(chǎn)品演示實景拍攝,視頻中,工作人員向機器人詢問“我能吃點東西嗎”,機器人遲疑了幾秒,然后熟練地將蘋果遞給了工作人員。

▲圖源Figure

相信許多人看到這個畫面,都會有一種不真實的感受,似乎置身科幻之中。

為了將大家拉回現(xiàn)實,F(xiàn)igure創(chuàng)始人Brett Adcock還在X上特意強調(diào),視頻是以1.0倍速連續(xù)拍攝的,機器人沒有遠程操作,所有動作和反饋都是完全基于深度學習自主完成的。

顯然,隨著Figure這則視頻的發(fā)布,人形機器人又完成一個關(guān)鍵突破。

但問題也隨之而來,為什么會是Figure?

要知道,F(xiàn)igure成立于2022年,發(fā)展時間距今不過2年。作為對比,世界上其他鼎鼎大名的人形機器人公司,特斯拉投入人形機器人已近3年,最近上市的優(yōu)必選做了12年,波士頓動力更是做了21年。

那么,為何拿起“蘋果”的第一臺人形機器人是Figure?Figure是如何做到僅用兩年的時間,就引領(lǐng)具身智能的前沿發(fā)展的?它為何會成功,又面臨怎樣的挑戰(zhàn)?

驚艷的只是“智能”

雖然Figure展現(xiàn)了人形機器人無與倫比的交互能力,但我們?nèi)匀恍枰庾R到的是,這并不代表真正的具身智能已經(jīng)實現(xiàn)了,或者如Demo視頻中展現(xiàn)的人形機器人就即將進入千家萬戶。

原因很簡單,首先Demo視頻演示的只是一個固定場景,而機器人真正進入人類生活和工作,還需要學會成千上萬個類似的場景,這是一個從0到1,和從1到100的過程。

做一個簡單的舉例,就像自動駕駛第一輛車能夠在測試道路上實現(xiàn)直線、轉(zhuǎn)彎、超車變道等場景的自動駕駛,但并不等于自動駕駛車輛就有了上路行駛的能力。

就自動駕駛而言,早在20世紀60年,卡內(nèi)基梅隆大學的研究人員依靠計算機視覺和人工智能開發(fā)的自動駕駛汽車,就已經(jīng)可以在高速公路上以每小時20英里的速度行駛了。但直到60年后的今天,L5級別的自動駕駛?cè)匀贿b遙無期。

其次在Demo視頻中,F(xiàn)igure 01并沒有移動,它只是站在桌子面前,整個交互過程考驗的只是它的意圖識別、人機交互,以及上肢的操作能力。

簡單來說,這個視頻展示的真正厲害的點在于Figure01的軟件能力,即其內(nèi)部融合的OpenAI大模型大腦的部分,以及Figure01自己的,可以將OpenAI大模型能力與機器人本體(指機器人機械部分)進行翻譯和交互智能系統(tǒng)。

Brett Adcock將這套系統(tǒng)稱為“端到端”的神經(jīng)網(wǎng)絡(luò),其工作流程大致為,OpenAI的大模型作為大腦,提供視覺推理和語言理解(其中可能包括Sora和GPT-4的能力);Figure01神經(jīng)網(wǎng)絡(luò)作為小腦,根據(jù)OpenAI的大模型的判斷做出一系列快速、低級、靈巧的機器人動作。

而對于人形機器人的考驗,軟件交互能力只是其中一部分,另一部分在于其本體的機械能力,比如如何在行走中保持平衡,各個機械部件的傳動能力,如何讓動作變得自然平穩(wěn),如何控制力度和精度等等。

而這些,需要考驗人形機器人公司軟件和硬件的協(xié)同開發(fā)能力,需要考驗整個人形機器人供應(yīng)鏈上下游的共同開發(fā)能力。而供應(yīng)鏈也是目前人形機器人面臨的最大挑戰(zhàn)之一,其復(fù)雜程度不亞于當前的汽車產(chǎn)業(yè)鏈,但與汽車產(chǎn)業(yè)鏈發(fā)展距今130多年相比,人形機器人的產(chǎn)業(yè)鏈還處于“一張白紙”的狀態(tài)。

Brett Adcock也同樣認為,目前人形機器人最大的難題在供應(yīng)鏈,這一點我們后面會詳細展開。

當然,F(xiàn)igure在機器人本體上也并非全無成績。事實上,它正在以飛快的速度前進。

這幾年,人形機器人公司賽道上的選手有很多,F(xiàn)igure01的速度格外扎眼,它只用了1年時間就打破了機器人行走紀錄,而特斯拉花了15個月、波士頓花了21年。

▲圖:X@Brett Adcock

除此之外,資本市場的青睞也給了它更多的推力。

今年2月,Brett Adcock公布Figure獲得6.75億美金融資,其投資團隊震動了半個硅谷,亞馬遜創(chuàng)始人貝索斯,以及微軟、英偉達、OpenAI都來捧場。

隨后,Brett Adcock也公布了一張公司職位申請數(shù)量增長圖,來顯示Figure的受歡迎程度,從2023年7月到2024年2月,8個月期間想入職Figure的應(yīng)聘者數(shù)量增長了218%。

▲圖源:X@Brett Adcock

總而言之,F(xiàn)igure正在以前所未有的速度,向著“具身智能”的時代前進。

借上OpenAI的東風

正如我們前面提到的,F(xiàn)igure01的關(guān)鍵是軟件,而軟件中讓人驚艷的能力又主要來源于OpenAI。

所以嚴格意義上說,F(xiàn)igure在人形機器人上做出的創(chuàng)新其實有限。

但這并不妨礙Figure01帶來的驚艷。Figure01能聽懂人類的指令、識別出哪一個物體可以食用,并順暢地轉(zhuǎn)化為行動能力。

這項能力之所以令人驚艷,除了絲滑無障礙的溝通之外,還在于它解決了機器人行業(yè)的一個固有悖論——“莫拉維克悖論”。

它由人工智能和機器人學領(lǐng)域的先驅(qū)漢斯·莫拉維克提出,在計算機和機器人系統(tǒng)中一個有趣且非直觀的現(xiàn)象:對于人類來說簡單的感知和運動任務(wù),對計算機和機器人而言卻異常困難;而人類認為復(fù)雜的邏輯和抽象思維任務(wù),對計算機來說卻相對容易。

所以Figure01展現(xiàn)的遞蘋果、擺盤子行為看上去簡單,實現(xiàn)起來有一定的技術(shù)難度,需要擁有識別、計劃和執(zhí)行任務(wù)的能力。

而這項能力也來源于“端到端的神經(jīng)網(wǎng)絡(luò)閉環(huán)”,即Figure01可以直接將看到的、聽到的信息轉(zhuǎn)化為語言和行為結(jié)果,中間不需要經(jīng)過其它程序處理。

Brett Adcock解釋Figure01的技術(shù)路線,稱Figure01連接了Open AI的能力,所有行為均由神經(jīng)網(wǎng)絡(luò)視覺運動變壓器策略驅(qū)動,可以將像素直接映射到動作。

▲圖源:X@Corey Lynch

出門問問創(chuàng)始人李志飛在他的賬號“飛哥說”中詳細剖析Figure1的技術(shù)原理,在整個過程里,F(xiàn)igure01至少靈活擁有兩項能力:大語言模型的思維鏈COT能力,以及順暢的底層操控能力。

拆開來說,F(xiàn)igure01的這一套操作,需要機器理解自然語言,并把自然語言轉(zhuǎn)換成機器的抽象計劃,再將這項抽象計劃轉(zhuǎn)化成底層操控。

最近的一次引發(fā)轟動的機器人成果,是斯坦福大學華人團隊研究的Mobile ALOHA,它能夠炒蝦仁、按電梯,這個能力還是通過人工遠程操控疊加靜態(tài)ALOHA數(shù)據(jù)才實現(xiàn)。點擊查看《人形機器人,也迎來ChatGPT時刻?》

▲Mobile ALOHA樣機

在機器人領(lǐng)域,目前為了解決這個問題最盛行的是三種模型:

第一個是RT-1模型,輸入文本指令和對應(yīng)圖像,通過預(yù)訓練模型將其轉(zhuǎn)化為token,再經(jīng)過壓縮,最后輸出機器人聽得懂的三個維度操作指令Mode、Arm、Base,分別用于控制機器人的模式轉(zhuǎn)化、控制機器人手臂動作,以及控制機器人移動。

第二個是PaLM-E模型,通過輸入多模態(tài)模型知識,對任務(wù)信息進行處理,分解成特定的機器人指令。

這兩種模型可以進行融合,機器人經(jīng)過PaLM-E模型接收特定指令,再由RT-1將特定指令轉(zhuǎn)化為對應(yīng)的機器人控制指令。

第三種是RT-2模型,即視覺-語言-動作(VLA)模型,可以直接將機器人輸入的信息轉(zhuǎn)化為動作,單從表現(xiàn)來看,這似乎更符合Corey Lynch對外宣稱的“端到端”實現(xiàn)方式。

根據(jù)李志飛團隊的分析,F(xiàn)igure01更符合RT-1+PaLM-E的模型融合。Figure01從接收指令到行動,雖然這個這個過程有延緩,但整體非常順滑,RT-2決策頻率是1到5hz,很難做到Figure1的200Hz程度。

Brett Adcock搭載了Open AI的順風,在具身智能的道路上邁出了一大步。

單位時間內(nèi)跑的最快的公司

當然,如果要回答Figure為什么跑得這么快,也不得不提到它的創(chuàng)始人Brett Adcock了。

和馬斯克一樣,Brett Adcock在社交媒體上異常活躍。但Brett Adcock又與馬斯克的口無遮攔,嬉笑怒罵不同,他在社交媒體上更新的主要是他的工作進度和思考。

這是一個實打?qū)嵉墓ぷ骺瘛?003年4月,隨著Figure完成7000萬美元A輪融資,Brett Adcock在X上發(fā)布帖子的速度變得更加勤快。

他每天都發(fā)布若干條創(chuàng)業(yè)心得或與機器人相關(guān)的動態(tài),并按“周”的速度強調(diào)一遍對“AI Robotics”行業(yè)的觀察與變化,常用語是“Bug week of developments…”或者“That's it for this week's AI and Robotics breakdown”。

除此之外,Brett Adcock還是一個久經(jīng)沙場的創(chuàng)業(yè)老兵。在投身人形機器人這一硬件領(lǐng)域之前,他就已經(jīng)在軟件領(lǐng)域摸爬滾打了10多年。

他在X上常??偨Y(jié)分享自己的創(chuàng)業(yè)洞見,最常見的幾個關(guān)鍵詞是:快速、高效、輕便、低員工數(shù)、小團隊、系統(tǒng),在創(chuàng)辦Figure之前,這些方法論是Brett Adcock連續(xù)創(chuàng)業(yè)成功的關(guān)鍵。

▲圖源:X@Brett Adcock

Brett Adcock出生于1986年,他的童年在伊利諾伊州莫韋夸小鎮(zhèn)外的一個玉米和大豆農(nóng)場度過,或許從小就見慣了日夜勞作的過程,他對提高工作效率、節(jié)省勞動力的事情格外著迷。

2002年,還在上學的Brett Adcock就創(chuàng)辦了一家網(wǎng)絡(luò)公司Street of Walls,據(jù)說這家網(wǎng)站至今還在幫助金融領(lǐng)域公司提高面試效率。

2012年,25歲的Brett Adcock和Adam Goldstein聯(lián)合創(chuàng)辦了一個就業(yè)網(wǎng)站Vettery,在這段經(jīng)歷中,Brett Adcock將“高效”這件事情拔高了N個等級。

最初,Vettery只為第三方招聘公司提供服務(wù),但“經(jīng)歷幾次絕望的轉(zhuǎn)型”之后,最終決定“拋棄所有招聘人員,將求職者和公司放在一個市場”,通過機器學習匹配求職者和招聘方。

這個方法果然奏效,Vettery的用戶幾乎每周都在翻倍增長。

▲圖源:Newatlas

正向的循環(huán)很快得到了市場的回應(yīng)。

2018年,Vettery在短短6年的時間內(nèi)獲得20000名客戶,獲得當時世界上最大的招聘公司Adecco集團的注意,Adecco集團以1.1億美金的價格收購了Vettery。Brett Adcock獲得了人生第一桶金。

Brett Adcock的第二個創(chuàng)業(yè)項目是“電動垂直起降飛機”,其創(chuàng)辦的Archer Aviation(簡稱Archer)是第一批eVTOL(電動垂直起降)概念的公司之一,這時Brett Adcock 30歲。

Brett Adcock很擅長“找錢”和“找人”。

Archer成立后不久,Brett Adcock就拉來了沃爾瑪電子商務(wù)主管兼Jet.com創(chuàng)始人馬克·洛爾 (Marc Lore) 作為投資人。Lore在2016年將Jet.com出售給沃爾瑪?shù)臅r候就已經(jīng)身價上億,2020年還持有2.75億美金沃爾瑪股票。

通常來講,Lore不會投資朋友和家人以外的創(chuàng)業(yè)公司,但Brett Adcock成了例外。不僅如此,Lore還幫助Brett從家族和其他對科技感興趣的富人那里籌集了大量資金。

很快,Brett Adcock組建了“豪華”的44人團隊,尋找航空領(lǐng)域的人才,包括前航空電子和工程部門負責人斯科特·弗曼(Scott Furman)和湯姆·穆尼斯(Tom Muniz)、空中客車公司Vahana原型機的總工程師杰夫·鮑爾(Geoff Bower),正式開啟“空中租車服務(wù)”的旅途。

Brett Adcock“找錢”和“找人”的能力也復(fù)制到了Figure上。

2022年,當OpenAI開始在文本生成、自動編程、語言翻譯、內(nèi)容創(chuàng)作等多個領(lǐng)域嘗試應(yīng)用GPT-3時,Brett Adcock也從Archer離職了。

這個決定非常出人意料,因為當時Archer已經(jīng)在申請飛行證的關(guān)鍵節(jié)點,現(xiàn)在我們無法考證Brett Adcock的離職是否是看到了人形機器人的更大機遇,但至少Brett Adcock因為這次離職趕上了人形機器人的風口。

之后就有了Figure的故事,Brett Adcock找來了Jerry Pratt擔任首席技術(shù)官,谷歌DeepMind科學家Corey Lynch也加入了Figure團隊。

Jerry Pratt從1998年就開始研究機器人,他曾經(jīng)寫過一篇論文《Walking on Partial Footholds Including Line Contacts with the Humanoid Robot Atlas》,這篇論文提出了一套算法,它可以讓人形機器人在有限的立足點信息內(nèi),也能實現(xiàn)邁步,火出圈的波士頓Atlas采用的正是這個算法。

2022年5月,F(xiàn)igure成立。之后兩年,人形機器人賽道群雄環(huán)伺。

國外有馬斯克不斷迭代Optimus,1X也獲得Open AI融資,中國市場宇樹H1不斷鉆研全尺寸人形機器人跑步,優(yōu)必選敲鐘上市。Figure能在這些公司中突圍而出,或許緣于Brett Adcock在X上表達的理念,“如果我是一名投資人,我會建議尋找單位時間內(nèi)進步最大的公司”。

難啃的供應(yīng)鏈

雖然在Brett Adcock的帶領(lǐng)下,在硅谷資本的助推下,F(xiàn)igure正在以飛快的速度前進。但擺在Figure面前的挑戰(zhàn)也同樣艱巨。

Brett Adcock曾說起他選擇人形機器人的原因,“我們正在目睹前所未有的勞動力短缺,在我們重點關(guān)注的倉儲和制造行業(yè),年周轉(zhuǎn)率在 50-150% 之間,這些行業(yè)正在努力尋找/留住人才并擴大勞動力規(guī)模。”

Brett Adcock認為機器人做成人形更有效率,因為擁有腿、手臂和手的機器人可以執(zhí)行類似人類的任務(wù),而無需改變環(huán)境,畢竟,重塑整個物理世界,是一項難以克服的挑戰(zhàn)。

“有用”是Brett Adcock做人形機器人的第一要義。但要讓人形機器人有用,證明這件事情是第一大挑戰(zhàn)。

Brett Adcock在一段采訪中表示,已經(jīng)有幾十個客戶在尋找與Figure01的合作,但目前只和寶馬做了真正的合作,因為寶馬會真正地將人形機器人的部署和集成送到他們在斯帕坦堡的設(shè)施。他要先用盡可能少的機器人,證明可行性。

其次,當從有用到真正帶來生產(chǎn)了,人形機器人還需要大規(guī)模制造,而這其中的首要條件,就是硬件的可靠性。

雖然Brett Adcock有過一段做硬件的經(jīng)歷,但真正踏入人形機器人世界時,他還是被供應(yīng)鏈難住了。“供應(yīng)鏈的缺乏讓我感到驚訝,這也意味著未來創(chuàng)業(yè)者還有很多新機會”。

▲圖源:X@Brett Adcock

他在X上多次提及人形機器人缺乏一套成熟的供應(yīng)鏈,因此團隊必須從頭開始設(shè)計整個機器人,包括執(zhí)行器、電子設(shè)備、結(jié)構(gòu)、關(guān)節(jié)、操作系統(tǒng)、控件、固件、人工智能系統(tǒng)等。

復(fù)雜多樣的零部件需求,意味著要從全球不同的供應(yīng)商那里進行采購,為了確保零部件的質(zhì)量和供應(yīng)的可靠性,還需要選擇合適的供應(yīng)商,并維持良好的合作關(guān)系,這又不得不投入大量時間進行供應(yīng)商管理、評估和審查。

更重要的是,人形機器人對零部件高性能的要求,會產(chǎn)生較高的成本,如果未來要規(guī)模化生產(chǎn)Figure01,Brett Adcock必須思考如何降低采購和物流成本,來保證企業(yè)的利潤。

在機器人領(lǐng)域,技術(shù)帶來的驚艷是一回事,但是如何在商業(yè)化上做好規(guī)?;质橇硪换厥?。

而這也不僅僅是Figure的挑戰(zhàn),也是所有人形機器人企業(yè)共同面臨的挑戰(zhàn)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

第一個“拿起蘋果”的人形機器人,為什么是Figure?

運氣大于實力。

文丨產(chǎn)業(yè)象限  錢江

編輯丨山茶

3月13日,一則2分34秒的人形機器人視頻引爆了網(wǎng)絡(luò),讓人驚呼具身智能的時代提前到來了。

視頻內(nèi)容是美國人形機器人公司Figure的產(chǎn)品演示實景拍攝,視頻中,工作人員向機器人詢問“我能吃點東西嗎”,機器人遲疑了幾秒,然后熟練地將蘋果遞給了工作人員。

▲圖源Figure

相信許多人看到這個畫面,都會有一種不真實的感受,似乎置身科幻之中。

為了將大家拉回現(xiàn)實,F(xiàn)igure創(chuàng)始人Brett Adcock還在X上特意強調(diào),視頻是以1.0倍速連續(xù)拍攝的,機器人沒有遠程操作,所有動作和反饋都是完全基于深度學習自主完成的。

顯然,隨著Figure這則視頻的發(fā)布,人形機器人又完成一個關(guān)鍵突破。

但問題也隨之而來,為什么會是Figure?

要知道,F(xiàn)igure成立于2022年,發(fā)展時間距今不過2年。作為對比,世界上其他鼎鼎大名的人形機器人公司,特斯拉投入人形機器人已近3年,最近上市的優(yōu)必選做了12年,波士頓動力更是做了21年。

那么,為何拿起“蘋果”的第一臺人形機器人是Figure?Figure是如何做到僅用兩年的時間,就引領(lǐng)具身智能的前沿發(fā)展的?它為何會成功,又面臨怎樣的挑戰(zhàn)?

驚艷的只是“智能”

雖然Figure展現(xiàn)了人形機器人無與倫比的交互能力,但我們?nèi)匀恍枰庾R到的是,這并不代表真正的具身智能已經(jīng)實現(xiàn)了,或者如Demo視頻中展現(xiàn)的人形機器人就即將進入千家萬戶。

原因很簡單,首先Demo視頻演示的只是一個固定場景,而機器人真正進入人類生活和工作,還需要學會成千上萬個類似的場景,這是一個從0到1,和從1到100的過程。

做一個簡單的舉例,就像自動駕駛第一輛車能夠在測試道路上實現(xiàn)直線、轉(zhuǎn)彎、超車變道等場景的自動駕駛,但并不等于自動駕駛車輛就有了上路行駛的能力。

就自動駕駛而言,早在20世紀60年,卡內(nèi)基梅隆大學的研究人員依靠計算機視覺和人工智能開發(fā)的自動駕駛汽車,就已經(jīng)可以在高速公路上以每小時20英里的速度行駛了。但直到60年后的今天,L5級別的自動駕駛?cè)匀贿b遙無期。

其次在Demo視頻中,F(xiàn)igure 01并沒有移動,它只是站在桌子面前,整個交互過程考驗的只是它的意圖識別、人機交互,以及上肢的操作能力。

簡單來說,這個視頻展示的真正厲害的點在于Figure01的軟件能力,即其內(nèi)部融合的OpenAI大模型大腦的部分,以及Figure01自己的,可以將OpenAI大模型能力與機器人本體(指機器人機械部分)進行翻譯和交互智能系統(tǒng)。

Brett Adcock將這套系統(tǒng)稱為“端到端”的神經(jīng)網(wǎng)絡(luò),其工作流程大致為,OpenAI的大模型作為大腦,提供視覺推理和語言理解(其中可能包括Sora和GPT-4的能力);Figure01神經(jīng)網(wǎng)絡(luò)作為小腦,根據(jù)OpenAI的大模型的判斷做出一系列快速、低級、靈巧的機器人動作。

而對于人形機器人的考驗,軟件交互能力只是其中一部分,另一部分在于其本體的機械能力,比如如何在行走中保持平衡,各個機械部件的傳動能力,如何讓動作變得自然平穩(wěn),如何控制力度和精度等等。

而這些,需要考驗人形機器人公司軟件和硬件的協(xié)同開發(fā)能力,需要考驗整個人形機器人供應(yīng)鏈上下游的共同開發(fā)能力。而供應(yīng)鏈也是目前人形機器人面臨的最大挑戰(zhàn)之一,其復(fù)雜程度不亞于當前的汽車產(chǎn)業(yè)鏈,但與汽車產(chǎn)業(yè)鏈發(fā)展距今130多年相比,人形機器人的產(chǎn)業(yè)鏈還處于“一張白紙”的狀態(tài)。

Brett Adcock也同樣認為,目前人形機器人最大的難題在供應(yīng)鏈,這一點我們后面會詳細展開。

當然,F(xiàn)igure在機器人本體上也并非全無成績。事實上,它正在以飛快的速度前進。

這幾年,人形機器人公司賽道上的選手有很多,F(xiàn)igure01的速度格外扎眼,它只用了1年時間就打破了機器人行走紀錄,而特斯拉花了15個月、波士頓花了21年。

▲圖:X@Brett Adcock

除此之外,資本市場的青睞也給了它更多的推力。

今年2月,Brett Adcock公布Figure獲得6.75億美金融資,其投資團隊震動了半個硅谷,亞馬遜創(chuàng)始人貝索斯,以及微軟、英偉達、OpenAI都來捧場。

隨后,Brett Adcock也公布了一張公司職位申請數(shù)量增長圖,來顯示Figure的受歡迎程度,從2023年7月到2024年2月,8個月期間想入職Figure的應(yīng)聘者數(shù)量增長了218%。

▲圖源:X@Brett Adcock

總而言之,F(xiàn)igure正在以前所未有的速度,向著“具身智能”的時代前進。

借上OpenAI的東風

正如我們前面提到的,F(xiàn)igure01的關(guān)鍵是軟件,而軟件中讓人驚艷的能力又主要來源于OpenAI。

所以嚴格意義上說,F(xiàn)igure在人形機器人上做出的創(chuàng)新其實有限。

但這并不妨礙Figure01帶來的驚艷。Figure01能聽懂人類的指令、識別出哪一個物體可以食用,并順暢地轉(zhuǎn)化為行動能力。

這項能力之所以令人驚艷,除了絲滑無障礙的溝通之外,還在于它解決了機器人行業(yè)的一個固有悖論——“莫拉維克悖論”。

它由人工智能和機器人學領(lǐng)域的先驅(qū)漢斯·莫拉維克提出,在計算機和機器人系統(tǒng)中一個有趣且非直觀的現(xiàn)象:對于人類來說簡單的感知和運動任務(wù),對計算機和機器人而言卻異常困難;而人類認為復(fù)雜的邏輯和抽象思維任務(wù),對計算機來說卻相對容易。

所以Figure01展現(xiàn)的遞蘋果、擺盤子行為看上去簡單,實現(xiàn)起來有一定的技術(shù)難度,需要擁有識別、計劃和執(zhí)行任務(wù)的能力。

而這項能力也來源于“端到端的神經(jīng)網(wǎng)絡(luò)閉環(huán)”,即Figure01可以直接將看到的、聽到的信息轉(zhuǎn)化為語言和行為結(jié)果,中間不需要經(jīng)過其它程序處理。

Brett Adcock解釋Figure01的技術(shù)路線,稱Figure01連接了Open AI的能力,所有行為均由神經(jīng)網(wǎng)絡(luò)視覺運動變壓器策略驅(qū)動,可以將像素直接映射到動作。

▲圖源:X@Corey Lynch

出門問問創(chuàng)始人李志飛在他的賬號“飛哥說”中詳細剖析Figure1的技術(shù)原理,在整個過程里,F(xiàn)igure01至少靈活擁有兩項能力:大語言模型的思維鏈COT能力,以及順暢的底層操控能力。

拆開來說,F(xiàn)igure01的這一套操作,需要機器理解自然語言,并把自然語言轉(zhuǎn)換成機器的抽象計劃,再將這項抽象計劃轉(zhuǎn)化成底層操控。

最近的一次引發(fā)轟動的機器人成果,是斯坦福大學華人團隊研究的Mobile ALOHA,它能夠炒蝦仁、按電梯,這個能力還是通過人工遠程操控疊加靜態(tài)ALOHA數(shù)據(jù)才實現(xiàn)。點擊查看《人形機器人,也迎來ChatGPT時刻?》

▲Mobile ALOHA樣機

在機器人領(lǐng)域,目前為了解決這個問題最盛行的是三種模型:

第一個是RT-1模型,輸入文本指令和對應(yīng)圖像,通過預(yù)訓練模型將其轉(zhuǎn)化為token,再經(jīng)過壓縮,最后輸出機器人聽得懂的三個維度操作指令Mode、Arm、Base,分別用于控制機器人的模式轉(zhuǎn)化、控制機器人手臂動作,以及控制機器人移動。

第二個是PaLM-E模型,通過輸入多模態(tài)模型知識,對任務(wù)信息進行處理,分解成特定的機器人指令。

這兩種模型可以進行融合,機器人經(jīng)過PaLM-E模型接收特定指令,再由RT-1將特定指令轉(zhuǎn)化為對應(yīng)的機器人控制指令。

第三種是RT-2模型,即視覺-語言-動作(VLA)模型,可以直接將機器人輸入的信息轉(zhuǎn)化為動作,單從表現(xiàn)來看,這似乎更符合Corey Lynch對外宣稱的“端到端”實現(xiàn)方式。

根據(jù)李志飛團隊的分析,F(xiàn)igure01更符合RT-1+PaLM-E的模型融合。Figure01從接收指令到行動,雖然這個這個過程有延緩,但整體非常順滑,RT-2決策頻率是1到5hz,很難做到Figure1的200Hz程度。

Brett Adcock搭載了Open AI的順風,在具身智能的道路上邁出了一大步。

單位時間內(nèi)跑的最快的公司

當然,如果要回答Figure為什么跑得這么快,也不得不提到它的創(chuàng)始人Brett Adcock了。

和馬斯克一樣,Brett Adcock在社交媒體上異常活躍。但Brett Adcock又與馬斯克的口無遮攔,嬉笑怒罵不同,他在社交媒體上更新的主要是他的工作進度和思考。

這是一個實打?qū)嵉墓ぷ骺瘛?003年4月,隨著Figure完成7000萬美元A輪融資,Brett Adcock在X上發(fā)布帖子的速度變得更加勤快。

他每天都發(fā)布若干條創(chuàng)業(yè)心得或與機器人相關(guān)的動態(tài),并按“周”的速度強調(diào)一遍對“AI Robotics”行業(yè)的觀察與變化,常用語是“Bug week of developments…”或者“That's it for this week's AI and Robotics breakdown”。

除此之外,Brett Adcock還是一個久經(jīng)沙場的創(chuàng)業(yè)老兵。在投身人形機器人這一硬件領(lǐng)域之前,他就已經(jīng)在軟件領(lǐng)域摸爬滾打了10多年。

他在X上常??偨Y(jié)分享自己的創(chuàng)業(yè)洞見,最常見的幾個關(guān)鍵詞是:快速、高效、輕便、低員工數(shù)、小團隊、系統(tǒng),在創(chuàng)辦Figure之前,這些方法論是Brett Adcock連續(xù)創(chuàng)業(yè)成功的關(guān)鍵。

▲圖源:X@Brett Adcock

Brett Adcock出生于1986年,他的童年在伊利諾伊州莫韋夸小鎮(zhèn)外的一個玉米和大豆農(nóng)場度過,或許從小就見慣了日夜勞作的過程,他對提高工作效率、節(jié)省勞動力的事情格外著迷。

2002年,還在上學的Brett Adcock就創(chuàng)辦了一家網(wǎng)絡(luò)公司Street of Walls,據(jù)說這家網(wǎng)站至今還在幫助金融領(lǐng)域公司提高面試效率。

2012年,25歲的Brett Adcock和Adam Goldstein聯(lián)合創(chuàng)辦了一個就業(yè)網(wǎng)站Vettery,在這段經(jīng)歷中,Brett Adcock將“高效”這件事情拔高了N個等級。

最初,Vettery只為第三方招聘公司提供服務(wù),但“經(jīng)歷幾次絕望的轉(zhuǎn)型”之后,最終決定“拋棄所有招聘人員,將求職者和公司放在一個市場”,通過機器學習匹配求職者和招聘方。

這個方法果然奏效,Vettery的用戶幾乎每周都在翻倍增長。

▲圖源:Newatlas

正向的循環(huán)很快得到了市場的回應(yīng)。

2018年,Vettery在短短6年的時間內(nèi)獲得20000名客戶,獲得當時世界上最大的招聘公司Adecco集團的注意,Adecco集團以1.1億美金的價格收購了Vettery。Brett Adcock獲得了人生第一桶金。

Brett Adcock的第二個創(chuàng)業(yè)項目是“電動垂直起降飛機”,其創(chuàng)辦的Archer Aviation(簡稱Archer)是第一批eVTOL(電動垂直起降)概念的公司之一,這時Brett Adcock 30歲。

Brett Adcock很擅長“找錢”和“找人”。

Archer成立后不久,Brett Adcock就拉來了沃爾瑪電子商務(wù)主管兼Jet.com創(chuàng)始人馬克·洛爾 (Marc Lore) 作為投資人。Lore在2016年將Jet.com出售給沃爾瑪?shù)臅r候就已經(jīng)身價上億,2020年還持有2.75億美金沃爾瑪股票。

通常來講,Lore不會投資朋友和家人以外的創(chuàng)業(yè)公司,但Brett Adcock成了例外。不僅如此,Lore還幫助Brett從家族和其他對科技感興趣的富人那里籌集了大量資金。

很快,Brett Adcock組建了“豪華”的44人團隊,尋找航空領(lǐng)域的人才,包括前航空電子和工程部門負責人斯科特·弗曼(Scott Furman)和湯姆·穆尼斯(Tom Muniz)、空中客車公司Vahana原型機的總工程師杰夫·鮑爾(Geoff Bower),正式開啟“空中租車服務(wù)”的旅途。

Brett Adcock“找錢”和“找人”的能力也復(fù)制到了Figure上。

2022年,當OpenAI開始在文本生成、自動編程、語言翻譯、內(nèi)容創(chuàng)作等多個領(lǐng)域嘗試應(yīng)用GPT-3時,Brett Adcock也從Archer離職了。

這個決定非常出人意料,因為當時Archer已經(jīng)在申請飛行證的關(guān)鍵節(jié)點,現(xiàn)在我們無法考證Brett Adcock的離職是否是看到了人形機器人的更大機遇,但至少Brett Adcock因為這次離職趕上了人形機器人的風口。

之后就有了Figure的故事,Brett Adcock找來了Jerry Pratt擔任首席技術(shù)官,谷歌DeepMind科學家Corey Lynch也加入了Figure團隊。

Jerry Pratt從1998年就開始研究機器人,他曾經(jīng)寫過一篇論文《Walking on Partial Footholds Including Line Contacts with the Humanoid Robot Atlas》,這篇論文提出了一套算法,它可以讓人形機器人在有限的立足點信息內(nèi),也能實現(xiàn)邁步,火出圈的波士頓Atlas采用的正是這個算法。

2022年5月,F(xiàn)igure成立。之后兩年,人形機器人賽道群雄環(huán)伺。

國外有馬斯克不斷迭代Optimus,1X也獲得Open AI融資,中國市場宇樹H1不斷鉆研全尺寸人形機器人跑步,優(yōu)必選敲鐘上市。Figure能在這些公司中突圍而出,或許緣于Brett Adcock在X上表達的理念,“如果我是一名投資人,我會建議尋找單位時間內(nèi)進步最大的公司”。

難啃的供應(yīng)鏈

雖然在Brett Adcock的帶領(lǐng)下,在硅谷資本的助推下,F(xiàn)igure正在以飛快的速度前進。但擺在Figure面前的挑戰(zhàn)也同樣艱巨。

Brett Adcock曾說起他選擇人形機器人的原因,“我們正在目睹前所未有的勞動力短缺,在我們重點關(guān)注的倉儲和制造行業(yè),年周轉(zhuǎn)率在 50-150% 之間,這些行業(yè)正在努力尋找/留住人才并擴大勞動力規(guī)模?!?/p>

Brett Adcock認為機器人做成人形更有效率,因為擁有腿、手臂和手的機器人可以執(zhí)行類似人類的任務(wù),而無需改變環(huán)境,畢竟,重塑整個物理世界,是一項難以克服的挑戰(zhàn)。

“有用”是Brett Adcock做人形機器人的第一要義。但要讓人形機器人有用,證明這件事情是第一大挑戰(zhàn)。

Brett Adcock在一段采訪中表示,已經(jīng)有幾十個客戶在尋找與Figure01的合作,但目前只和寶馬做了真正的合作,因為寶馬會真正地將人形機器人的部署和集成送到他們在斯帕坦堡的設(shè)施。他要先用盡可能少的機器人,證明可行性。

其次,當從有用到真正帶來生產(chǎn)了,人形機器人還需要大規(guī)模制造,而這其中的首要條件,就是硬件的可靠性。

雖然Brett Adcock有過一段做硬件的經(jīng)歷,但真正踏入人形機器人世界時,他還是被供應(yīng)鏈難住了?!肮?yīng)鏈的缺乏讓我感到驚訝,這也意味著未來創(chuàng)業(yè)者還有很多新機會”。

▲圖源:X@Brett Adcock

他在X上多次提及人形機器人缺乏一套成熟的供應(yīng)鏈,因此團隊必須從頭開始設(shè)計整個機器人,包括執(zhí)行器、電子設(shè)備、結(jié)構(gòu)、關(guān)節(jié)、操作系統(tǒng)、控件、固件、人工智能系統(tǒng)等。

復(fù)雜多樣的零部件需求,意味著要從全球不同的供應(yīng)商那里進行采購,為了確保零部件的質(zhì)量和供應(yīng)的可靠性,還需要選擇合適的供應(yīng)商,并維持良好的合作關(guān)系,這又不得不投入大量時間進行供應(yīng)商管理、評估和審查。

更重要的是,人形機器人對零部件高性能的要求,會產(chǎn)生較高的成本,如果未來要規(guī)?;a(chǎn)Figure01,Brett Adcock必須思考如何降低采購和物流成本,來保證企業(yè)的利潤。

在機器人領(lǐng)域,技術(shù)帶來的驚艷是一回事,但是如何在商業(yè)化上做好規(guī)?;质橇硪换厥?。

而這也不僅僅是Figure的挑戰(zhàn),也是所有人形機器人企業(yè)共同面臨的挑戰(zhàn)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。