正在閱讀:

人形機器人的理想與現(xiàn)實

掃一掃下載界面新聞APP

人形機器人的理想與現(xiàn)實

究竟哪一種才代表人形機器人產(chǎn)業(yè)的真相?

圖片來源:界面圖庫

文|腦極體

李開復曾提到過一個AI界流傳的“騙子又來了曲線”。 人會不斷給機器進行“是否具有人類智能”的鑒定,而這個過程,總是從被人工智能在某些領(lǐng)域的驚艷表現(xiàn)震撼,到逐漸認識到當時的人工智能還有各種局限,以至于產(chǎn)生巨大心理落差。

近來,人形具身智能機器人在WAIC世界人工智能大會上密集亮相,我們在現(xiàn)場所感受到的就是“人類要毀滅了”與“騙子又來了”,兩種聲音同時存在的復雜現(xiàn)象。

具體來說,認為“人類要毀滅了”,大多是不明覺厲的普通觀眾,而冷靜甚至不看好人形機器人的多為AI、機器人領(lǐng)域的業(yè)內(nèi)人士。

比如獵豹移動董事長兼CEO、獵戶星空董事長傅盛就表示,“機器人在今年的展廳里是爆發(fā)了,但在日常生活當中,我們并沒有看到它在哪個地方被大規(guī)模用起來。機器人行業(yè)的產(chǎn)業(yè)爆發(fā)還遠遠沒有到來……對人形機器人的不看好一定會被時間證明”。

這兩種心態(tài),究竟哪一種才代表人形機器人產(chǎn)業(yè)的真相呢?

其實并沒有什么真相。不同的心態(tài),是由不同的判定標準而產(chǎn)生的。大眾、從業(yè)者和技術(shù)專家,都有一張“我心中的人形機器人”打分表,評價尺度各不相同。

而關(guān)于人形機器人的期待,在人形、大模型、具身三個標準上,大眾的預期、媒體的宣傳、產(chǎn)業(yè)的實際進展等都有比較大的分野。這構(gòu)成了當前,人形機器人的理想與現(xiàn)實。

“變形金剛”的理想與現(xiàn)實

“他們怎么不動啊,不表演有什么必要插電源?”

“插電亮著好看?!?/p>

本屆WAIC最吸睛的,就是中央展廳的“十八金剛”了。18個人形機器人同臺而立,幾乎每個參觀者都聚集在展臺前打卡拍照,在展臺旁邊,我聽到了這段對話。

大眾理想中,人形機器人就是變形金剛、機甲戰(zhàn)士那樣,走路又穩(wěn)又快,行動靈活,隨意移動,無論是工廠上班、護理老人還是投遞包裹,都手拿把掐。

但產(chǎn)業(yè)現(xiàn)實中,WAIC上的人形機器人大多數(shù)時間都待在展臺上,在特定時間表演一些拿蘋果、端杯子之類的手部動作,特斯拉的機器人甚至始終待在玻璃展柜中一動不動。和全場溜達的機器狗相比,人形機器人顯得“內(nèi)向”很多。

由此可見,到底需不需要“雙足行走”,成了目前公眾和從業(yè)者對人形機器人,最大的認知差異。

總的來說,雙足人形機器人是“機器人的皇冠”,是終極方向,才是大眾期待的“變形金剛”。

但至少要走過三步:雙足行走、執(zhí)行復雜任務(wù)、規(guī)模商用。

而目前,僅僅是第一步“雙足行走”,在技術(shù)和商業(yè)上都并不是最佳狀態(tài)。

一方面,穩(wěn)定的行走,需要系統(tǒng)擁有極高的魯棒性。

機器人在面臨各種異常情況和輸入時,仍然能快速通過運動控制模塊調(diào)整姿態(tài),保持正常運行。

要提升系統(tǒng)的魯棒性(或者說穩(wěn)健性),依賴于機器人與人類、物理世界的真實交互,來積累高質(zhì)量數(shù)據(jù)。如果遇到訓練環(huán)境中沒有出現(xiàn)過的問題,機器人就可能出現(xiàn)異常或“死機”,系統(tǒng)研發(fā)效率是比較低的。

另外,商業(yè)上“雙足行走”也并不是剛需。

比如特斯拉、Figure等都宣布要讓人形機器人“進廠打工”,從事電池分揀等工作。但實際上,制造環(huán)節(jié)80%以上生產(chǎn)作業(yè)動作,其實很少用到下肢,用到軀干,主要是靠手來完成的。這種上肢為主的簡單系統(tǒng),可以減少控制難度,降低投入成本,并且更容易規(guī)?;慨a(chǎn),因為只需要將最重要的一部分功能(手部)進行復制。一旦加上四肢、軀干,控制難度、續(xù)航、成本都會大幅提升。

所以,目前能夠規(guī)?;瘧?yīng)用的機器人形態(tài),都是以機器狗、機械手等單一、極簡形態(tài)。滿足大眾期待的“變形金剛”,要在邁過很多步之后,才能帶來極大產(chǎn)業(yè)效應(yīng)。

幾年之內(nèi),我們應(yīng)該都會更常在展臺和展柜中看見人形機器人,而非零距離互動。

大模型的理想與現(xiàn)實

“現(xiàn)場機器人好多,我都感覺主題有點跑偏了”,一位計算領(lǐng)域的從業(yè)者對我說道。

智能機器人在人工智能大會上遍地開花,根本邏輯是——大模型為具身智能開啟了新的解決方案的大門。

傳統(tǒng)的人工智能系統(tǒng),受限于缺乏先驗知識,理解力與泛化能力捉襟見肘,導致機器人難以像人類一樣擁有基本的常識判斷能力,這嚴重制約了高級別具身智能的發(fā)展。機器人執(zhí)行任務(wù)時,往往需要人類工程師將復雜指令拆解為一系列簡化的、程序化的步驟,再由機器人(如機械臂)逐一執(zhí)行。顯然,這種“智能水平”并不算很高,還需要人來做大量的代碼和開發(fā)工作。

理想中,大模型會為人形機器人的“智能水平”,帶來顛覆性的變革。

大模型相較于傳統(tǒng)機器學習方法,擁有更加強大的泛化能力,可以為人形機器人的大量任務(wù),比如復雜任務(wù)解析、流暢連續(xù)對話、零樣本推理等,提供全新的解決方案。

舉個例子,告訴人形機器人“我餓了”,它會自動分析這句話背后的需求,并拆解為可執(zhí)行的具體動作,通過觀察物理環(huán)境,從冰箱里拿出一個蘋果給你吃,不需要人來拆分指令。

但現(xiàn)實中,大模型給人形機器人帶來的變革,仍然停留在初級的“自然語言交互”。

目前絕大多數(shù)人形機器人,更多是擁有了類ChatGPT的“嘴”。這種結(jié)合,雖然能提供更自然生動的交互體驗,但只是將現(xiàn)有的語音交互進行了升級,并非“端到端”任務(wù)執(zhí)行能力的顛覆式突破。

無需人工參與的高度自動化,為什么有了大模型也沒能快速實現(xiàn)呢?

究其根本,機器人是一個非常復雜的學科,涉及精密機械、自動控制、電氣電子、計算科學,最后呈現(xiàn)出一個非常復雜智能機電一體化系統(tǒng)。

從有監(jiān)督機器學習到大語言模型,是計算領(lǐng)域的技術(shù)突破,可以在交互、規(guī)劃、決策等環(huán)節(jié)發(fā)揮作用。然而,從機械化到高度自動化,人形機器人的再進化,還需要感知技術(shù)、驅(qū)動與傳動技術(shù)、萬兆網(wǎng)絡(luò)等的技術(shù)和資源支持。

國產(chǎn)機器人崛起的理想與現(xiàn)實

“美國公司負責忽悠概念,中國公司負責讓機器人落地、商用,把價格打下來,讓人人實現(xiàn)機器人自由?!?/p>

此次WAIC大會,國產(chǎn)人形機器人的表現(xiàn)確實要比海外公司亮眼很多。無論是特斯拉、谷歌,在機器人的展示上都堪稱乏味。而國產(chǎn)人形機器人不僅批量化、大規(guī)模出現(xiàn),而且展現(xiàn)出了在很多具體場景中的商用能力,比如做飯機器人、電信機器人、家政陪伴機器人等。

那么,這是不是意味著國產(chǎn)人形機器人廠商會很快崛起呢?

我們當然希望這一天能盡快實現(xiàn),但目前來看現(xiàn)實還有不確定性。

數(shù)據(jù)層面,特斯拉、谷歌等科技巨頭,在自動駕駛領(lǐng)域有多年積累,可以將足夠多的空間數(shù)據(jù)喂給模型,解決人形機器人在復雜空間中的學習問題,從而更好地進行迭代學習。而在WAIC現(xiàn)場,我們看到的大多數(shù)國產(chǎn)人形機器人廠商的業(yè)務(wù)面還比較孤立,百度、商湯等數(shù)據(jù)積累面廣的AI公司,則更多聚焦在汽車形態(tài)的智能機器人。這意味著,解決人形機器人的數(shù)據(jù)問題,還有賴于產(chǎn)生生態(tài)化、產(chǎn)業(yè)化、多方共建的解決方案。

算法層面,類GPT-4o能力的國產(chǎn)多模態(tài)大模型還比較稀缺,這使得人形機器人通過視覺、音頻等多維度數(shù)據(jù)來識別地圖和復雜場景的能力,大大受到限制。目前,海外產(chǎn)學界已經(jīng)在多模態(tài)大模型上系統(tǒng)性發(fā)力。比如OpenAI基于GPT-4o為Figure 01構(gòu)建了一個具身智能AI模型,谷歌推出了多模態(tài)具身視覺語言模型PaLM-E。加州大學伯克利分校推出了LM Nav,來實現(xiàn)硬件本體、運動小腦、決策大腦三部分逐漸融合。目前來看,國產(chǎn)基礎(chǔ)大模型還有一段路要追趕。

發(fā)展國產(chǎn)人形機器人產(chǎn)業(yè),是一條難而正確的路。在這條路上,我們既不希望“騙子又來了”,也不希望“人類被毀滅了”。歷史告訴我們,技術(shù)發(fā)展過程中一定會經(jīng)歷上升、頂峰、陷入低谷、攀升、穩(wěn)定5個階段。

人形機器人產(chǎn)業(yè)要避免跌入低谷,持續(xù)發(fā)展,就要在理想與現(xiàn)實中,不斷校正自己的坐標,在每一個發(fā)展階段兌現(xiàn)實用價值。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

人形機器人的理想與現(xiàn)實

究竟哪一種才代表人形機器人產(chǎn)業(yè)的真相?

圖片來源:界面圖庫

文|腦極體

李開復曾提到過一個AI界流傳的“騙子又來了曲線”。 人會不斷給機器進行“是否具有人類智能”的鑒定,而這個過程,總是從被人工智能在某些領(lǐng)域的驚艷表現(xiàn)震撼,到逐漸認識到當時的人工智能還有各種局限,以至于產(chǎn)生巨大心理落差。

近來,人形具身智能機器人在WAIC世界人工智能大會上密集亮相,我們在現(xiàn)場所感受到的就是“人類要毀滅了”與“騙子又來了”,兩種聲音同時存在的復雜現(xiàn)象。

具體來說,認為“人類要毀滅了”,大多是不明覺厲的普通觀眾,而冷靜甚至不看好人形機器人的多為AI、機器人領(lǐng)域的業(yè)內(nèi)人士。

比如獵豹移動董事長兼CEO、獵戶星空董事長傅盛就表示,“機器人在今年的展廳里是爆發(fā)了,但在日常生活當中,我們并沒有看到它在哪個地方被大規(guī)模用起來。機器人行業(yè)的產(chǎn)業(yè)爆發(fā)還遠遠沒有到來……對人形機器人的不看好一定會被時間證明”。

這兩種心態(tài),究竟哪一種才代表人形機器人產(chǎn)業(yè)的真相呢?

其實并沒有什么真相。不同的心態(tài),是由不同的判定標準而產(chǎn)生的。大眾、從業(yè)者和技術(shù)專家,都有一張“我心中的人形機器人”打分表,評價尺度各不相同。

而關(guān)于人形機器人的期待,在人形、大模型、具身三個標準上,大眾的預期、媒體的宣傳、產(chǎn)業(yè)的實際進展等都有比較大的分野。這構(gòu)成了當前,人形機器人的理想與現(xiàn)實。

“變形金剛”的理想與現(xiàn)實

“他們怎么不動啊,不表演有什么必要插電源?”

“插電亮著好看?!?/p>

本屆WAIC最吸睛的,就是中央展廳的“十八金剛”了。18個人形機器人同臺而立,幾乎每個參觀者都聚集在展臺前打卡拍照,在展臺旁邊,我聽到了這段對話。

大眾理想中,人形機器人就是變形金剛、機甲戰(zhàn)士那樣,走路又穩(wěn)又快,行動靈活,隨意移動,無論是工廠上班、護理老人還是投遞包裹,都手拿把掐。

但產(chǎn)業(yè)現(xiàn)實中,WAIC上的人形機器人大多數(shù)時間都待在展臺上,在特定時間表演一些拿蘋果、端杯子之類的手部動作,特斯拉的機器人甚至始終待在玻璃展柜中一動不動。和全場溜達的機器狗相比,人形機器人顯得“內(nèi)向”很多。

由此可見,到底需不需要“雙足行走”,成了目前公眾和從業(yè)者對人形機器人,最大的認知差異。

總的來說,雙足人形機器人是“機器人的皇冠”,是終極方向,才是大眾期待的“變形金剛”。

但至少要走過三步:雙足行走、執(zhí)行復雜任務(wù)、規(guī)模商用。

而目前,僅僅是第一步“雙足行走”,在技術(shù)和商業(yè)上都并不是最佳狀態(tài)。

一方面,穩(wěn)定的行走,需要系統(tǒng)擁有極高的魯棒性。

機器人在面臨各種異常情況和輸入時,仍然能快速通過運動控制模塊調(diào)整姿態(tài),保持正常運行。

要提升系統(tǒng)的魯棒性(或者說穩(wěn)健性),依賴于機器人與人類、物理世界的真實交互,來積累高質(zhì)量數(shù)據(jù)。如果遇到訓練環(huán)境中沒有出現(xiàn)過的問題,機器人就可能出現(xiàn)異常或“死機”,系統(tǒng)研發(fā)效率是比較低的。

另外,商業(yè)上“雙足行走”也并不是剛需。

比如特斯拉、Figure等都宣布要讓人形機器人“進廠打工”,從事電池分揀等工作。但實際上,制造環(huán)節(jié)80%以上生產(chǎn)作業(yè)動作,其實很少用到下肢,用到軀干,主要是靠手來完成的。這種上肢為主的簡單系統(tǒng),可以減少控制難度,降低投入成本,并且更容易規(guī)?;慨a(chǎn),因為只需要將最重要的一部分功能(手部)進行復制。一旦加上四肢、軀干,控制難度、續(xù)航、成本都會大幅提升。

所以,目前能夠規(guī)模化應(yīng)用的機器人形態(tài),都是以機器狗、機械手等單一、極簡形態(tài)。滿足大眾期待的“變形金剛”,要在邁過很多步之后,才能帶來極大產(chǎn)業(yè)效應(yīng)。

幾年之內(nèi),我們應(yīng)該都會更常在展臺和展柜中看見人形機器人,而非零距離互動。

大模型的理想與現(xiàn)實

“現(xiàn)場機器人好多,我都感覺主題有點跑偏了”,一位計算領(lǐng)域的從業(yè)者對我說道。

智能機器人在人工智能大會上遍地開花,根本邏輯是——大模型為具身智能開啟了新的解決方案的大門。

傳統(tǒng)的人工智能系統(tǒng),受限于缺乏先驗知識,理解力與泛化能力捉襟見肘,導致機器人難以像人類一樣擁有基本的常識判斷能力,這嚴重制約了高級別具身智能的發(fā)展。機器人執(zhí)行任務(wù)時,往往需要人類工程師將復雜指令拆解為一系列簡化的、程序化的步驟,再由機器人(如機械臂)逐一執(zhí)行。顯然,這種“智能水平”并不算很高,還需要人來做大量的代碼和開發(fā)工作。

理想中,大模型會為人形機器人的“智能水平”,帶來顛覆性的變革。

大模型相較于傳統(tǒng)機器學習方法,擁有更加強大的泛化能力,可以為人形機器人的大量任務(wù),比如復雜任務(wù)解析、流暢連續(xù)對話、零樣本推理等,提供全新的解決方案。

舉個例子,告訴人形機器人“我餓了”,它會自動分析這句話背后的需求,并拆解為可執(zhí)行的具體動作,通過觀察物理環(huán)境,從冰箱里拿出一個蘋果給你吃,不需要人來拆分指令。

但現(xiàn)實中,大模型給人形機器人帶來的變革,仍然停留在初級的“自然語言交互”。

目前絕大多數(shù)人形機器人,更多是擁有了類ChatGPT的“嘴”。這種結(jié)合,雖然能提供更自然生動的交互體驗,但只是將現(xiàn)有的語音交互進行了升級,并非“端到端”任務(wù)執(zhí)行能力的顛覆式突破。

無需人工參與的高度自動化,為什么有了大模型也沒能快速實現(xiàn)呢?

究其根本,機器人是一個非常復雜的學科,涉及精密機械、自動控制、電氣電子、計算科學,最后呈現(xiàn)出一個非常復雜智能機電一體化系統(tǒng)。

從有監(jiān)督機器學習到大語言模型,是計算領(lǐng)域的技術(shù)突破,可以在交互、規(guī)劃、決策等環(huán)節(jié)發(fā)揮作用。然而,從機械化到高度自動化,人形機器人的再進化,還需要感知技術(shù)、驅(qū)動與傳動技術(shù)、萬兆網(wǎng)絡(luò)等的技術(shù)和資源支持。

國產(chǎn)機器人崛起的理想與現(xiàn)實

“美國公司負責忽悠概念,中國公司負責讓機器人落地、商用,把價格打下來,讓人人實現(xiàn)機器人自由。”

此次WAIC大會,國產(chǎn)人形機器人的表現(xiàn)確實要比海外公司亮眼很多。無論是特斯拉、谷歌,在機器人的展示上都堪稱乏味。而國產(chǎn)人形機器人不僅批量化、大規(guī)模出現(xiàn),而且展現(xiàn)出了在很多具體場景中的商用能力,比如做飯機器人、電信機器人、家政陪伴機器人等。

那么,這是不是意味著國產(chǎn)人形機器人廠商會很快崛起呢?

我們當然希望這一天能盡快實現(xiàn),但目前來看現(xiàn)實還有不確定性。

數(shù)據(jù)層面,特斯拉、谷歌等科技巨頭,在自動駕駛領(lǐng)域有多年積累,可以將足夠多的空間數(shù)據(jù)喂給模型,解決人形機器人在復雜空間中的學習問題,從而更好地進行迭代學習。而在WAIC現(xiàn)場,我們看到的大多數(shù)國產(chǎn)人形機器人廠商的業(yè)務(wù)面還比較孤立,百度、商湯等數(shù)據(jù)積累面廣的AI公司,則更多聚焦在汽車形態(tài)的智能機器人。這意味著,解決人形機器人的數(shù)據(jù)問題,還有賴于產(chǎn)生生態(tài)化、產(chǎn)業(yè)化、多方共建的解決方案。

算法層面,類GPT-4o能力的國產(chǎn)多模態(tài)大模型還比較稀缺,這使得人形機器人通過視覺、音頻等多維度數(shù)據(jù)來識別地圖和復雜場景的能力,大大受到限制。目前,海外產(chǎn)學界已經(jīng)在多模態(tài)大模型上系統(tǒng)性發(fā)力。比如OpenAI基于GPT-4o為Figure 01構(gòu)建了一個具身智能AI模型,谷歌推出了多模態(tài)具身視覺語言模型PaLM-E。加州大學伯克利分校推出了LM Nav,來實現(xiàn)硬件本體、運動小腦、決策大腦三部分逐漸融合。目前來看,國產(chǎn)基礎(chǔ)大模型還有一段路要追趕。

發(fā)展國產(chǎn)人形機器人產(chǎn)業(yè),是一條難而正確的路。在這條路上,我們既不希望“騙子又來了”,也不希望“人類被毀滅了”。歷史告訴我們,技術(shù)發(fā)展過程中一定會經(jīng)歷上升、頂峰、陷入低谷、攀升、穩(wěn)定5個階段。

人形機器人產(chǎn)業(yè)要避免跌入低谷,持續(xù)發(fā)展,就要在理想與現(xiàn)實中,不斷校正自己的坐標,在每一個發(fā)展階段兌現(xiàn)實用價值。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。