當(dāng)前位置首頁 > 新聞 > 產(chǎn)經(jīng)分析 >

人形機(jī)器人競速大模型得數(shù)據(jù)者得天下

中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng) 時間：2024-07-30

　　近日，在上海2024世界人工智能大會上，人形機(jī)器人和大模型成為了兩大人氣王。

　　新設(shè)的機(jī)器人專區(qū)里，25個人形機(jī)器人、各種靈活的機(jī)械臂、穿梭在過道中送水的機(jī)器狗，還有能夠幫你成為超能人——兩只手指頭就能搬起沙袋的外骨骼；大模型展區(qū)更是各種炫技，讀懂你的情緒、模擬你的動作、幫你做個個性化的診療、甚至讓你直接和你喜歡的數(shù)字名人聊天，比如羅永浩……置身其間，你似乎來到了未來世界。

　　據(jù)國際機(jī)器人聯(lián)合會的數(shù)據(jù)顯示，全球人形機(jī)器人的市場規(guī)模正以每年超過20%的速度增長。預(yù)計到2025年，將達(dá)到數(shù)百億美元的規(guī)模。

　　4月，首屆中國人形機(jī)器人產(chǎn)業(yè)大會發(fā)布《人形機(jī)器人產(chǎn)業(yè)研究報告》預(yù)測，2024中國人形機(jī)器人市場規(guī)模約27.6億元（人民幣，下同）；2026年達(dá)104.71億元；到2029年達(dá)到750億元，將占到世界總量的32.7％，位居世界第一，到2035年規(guī)模有望達(dá)到3000億元。

　　過去，由于技術(shù)不成熟，人形機(jī)器人只能提供casebycase服務(wù)，缺乏對復(fù)雜場景的認(rèn)知能力，應(yīng)用空間局限；同時在本體控制層，人形動作僵硬，需按照預(yù)設(shè)好的算法運(yùn)行，不具備更智能的靈巧操作能力。

　　隨著2023年大模型技術(shù)席卷而來，技術(shù)進(jìn)步給人形機(jī)器人具身智能帶來了新轉(zhuǎn)折。從事AI賦能企業(yè)數(shù)字化的常信科技CEO葛林波表示，有了大模型的加持，“新”人形機(jī)器人已經(jīng)突破了上一代技術(shù)路徑的局限。它的革命性變化主要體現(xiàn)在：實現(xiàn)了更高層次的抽象理解和推理能力，大幅提升了非結(jié)構(gòu)化環(huán)境中的適應(yīng)性，使機(jī)器人具備了更接近人類的認(rèn)知決策能力，并能實現(xiàn)跨領(lǐng)域知識遷移和自主學(xué)習(xí)。

　　“人形機(jī)器人也許將是AI在演進(jìn)中最重要的應(yīng)用場景?！绷柙浦悄茉瑿EO祝凌云直言。

　　大模型帶動行業(yè)變革

　　大模型的加入相當(dāng)于為機(jī)器人安裝了一個大腦，讓它可以對周圍環(huán)境做出更加深入的理解。

　　達(dá)闥在上海2024世界人工智能大會上展出的人形雙足機(jī)器人XR4小紫，搭載了大模型RobotGPT。人工智能公司OpenAI與人形機(jī)器人公司FigureAI合作，推出了大模型加持的人形機(jī)器人Figure01。

　　“目前，國內(nèi)許多人形機(jī)器人已經(jīng)接入大模型。據(jù)不完全統(tǒng)計，截至目前，優(yōu)必選、傅立葉、智源以及北京銀河通用等企業(yè)均已載入大模型，科大訊飛人形機(jī)器人主要基于自研的星火大模型。”科大訊飛機(jī)器人首席科學(xué)家季超對中國工業(yè)報表示。

　　而在3月人形機(jī)器人大賽現(xiàn)場，中國工業(yè)報聽到最多的一句話就是，“在大模型賦能下，人形機(jī)器人將是具身智能最佳的載體。”

　　具身智能，是指在機(jī)器智能領(lǐng)域中，通過將智能算法與物理實體的感知、行動和環(huán)境交互相結(jié)合，使機(jī)器能夠以更自然、更智能的方式與環(huán)境進(jìn)行交互和解決問題的能力。人形機(jī)器人作為通用人工智能具象化載體，與人工智能大模型相結(jié)合，就可以感知物理世界，利用多模態(tài)感知控制自己的身體，完成復(fù)雜的任務(wù)。

　　從2010年開始至2023年具身智能熱爆發(fā)，國內(nèi)人形機(jī)器人技術(shù)路徑劃分為兩個階段。

　　第一階段為具體任務(wù)、單個場景的技術(shù)路徑階段。如針對特定園區(qū)設(shè)置運(yùn)輸線路，搬運(yùn)機(jī)器人就可在固定路徑上完成配送，穩(wěn)定性強(qiáng)；多條路線下，用算法提前規(guī)劃即可。但機(jī)器人一旦脫離該設(shè)定，便無法運(yùn)轉(zhuǎn)。因此，面對新場景、新任務(wù)，人形機(jī)器人都需要重新收集數(shù)據(jù)訓(xùn)練、設(shè)定方案和測試。

　　“過去，機(jī)器人工作可能停留在‘小腦’層面，即如何讓機(jī)器人更穩(wěn)定行走，機(jī)械臂控制更靈活，這本質(zhì)上與業(yè)務(wù)流程存在較大鴻溝。”季超對中國工業(yè)報解釋道，例如，過去，機(jī)器人從A點走到B點，或者在流水線上抓取某些物品，但它并不了解為何要走到B點，以及為什么要抓取物品?！叭绻麢C(jī)器人只完成這些基礎(chǔ)功能，就無法滿足業(yè)務(wù)場景的需求?！?/p>

　　“如果一家電力公司發(fā)生燃?xì)庑孤┗蛴卸練怏w泄漏，而變壓器存在放電等危險，我們希望人形機(jī)器人可以代替人進(jìn)入有潛在風(fēng)險的工作場景，識別并關(guān)閉閥門，再打開窗戶。我們需要將任務(wù)與實際業(yè)務(wù)流程結(jié)合，基于大模型進(jìn)行微調(diào)，形成基于任務(wù)場景下的多模態(tài)矩陣大模型。讓機(jī)器人能夠按照我們對場景的理解，進(jìn)行一系列基于時間序列的穩(wěn)步操作。”季超表示，“大模型的加入相當(dāng)于為機(jī)器人安裝了一個大腦，讓它可以對周圍環(huán)境做出更加深入的理解。大模型的核心能力主要體現(xiàn)在對環(huán)境的理解和認(rèn)知推理能力顯著增強(qiáng)?！?/p>

　　第二階段則是以具身智能為代表的技術(shù)路徑更強(qiáng)調(diào)泛化性，追求多場景適配。大模型能解決多種任務(wù)，機(jī)器人可以完成單任務(wù)式交付到規(guī)模化應(yīng)用的可能。

　　“過去，大家對機(jī)器人的要求是提前把事項預(yù)編好，執(zhí)行就可以了。但人們希望人形機(jī)器人既能是個熟練的螺絲工，同時又具備質(zhì)檢等其他工作能力，可靈活配置，最終替代工廠里的員工完成繁重、枯燥性工作，而不是替掉現(xiàn)有的重型機(jī)械臂、傳送帶等?！睒肪蹤C(jī)器人副總裁柯真東對媒體表示。

　　應(yīng)對場景差異化就需要泛化的大腦。對人形機(jī)器人而言，這需要實現(xiàn)兩大能力提升：一是語言理解能力。季超介紹，載入大模型后，機(jī)器人對于人類下發(fā)的復(fù)雜指令或者工作過程中的復(fù)雜指令，可以做到更深入的理解和拆解。這是過去對環(huán)境的感知和行為決策方面的大幅度提升。

　　二是學(xué)習(xí)能力。非結(jié)構(gòu)化的環(huán)境下，大模型加上多維傳感器，能夠?qū)W習(xí)、識辨并構(gòu)建環(huán)節(jié)，在mobile（移動）、pick（抓?。?、place（搬運(yùn)）三大基礎(chǔ)能力之上，讓人形機(jī)器人具備多場景作業(yè)的能力。

　　葛林波表示，大模型在人形機(jī)器人領(lǐng)域解決了語言理解、場景認(rèn)知和動作規(guī)劃等關(guān)鍵挑戰(zhàn)，顯著提升了機(jī)器人在復(fù)雜環(huán)境中的適應(yīng)性和交互能力。在場景突破方面，大模型的賦能主要體現(xiàn)在提高人形機(jī)器人對新場景認(rèn)知的泛化能力、通過少樣本學(xué)習(xí)快速適應(yīng)新環(huán)境、增強(qiáng)對復(fù)雜動態(tài)場景的理解能力，以及實現(xiàn)更高級的任務(wù)分解和規(guī)劃。

　　“泛化性本質(zhì)在于，任意場景、任意物體、任意情形下，機(jī)器人mobile、pick、place都能成功。”北大-銀河通用具身智能聯(lián)合實驗室主任王鶴表示。

　　數(shù)據(jù)是關(guān)鍵

　　數(shù)據(jù)是人形機(jī)器人未來的靈魂。而當(dāng)下，人形機(jī)器人缺少規(guī)模化數(shù)據(jù)則是整個行業(yè)最大的痛點。

　　作為集AI技術(shù)、軟件算法、運(yùn)動控制、硬件結(jié)構(gòu)等為一體的移動終端，人形機(jī)器人是目前公認(rèn)的難度系數(shù)最高的產(chǎn)品。而訓(xùn)練數(shù)據(jù)采集的難度，是橫亙在人形機(jī)器人規(guī)模化落地面前的一座大山。

　　在上海2024世界人工智能大會“人形機(jī)器人與具身智能發(fā)展論壇”上，不少專家都提道：數(shù)據(jù)是人形機(jī)器人未來的靈魂。而當(dāng)下，人形機(jī)器人缺少規(guī)模化數(shù)據(jù)則是整個行業(yè)最大的痛點。

　　季超表示，由于大模型和具身智能機(jī)器人遵循ScalingLaw（尺度定律的路線，模型能力可以理解為模型的損失函數(shù)，模型尺度指模型參數(shù)量、訓(xùn)練數(shù)據(jù)量、訓(xùn)練步數(shù)等。機(jī)器的訓(xùn)練學(xué)習(xí)，隨著量的增加，效果提升就變得越來越緩慢，因此選擇合適的量就好），因此對數(shù)據(jù)要求較高。當(dāng)前機(jī)器人數(shù)據(jù)規(guī)模不如大模型，這類數(shù)據(jù)獲取難度和規(guī)模積累仍然不足。但要真正實現(xiàn)具身智能落地應(yīng)用，就得要讓機(jī)器人能像人類一樣，學(xué)習(xí)積累不同場景下的應(yīng)對方式，擁有“經(jīng)驗和知識”。

　　清華大學(xué)研究員蘇航認(rèn)為，業(yè)內(nèi)對人形機(jī)器人的關(guān)注從“專用場景解決具體問題”（靈巧性）到強(qiáng)調(diào)泛化性，主要還是出于降低成本考量，“原來一個場景應(yīng)用一款機(jī)器人，（如果）泛化性可以做到足夠好，一個機(jī)器人就可以在十個場景、百個場景應(yīng)用，就可以實現(xiàn)規(guī)模化場景和規(guī)?；?yīng)，一旦實現(xiàn)規(guī)?；?，機(jī)器人的成本就可以拉到BOM（構(gòu)建制造產(chǎn)品所需的原材料、組件、子組件等材料的詳細(xì)清單）成本之下。所以，數(shù)據(jù)驅(qū)動的泛化性是人形機(jī)器人應(yīng)用的核心?！?/p>

　　蘇航說，目前，實驗室收集到全網(wǎng)能夠獲取的所有人形機(jī)器人的數(shù)據(jù)，包括各種AI操作的數(shù)據(jù)，距離泛化性要求仍差2-3個數(shù)量級。哪怕達(dá)到GPT3.5的水平也差2-3個數(shù)量級。因此，構(gòu)建數(shù)據(jù)集和訓(xùn)練場非常有價值，而如何結(jié)合真實數(shù)據(jù)和仿真數(shù)據(jù)一起做這件事則非常重要。

　　特斯拉擎天柱能在有限簡單場景下進(jìn)行自主作業(yè)，其核心依靠數(shù)據(jù)驅(qū)動：采集海量的優(yōu)質(zhì)數(shù)據(jù)，覆蓋各類場景和物體，并通過具身智能提煉泛化能力。

　　目前，人形機(jī)器人公司對數(shù)據(jù)的需求可以分為三類：

　　一是通過數(shù)據(jù)理解世界規(guī)律。通過大量數(shù)據(jù)學(xué)習(xí)，讓機(jī)器人理解任務(wù)意圖。二是借助模擬數(shù)據(jù)學(xué)習(xí)邏輯推理和決策能力。借助模擬環(huán)境，可以讓機(jī)器人掌握各種抓取方法。三是真實場景的應(yīng)用數(shù)據(jù)。三類數(shù)據(jù)不同側(cè)重點會影響人形機(jī)器人的精度和成功率。

　　“人形機(jī)器人最終落地是多種形態(tài)的，要提前做產(chǎn)業(yè)化布局，就意味著它需要提前進(jìn)入場景，獲取數(shù)據(jù)、再不斷迭代，去適配場景的真實需求。”星動紀(jì)元聯(lián)合創(chuàng)始人席悅對媒體表示。

　　真實數(shù)據(jù)的增加有利于機(jī)器人提高智能水平。但要跨越鴻溝，真實數(shù)據(jù)需要提高多樣性和質(zhì)量，并非單純數(shù)量堆砌。

　　“這一點，人形機(jī)器人有天然的優(yōu)勢，它的數(shù)據(jù)可以更直接從人類的行為數(shù)據(jù)里獲取或者遷移過來?！敝袊诵螜C(jī)器人百人會副秘書長、星動紀(jì)元創(chuàng)始人、清華大學(xué)交叉信息研究院助理教授陳建宇表示。

　　祝凌云也認(rèn)為，人形機(jī)器人的大模型更需要運(yùn)動和感官的數(shù)據(jù)支持，實質(zhì)上就是機(jī)器學(xué)習(xí)，誰的用戶多誰就能領(lǐng)跑。

　　在優(yōu)必選使用的訓(xùn)練數(shù)據(jù)中，由Tele-operation（遠(yuǎn)程控制）所收集的真實數(shù)據(jù)占20%，此外，還有80%的數(shù)據(jù)通過仿真環(huán)境合成獲得。

　　“由于真實數(shù)據(jù)稀缺，采集難度大、成本高，仿真合成數(shù)據(jù)被許多人形機(jī)器人企業(yè)視為解決數(shù)據(jù)問題的最優(yōu)解?！弊Ａ柙平ㄗh。

　　達(dá)闥機(jī)器人用數(shù)字孿生方案搭建了一套實時同步、虛實轉(zhuǎn)換的數(shù)據(jù)收集系統(tǒng)，通過傳感器，將人所在環(huán)境掃描并傳輸?shù)皆贫耍?0Hz/秒進(jìn)行重建，將機(jī)器人放置在孿生環(huán)境中進(jìn)行訓(xùn)練。將機(jī)器人看作一個NPC（是non-playercharacter的縮寫，指在游戲中不受玩家操控的一種角色類型），各項任務(wù)是一個個游戲，用AI驅(qū)動人形機(jī)器人在“游戲”中運(yùn)行。

　　“這時候，我們要多少合成數(shù)據(jù)就有多少，需要什么場景也可以通過數(shù)字孿生的方式隨時搭建。當(dāng)數(shù)據(jù)在時間軸上被拉長、以切片形式存在，突發(fā)問題也變成了靜止問題。”達(dá)闥機(jī)器人創(chuàng)始人黃曉慶說。

　　當(dāng)然，合成數(shù)據(jù)的劣勢在于，它與真實數(shù)據(jù)之間存在數(shù)據(jù)分布的差異，實時性不強(qiáng)，在落地時，會面臨更高要求的精度問題。

　　但“目前市場上，能夠在同一個階段把幾類數(shù)據(jù)都同步做好的公司幾乎沒有，普遍做法是根據(jù)自身的技術(shù)優(yōu)勢，優(yōu)先從擅長方向切入。”光源資本董事總經(jīng)理婁洋表示，“當(dāng)前以具身智能為核心的新一代人形機(jī)器人公司，在場景側(cè)的選取和市場端的切入上尚未達(dá)成共識。有些探索進(jìn)度快，有些相對較慢，但進(jìn)度更快的公司所選取的路徑，并不一定代表著該場景的最優(yōu)解。目前，場景落地的可行性和優(yōu)劣與否還沒有明確答案?！?/p>

　　如工廠對機(jī)器人的要求通常以精準(zhǔn)成本為導(dǎo)向，期待機(jī)器人能夠每天完成固定的任務(wù)，確保生產(chǎn)的穩(wěn)定性。然而，人形機(jī)器人的智能水平提升需要更強(qiáng)的泛化性和應(yīng)變能力。與生活場景相比，工業(yè)環(huán)境能提供給機(jī)器人的反饋和學(xué)習(xí)機(jī)會相對受限。存在落地成本不確定，以及數(shù)據(jù)訓(xùn)練和實際應(yīng)用轉(zhuǎn)化之間的錯配問題。

　　葛林波表示，獲取高質(zhì)量、多樣化的機(jī)器人操作數(shù)據(jù)仍然是一個重要挑戰(zhàn)，未來可能需要更先進(jìn)的數(shù)據(jù)采集系統(tǒng)、虛擬仿真環(huán)境和數(shù)據(jù)增強(qiáng)技術(shù)來解決這個問題。

　　今年5月，國地中心在上海成立，這是國內(nèi)首個人形機(jī)器人領(lǐng)域公共平臺。目前，國地中心正在浦東建設(shè)一個能夠容納100個人形機(jī)器人進(jìn)行智能訓(xùn)練的訓(xùn)練場，11月將完成一期建設(shè)；預(yù)期到2027年該訓(xùn)練場可以擴(kuò)大到能夠容納1000個人形機(jī)器人訓(xùn)練。

　　中國人形機(jī)器人百人會副秘書長，北京市人形機(jī)器人創(chuàng)新中心有限公司CEO熊友軍也在3月機(jī)器人大賽上公布了大模型計劃：未來將與人形機(jī)器人創(chuàng)新中心產(chǎn)業(yè)聯(lián)盟的一些合作單位，共同構(gòu)建數(shù)據(jù)收集平臺以及大模型訓(xùn)練平臺，主要面向工業(yè)場景下語言動作的操作數(shù)據(jù)收集和訓(xùn)練。同時也會訓(xùn)練面向工業(yè)場景的大模型，跟大家一起構(gòu)建虛擬平臺。

　　王鶴說，要讓機(jī)器人認(rèn)識世界，需要一個“對時間、空間、物理定律有比較細(xì)粒度的表達(dá)”的世界模型，但是，“這件事情不是現(xiàn)在任何一個軟件平臺，或任何一個智能模型能做到的?！币屓诵螜C(jī)器人能真正成為千家萬戶的家務(wù)型、陪伴型使用機(jī)器人，還需要很長一段時間的努力。(王珊珊左宗鑫)

　　轉(zhuǎn)自：中國工業(yè)報

返回產(chǎn)經(jīng)網(wǎng)首頁 >>

　　【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品，轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”，違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊，僅代表作者個人觀點，不代表本網(wǎng)觀點和立場。版權(quán)事宜請聯(lián)系：010-65363056。

延伸閱讀

熱點視頻

上半年汽車工業(yè)多項經(jīng)濟(jì)指標(biāo)創(chuàng)新高

熱點新聞

熱點輿情

人形機(jī)器人競速大模型 得數(shù)據(jù)者得天下

熱點視頻

熱點新聞

熱點輿情

微信公眾號

人形機(jī)器人競速大模型得數(shù)據(jù)者得天下