一種新的AI 模型幫助機(jī)器人高效執(zhí)行復(fù)雜任務(wù)
發(fā)布時間:2024-02-02 作者:Shipps
雖然人們可以不假思索地完成洗碗等流程的每個步驟,但機(jī)器人需要一個復(fù)雜的計(jì)劃,涉及更詳細(xì)的指導(dǎo)。
麻省理工學(xué)院的 Improbable AI 實(shí)驗(yàn)室是計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室 (CSAIL) 的一個小組,它通過一個新的多模態(tài)框架為這些機(jī)器提供了幫助:分層規(guī)劃的組合基礎(chǔ)模型 (HiP),該框架利用三種不同基礎(chǔ)模型的專業(yè)知識開發(fā)詳細(xì)、可行的計(jì)劃。與 ChatGPT 和Bing Chat所基于的 OpenAI 的 GPT-4 基礎(chǔ)模型一樣,這些基礎(chǔ)模型也是在生成圖像、翻譯文本和機(jī)器人等應(yīng)用的海量數(shù)據(jù)基礎(chǔ)上訓(xùn)練出來的。
與RT2和其他基于配對視覺、語言和動作數(shù)據(jù)訓(xùn)練的多模態(tài)模型不同,HiP使用三種不同的基礎(chǔ)模型,每種模型都針對不同的數(shù)據(jù)模態(tài)進(jìn)行訓(xùn)練。每個基礎(chǔ)模型都捕獲決策過程的不同部分,然后在需要做出決策時協(xié)同工作。HiP消除了訪問配對視覺、語言和動作數(shù)據(jù)的需要,而這些數(shù)據(jù)很難獲得。HiP還使推理過程更加透明。
對于人類來說,被認(rèn)為是日常瑣事的事情可能是機(jī)器人的“長期目標(biāo)”——需要足夠的數(shù)據(jù)來計(jì)劃、理解和執(zhí)行目標(biāo)。雖然計(jì)算機(jī)視覺研究人員試圖為這個問題構(gòu)建整體基礎(chǔ)模型,但將語言、視覺和動作數(shù)據(jù)配對起來的成本很高。相反,HiP代表了一種不同的多模態(tài)配方:一個將語言、物理和環(huán)境智能更輕松地整合到機(jī)器人中的三重奏。
“基礎(chǔ)模型不必是單一的。”英偉達(dá)公司AI 研究員 Jim Fan 說,這項(xiàng)工作將具身代理規(guī)劃的復(fù)雜任務(wù)分解為三個組成模型:語言推理器、視覺世界模型和行動規(guī)劃器。它使一個困難的決策問題更加容易處理和透明。
該團(tuán)隊(duì)認(rèn)為,他們的系統(tǒng)可以幫助這些機(jī)器完成家務(wù),例如收起一本書或?qū)⑼敕湃胂赐霗C(jī)中。此外,HiP可以協(xié)助完成多步驟的構(gòu)建和制造任務(wù),例如按特定順序堆疊和放置不同的材料。
用于機(jī)器人規(guī)劃的多模態(tài)框架
CSAIL團(tuán)隊(duì)在三項(xiàng)操作任務(wù)中測試了HiP的敏銳度,顯示其性能優(yōu)于同類框架。該系統(tǒng)通過制定適應(yīng)新信息的智能計(jì)劃進(jìn)行推理。
首先,研究人員要求它把不同顏色的積木堆疊在一起,然后再把其他積木放在附近。但問題來了:有些正確的顏色并不存在,因此機(jī)器人必須將白色積木放在一個彩色碗中,為它們上色。HiP 經(jīng)常能準(zhǔn)確地適應(yīng)這些變化,特別是與 Transformer BC 和 Action Diffuser 等最先進(jìn)的任務(wù)規(guī)劃系統(tǒng)相比,它能根據(jù)需要調(diào)整計(jì)劃,堆疊和放置每個方塊。
另一個測試:將糖果和錘子等物品放在棕色盒子中,而忽略其他物品。它需要移動的一些物體很臟,所以HiP調(diào)整了計(jì)劃,把它們放在一個清潔箱里,然后放進(jìn)棕色的容器里。在第三個演示中,機(jī)器人能夠忽略不必要的物體來完成廚房的子目標(biāo),例如打開微波爐、清理水壺和打開燈。一些提示的步驟已經(jīng)完成,因此機(jī)器人通過跳過這些方向來適應(yīng)。
麻省理工學(xué)院CSAIL開發(fā)的HiP框架利用三種不同基礎(chǔ)模型的專業(yè)知識為機(jī)器人制定了詳細(xì)的計(jì)劃,
幫助其在家庭、工廠和建筑中執(zhí)行需要多個步驟的任務(wù)。圖片來源:麻省理工學(xué)院
三管齊下的規(guī)劃流程
HiP 的三管齊下的規(guī)劃流程是一個層次結(jié)構(gòu),能夠根據(jù)不同的數(shù)據(jù)集(包括機(jī)器人技術(shù)以外的信息)對每個組件進(jìn)行預(yù)培訓(xùn)。最底層是大型語言模型(LLM),它通過捕捉所有必要的符號信息并制定抽象任務(wù)計(jì)劃來開始構(gòu)思。該模型應(yīng)用在互聯(lián)網(wǎng)上找到的常識性知識,將目標(biāo)分解為多個子目標(biāo)。例如,"泡一杯茶 "會變成 "往鍋里注水"、"煮沸鍋 "以及隨后所需的操作。
“我們想要做的就是采用現(xiàn)有的預(yù)訓(xùn)練模型,并讓它們成功地相互交互,”麻省理工學(xué)院電氣工程與計(jì)算機(jī)科學(xué)系(EECS)的博士生、CSAIL附屬機(jī)構(gòu)的Anurag Ajay說,“我們沒有推動一種模式來做所有事情,而是將利用不同模式的互聯(lián)網(wǎng)數(shù)據(jù)的多種模式結(jié)合起來。當(dāng)串聯(lián)使用時,它們有助于機(jī)器人決策,并可能有助于完成家庭、工廠和建筑工地的任務(wù)。”
這些模型還需要某種形式的“眼睛”來了解它們所處的環(huán)境并正確執(zhí)行每個子目標(biāo)。該團(tuán)隊(duì)使用大型視頻擴(kuò)散模型來增強(qiáng)LLM完成的初始規(guī)劃,該規(guī)劃從互聯(lián)網(wǎng)上的鏡頭中收集有關(guān)世界的幾何和物理信息。反過來,視頻模型生成一個觀察軌跡計(jì)劃,完善LLM的大綱,以納入新的物理知識。
這個過程被稱為迭代改進(jìn),它允許HiP對其想法進(jìn)行推理,在每個階段接受反饋以生成更實(shí)用的大綱。反饋流程類似于撰寫文章,作者可以將他們的草稿發(fā)送給編輯,并在其中包含這些修訂后,出版商會審查任何最后的更改并最終確定。
在這種情況下,層次結(jié)構(gòu)的頂部是一個以自我為中心的動作模型,或者是一系列第一人稱圖像,這些圖像根據(jù)周圍環(huán)境推斷應(yīng)該發(fā)生哪些動作。在這個階段,來自視頻模型的觀察計(jì)劃被映射到機(jī)器人可見的空間上,幫助機(jī)器決定如何在長期目標(biāo)內(nèi)執(zhí)行每項(xiàng)任務(wù)。如果機(jī)器人使用HiP泡茶,這意味著它將準(zhǔn)確繪制出壺、水槽和其他關(guān)鍵視覺元素的位置,并開始完成每個子目標(biāo)。
盡管如此,由于缺乏高質(zhì)量的視頻基礎(chǔ)模型,多模態(tài)工作仍然受到限制。一旦有了高質(zhì)量的視頻基礎(chǔ)模型,它們就可以與 HiP 的小規(guī)模視頻模型對接,從而進(jìn)一步增強(qiáng)視覺序列預(yù)測和機(jī)器人動作生成能力。更高質(zhì)量的版本還能降低目前對視頻模型的數(shù)據(jù)要求。
CSAIL團(tuán)隊(duì)的方法總體上只使用了很少的數(shù)據(jù)。此外,HiP的訓(xùn)練成本低廉,并展示了使用現(xiàn)成的基礎(chǔ)模型來完成長期任務(wù)的潛力。
“Anurag 所展示的是概念驗(yàn)證,說明我們?nèi)绾卫迷趩为?dú)的任務(wù)和數(shù)據(jù)模式上訓(xùn)練的模型,并將它們組合成用于機(jī)器人規(guī)劃的模型。未來,HiP可以通過預(yù)先訓(xùn)練的模型進(jìn)行增強(qiáng),這些模型可以處理觸摸和聲音,從而制定更好的計(jì)劃。”麻省理工學(xué)院EECS助理教授兼Improbable AI實(shí)驗(yàn)室主任Pulkit Agrawal說。該小組還在考慮將HiP應(yīng)用于解決現(xiàn)實(shí)世界中機(jī)器人領(lǐng)域的長期任務(wù)。