Google Deepmind 最新語言模型機器人 RT-2

2023年7月31日

他們最新的一項成果,是經過七個月打造出來的機器人項目RT-2,其影響力在網路上掀起了一股風潮:實際效果如何?

你只需用平易近人的語言下達命令,眼前這個機器人就能揮舞機械臂,進行思考並完成“主人的任務”。

比如說,為流行歌手泰勒·斯威夫特(Taylor Swift)遞水、或者是識別明星球隊的Logo:甚至可以主動思考,告訴它“撿起已經滅絕的動物”,它就能在獅子、鯨魚、恐龍這三個塑料玩具中準確挑選出恐龍。

網友們認為,這個能力不容小覷,因為它實現了從“滅絕的動物”到“塑料恐龍”的邏輯跨越。

更“致命”的是,它還可以輕鬆解決“為疲倦的人選擇一種飲料”這種需要結合思緒鏈的多階段推理問題——一聽到命令,它的小手就直奔紅牛,簡直聰明到不可思議。

據了解,這項由谷歌DeepMind達成的成果,是由54位研究員合作完成,歷經了7個月的時間,最後才將它塑造成我們所看到的這種“如此簡單”的形態。

《紐約時報》介紹稱,谷歌DeepMind的機器人技術主管Vincent Vanhoucke認為,大模型徹底改變了他們部門的研究方向:

那麼,RT-2到底可以實現怎樣的效果,這項研究又具體是如何進行的呢?

將多模態大模型“塞入”機械臂

這個名為RT-2(Robotic Transformer 2)的機器人項目,是去年底推出的RT-1的“進化版”。

與其他的機器人研究相比,RT-2的核心優勢在於,它不僅能理解“人話”,還能對“人話”進行推理,並轉變為機器人能理解的指令,從而分階段完成任務。

具體來說,它具備三大能力——符號理解(Symbol understanding)、推理(Reasoning)和人類識別(Human recognition)。

第一個能力是“符號理解”,能將大模型預訓練的知識,直接延伸到機器人此前未見過的數據上。例如機器人數據庫中雖然沒有“紅牛”,但它卻能從大模型的知識中理解並掌握“紅牛”的外觀,並準確抓取物品。

第二個能力是“推理”,這也是RT-2的核心優勢,要求機器人掌握數學、視覺推理和多語言理解三大技能。

技能一,包含數學邏輯推理的命令,“將香蕉放到2+1的總和的位置”:技能二,視覺推理,像是“將草莓放進正確的碗中”:技能三,多語言理解,即使不用英語也能完成指令,例如用西班牙語命令它“從一堆物品中挑出最與眾不同的那個”: 第三個能力是人類識別,準確識別並理解人類的行為,像開頭看到的“將水遞給泰勒·斯威夫特”例子就是能力展現之一。

那麼,這三個能力是怎麼實現的?

簡單來說,就是將視覺-文本多模態大模型(VLM)具備的“推理”、“識別”、“數學”等能力,和機器人的操作能力結合起來。 為了實現這一點,研究人員直接給視覺-文本大模型(VLM)增加了一個模態,叫做“機器人動作模態”,從而把它變成了視覺-文本-動作大模型(VLA)