原文標題:《終結者最強大腦!谷歌發布史上最大「通才」模型 PaLM-E,5620 億參數,看圖說話還能操控機器人》
谷歌剛剛上線了一個炸彈級「通才」模型 PaLM-E,足足有 5620 億參數。它是一種多模態具身視覺語言模型,從引導機器人執行任務,到回答關于可觀察世界的問題,全都能搞定。
大語言模型的飛速「變異」,讓人類社會的走向越來越科幻了。點亮這棵科技樹后,「終結者」的現實仿佛離我們越來越近。
前幾天,微軟剛宣布了一個實驗框架,能用 ChatGPT 來控制機器人和無人機。
谷歌當然也不甘其后,在周一,來自谷歌和柏林工業大學的團隊重磅推出了史上最大視覺語言模型 ——PaLM-E。
作為一種多模態具身視覺語言模型 ,PaLM-E 不僅可以理解圖像,還能理解、生成語言,而且竟然還能將兩者結合起來,處理復雜的機器人指令。
此外,通過 PaLM-540B 語言模型與 ViT-22B 視覺 Transformer 模型相結合,PaLM-E 最終的參數量高達 5620 億。
橫跨機器人、視覺-語言領域的「通才」模型
PaLM-E,全稱 Pathways Language Model with Embodied,是一種具身視覺語言模型。
它的強大之處在于,能夠利用視覺數據來增強其語言處理能力。
據論文介紹,PaLM-E 是一個僅有解碼器的 LLM,在給定前綴或提示(prompt)下,能夠以自回歸方式生成文本補全。
其訓練數據為包含視覺、連續狀態估計和文本輸入編碼的多模式語句。
經過單個圖像提示訓練,PaLM-E 不僅可以指導機器人完成各種復雜的任務,還可以生成描述圖像的語言。
可以說,PaLM-E 展示了前所未有的靈活性和適應性,代表著一次重大飛躍,特別是人機交互領域。
更重要的是,研究人員證明,通過在多個機器人和一般視覺語言的不同混合任務組合進行訓練,可以帶來從視覺語言轉移到具身決策的幾種方法,讓機器人規劃任務時能夠有效地利用數據。
除此之外,PaLM-E 尤為突出的一點在于,擁有強大的正遷移能力。
在不同領域訓練的 PaLM-E,包括互聯網規模的一般視覺-語言任務,與執行單一任務機器人模型相比,性能明顯提高。
而在模型尺度上,研究人員則觀察到了一個顯著的優勢。
語言模型越大,在視覺語言與機器人任務的訓練中,保持的語言能力就越強。
從模型規模來看,5620 億參數的 PaLM-E 幾乎保持了它所有的語言能力。
盡管只在單個圖像進行訓練,但 PaLM-E 在多模態思維鏈推理和多圖像推理等任務中表現出突出的能力。
在 OK-VQA 基準上,PaLM-E 取得了新的 SOTA。
測評結果
在測試中,研究人員展示了如何使用 PaLM-E 在兩個不同實體上執行規劃以及長跨度的任務。
值得注意的是,所有這些結果都是使用基于相同數據訓練的相同模型獲得的。
在以前,機器人通常需要人工的協助才能完成長跨度任務。但現在,PaLM-E 通過自主學習就可以搞定了。
比如,「從抽屜里拿出薯片」這類指令中,就包括了多個計劃步驟,以及來自機器人攝像頭的視覺反饋。
經過端到端訓練的 PaLM-E,可以直接從像素開始對機器人進行規劃。由于模型被集成到一個控制回路中,所以機器人在拿薯片的過程中,對途中的干擾都有魯棒性。
人類:給我來點薯片。
機器人:1. 走到抽屜旁 2.打開最上面的抽屜 3. 從最上面的抽屜里拿起綠色的薯片 4.放在柜臺上。
人類:給我拿一個蘋果。
機器人:1.走向蘋果 2.拿起蘋果 3.把它拿給操作員 4.放下蘋果 5.完成。
除了執行長跨度任務,PaLM-E 可以讓機器人執行規劃任務,比如排列積木。
研究人員根據視覺和語言輸入成功地進行多階段的計劃,并結合了長時間范圍的視覺反饋,進而讓模型能夠成功地規劃一個長周期的任務「將積木按顏色分類到不同的角落」。
如下,在排列組合上,機器人化身為多面手,按顏色將積木排序。
模型的泛化方面,PaLM- E 控制的機器人可以把紅色積木移到咖啡杯的旁邊。
值得一提的是,數據集只包含有咖啡杯的三個演示,但其中沒有一個包括紅色的積木塊。
類似的,雖然模型此前從未見過烏龜,但照樣可以順利地把綠色積木推到烏龜旁邊
在零樣本推理方面,PaLM-E 可以在給定圖像的情況下講述笑話,并展示了包括感知,基于視覺的對話和計劃在內的能力。
多張圖的關系,PaLM-E 也整得很明白,比如圖一在圖二(右)的哪個位置。
此外,PaLM-E 還可以在給定帶有手寫數字的圖像執行數學運算。
比如,如下手寫餐館的菜單圖,2 張披薩需要多少錢,PaLM-E 就直接給算出來了。
以及一般的 QA 和標注等多種任務。
最后,研究結果還表明,凍結語言模型是通向完全保留其語言能力的通用具身多模態模型的可行之路。
但同時,研究人員還發現了一條解凍模型的替代路線,即擴大語言模型的規模可以顯著減少災難性遺忘。
參考資料:
聲明:本網轉發此文章,旨在為讀者提供更多信息資訊,所涉內容不構成投資、消費建議。文章事實如有疑問,請與有關方核實,文章觀點非本網觀點,僅供讀者參考。
猜你喜歡
-
游客在進入北京環球度假區時須核驗北京健康
具體如下:北京環球度假區繼續按照相關政府部門的限流要求,以預約入園的形式加強人流動態監測和...詳情
2022-04-28
-
杭州湘湖的草坪人氣很高不少人在這里搭帳篷
湘湖邊亂搭帳篷,煞了春日風景景區出臺最新政策,將設置臨時帳篷搭建區,后續還要增設露營服務區...詳情
2022-04-14
-
南非徐霞客在云南:從行萬里路到吃百碗米線
題:南非徐霞客在云南:從行萬里路到吃百碗米線的文化之旅杜安睿來自南非,是一名國際注冊會計師...詳情
2022-04-10
-
廣州新增3例本土確診病例雙層觀光巴士全部
廣州新增3例本土確診病例雙層觀光巴士全部停運廣州市政府新聞辦公室21日公布的信息顯示,過去...詳情
2022-03-22