感謝本站網友三庫的線索傳遞!
一般的人工智能,還是得看DeepMind這一次,只有一個型號,使用同樣的重量,不僅讓王牌雅達利游戲飛了起來
和人類聊天,看圖寫字也不在話下。你甚至可以在真實環境中控制機械臂,讓它按照指令完成任務!
這個模特名叫加托,在西班牙語中是貓的意思。
DeepMind稱,這只貓可以使用相同權重的相同神經網絡來適應各種環境。
具體來說,DeepMind對它進行了604項不同任務的訓練這些任務有完全不同的模式,要遵守的要素和行為規則也不一樣
加托不僅在450個任務中超過了50%的專家水平,還在23個雅達利游戲中超過了人類的平均分數。
Deep Mind的CEO哈薩比斯直接說:
這是目前我們最通用的代理。
這一最新成果一發布,立刻在AI圈掀起熱議。
一些人工智能研究人員指出:
加托令人印象深刻你只需要在云上花費50,000美元就可以完成它的訓練
這筆錢只是PaLM 1100萬美元培訓費用的一小部分以PaLM的預算,加托可以擴大100倍,這很可能是有效的
PaLM是Google發布的5400億參數語言模型。
有人直接犧牲了AlphaStar架構和加托架構的對比:
Zoom AI杰出科學家Awni Hannun直接感嘆Google/DeepMind過去五周密集發布的成果。
那么這只來自DeepMind的貓到底是怎么回事呢。
變壓器負責一切。
對于研究方法,DeepMind只用了一句話來解釋:
受大語言模型的啟發,我們使用類似的方法將模型能力擴展到文本之外的領域。
沒錯這次是大語言模型中常用的Transformer架構
Transformer的本質是將一個序列轉換成另一個序列。
因此,為了讓它掌握各種任務,首先需要將各種數據編碼成序列。
不用說,文本是序列信息,可以通過經典的句子片段進行編碼。
圖像,維特,已經打好了先分成16x16的像素,然后對每個像素進行編號,處理成序列
游戲過程中的按鍵輸入也是一個序列,屬于離散值,比如上,下,左,右,左,右巴巴。
機器人操縱過程中的傳感器信號和關節力矩是連續值,它們也通過一系列采樣和編碼處理成離散序列。
最后,所有串行數據都交給同一個轉換器進行處理。
整個加托模型使用的訓練數據普遍偏向于游戲和機器人控制任務,596個任務占85.3%而視覺和自然語言任務只占14.7%
在模型架構上,為了簡潔和可擴展,在最經典的原Transformer基礎上進行修改。具體參數如下:
在Google的16x16 Cloud TPUv3切片上對4層11.8億參數的加托進行了4天左右的訓練。
在部署階段,加托像傳統的Transformer和ViT一樣運行視覺和語言任務。
游戲和機器人控制的行為模式可以理解為一步一個腳印。
首先給出一個任務提示,比如游戲操作或者機器人動作,作為輸出序列的開始。
接下來,加托會觀察當前的環境,對運動向量進行自回歸采樣,動作執行后環境會發生變化,然后重復這個過程...
那么,這樣訓練出來的加托在各種任務中表現如何呢。
成為只有12億參數的通才
在玩游戲方面,加托的表現可以用一張圖來概括。
x軸是訓練集中專家水平的百分比,其中0表示隨機參數模型的水平。
y軸是加托超過或達到相應專家水平的任務數。
最終,604項加托任務中有450項超過了專家水平的50%。
更詳細的結果如下:
在雅達利游戲測試中,加托在23場比賽中超過了人類的平均得分,在11場比賽中得分是人類的兩倍。
這些游戲包括經典的乒乓球,賽車,射擊,格斗等類型。
在Bengio團隊發起的BabyAI測試中,加托幾乎在所有級別都達到了80%的專家水平,最難的Boss水平達到了75%它與BabyAI列表中的前兩個模型不相上下,但這兩個模型都經過了數百萬次演示的訓練
BabyAI檢查點示例
在元世界中,加托的全部45個任務中,有44個超過了專家水平的50%,35個超過了80%,3個超過了90%。
元世界任務示例
在操控真實機器人方面,和之前的型號沒什么區別。
至于視覺和文字任務,DeepMind至少給出了一些例子而不是跑分來驗證通用模型的可行性。
描述圖像
閑談
最后,DeepMind還對加托模型的可擴展性進行了評估。
雖然目前的加托無法在每一個單項任務上與SOTA結果相提并論,但實驗結果表明,伴隨著參數,數據和硬件的增加,加托模型的性能仍有成比例提升的空間。
此外,加托在小樣本學習方面也顯示出一些潛力。
DeepMind認為,這樣的通用模型可以通過提示或微調快速學習新任務,不再需要為每個任務訓練一個大型模型。
通用人工智能還有多遠。
看過加托的表演后,網友們大為震驚也就不足為奇了。
有些人甚至認為AGI就在眼前。
當然反對/質疑的聲音也不小。
比如總是搶著給人工智能潑冷水的馬庫斯,這次第一次開炮了:
仔細看第10頁無論模型有多大,大語言模型標志性的不可靠和錯誤信息依然存在
但無論如何,DeepMind在通用人工智能方向的努力正在不斷產生新的成果。
事實上,無論是2013年讓谷歌大吃一驚的雅達利游戲AI,還是舉世聞名的AlphaGo和AlphaStar,DeepMind想要通過這些階段性成果達到的終極目標,一直都引出了通用人工智能這個關鍵詞。
去年,DeepMind首席研究科學家,倫敦大學學院教授大衛·西爾弗也主導發表了一篇同樣引起大量討論的文章:獎勵就夠了。
論文認為,強化學習作為基于報酬最大化的人工智能分支,足以推動一般人工智能的發展。
據加托團隊成員稱,這只貓貓已經在DeepMind培育了2年。
這種加托是以有監督的方式進行離線訓練的,但論文也強調,原則上也可以通過離線或在線強化學習的方式進行訓練。
就在一周前,DeepMind發布了一個新視頻,視頻中寫道:
我們接下來要做一件大事,這意味著我們需要嘗試很多人們認為太難的事情但是我們必須嘗試一下
現在,似乎下一個大事件是指AGI。
論文地址:
聲明:以上內容為本網站轉自其它媒體,相關信息僅為傳遞更多企業信息之目的,不代表本網觀點,亦不代表本網站贊同其觀點或證實其內容的真實性。投資有風險,需謹慎。