要說《變形金剛》的核心亮點,當然是注意力機制。
可是現在,一項新的研究突然提出了一個有些爆炸性的觀點:
注意機制對于預訓練變形金剛有多重要,需要打個問號。
來自希伯來大學,艾倫人工智能研究所,蘋果公司和華盛頓大學的研究人員提出了一種新的方法來衡量預訓練變壓器模型中注意力機制的重要性。
結果表明,即使去掉注意機制,某些變壓器的性能變化也不大,甚至與原模型相差不到十分之一!
這個結論讓很多人驚訝,也有網友調侃:
你褻瀆了這個領域的神!
那么,如何判斷注意機制對變形金剛模型的重要性呢。
把注意力轉向一個常數矩陣。
這種新的測試方法叫做PAPA,全稱是預訓練語言模型注意機制的檢測與分析。
PAPA采用的方法是將預訓練語言模型中依賴輸入的注意矩陣替換為常數矩陣。
如下圖所示,我們熟悉的關注機制是通過Q和K矩陣計算關注權重,然后作用于V,得到整體權重和輸出。
現在,Q和K的部分直接用常數矩陣C代替:
常數矩陣c計算如下:
然后用6個下游任務對這些模型進行測試,比較PAPA前后模型的性能差距。
為了更好地檢驗注意機制的重要性,模型的注意矩陣并不是一次性完全用一個常數矩陣代替,而是逐漸減少注意頭的數量。
如下圖所示,研究中使用了BERT—BASE,RoBERTa—BASE和DeBERTa—BASE,其中Y軸代表性能,X軸代表與原始相比注意力頭的下降:
然后,將BERT—LARGE,RoBERTa—LARGE和DeBERTa—LARGE用作實驗:
通過對比結果,研究人員發現了一些有趣的現象:
首先,用常數矩陣代替一半的注意力矩陣對模型的性能影響不大,甚至在某些情況下可能會導致性能的提高。
其次,即使關注頭數減少到零,平均性能也會下降8%,與原模型相比不超過20%。
人們認為,這一現象表明,預訓練語言模型并不那么依賴于注意機制。
模型的性能越好,就越依賴于注意機制。
可是,即使在預先訓練的變壓器模型中,性能也不完全相同。
如下圖所示,其中Y軸代表每個模型的平均性能,X軸代表當所有關注矩陣替換為常數矩陣時模型性能的相對降低分數:
可以看出,以前的模型性能越好,用常數矩陣代替注意力矩陣的損失就越高。
這說明模型本身的性能越好,利用注意機制的能力就越強。
對于這個研究,有網友覺得很棒:
聽起來很酷現在很多架構過于關注各種計算和性能任務,卻忽略了是什么改變了模型
但也有網友認為,單純從數據上無法判斷架構變化是否重要。
例如,在某些情況下,注意機制帶來的隱藏空間中數據點的振幅變化僅為2—3%:
這種情況下還不夠重要嗎不一定
如何看待《變形金剛》中注意力機制的重要性。
論文地址:
參考鏈接:
聲明:本網轉發此文章,旨在為讀者提供更多信息資訊,所涉內容不構成投資、消費建議。文章事實如有疑問,請與有關方核實,文章觀點非本網觀點,僅供讀者參考。
猜你喜歡
-
游客在進入北京環球度假區時須核驗北京健康
具體如下:北京環球度假區繼續按照相關政府部門的限流要求,以預約入園的形式加強人流動態監測和...詳情
2022-04-28
-
杭州湘湖的草坪人氣很高不少人在這里搭帳篷
湘湖邊亂搭帳篷,煞了春日風景景區出臺最新政策,將設置臨時帳篷搭建區,后續還要增設露營服務區...詳情
2022-04-14
-
南非徐霞客在云南:從行萬里路到吃百碗米線
題:南非徐霞客在云南:從行萬里路到吃百碗米線的文化之旅杜安睿來自南非,是一名國際注冊會計師...詳情
2022-04-10
-
廣州新增3例本土確診病例雙層觀光巴士全部
廣州新增3例本土確診病例雙層觀光巴士全部停運廣州市政府新聞辦公室21日公布的信息顯示,過去...詳情
2022-03-22