清華唐杰團隊的新作來了:
WebGLM,一個參數 100 億的聯網問答聊天機器人。
你可以問它任何問題,然后它將列舉出網上相關的文章鏈接,整理出答案。
比如:
ChatGPT 的核心技術是什么?
或者:
誰提出的 Music Transformer?它的原理是什么?
再或者:
原神 3.5 版本怎么樣?
沒有高薪工作,怎么在一線城市生活?
……
它都能給出有理有據的回答。
據介紹,在性能對比測試中,WebGLM 的水平已經高于 OpenAI135 億參數的 WebGPT,在人類評估中,甚至與 1750 億參數的模型不相上下。
那么,它是如何訓練的?
可以上網的清華系 WebGLM
據介紹,WebGLM 的目標是通過 Web 搜索和檢索功能,增強預訓練大語言模型,同時可以進行高效的實際部署。
為此,作者基于三種策略進行開發。
首先是大模型增強檢索器。
它主要是用于增強模型相關網絡內容的檢索能力,在給定查詢的情況下查找相關引用,以便后面更好地準確回答問題。
它有兩個階段:粗粒度 web 搜索和細粒度 LLM 增強密集檢索。
其次是自舉生成器。
它利用 GLM的能力為問題生成回復,提供詳細的答案。
利用該生成器,作者得到 WebGLM-QA—— 一個 LLM 自舉引用和長程的 QA 數據集。
它通過上下文學習等策略進行清洗和過濾,最終包括 45k 的高質量過濾樣本和 83k 的噪聲樣本。
WebGLM 的 backbone 就是一個在該數據集上訓練的 GLM 模型。
最后是基于人類偏好的打分器。
它通過優先考慮人類偏好而非昂貴的專家反饋來評估生成回復的質量,確保系統能夠產生有用和吸引人的內容。
以上三大組件最終按順序形成 WebGLM 的 pipeline:
可以看到,正好三個模塊,對應前面介紹的三部分,其中:
LLM 增強檢索器會將前五個最相關的頁面作為參考源,讓自舉生成器生成多個答案,最終打分器選出最可能符合人類偏好的那一個作為最終輸出。
性能超 OpenAI WebGPT
除了 WebGLM 本身,唐杰團隊此次還提出了一個網絡增強問答系統的評估標準,評估對象既包括參考文獻,也包括最終回答。
其中前者衡量相關性、信息密度、真實性、毒性(不含暴力色情等信息)和社會偏見程度這 5 個維度;后者則衡量流暢度、正確性、引用準確性、客觀性和冗余程度。
他們用 WebGPT演示網站提供的 272 個問題進行對比評估,并招募了 15 個學歷為碩士的志愿者打分。
最終結果如下:
可以看到,盡管 WebGLM 的搜索結果略遜于 WebGPT-175B,但遠好于 Perplexity.ai 和 WebGPT-13B。
值得一提的是,WebGLM 檢索過程只使用了一些傳統的基于單詞的算法和兩個累計參數量不超過 300M 的 Contriever。
此外,WebGLM 在計算性能和時間消耗方面也明顯優于 WebGPT-13B、并與 175B 不相上下。
而在最終結果方面,WebGLM 在流暢度、真實性和冗余度方面均獲得最高得分,正確性指標上則接近 WebGPT-175B,遠高于 Perplexity.ai 和 WebGPT-13B。
作者表示,這表明 WebGLM 可以以更低的成本獲得更高的性能。
部署與訓練
WebGLM 發布即開源。
檢索器的權重可從清華云上下載。
運行該模型的方式有兩種:一是命令行界面,二是 Web 服務形式,并且包含 WebGLM-2B 和 WebGLM-10B 兩種可選模型。
你也可以自己訓練 WebGLM,官方已提供好了生成器和檢索器的訓練數據供下載~
論文地址:
GitHub 主頁:
聲明:本網轉發此文章,旨在為讀者提供更多信息資訊,所涉內容不構成投資、消費建議。文章事實如有疑問,請與有關方核實,文章觀點非本網觀點,僅供讀者參考。
猜你喜歡
-
游客在進入北京環球度假區時須核驗北京健康
具體如下:北京環球度假區繼續按照相關政府部門的限流要求,以預約入園的形式加強人流動態監測和...詳情
2022-04-28
-
杭州湘湖的草坪人氣很高不少人在這里搭帳篷
湘湖邊亂搭帳篷,煞了春日風景景區出臺最新政策,將設置臨時帳篷搭建區,后續還要增設露營服務區...詳情
2022-04-14
-
南非徐霞客在云南:從行萬里路到吃百碗米線
題:南非徐霞客在云南:從行萬里路到吃百碗米線的文化之旅杜安睿來自南非,是一名國際注冊會計師...詳情
2022-04-10
-
廣州新增3例本土確診病例雙層觀光巴士全部
廣州新增3例本土確診病例雙層觀光巴士全部停運廣州市政府新聞辦公室21日公布的信息顯示,過去...詳情
2022-03-22