-
首頁(yè) > 國(guó)內(nèi) > 如何保證解題步驟和答案的雙重準(zhǔn)確性
如何保證解題步驟和答案的雙重準(zhǔn)確性
來(lái)源:IT之家 時(shí)間:2022-12-18 17:15:10 閱讀量:15435
做AI數(shù)學(xué)題成績(jī)又被刷新了!
眾所周知,借助谷歌思維鏈的概念,AI已經(jīng)能夠像人類一樣在做題時(shí)生成解題步驟。
這次來(lái)自DeepMind的科學(xué)家提出了一個(gè)實(shí)際問(wèn)題:如何保證解題步驟和答案的雙重準(zhǔn)確性。
因此,他們?cè)贕SM8K數(shù)據(jù)集上綜合比較了基于過(guò)程和基于結(jié)果的監(jiān)測(cè)方法,并結(jié)合其優(yōu)勢(shì)訓(xùn)練出一個(gè)最優(yōu)模型。
結(jié)果表明,新模型的錯(cuò)誤率從16.8%降低到12.7%,求解步驟的錯(cuò)誤率也從14.0%降低到3.4%。
步驟+回答雙重保障
在介紹新的研究之前,不得不提Google在今年1月提出的思維鏈概念。
簡(jiǎn)單來(lái)說(shuō),思維鏈提示是一種特殊的情境學(xué)習(xí)與標(biāo)準(zhǔn)提示只給出輸入輸出對(duì)的例子不同,思維鏈提示會(huì)增加一個(gè)額外的推理過(guò)程
該方法已在LaMDA—137B,GPT—3 175B和PaLM—540B三個(gè)大型語(yǔ)言模型中得到驗(yàn)證與標(biāo)準(zhǔn)提示相比,新方法在一系列算術(shù)推理任務(wù)中的準(zhǔn)確率有了明顯提高
可是,這種方法的一個(gè)問(wèn)題是,在某些情況下,AI可以生成正確的答案,但推理過(guò)程是錯(cuò)誤的。
現(xiàn)在,來(lái)自DeepMind的研究人員對(duì)這一點(diǎn)進(jìn)行了改進(jìn):他們不僅關(guān)注最終結(jié)果,還關(guān)注推理過(guò)程的準(zhǔn)確性。
為此,他們首次對(duì)自然語(yǔ)言處理任務(wù)中基于過(guò)程和結(jié)果的方法進(jìn)行了綜合比較。
具體包括以下不同場(chǎng)景:小樣本提示,有監(jiān)督的微調(diào),通過(guò)專家迭代的強(qiáng)化學(xué)習(xí),重排序和強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)模型。
之所以選擇GSM8K數(shù)據(jù)集,是因?yàn)樗尚W(xué)數(shù)學(xué)應(yīng)用題組成,答案都是整數(shù)解,便于精確統(tǒng)計(jì),
第二,GSM8K數(shù)據(jù)集有離線監(jiān)督推理步驟和在線人工標(biāo)注。
從結(jié)果來(lái)看,第一,基于過(guò)程的方法和基于結(jié)果的方法,最終答案的錯(cuò)誤率幾乎相同這也意味著,單靠結(jié)果監(jiān)督,就足以做到答案的低錯(cuò)誤率
其次,推理步驟準(zhǔn)確性的提高需要過(guò)程監(jiān)督或模仿其獎(jiǎng)勵(lì)模型雖然最終答案錯(cuò)誤率差不多,但從下圖可以看出,結(jié)果監(jiān)督的推理錯(cuò)誤率明顯高于過(guò)程監(jiān)督
此外,研究人員還結(jié)合了兩者的優(yōu)點(diǎn),訓(xùn)練出了一個(gè)最優(yōu)模型,即將監(jiān)督學(xué)習(xí)和基于獎(jiǎng)勵(lì)模型的強(qiáng)化學(xué)習(xí)相結(jié)合。
新模型的錯(cuò)誤回答率從之前最好的水平16.8%降低到12.7%,回答正確但推理過(guò)程錯(cuò)誤的情況也從14.0%降低到3.4%。
當(dāng)模型被允許回避30%的問(wèn)題時(shí),最終答案的錯(cuò)誤率甚至可以達(dá)到2.7%。
研究團(tuán)隊(duì)
這篇論文的研究團(tuán)隊(duì)來(lái)自DeepMind,共有三位合著者:Jonathan Uesato,Nate Kushman和Ramana Kumar。
紙質(zhì)鏈接:
聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問(wèn),請(qǐng)與有關(guān)方核實(shí),文章觀點(diǎn)非本網(wǎng)觀點(diǎn),僅供讀者參考。
猜你喜歡
-
游客在進(jìn)入北京環(huán)球度假區(qū)時(shí)須核驗(yàn)北京健康
具體如下:北京環(huán)球度假區(qū)繼續(xù)按照相關(guān)政府部門的限流要求,以預(yù)約入園的形式加強(qiáng)人流動(dòng)態(tài)監(jiān)測(cè)和...詳情
2022-04-28
-
杭州湘湖的草坪人氣很高不少人在這里搭帳篷
湘湖邊亂搭帳篷,煞了春日風(fēng)景景區(qū)出臺(tái)最新政策,將設(shè)置臨時(shí)帳篷搭建區(qū),后續(xù)還要增設(shè)露營(yíng)服務(wù)區(qū)...詳情
2022-04-14
-
南非徐霞客在云南:從行萬(wàn)里路到吃百碗米線
題:南非徐霞客在云南:從行萬(wàn)里路到吃百碗米線的文化之旅杜安睿來(lái)自南非,是一名國(guó)際注冊(cè)會(huì)計(jì)師...詳情
2022-04-10
-
廣州新增3例本土確診病例雙層觀光巴士全部
廣州新增3例本土確診病例雙層觀光巴士全部停運(yùn)廣州市政府新聞辦公室21日公布的信息顯示,過(guò)去...詳情
2022-03-22
- 該研究已發(fā)表在《自然》的合作期刊《NPJ
- 助推重點(diǎn)群體就業(yè)山東2022年百日千萬(wàn)網(wǎng)
- 上海海關(guān)副關(guān)長(zhǎng)劉波介紹了上海海關(guān)保障貨物
- 英美醫(yī)療已完成近3億D輪融資繼續(xù)布局癌癥
- 中國(guó)超級(jí)電容器市場(chǎng)結(jié)構(gòu)近幾年來(lái)發(fā)展迅速
- 井陘入選2022年傳統(tǒng)村落集中保護(hù)利用示
- SEGA世嘉正式宣布PS4和Xbox系列
- 五指山利東文化主題公園有限公司享受退稅減
- 利民推出80mmTL-B8風(fēng)扇:高風(fēng)量設(shè)
- CherryAmericas近為Mac設(shè)