-
首頁(yè) > 國(guó)內(nèi) > 中國(guó)弟弟PhillipWang復(fù)制了一個(gè)ChatGPT
中國(guó)弟弟PhillipWang復(fù)制了一個(gè)ChatGPT
來(lái)源:IT之家 時(shí)間:2022-12-31 16:18:55 閱讀量:13519
先說(shuō)程序員有多快。第一個(gè)開(kāi)源的ChatGPT項(xiàng)目已經(jīng)出現(xiàn)了!
基于谷歌語(yǔ)言模型的PaLM架構(gòu)和從人類反饋中加強(qiáng)學(xué)習(xí)的方法,中國(guó)弟弟Phillip Wang復(fù)制了一個(gè)ChatGPT。
項(xiàng)目GitHub star已經(jīng)超過(guò)1.7k,而且還在飆升。
可是,一反常態(tài),網(wǎng)友們看到開(kāi)源ChatGPT并沒(méi)有搶,反而都提出了問(wèn)題:
這......有人能跑。
開(kāi)源,但不完全開(kāi)放。
項(xiàng)目的核心內(nèi)容是在PaLM架構(gòu)上實(shí)現(xiàn)基于人類反饋的強(qiáng)化學(xué)習(xí)。
其中PaLM是谷歌在今年4月發(fā)布的5400億參數(shù)全能機(jī)型基于通路系統(tǒng)的訓(xùn)練,伯特之父雅各布·德夫林是主要貢獻(xiàn)者之一
PaLM可以完成寫(xiě)代碼,聊天,語(yǔ)言理解等任務(wù),在大多數(shù)任務(wù)中實(shí)現(xiàn)了小樣本的SOTA學(xué)習(xí)性能
另一個(gè)核心點(diǎn)是RLHF的來(lái)自人類反饋的強(qiáng)化學(xué)習(xí)。
OpenAI在提出InstructGPT的時(shí)候就使用了這種方法,可以讓AI的回答更加符合情境要求,減少危害性。
它分為三個(gè)步驟:
第一步是找一些人寫(xiě)下示范答案,以微調(diào)GPT—3模型并訓(xùn)練監(jiān)督模型基線。
第二步,收集一個(gè)問(wèn)題的幾組不同的輸出數(shù)據(jù),由人類對(duì)幾組答案進(jìn)行排序,在這個(gè)數(shù)據(jù)集上訓(xùn)練獎(jiǎng)勵(lì)模型。
再次,采用RM作為獎(jiǎng)勵(lì)函數(shù),近端策略優(yōu)化算法對(duì)GPT—3策略進(jìn)行微調(diào),加強(qiáng)學(xué)習(xí)方法,使獎(jiǎng)勵(lì)最大化。
ChatGPT使用的GPT—3.5,其中text—davinci—002是在code—davinci—002的基礎(chǔ)上使用InstructGPT訓(xùn)練方法改進(jìn)的。
大致有三個(gè)步驟:
我們先訓(xùn)練一下PaLM,就像其他自回歸變壓器一樣。
第二...
等等,練掌你確定這不是開(kāi)玩笑嗎
現(xiàn)在我明白為什么大家都覺(jué)得這個(gè)開(kāi)源項(xiàng)目根本跑不起來(lái)了...
打個(gè)不恰當(dāng)?shù)谋确剑@就好比你想吃熊肉,你得先自己給熊頭上。
項(xiàng)目里只有PaLM架構(gòu)和代碼,沒(méi)有預(yù)訓(xùn)練的權(quán)重。
所以完成第一步后,大概效果是...
說(shuō)到這里,繼續(xù)往下看...
然后,用強(qiáng)化學(xué)習(xí)對(duì)之前訓(xùn)練好的模型和獎(jiǎng)勵(lì)模型進(jìn)行微調(diào)。
經(jīng)過(guò)這三步,你就可以得到一個(gè)開(kāi)源版本的ChatGPT了。
中間的問(wèn)題包括巨大的計(jì)算量,龐大的模型和難以收集的文本...所以有些人不禁要問(wèn):
沒(méi)有可能,也沒(méi)用。
不過(guò),也有網(wǎng)友認(rèn)為這本質(zhì)上是好事。
AI的一個(gè)關(guān)鍵區(qū)別是,每一次重大突破,都會(huì)很快出現(xiàn)一個(gè)開(kāi)源版本。
而LAION也推出了類似的項(xiàng)目Open Assistant,將通過(guò)眾籌腦力聯(lián)合開(kāi)發(fā)一款開(kāi)源聊天AI。
穩(wěn)定擴(kuò)散使用的開(kāi)放數(shù)據(jù)集就是這個(gè)組織做的。
感興趣的童鞋不妨試試~
PaLM—rlhf—pytorch主頁(yè):
打開(kāi)助手主頁(yè):
參考鏈接:
聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問(wèn),請(qǐng)與有關(guān)方核實(shí),文章觀點(diǎn)非本網(wǎng)觀點(diǎn),僅供讀者參考。
猜你喜歡
-
游客在進(jìn)入北京環(huán)球度假區(qū)時(shí)須核驗(yàn)北京健康
具體如下:北京環(huán)球度假區(qū)繼續(xù)按照相關(guān)政府部門(mén)的限流要求,以預(yù)約入園的形式加強(qiáng)人流動(dòng)態(tài)監(jiān)測(cè)和...詳情
2022-04-28
-
杭州湘湖的草坪人氣很高不少人在這里搭帳篷
湘湖邊亂搭帳篷,煞了春日風(fēng)景景區(qū)出臺(tái)最新政策,將設(shè)置臨時(shí)帳篷搭建區(qū),后續(xù)還要增設(shè)露營(yíng)服務(wù)區(qū)...詳情
2022-04-14
-
南非徐霞客在云南:從行萬(wàn)里路到吃百碗米線
題:南非徐霞客在云南:從行萬(wàn)里路到吃百碗米線的文化之旅杜安睿來(lái)自南非,是一名國(guó)際注冊(cè)會(huì)計(jì)師...詳情
2022-04-10
-
廣州新增3例本土確診病例雙層觀光巴士全部
廣州新增3例本土確診病例雙層觀光巴士全部停運(yùn)廣州市政府新聞辦公室21日公布的信息顯示,過(guò)去...詳情
2022-03-22
- 6家物流公司單月漲幅超過(guò)10%申通快遞以
- 中國(guó)兩大電信運(yùn)營(yíng)商聯(lián)手建設(shè)東南亞國(guó)際海底
- 自上海疫情爆發(fā)以來(lái)這對(duì)浙江父子一直在避難
- 關(guān)于2022年召開(kāi)第三次公司不承擔(dān)賠償責(zé)
- 據(jù)北京市疾控中心評(píng)估
- 南瓜變“金瓜”村民穩(wěn)增收
- “集成大腦”提升質(zhì)量和效率各條生產(chǎn)線有條
- 青年正在為社區(qū)治理注入新的活力青年參與社
- 給我們的啟示是單一押注某個(gè)行業(yè)或風(fēng)格的基
- 請(qǐng)掃碼至美年健康官方商城頁(yè)面購(gòu)買(mǎi)2800