ChatGPT 的爆火,是 OpenAI 完全沒有想到的是。現在,對于自家模型的人氣和種種問題,他們還在慢慢適應中……
這家公司做出了或許能引爆第四次工業革命的產品,但他們卻百思不得其解:為啥自家的產品能這么火?
就,真的不是凡爾賽。
最近,MIT Technology Review 采訪了 ChatGPT 的幾位開發者,讓我們近距離地了解了這個大爆的 AI 產品背后的故事。
火成這樣,沒有絲毫防備
當 OpenAI 在 202211 月下旬悄無聲息地推出 ChatGPT 時,這家初創公司并沒有報多大的期望。
OpenAI 的員工也沒想過,自家模型即將走上的,是一條屬于頂流的爆紅之路。
ChatGPT 仿佛在一夜間大紅大紫,還引發了關于大語言模型的一場全球淘金熱,而 OpenAI 還沒有絲毫準備,只能匆忙地趕上自己頂流模型的腳步,試圖抓住商機。
在 OpenAI 從事政策工作的 Sandhini Agarwal 說,在 OpenAI 內部,ChatGPT 一直被視為「研究預覽」—— 它是一個兩年前技術的更完善的版本,更重要的是,公司試圖通過公眾的反饋,來消除模型的一些缺陷。
誰能想到,這樣一個「預覽」產品,陰差陽錯出道后就爆紅了呢。
對此,OpenAI 的科學家很懵逼,對于外界的鮮花和掌聲,他們也很清醒。
「我們不想把它夸大為一個巨大的基礎性進步,」參與研發 ChatGPT 的 OpenAI 科學家 Liam Fedus 說。
為此,MIT Technology Review 的記者 Will Douglas Heaven 采訪了 OpenAI 的聯合創始人 John Schulman、開發者 Agarwal 和 Fedus、對齊團隊的負責人 Jan Leike。
ChatGPT 為什么這么火,我們自己都不明白
創始人 John Schulman 表示,ChatGPT 發布后幾天,他時不時就會刷推特。有那么一段瘋狂的時期,推特信息流中全是 ChatGPT 的截圖。
他想到了這是一個對用戶很直觀的產品,也想到它會有一些粉絲,但沒想到它會變得這么主流。
Jan Leike 表示,一切都太突然了,所有人都很驚訝,努力地跟上 ChatGPT 爆火的節奏。他很好奇,到底是什么在推動它的人氣飆升,難道有什么幕后推手?畢竟,OpenAI 自己都搞不清為什么 ChatGPT 能這么火。
Liam Fedus 解釋了他們如此驚訝的原因,因為 ChatGPT 并不是第一個通用的聊天機器人,此前就已經有很多人嘗試過了,所以 Liam Fedus 覺得他們的機會并不大。不過,私人測試版也給了他信心 —— 或許,這款 A 是用戶們真心會喜歡的東西。
Sandhini Agarwal 總結道,對所有人來說,ChatGPT 一炮而紅都是個驚喜。此前,大家在這些模型上做了太多的工作了,以至于都忘記了對于公司外部的普羅大眾來說,它是這么驚人。
的確,ChatGPT 內的大部分技術并不新鮮。它是 GPT-3.5 的一個微調版本,而在 ChatGPT 幾個月前,OpenAI 就發布了 GPT-3.5。而 GPT-3.5 本身就是 GPT-3 的更新版本,GPT-3 出現于 2020 年。
在網站上,OpenAI 以應用編程接口或 API 的形式提供了這些模型,其他開發者可以很輕易地將模型插入自己的代碼中。
在 2022 年 1 月,OpenAI 還發布了 GPT-3.5 的前一個微調版本 InstructGPT。只不過,這些技術沒有向公眾推介罷了。
微調過程
根據 Liam Fedus 的介紹,ChatGPT 模型是由與 InstructGPT 相同的語言模型微調而來的,使用的微調方法類似。研究人員增加了一些對話數據,并對訓練過程進行了一些調整。所以他們不想把它夸大為一個巨大的基礎性進步。
事實證明,對 ChatGPT 起了大作用的,是對話數據。
根據標準基準的評估,實際上兩個模型之間的原始技術能力并沒有很大差別,ChatGPT 最大的不同是,更容易獲得和使用。
Jan Leike 解釋說,在某種意義上,可以把 ChatGPT 理解為 OpenAI 已有一段時間的 AI 系統的一個版本。ChatGPT 的能力并沒有更強。在 ChatGPT 問世之前,同樣的基本模型已經在 API 上使用了將近一年時間。
而研究者們的改進可以概括為,在某種意義上,讓它更符合人類想用它做什么。它會在對話中和用戶交談,是一個聊天界面,很容易訪問。它更容易推斷出意圖,而用戶可以通過來回試探,來達到自己想要的目的。
秘訣就是,人類反饋強化學習技術,這和 InstructGPT 的訓練方式很像 —— 教會它人類用戶實際喜歡的樣子。
Jan Leike 介紹說,他們讓一大群人閱讀了 ChatGPT 的提示和回應,然后對回應進行二選一的選擇,看看大家認為哪個回應更好。然后,所有這些數據都被合并到一次訓練中。
它的大部分內容與他們在 InstructGPT 上所做的是一樣的。比如你希望它有幫助的,希望它是真實的,希望它不會惡毒。
另外還有一些細節,比如如果用戶的詢問不清楚,它應該問后續的問題去細化。它還應該澄清,自己是一個人工智能系統,不應該承擔它沒有的身份,不應該聲稱擁有它不具備的能力。當用戶要求它做它不該做的任務時,它必須明確拒絕。
也就是有一個清單,列出了人類評分員必須對模型進行排名的各種標準,比如真實性。但他們也會偏愛某些做法,比如 AI 不要假裝自己是人。
準備發布
總的來說,ChatGPT 用的都是 OpenAI 已經使用過的技術,所以團隊在準備向公眾發布這個模型時,沒有做任何特別的事情。在他們看來,為以前的模型設定的標準已經足夠了,GPT-3.5 已經足夠安全。
而在 ChatGPT 對人類偏好的訓練中,它自學了拒絕行為,拒絕了很多請求。
OpenAI 為 ChatGPT 組建了一些 「唱紅臉的」人:公司里的每個人都坐下來,試圖打破這個模型。也有外部團體做同樣的事情。值得信賴的早期用戶也會提供反饋。
Sandhini Agarwal 介紹道,他們確實發現了它會產生某些不需要的輸出,但這些都是 GPT-3.5 也產生的東西。因此,只看風險的話,作為一個「研究預覽」,ChatGPT 已經夠好了。
John Schulman 也表示,不可能等到一個系統 100% 完美了,才去發布它。幾個月來,他們對早期版本進行了 beta 測試,beta 測試人員對 ChatGPT 的印象很好。
OpenAI 最擔心的,其實是事實性的問題,因為 ChatGPT 太喜歡捏造東西了。但是這些問題在 InstructGPT 和其他大型語言模型中都存在,所以在研究者們看來,只要 ChatGPT 在事實性和其他安全問題上比那些模型更好,就已經足夠了。
而根據有限的評估,在發布之前,可以確認 ChatGPT 比其他模型更真實,更安全,因此,OpenAI 決定繼續發布。
發布后的反饋
ChatGPT 發布后,OpenAI 一直在觀察用戶是如何使用它的。
一個大型語言模型被放在數以千萬計的用戶手中,這種事還是史上第一次。
用戶們也玩瘋了,想測試 ChatGPT 的極限在哪里,bug 在哪里。
當然,問題很多,比如 ChatGPT 給黑客們大開方便之門,幫忙竊取信用卡號的惡意軟件代碼,OpenAI 也在針對這些問題不斷改進。
ChaatGPT 的走紅,也讓許多問題涌現出來,比如偏見問題,比如黑客通過 prompt 誘導的問題。
Jan Leike 表示,某些在推特上瘋傳的東西,其實 OpenAI 已經有人悄悄出手了。
比如越獄問題,絕對是他們需要解決的。用戶就是喜歡嘗試通過一些彎彎繞繞讓模型說不好的話,這在 OpenAI 的意料之內,也是一條必經之路。
當發現越獄時,OpenAI 會把這些情況添加到訓練和測試數據中,所有數據都會被納入未來的模型。
Jan Leike 表示,每當有一個更好的模型,他們都會想把它拿出來測試。
他們非常樂觀地認為,一些有針對性的對抗性訓練,可以使越獄的情況得到很大的改善。雖然目前還不清楚這些問題是否會完全消失,但他們認為,自己可以使很多越獄行為變得困難。
當一個系統「正式出道」時,很難預見到所有實際會發生的事情。
因此,他們只能把重點放在監測人們使用該系統的目的上,看看會發生什么,然后對此作出反應。
如今,微軟已經推出了必應 Chat,很多人認為它是 OpenAI 官方未宣布的 GPT-4 的一個版本。
在這個前提下,Sandhini Agarwal 表示,現在他們面臨的賭注,肯定比六個月前高得多,但仍然低于一年后的水平。
這些模型是在什么背景下被使用的,有極其重要的意義。
對于谷歌和微軟這樣的大公司,即使有一件事不符合事實,也會成為巨大的問題,因為他們本身就是搜索引擎。
作為搜索引擎的大語言模型,和一個只為了好玩的聊天機器人是完全不同的。OpenAI 的研究者們也在努力弄清楚,如何在不同用途之間游走,創造出真正對用戶有用的東西。
John Schulman 承認,OpenAI 低估了人們對于 ChatGPT 政治問題的關心程度。為此,在收集訓練數據時,他們希望做出一些更好的決定,來減少這方面的問題。
Jan Leike 表示,從自己的角度來看,ChatGPT 經常出現失敗。有太多問題需要解決了,但 OpenAI 并沒有解決。這一點,他坦誠地承認。
盡管語言模型已經存在了一段時間,但仍然處于早期。
接下來,OpenAI 需要做的事情,就更多了。
參考資料:
聲明:本網轉發此文章,旨在為讀者提供更多信息資訊,所涉內容不構成投資、消費建議。文章事實如有疑問,請與有關方核實,文章觀點非本網觀點,僅供讀者參考。
猜你喜歡
-
游客在進入北京環球度假區時須核驗北京健康
具體如下:北京環球度假區繼續按照相關政府部門的限流要求,以預約入園的形式加強人流動態監測和...詳情
2022-04-28
-
杭州湘湖的草坪人氣很高不少人在這里搭帳篷
湘湖邊亂搭帳篷,煞了春日風景景區出臺最新政策,將設置臨時帳篷搭建區,后續還要增設露營服務區...詳情
2022-04-14
-
南非徐霞客在云南:從行萬里路到吃百碗米線
題:南非徐霞客在云南:從行萬里路到吃百碗米線的文化之旅杜安睿來自南非,是一名國際注冊會計師...詳情
2022-04-10
-
廣州新增3例本土確診病例雙層觀光巴士全部
廣州新增3例本土確診病例雙層觀光巴士全部停運廣州市政府新聞辦公室21日公布的信息顯示,過去...詳情
2022-03-22