OpenAI 推出的 ChatGPT 非常強大,但依然存在一些問題,比如輸出編造或帶有偏見的內容、定制化程度低…… 在新的一篇博客中,OpenAI 披露了他們未來的一些改進計劃。
OpenAI 的使命是確保通用人工智能(AGI)惠及全人類。因此,我們對我們在實現 AGI 的過程中所構建的人工智能系統的行為,以及決定這種行為的方式進行了大量的思考。
自從我們推出 ChatGPT 以來,用戶已經分享了他們認為有政治偏見、攻擊性或其他令人反感的產出。在許多情況下,我們認為大家所提出的關切是合理的,并發現了我們系統的真正局限性,我們希望解決這些問題。但與此同時,我們也看到了一些誤解,這些誤解與「我們的系統和政策如何共同塑造 ChatGPT 的輸出」有關。
博客要點總結如下:
ChatGPT 的行為是如何形成的; 我們計劃如何改進 ChatGPT 的默認行為; 我們想允許更多的系統定制; 我們會努力讓公眾對我們的決策提出更多意見。
我們的首要任務
與普通軟件不同,我們的模型是大規模的神經網絡。它們的行為是從廣泛的數據中學習的,而不是明確的編程。打個不那麼恰當的比方,這個過程更類似于訓練一只狗,而不是普通的編程。首先,模型要經歷一個「預訓練」階段。在這個階段中,模型通過接觸大量的互聯網文本(以及大量的觀點)來學習預測一個句子中的下一個詞。接下來是第二個階段,我們對模型進行「微調」,以縮小系統的行為范圍。
截至目前,這個過程還不完善。有時,微調過程沒有滿足我們的意圖(產生一個安全、有用的工具)和用戶的意圖(獲得一個有用的輸出以響應給定的輸入)。隨著 AI 系統變得越來越強大,改進我們使 AI 系統與人類價值保持一致的方法成為我們公司的首要任務。
兩大步驟:預訓練和微調
構建 ChatGPT 的兩個主要步驟如下:
首先,我們對模型進行 「預訓練」,讓它們預測包含互聯網部分內容的大數據集的下一步是什麼。它們可能會學習補全「她沒有向左轉,而是轉到了__」這個句子。通過從數十億的句子中學習,我們的模型掌握了語法、關于世界的許多事實,以及一些推理能力。他們還學會了這幾十億句子中存在的一些偏見。
然后,我們在一個范圍更窄的數據集上對這些模型進行「微調」,這些數據集是由遵循我們提供的指南的人類評審員精心制作的。由于我們無法預測未來用戶可能輸入我們系統的所有信息,所以我們沒有為 ChatGPT 將遇到的每一個輸入編寫詳細的說明。取而代之的是,我們在指南中概述了幾個類別,我們的評審員用這些類別來審查和評價一系列示例輸入的可能模型輸出。然后,在使用過程中,模型從評審員的反饋中歸納出來,以便對特定用戶提供的廣泛的具體輸入做出反應。
評審員的作用 & OpenAI 在系統開發中的策略
在某些情況下,我們可能會給我們的評審員提供關于某類輸出的指導(例如,「不要完成非法內容的請求」)。在其他情況下,我們與評審員分享的指導是更高層次的(例如,「避免在有爭議的話題中站隊」)。重要的是,我們與評審員的合作不是一勞永逸的,而是一種持續的關系。在這種關系中,我們從他們的專業知識中學習了很多。
微調過程的很大一部分工作是與我們的審查員保持一個強大的反饋回路,這涉及到每周的會議,以解決他們可能有的問題,或對我們的指導進行進一步說明。這種反復的反饋過程是我們訓練模型的方式,使其隨著時間的推移越來越好。
解決偏見
對于 AI 系統,偏見問題由來已久,許多研究者對此表示擔心。我們堅定地承諾會解決這一問題,并公開意圖和進展。為了表達實際行動進展,我們在此分享了與政治和爭議有關話題的部分指南。該指南明確指出評審員不應偏袒任何政治團體。盡管如此,偏見還是可能會出現。
指南地址:https://cdn.openai.com/snapshot-of-chatgpt-model-behavior-guidelines.pdf
盡管分歧始終存在,但我們希望通過這篇博客以及一些指南,大家可以更深入地了解我們是如何看待偏見的。我們堅信科技公司必須負責任地制定出經得起審查的政策。
我們一直在努力提高這些指南的清晰度,基于從 ChatGPT 發布到目前為止所了解到的情況,我們將向評審員提供關于與偏見相關的潛在陷阱和挑戰,以及有爭議的數據和主題更清晰的說明。此外,作為正在進行的透明度計劃的一部分,我們正在努力以不違反隱私規則和規范的方式共享有關評審員的匯總統計信息,因為這是系統輸出中潛在偏見的另一個來源。
基于規則獎勵和 Constitutional AI(原發人工智能方法)等進展之上,我們目前正在研究如何使微調過程更容易理解和可控。
未來發展方向:系統構建塊
為了實現我們的使命,我們致力于確保更廣大的人群能夠使用 AI 和 AGI,并從中受益。我們認為要實現這些目標,至少需要三個構建塊
1. 改進默認行為:我們希望 AI 系統做到開箱即用,讓盡可能多的用戶發現我們 AI 系統確實有用,并認為我們的技術理解并尊重他們的價值觀。
為此,我們對研究和工程進行了投資,以減少 ChatGPT 對不同輸入響應產生的微妙偏見。在某些情況下,ChatGPT 會拒絕輸出應該輸出的內容,而在某些情況下情況又相反,它輸出了本不該輸出的內容。我們相信,在這兩個方面 ChatGPT 都有改善的可能。
此外,我們的 AI 系統在其他方面還有改進的空間,例如系統經常會「編造東西」,對于這一問題,用戶反饋對改進 ChatGPT 非常寶貴。
2. 在廣泛的范圍內定義 AI 價值:我們相信 AI 應該成為對個人有用的工具,因此每個用戶都可以根據一些限制條款進行定制使用。基于此,我們正在對 ChatGPT 的升級進行開發,以允許用戶輕松自定義其行為。
這也意味著,一些人強烈反對的輸出,對另一些人是可見的。實現這一平衡面臨巨大的挑戰,因為將定制化做到極致可能會導致有些人惡意使用我們的技術,以及盲目放大 AI 的性能。
因此,系統行為總會有一些限制。挑戰在于定義這些界限是什麼。如果我們試圖自己做出所有這些決定,或者如果我們試圖開發一個單一的、整體的 AI 系統,我們將無法履行「避免權力過度集中」的承諾。
3. 公共輸入(默認值和硬性界限):避免權力過度集中的一種方法是讓使用 ChatGPT 等系統或受其影響的人反過來能夠影響系統規則。
我們認為,默認值和硬性界限這部分內容應該集中做出,雖然實施起來困難重重,但我們的目標是盡可能多地納入更多觀點。作為起點,我們以「red teaming」的形式尋求外部對我們技術的投入。我們最近還開始征求公眾對 AI 教育的意見(我們正在部署的一個特別重要的環境)。
結論
結合上述三個構建模塊,我們可以得出如下框架
有時我們會犯錯,但當我們犯錯時,我們將進行學習并迭代模型和系統。此外,我們還要感謝 ChatGPT 用戶等人員,讓我們時刻記住責任、保持警惕,我們很高興在未來幾個月內分享更多關于在上述三個領域的工作。
[圖擷取自網路,如有疑問請私訊]