ChatGPT核心方法可用于AI繪畫，效果飛升47%

:0:0

ChatGPT中有這樣一個核心訓練方法，名叫「人類反饋強化學習（RLHF）」。
它可以讓模型更安全、輸出結果更遵循人類意圖。
現在，來自谷歌Research和UC伯克利的研究人員發現，將該方法用在 AI繪畫上，「治療」圖像跟輸入不完全匹配的情況，效果也奇好——
可以實現高達47%的改進。

△ 左為Stable Diffusion，右為改進后效果
這一刻，AIGC領域中兩類大火的模型，似乎找到了某種「共鳴」。
如何將RLHF用于AI繪畫？RLHF，全稱「Reinforcement Learning from Human Feedback」，是OpenAI和DeepMind于2017年合作開發的一種強化學習技術。
正如其名，RLHF就是用人類對模型輸出結果的評價（即反饋）來直接優化模型，在LLM中，它可以使得「模型價值觀」更符合人類價值觀。
而在AI圖像生成模型中，它可以讓生成圖像與文本提示得到充分對齊。
具體而言，首先，收集人類反饋數據。
在這里，研究人員一共生成了27000余個「文本圖像對」，然后讓一些人類來打分。
為了簡單起見，文本提示只包括以下四種類別，分別關乎數量、顏色、背景和混合選項；人類的反饋則只分「好」、「壞」與「不知道（skip）」。

其次，學習獎勵函數。
這一步，就是利用剛剛獲得的人類評價組成的數據集，訓練出獎勵函數，然后用該函數來預測人類對模型輸出的滿意度（公式紅色部分）。
這樣，模型就知道自己的結果究竟有幾分符合文本。

除了獎勵函數，作者還提出了一個輔助任務（公式藍色部分）。
也就是當圖像生成完成后，模型再給一堆文本，但其中只有一個是原始文本，讓獎勵模型「自己檢查」圖像是否跟該文本相匹配。
這種逆向操作可以讓效果得到「雙重保險」（可以輔助下圖中的step2進行理解）。

最后，就是微調了。
即通過獎勵加權最大似然估計（reward-weighted likelihood maximization）（下公式第一項），更新文本-圖像生成模型。

為了避免過擬合，作者對預訓練數據集上的NLL值（公式第二項）進行了最小化。這種做法類似于InstructionGPT （ChatGPT的「直系前輩」）。
效果提升47%，但清晰度下滑5%如下一系列效果所示，相比原始的Stable Diffusion，用RLHF微調過后的模型可以：
（1）更正確地get文本里的「兩只」和「綠色」；