奖励模型中的尺度扩展定律和奖励劫持-电源网星球号

獎勵劫持問題

在大語言模型（Large Language Model, LLM）中，存在所謂的尺度擴展規律（Scaling Laws） [2]，如Fig 1所示，即是：

LLM的性能會隨著模型的參數量、模型的訓練量、模型的訓練數據量的增加而增加

Fig 1. 大模型中的尺度擴展規律，測試集損失隨著模型訓練量、訓練集數據量、模型參數量的增加而遞減（即是模型性能遞增）。

眾所周知，獎勵模型（Reward Model，RM）是LLM的訓練管道【一個典型的LLM訓練管道包含有：預訓練（Pretrain）、行為克隆（SFT）、人類偏好對齊（Preference Alignment）等幾個過程，其中的人類偏好對齊部分，通常會采用獎勵模型進行偏好打分，從LLM的輸出采樣中選取最符合人類偏好的樣本。】中一個重要部件，其可對LLM的輸出進行偏好打分（Preference Score），也可以視為是對LLM的輸出進行質量打分。然而獎勵模型會遇到所謂獎勵劫持（Reward Hacking）的問題，即是獎勵模型被樣本的其他無關/弱相關特征所劫持，其打分不能再正確建模LLM的輸出質量，最常見的就是獎勵模型容易認為LLM輸出越長質量就越高（被稱之為長度偏置，通常來自于獎勵模型的訓練數據中，邏輯性越好、解釋越完整的樣本，其長度傾向于越長；但是反之不成立，長度越長的樣本不一定是質量越好的）。獎勵劫持將會使得獎勵模型無法持續從LLM的輸出采樣中挑選更好的樣本，從而影響LLM的進一步優化。

從結果上看，導致獎勵劫持的原因是對獎勵模型的過度優化（Overoptimization），即優化獎勵模型的值過高時，反而會阻礙真實目標的性能提升。此處有一個術語描述這個現象，稱之為古德哈特現象（Goodhart's Law），他是一個在經濟學、社會學、管理學以及人工智能等領域廣泛討論的現象，它描述了當一個指標被用作目標進行優化時，該指標的有效性可能會因為過度優化而降低，甚至導致與原始目標背離的情況。（原文：When a measure becomes a target, it ceases to be a good measure.）

對其的改進方向是多樣的，比如訓練數據的多樣性、獎勵模型的參數量、獎勵模型的訓練量等，在這篇論文中，作者正是去研究獎勵模型的尺度擴展規律，以及不同實驗設置下對緩解獎勵模型過度優化的幫助。

尺度擴展包含了訓練數據量、模型參數量、模型訓練量三個維度，后兩者可以自然擴展，但是獎勵模型的訓練數據來自于人類標注，擴展訓練數據將會帶來巨大的標注代價，因此本文作者采用生成數據作為代理獎勵模型的訓練數據。整個流程如Fig 2.所示，常規的代理獎勵模型（Proxy Reward Model）【之所以稱之為代理獎勵模型，是因為標注的訓練數據總是有限的，因此訓練出來的獎勵模型其實是真實的獎勵模型的一個『代理』。】是由人類標注員標注的偏好數據進行訓練的，而本文采用的方法則是：

首先采用人類標注數據，訓練一個6B大小的獎勵模型，這個模型被稱之為『標準獎勵模型（Gold Reward Model）』，后面的所有實驗中，都會認為標準獎勵模型的打分是真實值 【通常這類型模型在一些工作中也會被稱之為『Oracle』，也就是『先知』。】，文章中稱之為『標準獎勵打分（gold reward model score）』，這用來評估不同實驗設置下的代理獎勵模型的效果。
將標準獎勵模型對一批無標注的數據進行打標，然后用打標后的數據進行代理獎勵模型的訓練，代理獎勵模型的參數量從3M到3B。在本工作中，作者生成了100K個樣本，保留了10%作為驗證集合用于計算RM的驗證損失。

Fig 2. 真實 vs 合成獎勵模型訓練設置的示意圖。人類標注者生成比較數據。在真實的人類反饋強化學習（RLHF）設置中，這些數據被用來訓練一個代理獎勵模型，該模型通過強化學習（RL）或最佳選擇采樣（BoN）進行優化。而在我們的合成設置中，我們則使用一個『標準獎勵模型（Gold RM）』作為我們的真實標準。

用R表示標準獎勵打分，KL:=DKL(π||πinit)表示優化后策略模型π與初始策略模型πinit的KL距離（作者用當前策略距離初始策略的KL距離表示策略模型的優化情況），定義d:=DKL(π||πinit)，注意到對于Best-of-N（BoN）方式而言，其KL距離存在解析解 [3]，如公式(1-1)所示，其中的n為BoN采樣數量。

(1-1)KLbon=log?n−n−1n

作者在做了眾多試驗后，得出了一個經驗公式，如(1-2)所示，其中的αbon,βbon,αRL,βRL為公式參數，通過實驗擬合得出（受到代理RM模型參數量、代理RM模型的訓練數據量等等因素決定），定義當d=0時候為R(0):=0。

）(1-2)Rbon(d)=d(αbon−βbond)RRL(d)=d(αRL−βRLlog?d）

從這個公式中不難發現這個曲線是一個隨著KL距離增加，開口朝下的二次曲線，這意味著隨著代理獎勵模型優化的進行，標準獎勵打分會先增加，意味著此時代理獎勵模型還未遇到過度優化。到達一定程度后，標準獎勵打分開始下降，意味著代理獎勵模型開始過度優化。

獎勵模型參數量維度的尺度擴展

Fig 3. 策略模型的參數量保持不變（1.2B參數），而獎勵模型的規模則有所變化。圖表的x軸采用平方根刻度。請注意，這些圖表的x軸是不同的。標準獎勵代表了真實獎勵；觀察到，當我們針對標準獎勵的已學習代理進行優化時，標準獎勵最初會增加，隨后則會減少。公式(1-2)提煉的函數形式能夠很好地擬合這一效應（Gold Fit曲線）。

我們看到實際的試驗曲線情況，如Fig 3.所示，這些是在90K合成訓練數據下訓練代理獎勵模型（策略模型參數量固定在1.2B）的結果，分別采用了BoN訓練方案和RL訓練方案，橫坐標是優化策略模型和初始策略模型的KL距離（表示優化程度），縱坐標是RM打分。關注到：

深色實線表示標準獎勵模型的打分，這也是公式(1-2)所建模的，而對應顏色的淺色實線就是根據公式(1-2)的擬合曲線，能發現能很好地擬合實際實驗的結果。
標準獎勵模型能到達的頂峰值隨著代理獎勵模型的參數量提升而提升，存在參數量的尺度擴展效應。
如虛線所示，代理獎勵打分是線性增加（BoN）或者對數增加的（RL），這表面對于代理獎勵模型而言，是隨著優化的進行，其模型效果是變得更好的。但是我們知道標準獎勵打分是到一定程度后會下降的，這個差值可以認為是代理獎勵模型過度優化而帶來的獎勵劫持程度。不難發現，獎勵劫持的程度是隨著優化程度逐漸變大的。

在不同代理獎勵模型參數量下，從公式(1-2)中解算出的αbon,βbon和βRL（從Fig 3中不難發現，我們有一系列KL-RM score數據點，可以采用最小二乘法等方法解算出這些參數），這些參數的曲線圖如Fig 4所示，其中的αRL是設置為了一個常數。從圖中能看出，這些待定參數和代理獎勵模型參數量呈現線性關系，這意味著在給定了代理獎勵模型參數量的情況下，可以預測其標準獎勵打分的峰值。

Fig 4. 在最佳選擇采樣（BoN）和強化學習（RL）的過優化擴展規律中，隨著參數數量的變化，代理獎勵（虛線）和標準獎勵（實線）的 α_bon,β_{bon}和β_{RL}的值。

獎勵模型訓練數據量的尺度擴展

在固定代理獎勵模型參數量為12M后，作者實驗了不同訓練數據量下的效果，如Fig 5.所示，能發現：更多的數據會帶來更高的標準獎勵打分和更少的古德哈特效應（可以理解為獎勵劫持的現象減少了）。不過在數據量的擴展中，未曾觀察到如Fig 4一般，在α,β等函數參數上的尺度擴展關系。

Fig 5. 獎勵模型數據擴展實驗。獎勵模型（RM）的規模保持不變（12M參數量），而獎勵模型的數據量則有所變化。圖表的x軸采用平方根刻度。請注意，這些圖表的x軸是不同的。虛線表示代理獎勵，實線表示標準獎勵。

從Fig 5中能隱約發現，當訓練數據量比較少的時候（比如120、250...），隨著KL的增大，標準獎勵打分是遞減的趨勢，這意味著參與訓練的數據量可能有一個最低的下限。我們再看到Fig 6，從圖(a)中，我們能看出：

在不同的模型大小下，隨著數據量的提升，其模型效果在提升（RM驗證損失持續下降，標準獎勵打分持續提高），這證實了獎勵模型也有數據量上的尺度擴展效應。
注意到當數據量小于2000時候，所有大小的獎勵模型的性能都接近隨機，這意味著對于獎勵模型而言存在一個最小的訓練數據量，只有大于這個數據量才能正常訓練獎勵模型。

Fig 6. 在不同的訓練數據量和模型大小的組合下，其RM驗證損失和最大的標準獎勵打分結果。

策略模型的尺度擴展

前面的研究都是固定了策略模型【策略模型（Policy Model）：策略模型負責生成行為或輸出，例如在語言生成任務中生成文本。獎勵模型（Reward Model）：獎勵模型用于評估策略模型生成的行為或輸出的質量，并提供反饋信號，用于優化策略模型。】大小的（1.2B參數量），作者在文章中研究了增大策略模型尺寸（1.2B → 6B）是否對獎勵模型訓練有所幫助。如Fig 7.所示，我們能發現6B策略模型參數量確實1.2B策略模型參數量，從標準獎勵打分角度，在初始階段有著較大的優勢，但是這個優勢隨著訓練的進行會逐漸縮小，最后6B比1.2B的優勢并不大。

從直觀上看，更大的策略模型由于會更容易生成獎勵模型偏好的輸出，因此會更容易過度擬合，不過從Fig 7.看并非如此，我們看到(b)，兩種尺寸的模型都在接近的訓練程度上達到了峰值（意味著更大尺寸的策略模型并沒有讓過度優化變得更快），從(c)的代理獎勵模型和標準獎勵打分的差值來看，也能發現兩種尺寸模型的獎勵劫持程度基本上接近（6B模型的獎勵劫持程度甚至還整體更低些）。因此，較大的策略模型在針對獎勵模型進行優化時獲得的提升較小，不過也不會出現更多的過優化現象。

Fig 7. 策略模型擴展實驗。獎勵模型的規模保持不變（12M參數），而策略模型大小有所變化。圖表的x軸采用平方根刻度。請注意，這些圖表的x軸是不同的。虛線表示代理獎勵，實線表示標準獎勵。在強化學習圖表中，星號表示每個策略規模下的最大金標準分數。

RL和BoN方式訓練模型的對比

直觀上看，一個預訓練好后的LLM的效果上限是其Best-of-N結果，后訓練（包括行為克隆和偏好對齊等）的目的就是將Best-of-N結果蒸餾到LLM中，這個蒸餾的方式有兩種：

BoN方式：采用獎勵模型對N個LLM采樣結果（也稱為N個軌跡） A={Ai,i=1,?,N}進行打分S={si,i=1,?,N}，然后選取其中的最好結果集合 Abest=A[arg?maxiS]，然后通過SFT將最好結果集合蒸餾到LLM中，這個過程可以迭代反復進行。如同Fig 8. 所示，在每一輪的BoN過程中，如公式(1-1)所示，其增加的KL距離是固定的。注意到，BoN的方式只會保留N個軌跡中被獎勵模型選出的唯一一個軌跡蒸餾到目標LLM中，這意味著對采樣軌跡的利用率較低。
通過PPO的方式（RL方式）：采用PPO的方式，此時獎勵模型同樣對采樣的N個軌跡進行打分，不過PPO的方式可以充分利用N個軌跡，并且策略模型在每一個訓練步中，都會存在KL距離的增加，根據Fig 9 (a) 所示，其KL距離增加隨著步數增加呈現二次方的關系，因此RL過程如Fig 8.的粉色虛線所示，是以逐漸增加的較大KL步長搜索到最終策略（也即是圖中的策略 #4）。當然，從圖中也不難發現，RL方式的KL步長如果沒控制好，就容易錯過最佳策略，這也暗示了RL方式的不穩定性。

Fig 8. 在后訓練中，無論是BoN還是RL，模型都是通過消耗KL距離去搜索新策略。BoN的每一輪搜索增加的KL距離是log(n)，而RL隨著訓練步數其KL距離以二次方速度增加。

從以上討論看，基于BoN的方法和基于RL的方法（通過PPO）去后訓練LLM，其方式差別很大，預期其兩者的獎勵模型的過度優化情況會有所不同，因此作者在本文對此也進行了研究。作者在本文中，把KL距離視為是一種可以被『消耗』的資源，在模型訓練過程中，通過消耗KL距離去找到新的策略（通過獎勵模型去判斷新策略是否比舊策略好），如Fig 8所示。

如公式(1-1)所示，BoN的優化方式，KL距離的增加都是穩定的，大約是log?(n)的增長，因此是一個局部的搜索，而RL的優化方式中每一步都會修改上一步的策略，帶來KL距離的增加，從Fig 9 (a)的實驗看，無論是何種模型大小，其KL距離都是隨著訓練步數，呈現二次增加（沒有引入KL懲罰的情況），因此對比BoN，RL是一種更為低效利用KL資源的一種方式。

Fig 9. 獎勵模型中，不同模型大小下KL距離隨著訓練步數的變化情況，以及加入了KL懲罰項后的變化曲線。

不過這也從另一種角度說明，不同的訓練方式下，消耗KL距離的方式也不同，采用KL距離去量化衡量優化過程是不充足的，因此也就無法使用KL距離作為橫坐標，將BoN和RL兩種方式下的標準獎勵打分繪制曲線進行對比。存在一些對策略的擾動，這些擾動與獎勵信號正交（也即是導致獎勵劫持的原因，獎勵模型建模中沒有建模出這些正交的擾動信號），會導致KL距離增加，但并不會提升標準獎勵或代理獎勵，相反，一些極其微小但精準的目標化擾動，可以在很小的KL預算內顯著改變策略的行為。

作者指出，可以考慮采用代理獎勵打分作為一種量化的指標，如Fig 10所示此時可以通過對比sgold_rm−sproxy_rm 作為指代獎勵劫持的指標，去對比BoN和RL的表現。Fig 10中，理想的曲線應該是sgold_rm=sproxy_rm，也即是曲線越靠近對角線就表示該方法越好，其中不同顏色表示的是不同的模型大小（筆者猜的，原文沒提到這點），可以發現在不同的模型尺度下，都是RL方式會優于BoN方式。

Fig 10. 代理指標與標準的RM分數在BoN和RL中的對比。為了便于閱讀，RL曲線在代理RM分數為1.6處被截斷。

KL懲罰項的作用類似于『早停』

在RL優化過程中，可以增加KL懲罰項（KL(πold||πnew)）去約束KL距離的過度增加，增加了KL懲罰項后的策略損失如公式(1-3)所示，其中的A^t為t時刻的優勢函數，rt(θ)=πθ(at|st)πθold(at|st)， β為懲罰項大小。增加了KL懲罰項后的曲線如Fig 9 (b) 所示，可以發現KL懲罰項越大，KL距離增加的速度就越慢，最后接近停滯。從Fig 11.中，我們對比不同大小的KL懲罰項后發現，不同的KL懲罰項只會影響收斂速度，而不會影響標準獎勵打分的峰值，這意味著KL懲罰項的作用類似于『早停』，是一種正則化工具。

(1-3)θ∗=arg?maxθLactor(θ)=Et[min(rt(θ)⋅A^t,clip(rt(θ),1−?,1+?)⋅A^t)]−β⋅KL(πθold||πθ)

Fig 11. 在不同KL懲罰項下的RL優化實驗。策略網絡的大小（1.2B參數）和獎勵模型的大小（1.2B參數）保持不變。虛線表示代理獎勵（proxy rewards），實線表示真實獎勵（gold rewards）。我們觀察到KL懲罰對真實得分（gold score）的影響等同于早停（early stopping）。

在原文中，作者還指出古德哈特現象分為以下四種，然后分析了獎勵劫持現象在這四個現象中的分類，受限于篇幅本文就不展開了，有興趣的讀者可以翻閱原論文 [1]。

回歸型古德哈特現象
外部型古德哈特現象
因果型古德哈特現象
對抗型古德哈特現象

筆者讀下來，這篇文章的信息密度很大，是一篇常讀常新的極品文章，其主要論點有：

獎勵模型可以尺度擴展以緩解獎勵劫持問題（模型尺寸、訓練數據大小），但是訓練數據大小會有一個最低的數量要求。
獎勵模型的過度優化現象在不同尺寸的模型和不同大小的訓練數據下都會出現。
策略模型的尺度擴展，對獎勵模型緩解獎勵劫持無太大幫助。
KL距離是一種資源，BoN和RL的優化模式是不同的，他們消耗KL距離的方式也不同。
KL懲罰項會加速模型收斂，但是不會提高模型的性能峰值，是一種類似『早停』的正則項。

當然，本文也留下了一些重要的待探索的問題，比如：

探索多輪迭代式地優化RLHF
繼續深入探索對策略模型的尺度擴展
探索除了BoN和RL之外的其他訓練方式
當前的標準模型是采用的合成標簽訓練的，合成標簽和真實的世界標簽會有差距。

如果覺得該博文對您有所幫助，筆者強烈建議您翻閱原論文，以獲得第一手的信息。

Reference

[1]. Gao, Leo, John Schulman, and Jacob Hilton. "Scaling laws for reward model overoptimization." In International Conference on Machine Learning, pp. 10835-10866. PMLR, 2023.

[2]. Kaplan, Jared, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. "Scaling laws for neural language models." arXiv preprint arXiv:2001.08361 (2020).

[3]. Nisan Stiennon, Long Ouyang, Jeff Wu, Daniel M. Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, and Paul Christiano. Learning to summarize from human feedback. Computing Research Repository, 2020. version 3

最新电影在线观看,jrs低调看直播,avav天堂,囯产精品宾馆在线精品酒店,亚洲精品成人区在线观看

獎勵模型中的尺度擴展定律和獎勵劫持