CHA:ChatGPT 等 LLM 使用強化學習而非監督學習進行微調的 5 個原因_ATG

Author：

Time：1900/1/1 0:00:00

撰文：TanyaMalhotra

來源：Marktechpost

編譯：DeFi之道

圖片來源：由無界版圖AI工具生成

隨著生成性人工智能在過去幾個月的巨大成功，大型語言模型正在不斷改進。這些模型正在為一些值得注意的經濟和社會轉型做出貢獻。OpenAI開發的ChatGPT是一個自然語言處理模型，允許用戶生成有意義的文本。不僅如此，它還可以回答問題，總結長段落，編寫代碼和電子郵件等。其他語言模型，如Pathways語言模型、Chinchilla等，在模仿人類方面也有很好的表現。

Michael Saylor：沒有人對比特幣感到著急，這是該資產的未來:8月2日消息，Microstrategy首席執行官邁Michael Saylor在接受彭博電視采訪時，Saylor 認為 Microstrategy 對比特幣的大賭注，它已轉向債務市場來維持，是該公司可以追求的“最高上行空間，最低風險策略”。有些人認為多樣化意味著購買其他類型的加密貨幣或其他類型的股票，我們認為，通過持有比特幣，我們是多元化的。因為我們可以在城市、州、政府、公司、小和大投資者的資產負債表上看到比特幣。最終比特幣將成為蘋果、亞馬遜和Facebook的技術創新的核心，所以我們希望持有比特幣，沒有人對比特幣感到著急，我們認為這是該資產的未來。（cointelegraph）[2021/8/2 1:29:42]

大型語言模型使用強化學習來進行微調。強化學習是一種基于獎勵系統的反饋驅動的機器學習方法。代理通過完成某些任務并觀察這些行動的結果來學習在一個環境中的表現。代理在很好地完成一個任務后會得到積極的反饋，而完成地不好則會有相應的懲罰。像ChatGPT這樣的LLM表現出的卓越性能都要歸功于強化學習。

動態 | Baer Chain孵化OASIS平臺春節數據快速增長:據官方消息，春節期間，Baer Chain孵化OASIS綠洲游戲平臺從1月24日除夕至1月28日初四，日均數據快速增長：

PCU(最高同時在線人數):43625,ACU(平均同時在線人數):15327,DAU(每日活躍用戶):167352。較前一周，平臺日活提升：1648.5%，游戲充值提升：8806%。據悉，OASIS平臺SDK正式版即將推出，近期將有多款大型賀歲游戲陸續登陸，預計將迎來新一輪的增長。[2020/1/29]

ChatGPT使用來自人類反饋的強化學習，通過最小化偏差對模型進行微調。但為什么不是監督學習呢？一個基本的強化學習范式由用于訓練模型的標簽組成。但是為什么這些標簽不能直接用于監督學習方法呢？人工智能和機器學習研究員SebastianRaschka在他的推特上分享了一些原因，即為什么強化學習被用于微調而不是監督學習。

動態 | 斯洛文尼亞推出區塊鏈基礎設施平臺SiChain:斯洛文尼亞推出了區塊鏈基礎設施平臺SiChain，成為首個在國家層面試點區塊鏈基礎設施系統的歐盟國家。SiChain技術旨在為公司和國家機構推進區塊鏈技術采用，并可用于文檔驗證。（STA）[2020/1/11]

不使用監督學習的第一個原因是，它只預測等級，不會產生連貫的反應；該模型只是學習給與訓練集相似的反應打上高分，即使它們是不連貫的。另一方面，RLHF則被訓練來估計產生反應的質量，而不僅僅是排名分數。

SebastianRaschka分享了使用監督學習將任務重新表述為一個受限的優化問題的想法。損失函數結合了輸出文本損失和獎勵分數項。這將使生成的響應和排名的質量更高。但這種方法只有在目標正確產生問題-答案對時才能成功。但是累積獎勵對于實現用戶和ChatGPT之間的連貫對話也是必要的，而監督學習無法提供這種獎勵。

不選擇SL的第三個原因是，它使用交叉熵來優化標記級的損失。雖然在文本段落的標記水平上，改變反應中的個別單詞可能對整體損失只有很小的影響，但如果一個單詞被否定，產生連貫性對話的復雜任務可能會完全改變上下文。因此，僅僅依靠SL是不夠的，RLHF對于考慮整個對話的背景和連貫性是必要的。

監督學習可以用來訓練一個模型，但根據經驗發現RLHF往往表現得更好。2022年的一篇論文《從人類反饋中學習總結》顯示，RLHF比SL表現得更好。原因是RLHF考慮了連貫性對話的累積獎勵，而SL由于其文本段落級的損失函數而未能很好做到這一點。