比特幣價格 比特幣價格
Ctrl+D 比特幣價格
ads

CHA:ChatGPT 等 LLM 使用強化學習而非監督學習進行微調的 5 個原因_ATG

Author:

Time:1900/1/1 0:00:00

撰文:TanyaMalhotra

來源:Marktechpost

編譯:DeFi之道

圖片來源:由無界版圖AI工具生成

隨著生成性人工智能在過去幾個月的巨大成功,大型語言模型正在不斷改進。這些模型正在為一些值得注意的經濟和社會轉型做出貢獻。OpenAI開發的ChatGPT是一個自然語言處理模型,允許用戶生成有意義的文本。不僅如此,它還可以回答問題,總結長段落,編寫代碼和電子郵件等。其他語言模型,如Pathways語言模型、Chinchilla等,在模仿人類方面也有很好的表現。

Michael Saylor:沒有人對比特幣感到著急,這是該資產的未來:8月2日消息,Microstrategy首席執行官邁Michael Saylor在接受彭博電視采訪時,Saylor 認為 Microstrategy 對比特幣的大賭注,它已轉向債務市場來維持,是該公司可以追求的“最高上行空間,最低風險策略”。有些人認為多樣化意味著購買其他類型的加密貨幣或其他類型的股票,我們認為,通過持有比特幣,我們是多元化的。因為我們可以在城市、州、政府、公司、小和大投資者的資產負債表上看到比特幣。最終比特幣將成為蘋果、亞馬遜和Facebook的技術創新的核心,所以我們希望持有比特幣,沒有人對比特幣感到著急,我們認為這是該資產的未來。(cointelegraph)[2021/8/2 1:29:42]

大型語言模型使用強化學習來進行微調。強化學習是一種基于獎勵系統的反饋驅動的機器學習方法。代理通過完成某些任務并觀察這些行動的結果來學習在一個環境中的表現。代理在很好地完成一個任務后會得到積極的反饋,而完成地不好則會有相應的懲罰。像ChatGPT這樣的LLM表現出的卓越性能都要歸功于強化學習。

動態 | Baer Chain孵化OASIS平臺春節數據快速增長:據官方消息,春節期間,Baer Chain孵化OASIS綠洲游戲平臺從1月24日除夕至1月28日初四,日均數據快速增長:

PCU(最高同時在線人數):43625,ACU(平均同時在線人數):15327,DAU(每日活躍用戶):167352。較前一周,平臺日活提升:1648.5%,游戲充值提升:8806%。據悉,OASIS平臺SDK正式版即將推出,近期將有多款大型賀歲游戲陸續登陸,預計將迎來新一輪的增長。[2020/1/29]

ChatGPT使用來自人類反饋的強化學習,通過最小化偏差對模型進行微調。但為什么不是監督學習呢?一個基本的強化學習范式由用于訓練模型的標簽組成。但是為什么這些標簽不能直接用于監督學習方法呢?人工智能和機器學習研究員SebastianRaschka在他的推特上分享了一些原因,即為什么強化學習被用于微調而不是監督學習。

動態 | 斯洛文尼亞推出區塊鏈基礎設施平臺SiChain:斯洛文尼亞推出了區塊鏈基礎設施平臺SiChain,成為首個在國家層面試點區塊鏈基礎設施系統的歐盟國家。SiChain技術旨在為公司和國家機構推進區塊鏈技術采用,并可用于文檔驗證。(STA)[2020/1/11]

不使用監督學習的第一個原因是,它只預測等級,不會產生連貫的反應;該模型只是學習給與訓練集相似的反應打上高分,即使它們是不連貫的。另一方面,RLHF則被訓練來估計產生反應的質量,而不僅僅是排名分數。

SebastianRaschka分享了使用監督學習將任務重新表述為一個受限的優化問題的想法。損失函數結合了輸出文本損失和獎勵分數項。這將使生成的響應和排名的質量更高。但這種方法只有在目標正確產生問題-答案對時才能成功。但是累積獎勵對于實現用戶和ChatGPT之間的連貫對話也是必要的,而監督學習無法提供這種獎勵。

不選擇SL的第三個原因是,它使用交叉熵來優化標記級的損失。雖然在文本段落的標記水平上,改變反應中的個別單詞可能對整體損失只有很小的影響,但如果一個單詞被否定,產生連貫性對話的復雜任務可能會完全改變上下文。因此,僅僅依靠SL是不夠的,RLHF對于考慮整個對話的背景和連貫性是必要的。

監督學習可以用來訓練一個模型,但根據經驗發現RLHF往往表現得更好。2022年的一篇論文《從人類反饋中學習總結》顯示,RLHF比SL表現得更好。原因是RLHF考慮了連貫性對話的累積獎勵,而SL由于其文本段落級的損失函數而未能很好做到這一點。

像InstructGPT和ChatGPT這樣的LLMs同時使用監督學習和強化學習。這兩者的結合對于實現最佳性能至關重要。在這些模型中,首先使用SL對模型進行微調,然后使用RL進一步更新。SL階段允許模型學習任務的基本結構和內容,而RLHF階段則完善模型的反應以提高準確性。

Tags:CHA比特幣GPTATGintchain淘寶1元買了1000個比特幣人工智能chatGPTCATGIRL

中幣下載
POL:Polygon技術負責人:zkEVM是什么?_olympus幣最新消息

編譯:Cindy,SophonLabsPolygon似乎是第一個為其3月27日的zkEVMrollup部署以太坊主網版本的公司.

1900/1/1 0:00:00
GPT:2023年 AIGC顛覆游戲產業?_CHAT

2023開年以來,AIGC的戰爭已經達到白熱化。就在今天,百度文心一言正式發布,向公眾展示了自己的中文通用語言大模型,但依然需要邀請碼才能參與測試.

1900/1/1 0:00:00
加密貨幣:金色Web3.0日報 | 四川人民出版社推出首個“元宇宙圖書”_ruff幣區塊鏈最新消息

DeFi數據 1、DeFi代幣總市值:497.01億美元 DeFi總市值及前十代幣數據來源:coingecko2、過去24小時去中心化交易所的交易量35.

1900/1/1 0:00:00
以太坊:ETHDenver大佬們詳解“賬戶抽象”的未來:如何吸引下一個10億用戶?_Edgecoin

原文:《‘Accountabstraction’superchargesEthereumwallets:Dummiesguide》byAndrewFenton 編譯:Katie辜 帳戶抽象優點包.

1900/1/1 0:00:00
區塊鏈:英國政府尋求利用中東資金收購硅谷銀行英國子公司_AME

金色財經報道,據英國金融時報報道,英國政府正試圖推動對硅谷銀英國子公司的收購,以防止沖擊蔓延至整個科技行業。一家財力雄厚的中東買家已經表示了興趣.

1900/1/1 0:00:00
NFT:金色Web3.0日報 | 以太坊客戶端Geth發布v1.11.5版本_OGN

DeFi數據 1、DeFi代幣總市值:508.59億美元 DeFi總市值及前十代幣數據來源:coingecko2、過去24小時去中心化交易所的交易量35.

1900/1/1 0:00:00
ads