比特幣價格 比特幣價格
Ctrl+D 比特幣價格
ads
首頁 > ADA > Info

CHA:ChatGPT 等 LLM 使用強化學習而非監督學習進行微調的 5 個原因_Chain

Author:

Time:1900/1/1 0:00:00

撰文:Tanya Malhotra

來源:Marktechpost

編譯:DeFi 之道

圖片來源:由無界版圖AI工具生成

隨著生成性人工智能在過去幾個月的巨大成功,大型語言模型(LLM)正在不斷改進。這些模型正在為一些值得注意的經濟和社會轉型做出貢獻。OpenAI 開發的 ChatGPT 是一個自然語言處理模型,允許用戶生成有意義的文本。不僅如此,它還可以回答問題,總結長段落,編寫代碼和電子郵件等。其他語言模型,如 Pathways 語言模型(PaLM)、Chinchilla 等,在模仿人類方面也有很好的表現。

Argo Blockchain在5月份開采出124枚比特幣,截止5月底共持有2379枚比特幣:金色財經消息,加密礦企Argo Blockchain在5月份開采出124枚比特幣(或比特幣等價物),相比于2022年4月的166枚比特幣有所減少。Argo Blockchain解釋稱,一方面是比特幣挖礦難度上升,其他因素包括Terra Pool上的算力產生的比特幣比前幾個月低得多,得克薩斯州的高溫導致能源需求增加和電價上漲等。截至2022年5月31日,Argo Blockchain共持有2379枚比特幣,其中187枚為比特幣等價物。[2022/6/7 4:08:43]

大型語言模型使用強化學習(reinforcement learning,RL)來進行微調。強化學習是一種基于獎勵系統的反饋驅動的機器學習方法。代理(agent)通過完成某些任務并觀察這些行動的結果來學習在一個環境中的表現。代理在很好地完成一個任務后會得到積極的反饋,而完成地不好則會有相應的懲罰。像 ChatGPT 這樣的 LLM 表現出的卓越性能都要歸功于強化學習。

射擊游戲Warrior Alliance集成Chainlink VRF v2和Chainlink Keepers:據官方消息,AAA第三人稱射擊游戲Warrior Alliance在以太坊主網上集成Chainlink可驗證隨機函數(VRF)v2和Chainlink Keepers。

Warrior Alliance正在使用Chainlink VRF v2以防篡改的方式幫助隨機分配補給箱獎勵,而Chainlink Keepers被用于批量鑄造補給箱以降低Gas成本。[2022/5/7 2:57:44]

ChatGPT 使用來自人類反饋的強化學習(RLHF),通過最小化偏差對模型進行微調。但為什么不是監督學習(Supervised learning,SL)呢?一個基本的強化學習范式由用于訓練模型的標簽組成。但是為什么這些標簽不能直接用于監督學習方法呢?人工智能和機器學習研究員 Sebastian Raschka 在他的推特上分享了一些原因,即為什么強化學習被用于微調而不是監督學習。

瑞士加密交易所SIX Digital Exchange成功發行規模約1.62億美元的全球首筆數字債券:11月19日消息,瑞士主要證券交易所運營商 SIX Group 旗下數字資產子公司 SIX Digital Exchange (SDX)宣布成功發行全球首筆數字債券,總規模為 1.5 億瑞士法郎(約合1.62 億美元),這是一筆于2026 年到期的高級無擔保數字瑞士法郎債券。報道稱,此次發行是世界上第一次在完全監管的環境中發行純數字部分的債券,獲得了數次超額認購,并吸引了瑞士廣泛的機構投資者群體的濃厚興趣。瑞士信貸、瑞銀投資銀行和 Zürcher Kantonalbank 擔任本次債券發行的聯席牽頭經辦人。SDX 使用 R3 提供的許可 Corda 架構構建,并作為數字資產的集成交易、結算和托管基礎設施運行。SIX 全球市場主管 Thomas Zeeb 表示:“SIX Digital Exchange 首次發行代幣化債券及其在市場上的上市和配售證明,分布式賬本技術(DLT)在高度監管的資本市場中也非常有效”。(coindesk)[2021/11/19 6:59:02]

動態 | 數字貨幣教父David Chaum公布一種可以抵抗量子計算機攻擊的新型加密貨幣:據Cointelegraph消息,eCash創始人,數字貨幣教父David Chaum公布了一種新型加密貨幣產品Praxxis,他表示這種貨幣可以抵抗量子計算機的攻擊。[2019/8/21]

不使用監督學習的第一個原因是,它只預測等級,不會產生連貫的反應;該模型只是學習給與訓練集相似的反應打上高分,即使它們是不連貫的。另一方面,RLHF 則被訓練來估計產生反應的質量,而不僅僅是排名分數。

Sebastian Raschka 分享了使用監督學習將任務重新表述為一個受限的優化問題的想法。損失函數結合了輸出文本損失和獎勵分數項。這將使生成的響應和排名的質量更高。但這種方法只有在目標正確產生問題-答案對時才能成功。但是累積獎勵對于實現用戶和 ChatGPT 之間的連貫對話也是必要的,而監督學習無法提供這種獎勵。

不選擇 SL 的第三個原因是,它使用交叉熵來優化標記級的損失。雖然在文本段落的標記水平上,改變反應中的個別單詞可能對整體損失只有很小的影響,但如果一個單詞被否定,產生連貫性對話的復雜任務可能會完全改變上下文。因此,僅僅依靠 SL 是不夠的,RLHF 對于考慮整個對話的背景和連貫性是必要的。

監督學習可以用來訓練一個模型,但根據經驗發現 RLHF 往往表現得更好。2022 年的一篇論文《從人類反饋中學習總結》顯示,RLHF 比 SL 表現得更好。原因是 RLHF 考慮了連貫性對話的累積獎勵,而 SL 由于其文本段落級的損失函數而未能很好做到這一點。

像 InstructGPT 和 ChatGPT 這樣的 LLMs 同時使用監督學習和強化學習。這兩者的結合對于實現最佳性能至關重要。在這些模型中,首先使用 SL 對模型進行微調,然后使用 RL 進一步更新。SL 階段允許模型學習任務的基本結構和內容,而 RLHF 階段則完善模型的反應以提高準確性。

DeFi之道

個人專欄

閱讀更多

金色財經 善歐巴

金色早8點

Odaily星球日報

歐科云鏈

Arcane Labs

MarsBit

深潮TechFlow

BTCStudy

澎湃新聞

Tags:CHAChainHAIAINculturechainGAE ChainAvocado Blockchain Groupydsblockchain

ADA
區塊鏈:盤點近期ZK賽道重點融資項目:ZK-VM將如何構建Web3的未來_WEXPOLY幣

作者:李科 去年以來ZK賽道受到了大家的廣泛關注,特別是采用ZK-EVM技術的Starknet、zkSync、Polygon EVM、Scroll等明星項目成為大家談論最多的話題.

1900/1/1 0:00:00
EFI:DeFi 3.0展望:哪些加密項目將引領DeFi 3.0_DEF

文/Jack Niewold,Crypto Pragmatist創始人;譯/金色財經xiaozou DeFi 1.0塑造了DeFi的支柱:AAVE、COMP、UNIDeFi 2.0被欺.

1900/1/1 0:00:00
WEB:從世界大會看Web3前景_區塊鏈

2023年世界經濟論壇年會于2023年1月16日至20日在達沃斯舉行,這是世界經濟論壇時隔三年回歸線下。與1971年達沃斯論壇第一次舉辦時相比,如今達沃斯的雪量已經減少了40%以上.

1900/1/1 0:00:00
NBS:被“低估的”雄心 解讀香港加密貨幣咨詢文件 三大挑戰尚存_BSPAY幣

作者 :特約研究員 William 吳說授權發布 2023 年 2 月 20 日.

1900/1/1 0:00:00
ETH:一文梳理9個潛力協議 LSD市場爭奪戰開啟_BSPAY

上海升級將釋放價值超過 270 億美元的 ETH,這意味著 LSD 市場的爭奪戰已經開始,它們將圍繞提供最高 APR 展開.

1900/1/1 0:00:00
加密貨幣:TaxDAO 熱點問答:挖礦、交易、工資付U會被征稅嗎?_BIT

自我介紹 我是 Liam,在多個行業從事過財務和稅務工作,和社區的交集出現在 2017 年,幾年中在一家高成長的區塊鏈公司負責稅務.

1900/1/1 0:00:00
ads