ChatGPT引爆的AI熱潮也“燒到了”金融圈,彭博社重磅發布為金融界打造的大型語言模型——BloombergGPT。
3月30日,根據彭博社最新發布的報告顯示,其構建迄今為止最大的特定領域數據集,并訓練了專門用于金融領域的LLM,開發了擁有500億參數的語言模型——BloombergGPT。
報告顯示,該模型依托彭博社的大量金融數據源,構建了一個3630億個標簽的數據集,支持金融行業內的各類任務。該模型在金融任務上的表現遠超過現有模型,且在通用場景上的表現與現有模型也能一較高下。
一般來說,在NLP領域,參數數量和復雜程度之間具有正相關性,GPT-3.5模型的參數量為2000億,GPT-3的參數量為1750億。
《“十四五”國家信息化規劃》:綜合運用區塊鏈等技術打造多層次、廣覆蓋的金融服務新模式:12月28日消息,近日,中央網絡安全和信息化委員會印發《“十四五”國家信息化規劃》,對我國“十四五”時期信息化發展作出安排部署。《“十四五”國家信息化規劃》提出,提升金融服務百姓民生水平。綜合運用區塊鏈、5G、邊緣計算等技術打造多層次、廣覆蓋的金融服務新模式,推動數字融資、數字函證等不斷成熟完善,提高金融服務的觸達能力。增強金融有效支持實體經濟能力。支持市場主體運用數字技術重構金融服務流程,在保障數據安全和個人隱私前提下,深化跨行業金融數據資源開發利用。[2021/12/28 8:08:48]
關于BloombergGPT
報告指出,研究人員利用彭博社現有的數據,對資源進行創建、收集和整理,通過構建迄今為止最大的特定領域數據集來完成BloomberGPT,并基于通用和金融業務的場景進行混合模型訓練:
德勤調查:超四分之三的英國金融公司認為在未來5至10年內,數字資產將成為法定貨幣的替代品:9月13日消息,德勤最近的一項調查發現,超過四分之三的英國金融公司認為,在未來5至10年內,數字資產將成為法定貨幣的替代品,甚至取代法定貨幣。(Finextra)[2021/9/13 23:21:21]
彭博社主要是一家金融數據公司,數據分析師在公司成立的四十年的時間里收集了大量的金融文件,擁有廣泛的金融數據檔案,涵蓋了一系列的主題。
我們將這些數據添加到公共數據集中,以創建一個擁有超過7000億個標簽的大型訓練語料庫。
使用這個訓練語料庫的一部分,我們訓練了一個具有彭博風格的,達500億參數的模型,該模型是根據Hoffmann和LeScao等人的指導方針設計,基于通用和金融業務的場景進行混合模型訓練。
信通院何寶宏:金融仍然是區塊鏈第一大應用場景:10月24日,中國信息通信研究院云計算與大數據研究所所長何寶宏在由中共中央黨校出版社與中國信息通信研究院聯合主辦的“打造區塊鏈新引擎助力產業新升級論壇暨《讀懂區塊鏈》新書發布會”上表示,在推動區塊鏈產業的發展,尤其是推動區塊鏈在數字代幣以外領域的應用,政策進入密集跟產業推動發展的新的歷史階段,政策也在根據市場的變化不斷調整。金融仍然是區塊鏈第一大應用場景。政務應用也在快速發展。這一年的變化主要表現在以下幾個方面:1.論文量持續上升,生態穩步構筑;2.投融資整體回落 我國區塊鏈企業規模總體趨穩;3.區塊鏈技術架構保持穩定,步入技術優化改進期;4.區塊鏈賦能實體經濟的4大場景。最后,何寶宏指出,區塊鏈在技術方面及應用方面都取得了長足的發展,但是也看到還有很多問題期待行業共同努力解決。(人民網)[2020/10/26]
結果表明,我們的混合訓練方法使我們的模型在金融任務上的表現大大超過了現有的模型,而在通用場景上的表現則與之相當甚至優于現有模型。
受近期全球金融市場走低的影響 幣價或將以恐慌性波動為主:據Bgain Digital投研數據:截止北京時間2020年3月18日18:00點,BTC價格24小時內以震蕩為主,最大波動500美元,波動較前幾日有所減弱,受到全球金融市場走低的影響,未來幣價或將以恐慌性波動為主。[2020/3/18]
1.BloombergGPT優勢:特定領域模型仍有其不可替代性且彭博數據來源可靠
在論文中,彭博社指出,現階段,通用的自然語言處理模型可以涵蓋許多領域,但針對特定領域模型仍有其不可替代性,因彭博社的大多數應用均為金融領域,著手構建了一個針對金融領域的模型尤其優勢,同時可以在通用LLM基準測試上保持競爭力:
動態 | 比利時金融服務和市場管理局更新欺詐性加密網站黑名單:據financemagnates報道,比利時金融服務和市場管理局(FSMA)將14個公司加入黑名單,現在,黑名單中共有113個加密網站。FSMA表示,這些加密公司聲稱有專家管理投資,資金可以隨時撤回,但是,受害者最終發現無法收回自己的錢。[2018/12/18]
除了構建金融領域的LLM外,本文的經驗也為其他研究領域的專用模型提供了參考。我們的方法是在特定領域和一般數據源上訓練LLM,以開發在特定領域和通用基準上表現優異的模型。
此外,我們的訓練數據不同于傳統的網絡爬取數據,網絡上的數據總有重復和錯誤,但我們的數據來源可靠。
2.BloombergGPT的訓練數據集:
BloombergGPT的訓練數據庫名為FINPILE,由一系列英文金融信息組成,包括新聞、文件、新聞稿、網絡爬取的金融文件以及提取到的社交媒體消息。
為了提高數據質量,FINPILE數據集也使用了公共數據集,例如ThePile、C4和Wikipedia。FINPILE的訓練數據集中大約一半是特定領域的文本,一半是通用文本。為了提高數據質量,每個數據集都進行了去重處理。
對金融領域的理解更準
報告指出,在金融領域中的自然語言處理在通用模型中也很常見,但是,針對金融領域,這些任務執行時將面臨挑戰:
以情感分析為例,一個題為“某公司將裁員1萬人”,在一般意義上表達了負面情感,但在金融情感方面,它有時可能被認為是積極的,因為它可能導致公司的股價或投資者信心增加。
報告指出,從測試來看,BloombergGPT在五項任務中的四項表現最佳,在NER中排名第二。因此,BloombergGPT有其優勢性。
測試一:ConvFinQA數據集是一個針對金融領域的問答數據集,包括從新聞文章中提取出的問題和答案,旨在測試模型對金融領域相關問題的理解和推理能力。
測試二:FiQASA,第二個情感分析任務,測試英語金融新聞和社交媒體標題中的情感走向。
測試三:標題,數據集包括關于黃金商品領域的英文新聞標題,標注了不同的子集。任務是判斷新聞標題是否包含特定信息,例如價格上漲或價格下跌等。
測試四:FPB,金融短語庫數據集包括來自金融新聞的句子情緒分類任務。
測試五:NER,命名實體識別任務,針對從提交給SEC的金融協議中收集金融數據,進行信用風險評估。
對于ConvFinQA來說,這個差距尤為顯著,因為它需要使用對話式輸入來對表格進行推理并生成答案,具有一定挑戰性。
ChatGPT為彭博點贊
華爾街見聞就這個問題專門詢問了ChatGPT,ChatGPT認為BloombergGPT是一項很有意義的技術進步:
它是專門為金融領域開發的一種語言模型,可以更好地處理金融領域的數據和任務,并且在金融領域的基準測試中表現出色。
這將有助于金融從業者更好地理解和應用自然語言處理技術,促進金融科技的發展。同時,BloombergGPT還可以為其他領域的語言模型的發展提供參考和借鑒。總的來說,BloombergGPT是一個有益的技術創新。
據《華爾街日報》報道,作為7000人裁員計劃的一部分,迪士尼公司已經解散旗下的元宇宙部門。首席執行官RobertIger周一表示,迪士尼的裁員將于本周開始以控制成本并發展“精簡”業務,而元宇宙部.
1900/1/1 0:00:00編譯:比推BitpushNewsMaryLiu在兩家對加密友好的大型銀行SignatureBank和SilvergateCapital倒閉后,一些小型區域銀行正在為尋求服務的加密公司敞開大門.
1900/1/1 0:00:00BTC突如其來的上漲打亂了許多投資者的陣腳,在懊悔踏空之余,大家又開始思考:比特幣今年還會上漲嗎?2022年底市場進入深熊以來,人們對下一輪市場周期的預期大都放在了2024年比特幣減半之際.
1900/1/1 0:00:00編輯:YuanShan@Web3CN.Pro這兩天GPT-4的到來,再次成為朋友圈及媒體熱議的話題。此次升級、更新讓大家看到了AI給科技和社會帶來的潛在挑戰性甚至革命性.
1900/1/1 0:00:00作者寄語: (1)Arbitrum基金會和DAOGovernance為ArbitrumOne和ArbitrumNova網絡啟動.
1900/1/1 0:00:00摘要 RadiantCapital最近的表現相當亮眼,在Aribitrum空投后,$RDNT的價格猛漲了一波,TVL更是直線上升,從年初的2,000多萬上漲到1億多.
1900/1/1 0:00:00