來源:量子位
作者:蕭簫
大模型們胡說八道太嚴重,英偉達看不下去了。
他們正式推出了一個新工具,幫助大模型說該說的話,并回避不應該觸碰的話題。
這個新工具名叫“護欄技術”,相當于給大模型加上一堵安全圍墻,既能控制它的輸出、又能過濾輸入它的內容。
一方面,用戶誘導大模型生成攻擊性代碼、輸出不道德內容的時候,它就會被護欄技術“束縛”,不再輸出不安全的內容。
另一方面,護欄技術還能保護大模型不受用戶的攻擊,幫它擋住來自外界的“惡意輸入”。
MEV機器人使用USDC等5種加密貨幣獲利3719美元:5月6日消息,據EigenPhi MEV Alert監測,MEV機器人使用5種加密貨幣(USDC、FRAX、ETH、WETH、USDT)通過Arbitrage形式獲利3719美元,ROI達2481%。[2023/5/7 14:47:37]
現在,這個大模型護欄工具已經開源,一起來看看它的效果和生成方法。
防止大模型胡言亂語的三類“護欄”
根據英偉達介紹,目前NeMoGuardrails一共提供三種形式的護欄技術:
話題限定護欄、對話安全護欄和攻擊防御護欄。
?IMF:加密貨幣不應被授予法定貨幣地位,需要聯合監管框架:金色財經報道,國際貨幣基金組織提出,為維護貨幣主權和穩定,加密資產不應被授予官方貨幣或法定貨幣地位。當地時間2月23日,國際貨幣基金組織(IMF)官網發布新聞稿稱,國際貨幣基金組織執行董事會評估了一份名為《加密資產有效政策要素》的文件,并同意該文件中擬議的政策框架及要素。[2023/2/24 12:27:11]
話題限定護欄,簡單來說就是“防止大模型跑題”。
大模型具備更豐富的想象力,相比其他AI更容易完成創造性的代碼和文字編寫工作。
但對于特定場景應用如寫代碼、當客服而言,至少用戶不希望它在解決問題時“脫離目標范圍”,生成一些與需求無關的內容。
馬斯克:推特已控制住開支,但仍不安全:12月26日消息,馬斯克在回復推特用戶時表示,盡管已經控制住了開支,但推特目前還不安全。公司只是沒有走上破產的快車道,但仍有很多工作要做。據此前消息,馬斯克表示一旦找到繼任者便會辭去CEO職務,之后將只會負責管理軟件和服務器團隊。[2022/12/26 22:07:25]
這種情況下就需要用到話題限定護欄,當大模型生成超出話題范圍的文字或代碼時,護欄就會將它引導回限定的功能和話題上。
對話安全護欄,指避免大模型輸出時“胡言亂語”。
成都世乒賽團體賽發行會徽系列數字藏品:金色財經報道,2022年第56屆國際乒聯世界乒乓球團體錦標賽(決賽)·成都(簡稱成都世乒賽團體賽)于9月30日至10月9日在成都舉行。
此次成都世乒賽團體賽發行的數字藏品,由賽事特許授權專款合作商成都造趣文化創意有限公司制作發行。作品以本屆賽事蘊含眾多成都元素的賽事會徽及極具成都特色的大熊貓形象為設計靈感,二次創作出的5個3D立體藏品,分兩期發行,每期僅發行3000個。[2022/10/1 22:44:03]
胡言亂語包括兩方面的情況。
一方面是大模型生成的答案中包括事實性錯誤,即“聽起來很有道理,但其實完全不對”的東西;
另一方面是大模型生成帶偏見、惡意的輸出,如在用戶引導下說臟話、或是生成不道德的內容。
攻擊防御護欄,即防止AI平臺受到來自外界的惡意攻擊。
這里不僅包括誘導大模型調用外部病APP從而攻擊它,也包括黑客主動通過網絡、惡意程序等方式攻擊大模型。護欄會通過各種方式防止這些攻擊,避免大模型癱瘓。
所以,這樣的護欄要如何打造?
如何打造一個大模型“護欄”?
這里我們先看看一個標準的“護欄”包含哪些要素。
具體來說,一個護欄應當包括三方面的內容,即格式規范、消息和交互流。
首先是格式規范,即面對不同問題的問法時,規定大模型要輸出的內容。
例如被問到“XX文章是什么”,大模型必須給出特定類型的“文章”,而非別的東西;被問到“誰發表了什么”,大模型必須給出“人名”,而非別的回答。
然后是消息定義,這里以“用戶問候”話題為例,大模型可以輸出這些內容:
最后是交互流的定義,例如告訴大模型,怎么才是問候用戶的最好方式:
一旦問候用戶的機制被觸發,大模型就會進入這個護欄,規規矩矩地問候用戶。
具體工作流程如下:首先,將用戶輸入轉換成某種格式規范,據此生成對應的護欄;隨后,生成行動步驟,以交互流指示大模型一步步完成對應的操作;最后,根據格式規范生成輸出。
類似的,我們就能給大模型定義各種各樣的護欄,例如“應對用戶辱罵”的護欄。
這樣即使用戶說出“你是個傻瓜”,大模型也能學會冷靜應對:
目前,英偉達正在將護欄技術整合進他們的AI框架NeMo中,這是個方便用戶創建各種AI模型、并在英偉達GPU上加速的框架。
對“護欄”技術感興趣的小伙伴們,可以試一試了~
2023年5月6日,據Beosin-Eagle?Eye態勢感知平臺消息,算法穩定幣DEI項目合約遭受黑客攻擊,黑客獲利約630萬美元。Beosin安全團隊第一時間對事件進行了分析,結果如下.
1900/1/1 0:00:00出品|歐科云鏈研究院?作者|畢良寰 前言 在未來5年中,如果五分之四的人突然失去工作,這將給社會帶來何種影響?在這場科技變革中,美國因其“任性”的監管態度可能會落后于其他國家.
1900/1/1 0:00:00元宇宙可謂2022年科技界的“當紅炸子雞”,引多家科技巨頭“競折腰”。美國《福布斯》雙周刊網站在近日的報道中指出,2030年全球元宇宙的市場規模有望高達5萬億美元,2023年可能是確定其發展方向.
1900/1/1 0:00:00作者:DavidHoffman,Bankless編譯:比推BitpushNewsMaryLiu地平線上似乎出現了一個新的“紀元”.
1900/1/1 0:00:00原文作者:蔣海波,PANews以太坊的質押從?2020?年?11?月開始,直至最近的上海升級才開通贖回功能,隨著質押率的上升,質押收益率也在不斷下降.
1900/1/1 0:00:00將現實生活中的體驗帶入一個全新的維度,ERMLABS專注于將現實生活中的娛樂及冒險體驗以游戲獨特架構設計擴展到元宇宙里.
1900/1/1 0:00:00