引子
今天上午正在日常搬磚,突然各路信息席卷而來:“趕緊的,GPT-4模型構架泄露啦,國產大模型要再次超越啦!”。打開社媒一看,好么,都不用會英語,國內的人翻機翻都已經上線了,這速度,我是真的服氣。但是,等我去追根溯源,看看信息道理有幾分靠譜的時候,我突然就有把科技圈逛出了娛樂圈的感覺。我覺得這事兒最有意思的可能還不是爆的料,反而是爆料的這不到24小時發生的這些事。如果再結合前面OpenAI搞得幾個大新聞,還確實有點意思。
鑒于目前“FakeNews”滿天飛的互聯網現狀,我看到這個消息后,干的第一件事就是追本溯源。爆料誰都可以,前面打車的時候司機師傅還給我爆料ChatGPT是外星科技了,我就一點都沒信。現在所謂的“外媒”一爆料我就直接信了,那未免還是對司機師傅有點不尊重了。
來龍去脈
我信息挖掘的起點是HackerNews上發表的這篇文章《GPT-4'sdetailsareleaked.Itisover.》。我點進去發現并非原文,而是一個ThreadReader。所以我就又順藤摸瓜,找到了這些Twitter的發布人—YamPeleg。
其實我Twitter上知道的人并不多,但是這老哥我還真看過他以前的文章。他是以色列一個創業公司的CEO,本人工程經歷豐富,很懂LLM。曾經嘗試反向破解過GPT-4和ChatGPT代碼解釋器。六月OpenAI訪問以色列的時候,他還去參加座談溝通了,并且還和SamAltman合影了。讀這老哥的文章,我就禁不住想起來當面在以色列時候的當地的學生聯絡員Tom,隨便說點啥都能給你搞得熱血沸騰的。這老哥一直在研究OpenAI,也認識OpenAI內部很多人,所以他如果得到了點啥內部消息,我覺得可信度其實還挺高的。
Bitbns CEO承認交易所在去年2月遭黑客攻擊,但未證實被盜金額:3月2日消息,印度加密交易所Bitbns首席執行官Gaurav Dahake昨日在AMA會議上承認,該交易所確實在13個月前遭到了黑客攻擊。但Dahake聲稱,該系統離線是為了分析異常情況,并不是為了隱藏黑客行為。他還表示,在此類事件發生后,交易所會改善其安全系統,Bitbns在攻擊發生后的13個月里一直“無縫”運行。不過Dahake還是沒有證實該交易所在攻擊中被盜的資產數量。
昨日消息,ZachXBT表示,加密交易所Bitbns隱瞞了去年2月份750萬美元黑客攻擊事件。[2023/3/2 12:38:39]
但是!等我晚上準備去仔細研讀下他發的東西的時候,突然發現,他把前面發的都刪了。說是因為版權問題,本來我以為是被OpenAI捂嘴了,還慶幸自己留了檔。后面仔細一看,發現不是因為OpenAI的版權,而是因為另外一個付費專欄的版權。
原來Yam老哥并不是原創,而是看了SemiAnalysis的付費專欄文章《GPT-4Architecture,Infrastructure,TrainingDataset,Costs,Vision,MoE》,然后把里面的一些核心信息加上自己的理解共享出來了。所以其實真正的信息源是SemiAnalysis。所以我又收集了下SemiAnalysis的信息。
BNB Chain 擬開啟鏈上投票以確定四項行動,并引入新的鏈上治理機制:10月7日消息,BNB Chain 發文《BNB Chain Ecosystem Update》,稱接下來將有鏈上治理投票,以確定以下四項行動,以維護 BNB 的共同利益:如何處理被黑客入侵的資金,凍結或不凍結?是否使用 BNB 自動燃燒來覆蓋剩余的被黑資金?一個白帽子計劃,用于將來發現的漏洞,每個發現的重大漏洞 100 萬美元;抓捕黑客的賞金,高達回收資金的 10%。BNB Chain 驗證節點投票功能將在未來幾天通過 BNB 信標鏈升級開啟,新的鏈上治理機制將在 BNB Chain 上引入,以對抗和防御未來可能的攻擊。[2022/10/7 18:42:04]
SemiAnalysis是一個精品半導體研究和咨詢公司,專注于從化學原料到晶圓廠到設計IP和戰略的半導體供應鏈。它由DylanPatel創辦,他是一位有著多年半導體行業經驗的分析師和工程師。他曾在英特爾、AMD、高通等公司擔任過不同的角色,從設計工程師到市場營銷經理。SemiAnalysis的團隊還包括GeorgeCozma,GeraldWong,MyronXie,AfzalAhmad,AleksandarKostovic,SophiaWisdom等多位專業的半導體分析師和咨詢顧問。他們各自有著不同的專長領域,如AI、云計算、網絡、存儲、電動汽車、射頻、物聯網等。他們為客戶提供了從化學原料到晶圓廠到設計IP和戰略的全方位的半導體供應鏈分析和咨詢服務。
一款獲得Ape授權的限量版腕表在新加坡鐘表展上亮相:9月15日消息,一款帶有BAYC #5637的限量版腕表將在10月26日至30日舉行的新加坡鐘表展上亮相,該腕表將由俄羅斯獨立制表品牌Konstantin Chaykin與制表商Culture Watches合作生產。(美通社)[2022/9/15 6:58:50]
前面那篇著名的谷歌內部泄密文章《Google"WeHaveNoMoat,AndNeitherDoesOpenAI"》就是他們爆出來的,這篇文章后面被證實為真。這樣看來,DylanPatel老哥可能確實有些內線,他們給出的信息可信度應該還是可以的。當然,我也發現了他們為啥這么急著讓Yam老哥刪推,因為這些“內部信息”確實價值不菲,訂閱SemiAnalysis的付費文章,一年要500美刀。Yam老哥訂閱的精英版更是要1000美刀。
爆料分析
講清楚了來龍去脈,我們可以得到一個基礎結論,就是這個爆料還是有一定的可信性的。然后,我又根據爆料的內容以及前面獲得的其他爆料信息,綜合分析了下。這里還是先給大家說結論:
爆料可信度較高。本次爆料的來源有一定可信度,爆料的內容和前期已經披露的內容也基本都能吻合。所以我傾向于爆料的大部分內容都是來自OpenAI的泄漏,有真實的事實基礎,但是給出的數據未必一定準確。畢竟,也不是所有人都能夠獲得詳細準確的內部數據,但是應該不會偏差太多。爆料對于私有模型有一定意義,對于開源模型意義有限。這次爆料的主要亮點對開源社區的影響可能并不會太大。影響最大的MoE其實已經被爆料過了,目前應該已經有相關的開源模型在路上。除此之外其他的爆料亮點都主要是利好其他私有模型競爭對手,例如比較準確的模型大小、并行策略、模型構架以及多模態構架等。具體我們后面具體分析。個人的奇怪推論。說實話,這個時間點的爆料不得不讓我覺得有點奇怪,感覺DylanPatel老哥有一種在幫openAI官方爆料的感覺。結合我這篇文章更是覺得事有蹊蹺。要知道,如果這篇爆料文章早一個禮拜發,大家甚至是可以通過ChatGPT的搜索模式直接白嫖文章內容的。咋給我一種,為了讓他們能夠安心的爆料自己,OpenAI特意把ChatGPT的搜索模式都關閉了的感覺。當然,我這個猜測是毫無根據的,這樣做確實也對OpenAI沒有任何好處。所以,獲取是我多想了,就是趕巧了而已。對于爆料原文感興趣的可以看我最前面貼的HackerNews的文章,少了些邏輯和修辭,和付費的原文的核心內容是一樣的。沒耐心一點點鉆原文的,我這邊直接給大家總結幾條要點。
Pudgy Penguins宣布為NFT持有者空投靈魂綁定代幣truePengu:7月23日消息,NFT項目Pudgy Penguins(胖企鵝)宣布將在該項目誕生1周年之際,為其NFT持有者空投靈魂綁定Token truePengu。據悉,truePengu是ERC1155 Token,不可交易,NFT持有者根據其持有的NFT被分類為不同的類別,并收到各自的truePengu。
據官方消息,快照時持有同一ID的Pudgy Penguin、Lil Pudgy以及Pudgy Rod NFT的用戶將被空投Ice truePengu靈魂綁定Token。快照時持有Pudgy Penguin和Lil Pudgy的用戶將被空投Iridescent truePengu。快照時持有Pudgy Penguin的用戶將被空投Gold truePengu。以上指標不可疊加,每位用戶僅可按照最高規格獲得一枚靈魂綁定Token(該快照于2022年7月22日美國東部標準時間0點拍攝。)[2022/7/23 2:32:37]
爆料參數整理
這次爆料的一個亮點就是給出了GPT-4的部分明確參數,這些參數前面有過很多猜測,但是官方一直都沒有披露,提到的時候都說的很模糊。這些參數包括:
模型參數量:1.8兆,比GPT-3.5大10倍左右。模型層深:120層。模型構架:混合專家模型,一共16個專家,每個專家1110億參數量。每次向前傳遞選擇兩個專家。訓練數據:共13兆數據。文本數據被重復訓練了2次,代碼數據被重復訓練了4次。這個數據其實挺重要的,后續具體分析。并行策略:8路張量并行+15路管道并行。預訓練上下文:8K。32K版本是在8K基礎上微調的。我的推論1:GPT-5會是一個全新構架的多模態LLM
上海發布元宇宙等四個“新賽道”投資促進方案:6月16日消息,6月16日,2022上海全球投資促進大會暨“潮涌浦江”投資上海全球分享季啟動儀式在上海舉行。大會集中發布了元宇宙、綠色低碳、智能終端、數字經濟四個“新賽道”的投資促進方案。上海市經濟信息化委總工程師張宏韜在儀式后的新聞通氣會上表示,預計到2025年,全市綠色低碳產業規模力爭突破5000億元,元宇宙產業規模突破3500億元,智能終端產業規模突破7000億元。[2022/6/16 4:31:18]
GPT-4是一個由16個專家模型組成的MoE。每個專家1110億參數量。每次向前傳遞選兩個專家。然后注意力機制共享550億參數。所以,每次推理的時候,事實上耗費的參數量約為2800億。這個數字也和前期很多學者預測的類似。
訓練數據上面寫了,我就不復述了。這里強調下,文本和代碼數據都是被重復訓練了的。再結合MoE構架,我個人猜測:要么目前可以比較方便獲取的高質量文本數據已經接近枯竭要么無限制得增大數據量對LLM性能得提升已經非常有限了。但是,無論是哪一種,我們都可以推斷,下一步的GPT-5一定會是基于多模態數據的。GPT-5想要有大的性能突破,就必須能夠充分利用現存的大量視頻、圖片以及音頻數據。
但是,根據這次的爆料,OpenAI目前的視覺多模態并沒有太多的過人之處。它是一個獨立的視覺編碼器,與文本編碼器分開,但存在交叉注意力。它就是在文本預訓練后,進行了約2萬億個Token的微調。這種模式明顯無法充分利用已有的視頻、圖片以及音頻數據。
所以,前面OpenAI一直強調的沒有在訓練GPT-5大概率是真話。因為他們在訓練GPT-5之前找到一個更好的多模態模型構架,讓模型可以充分的利用音視頻數據。只有能夠利用這些優質的訓練數據,GPT-5才有可能獲得足夠的能力提升。同時,如果GPT-5真的能夠充分利用這些音視頻數據的話,那不管是AGI還是OpenAI最近提出的超智體,似乎確實也沒那么遙遠了。
我的推論2:私有模型的競爭將集中在并行能力上
根據此次爆料,目前如果要訓練一個GPT-4競品,按照使用約8,192個H100芯片來估算,以每小時2美元的價格,在約55天內可以完成預訓練,成本約為2150萬美元。這個成本對于目前波濤洶涌的LLM市場來說,真的不算大。國內目前的主要玩家都可以比較輕松的承擔數次訓練。所以,這次說真的,再過半年模型能力對標GPT-4可能真的不是吹牛逼。
如果訓練成本不是問題,那么訓練數據會不會成為問題呢?目前看來也不會。GPT-4的訓練數據共13兆。這個規模并不是特別夸張,且它的很多數據來源國內也可以獲取,再加上國內本身也積累了很多中文資源,所以訓練數據也應該問題不大。
其他的類似預訓練、微調以及中文編解碼等問題,其實也不存在太多的技術秘密,方法還是比較公開的。給足夠的資源,半年時間應該都可以解決。
所以,最后剩下的就是并行能力了。其實這次爆料里面用了極大的篇幅去介紹相關的內容,專業程度還是比較高的。這里我就不具體展開說了,總體來說,就是你有了大模型,如何以最低的成本讓最多的人同時使用。這里面涉及到很多專業的設計問題,在運算資源固定的情況下,應該如何分配不同環節的運算資源?如何處理并發?如何管理內存?
當大家的模型能力都大差不差的時候,那個模型好用,不就取決于用戶體驗了么!并行處理的能力,就直接決定了用戶體驗。目前GPT3.5已經做到了無論是ChatGPT還是API都非常絲滑了,這是非常厲害的。這里大家可能會說,我體驗的其他國產LLM或者Claude都比GPT3.5還快啊。但是,大家沒有考慮使用的量級問題,GPT3.5在這么高的并發下有這樣的性能,其他的廠商如果匹配不了OpenAI的這個能力,也就沒能力來搶OpenAI的市場。
所以,并行能力可能會成為各路OpenAI競爭對手的角逐重點之一。
我的推論3:OpenAI可能是有意放出的本次爆料
這個推論就完全是個人的瞎猜了。事實根據不足,大家看看就好。
OpenAI很清楚GPT-4的護城河并不高,即使現在OpenAI已經不open了,但是在這種熱潮中,競爭對手迎頭趕上也并不困難。并且,他們現在的多模態大模型構架應該還沒有搞定,這個時候如果有新的玩家上來就從多模態開始搞,OpenAI被彎道超車的概率也是很大的。所以這可能是OpenAI的緩兵之計,我就給你們透露一些GPT-4的信息,讓頭部的玩家都先去做GPT-4的復刻工作,把OpenAI已經走過的路也再走一遍。
如果在這個過程中,OpenAI給GPT-5的訓練打好了基礎,完成了多模態大模型的前期攻關,即使GPT-4已經被其他的大語言模型超越,OpenAI也有恃無恐了。個人認為,多模態很可能就是人卷人的最后一代了。后面的模型開發和演進說不定就以AGI為主力了,也就是說,這次贏了,可能就贏到最后了。
結語
本次的爆料絕對是GPT-4發布以來最大的瓜。但是,我并不是很推薦大家去研究這次的爆料內容,大家看看別人的總結就好了。爆料的很多內容看起來還是比較費勁的,并且費半天勁看懂了也沒用,懂了你也沒法實踐,白懂。
不知不覺又碼了這么多字,能看到這里的都是真愛,看完留個記號再走吧,您的支持就是對我最大的鼓勵~
博覽AI的奧秘,博學AI的知識,博交AI的朋友,我是博而不士,歡迎加入我的AI探索之旅。關注我,一起玩轉AI。
推薦閱讀:
Claude:無需魔法、完全免費、GPT3.5的最佳國內替代「一文說清」
“富士康退出與印度公司設立合資企業的計劃,打擊印度總理莫迪的芯片制造雄心”——路透社11日稱。前一天,臺灣科技企業富士康宣布退出與印度礦業集團韋丹塔成立的價值195億美元的半導體合資企業.
1900/1/1 0:00:00據新華社,記者11日從中國工商銀行(阿根廷)股份有限公司(工銀阿根廷)了解到,該行當天成功開立了首個人民幣銀行賬戶.
1900/1/1 0:00:00《科創板日報》7月11日每個名震天下的科技大佬,或多或少都有自己的“執著”。扎克伯格“ALLIN”元宇宙,馬斯克“死磕”火星殖民與腦機接口,黃仁勛“撒網”AI,OpenAI創始人山姆·奧特曼也悄.
1900/1/1 0:00:006.30日晚間美國SEC:比特幣現貨ETF的申請文件不足,退回了申請文件,之后可以更新重新申報。加密市場應聲跳水.
1900/1/1 0:00:00圖為6月30日在阿根廷首都布宜諾斯艾利斯拍攝的阿根廷中央銀行。馬丁·薩巴拉攝目前,人民幣已成為阿根廷重要的計價、結算、交易和儲備貨幣之一.
1900/1/1 0:00:00作者|丁臻宇,編輯|wjx來源:巨豐投顧、好股票應用 熱點: 1、一體化壓鑄領域重磅盛會即將舉辦今年望成為我國一體化壓鑄集中量產年據報道.
1900/1/1 0:00:00