百度文心大模型4.0爆料:萬卡訓練史上最大參數(shù),最快下周見
IT之家 10 月 9 日消息,昨天,財聯(lián)社爆料稱百度的文心大模型 4.0 正在加緊訓練,已經(jīng)接近可發(fā)布狀態(tài)。今天,IT之家也扒到了更多關于文心 4.0 的消息,涉及了底層架構、基礎設施、訓練數(shù)據(jù)集、成本等關鍵信息。
先說核心結論:
1、昨天的爆料基本屬實。目前了解到,文心大模型 4.0 實際上已經(jīng)在小流量測試。
2、文心 4.0 參數(shù)量大于所有已公開發(fā)布參數(shù)的 LLM,也是國內(nèi)首次使用萬卡集群訓練的大模型。
3、推理成本相比文心 3.5 增加很多,據(jù)傳大概是 810 倍。(大模型真的很費錢)
接下來我們看看爆料的細節(jié)。
根據(jù)IT之家拿到的消息,文心大模型 4.0 的參數(shù)規(guī)模要大于目前所有公開發(fā)布參數(shù)的 LLM,這意味著文心大模型 4.0 的參數(shù)規(guī)模預計能突破萬億級別。
單看這個參數(shù)量,很多人會覺得還好,畢竟根據(jù)目前揭秘的信息,GPT4 的參數(shù)量已經(jīng)在 1.8 萬億左右。但爆料人進一步表示,文心大模型 4.0 仍然是一個單一模型,并沒有采用 GPT 和很多其他大語言模型使用的混合專家模型(MoE)。

之前“天才黑客”喬治?霍茲就爆料,GPT4 之所以采用混合模型,是因為無法讓模型的參數(shù)規(guī)模超過 2200 億。OpenAI 希望模型變得更好,但如果僅僅是訓練時間更長,效果已經(jīng)遞減。
所以,如果百度能實現(xiàn)單一模型上的突破,模型能力是否也會有明顯的提升,這個只能等真正發(fā)布之后來看了。
這么大參數(shù)量的模型,對算力要求注定不會小。現(xiàn)在的消息是,文心 4.0 是在萬卡 AI 集群上訓練出來的,應該也算上是國內(nèi)首次使用萬卡規(guī)模集群進行訓練的大語言模型。
萬卡集群什么概念,國內(nèi)目前只有華為、阿里透露已建成萬卡 AI 集群,但我們都沒看到基于它推出的具體模型。
這說明,萬卡集群就不容易建了,如果用起來發(fā)揮最大化作用則更難了。據(jù)分析正是因為飛槳的深度聯(lián)合,才能基于萬卡集群訓練起如此規(guī)模的模型。
不僅訓練成本在增加,文心 4.0 的推理成本也被爆比 3.5 增加很多,IT之家還沒拿到具體每千 token 的推理成本,但據(jù)傳大概是此前的 810 倍,這還是在高利用率(MFU)的情況下。如果利用率更低,估計成本還會繼續(xù)增加。
最后,根據(jù)內(nèi)部員工的說法,百度實際上已經(jīng)開始秘密小流量測試文心大模型 4.0,有小部分文心一言用戶在使用的已經(jīng)是最新的模型版本,最快下周就會官方公布。
不少人認為這個說法比較靠譜,也可以從最近技術社區(qū)上的一些爆料上看出一點端倪。說不定,你現(xiàn)在在文心一言上提問,用的就是文心大模型 4.0 了。不知道生成的結果是否能跟 GPT4 一戰(zhàn)。
IT之家再次強調,以上并非官方確認的信息,大家自行判斷其準確性。
- lg洗衣機24小時服務電話06-28
- 1容聲冰箱故障代碼f8(容聲冰箱故障代碼F8的原因及解決方法)
- 2全自動洗衣機按鍵圖解(如何正確使用洗衣機)
- 3佳家利保險柜售后服務中心(佳家利保險柜售后服務中心卓越服務)
- 4常州自來水24小時服務熱線(如何聯(lián)系并解決水務問題)
- 5tcl空調網(wǎng)怎么拆(tcl空調網(wǎng)拆解攻略)
- 6海爾熱水器故障代碼F9(解讀海爾熱水器故障代碼F9)
- 7星月神防盜門沒電打不開怎么辦(星月神防盜門沒電打不開怎么辦)
- 8熱水器10年以上不建議清洗(為什么?有哪些風險?)
- 9三星冰箱冷藏室風扇拆裝視頻(如何正確操作)
- 10東控防盜門24小時售后客服熱線(東控防盜門24小時售后客服熱線,您身邊的安心
-
臺風“蝴蝶”已加強為強熱帶風暴級 向海南島南部沿海靠近
2025-06-12
-
“李小龍”61.2萬拍下尾號0000000手機號
2025-06-12
-
《哪吒2》曲目制作人唐漢霄回應揭榜歌手:有點緊張,想探索“歌紅人不紅”
2025-06-12
-
空調故障代碼23(空調故障代碼23解析)
2025-06-07
-
海爾洗衣機故障代碼f3(海爾洗衣機故障代碼f3解讀)
2025-06-07


