當前位置：主頁 > 壁掛爐 > 維修資訊 >

百度文心大模型4.0爆料：萬卡訓練史上最大參數，最快下周見

發布日期：2023-10-09 17:06:26 瀏覽：

IT之家 10 月 9 日消息，昨天，財聯社爆料稱百度的文心大模型 4.0 正在加緊訓練，已經接近可發布狀態。今天，IT之家也扒到了更多關于文心 4.0 的消息，涉及了底層架構、基礎設施、訓練數據集、成本等關鍵信息。

先說核心結論：

1、昨天的爆料基本屬實。目前了解到，文心大模型 4.0 實際上已經在小流量測試。

2、文心 4.0 參數量大于所有已公開發布參數的 LLM，也是國內首次使用萬卡集群訓練的大模型。

3、推理成本相比文心 3.5 增加很多，據傳大概是 810 倍。（大模型真的很費錢）

接下來我們看看爆料的細節。

根據IT之家拿到的消息，文心大模型 4.0 的參數規模要大于目前所有公開發布參數的 LLM，這意味著文心大模型 4.0 的參數規模預計能突破萬億級別。

單看這個參數量，很多人會覺得還好，畢竟根據目前揭秘的信息，GPT4 的參數量已經在 1.8 萬億左右。但爆料人進一步表示，文心大模型 4.0 仍然是一個單一模型，并沒有采用 GPT 和很多其他大語言模型使用的混合專家模型（MoE）。

百度文心大模型4.0爆料：萬卡訓練史上最大參數，最快下周見

之前“天才黑客”喬治?霍茲就爆料，GPT4 之所以采用混合模型，是因為無法讓模型的參數規模超過 2200 億。OpenAI 希望模型變得更好，但如果僅僅是訓練時間更長，效果已經遞減。

所以，如果百度能實現單一模型上的突破，模型能力是否也會有明顯的提升，這個只能等真正發布之后來看了。

這么大參數量的模型，對算力要求注定不會小。現在的消息是，文心 4.0 是在萬卡 AI 集群上訓練出來的，應該也算上是國內首次使用萬卡規模集群進行訓練的大語言模型。

萬卡集群什么概念，國內目前只有華為、阿里透露已建成萬卡 AI 集群，但我們都沒看到基于它推出的具體模型。

這說明，萬卡集群就不容易建了，如果用起來發揮最大化作用則更難了。據分析正是因為飛槳的深度聯合，才能基于萬卡集群訓練起如此規模的模型。

不僅訓練成本在增加，文心 4.0 的推理成本也被爆比 3.5 增加很多，IT之家還沒拿到具體每千 token 的推理成本，但據傳大概是此前的 810 倍，這還是在高利用率（MFU）的情況下。如果利用率更低，估計成本還會繼續增加。

最后，根據內部員工的說法，百度實際上已經開始秘密小流量測試文心大模型 4.0，有小部分文心一言用戶在使用的已經是最新的模型版本，最快下周就會官方公布。

不少人認為這個說法比較靠譜，也可以從最近技術社區上的一些爆料上看出一點端倪。說不定，你現在在文心一言上提問，用的就是文心大模型 4.0 了。不知道生成的結果是否能跟 GPT4 一戰。

IT之家再次強調，以上并非官方確認的信息，大家自行判斷其準確性。

相關推薦