通義千問開源720億和18億參數兩款大語言模型
新京報貝殼財經訊(記者羅亦丹)12月1日,阿里云舉辦通義千問發布會,開源通義千問720億參數模型Qwen72B,這是繼通義千問此前開源140億參數大語言模型后又一次開源之舉。此外,通義千問還開源了18億參數模型Qwen1.8B和音頻大模型QwenAudio。至此,通義千問共開源18億、70億、140億、720億參數的4款大語言模型,以及視覺理解、音頻理解兩款多模態大模型,實現了“全尺寸、全模態”的開源。

阿里云CTO周靖人在接受包括新京報貝殼財經在內的媒體采訪時表示,自從宣布72B模型將要開源后,就得到了很多企業持續的關注,因此這是一個“強企業需求”的模型,“我們已經形成了全系列的大模型家族,能夠為開發者、企業提供更豐富的選擇。”

具體來看,Qwen72B基于3T tokens高質量數據訓練,在10個權威基準測評中奪得開源模型最優成績,在部分測評中超越閉源的GPT3.5和GPT4。
英語任務上,Qwen72B在MMLU基準測試取得開源模型最高分;中文任務上,Qwen72B霸榜CEval、CMMLU、GaokaoBench等基準,得分超越GPT4;數學推理方面,Qwen72B在GSM8K、MATH測評中斷層式領先其他開源模型;代碼理解方面,Qwen72B在HumanEval、MBPP等測評中的表現大幅提升,代碼能力有了質的飛躍。此外,Qwen72B可以處理最多32k的長文本輸入,在長文本理解測試集LEval上取得了超越ChatGPT3.516k的效果。研發團隊優化了Qwen72B的指令遵循、工具使用等技能,使之能更好地被下游應用集成。

此前,中國大模型市場還沒出現足以對標Llama 270B的優質開源模型,對此,Qwen72B填補了國內空白,基于Qwen72B,大中型企業可開發商業應用,高校、科研院所可開展AI for Science等科研工作。
如果說Qwen72B“向上摸高”,抬升了開源大模型的尺寸和性能天花板;發布會上的另一開源模型Qwen1.8B則“向下探底”,成為尺寸最小的中國開源大模型,推理2K長度文本內容僅需3G顯存,可在消費級終端部署。另外,阿里云也開源了音頻理解大模型QwenAudio,該大模型能夠感知和理解人聲、自然聲、動物聲、音樂聲等各類語音信號。用戶可以輸入一段音頻,要求模型給出對音頻的理解,甚至基于音頻進行文學創作、邏輯推理、故事續寫等等,音頻理解能夠賦予大模型接近人類的聽覺能力。

從18億、70億、140億到720億參數規模,用戶可在魔搭社區直接體驗Qwen系列模型效果,也可通過阿里云靈積平臺調用模型API,或基于阿里云百煉平臺定制大模型應用。阿里云人工智能平臺PAI針對通義千問全系列模型進行深度適配,推出了輕量級微調、全參數微調、分布式訓練、離線推理驗證、在線服務部署等服務。

周靖人在接受記者采訪時表示,開源生態對促進中國大模型的技術進步與應用落地至關重要,“技術發展一定不是由一家公司完成的,技術落地背后一定還有很多工作要做,沒有創業者的參與,一項技術是難以落地的,只有擁抱開放生態,才能有效地把我們的技術能力融入到各行各業。”

校對 趙琳
- Thermador洗衣機售后電話12-23
- 廣州空調維修(如何選擇靠譜的維修服務商)08-03
-
寧德紅日燃氣灶維修(如何自行解決常見問題)
2025-06-07
-
ws08m360ti故障(WS08M360Ti故障分析及解決辦法)
2025-06-07
-
萬和燃氣灶熄火維修(如何自行處理常見故障)
2025-06-07
-
空調的主機作用(詳解空調主機的功能和原理)。
2025-06-07
-
格蘭仕洗衣機 代碼表(格蘭仕洗衣機代碼表導讀)
2025-06-07


