欧洲精品久久久av无码电影,日日噜噜夜夜爽爽,精品无码国产自产拍在线观看蜜,人妻少妇被粗大爽9797pw,羞国产在线拍揄自揄视频,国产白嫩漂亮美女在线观看,天码欧美日本一道免费,av大片在线无码免费

      歡迎來到同城快修-附近家電維修、家電清洗、家電安裝服務平臺

      24小時家電維修熱線:

      400—1558638

      當前位置:主頁 > 熱水器 > 維修資訊 >

      數學能力超過ChatGPT!上海交大計算大模型登開源榜首

      發布日期:2023-09-22 21:01:49 瀏覽:
      數學能力超過ChatGPT!上海交大計算大模型登開源榜首

      克雷西 發自 凹非寺

      量子位 | 公眾號 QbitAI

      國產數學大模型,能力已經超過了ChatGPT!

      最新榜單中,上海交大GAIR實驗室出品的Abel專有大模型:

      準確率高達83.6%,在開源模型中位列第一。

      據團隊介紹,該模型是用挪威數學家尼爾斯·阿貝爾(Niels Abel)的名字命名的,以此向阿貝爾在代數和分析方面的開創性工作致敬。

      在GSM8k數據集上,70B參數量的Abel碾壓所有開源模型,還超過了ChatGPT。

      甚至在新數據集TALSCQEN上,Abel的表現比GPT4還要強。

      而實現這樣效果的Abel,成分可以說是十分“單純”:

      • 沒有使用工具
      • 沒有使用數學領域的大規模預訓練數據
      • 沒有使用獎勵模型
      • 沒有使用RLHF
      • 僅使用有監督精調(Supervised Finetuning,SFT)

      那么Abel的效果究竟怎么樣呢?

      成績超越開源模型SOTA

      這里我們選擇同樣是開源的Llama2來和Abel對比。

      首先來看下這個雞兔同籠問題的變體:

      Brown由牛和雞一共60只,雞的數量是牛的兩倍,一共有多少條腿?

      這道題Llama2出師不利,而且不是計算錯誤,是邏輯上就有問題:

      Abel則成功地解決了這個問題。

      再來看下一個問題:

      12,21,6,11和30的中位數與平均數的和是多少?

      兩個模型都正確理解了所涉及的概念,但Llama還是在計算和排序上出了錯。

      而Abel依舊是正確地做出了這道題:

      再從測試數據上看看Abel的表現。

      首先是OpenAI提出的GSM8k數據集(大概是美國高中難度),這份榜單的前十名,Abel占了三個(不同參數規模)。

      開源模型當中,70B規模的Abel打敗了曾經的SOTA——WizardMath。

      如果把商業閉源模型算進來,Abel也僅次于GPT4、Claude2和PaLM2Flan這些最著名的模型。

      甚至ChatGPT也不是Abel的對手。

      △地球代表開源模型,鎖代表閉源模型

      在難度更高的MATH(競賽題目)數據集中,開源模型的前三名被三個規模的Abel包攬,加上閉源也僅次于Google和OpenAI的產品。

      研究團隊還使用了新數據集TALSCQEN對Abel進行測試,結果超過了GPT4。

      那么,研究團隊是怎么調教出這樣一款高性能模型的呢?

      “保姆級”微調訓練策略

      核心奧義就是高質量的訓練數據。

      Abel使用數據是經過精心策劃的,不僅包含問題的答案,還要能告訴模型找到正確答案是的方法。

      為此,研究團隊提出了一種叫做家長監督(Parental Oversight)的“保姆級”微調訓練策略。

      在家長監督的原則之下,團隊僅通過SFT方式就完成了Abel的訓練。

      為了評價Abel的魯棒性,研究團隊還用GPT4對GSM8k中的數字進行了修改,測試Abel是否依然能解出正確的答案。

      結果顯示,在調整版GSM8k數據集下,70B參數的Abel魯棒性超過了同等規模的WizardMath。

      在Abel的介紹的最后,研究團隊還留下了一個彩蛋:

      Abel的下一代,將進化成為Bernoulli(伯努利)

      不過團隊并沒有對其中的含義進行說明,我們不妨期待一番。

      團隊簡介

      Abel由上海交通大學GAIR(生成式人工智能研究組)團隊打造。

      該團隊還曾推出過大模型高考Benchmark、AIGC事實核查工具Factool等成果。

      該小組負責人、清源研究院劉鵬飛副教授同時也是Abel項目的負責人。

      對這個數學模型感興趣的讀者,可以到GitHub頁面詳細了解。

      GitHub頁面:https://github.com/GAIRNLP/abel

      — 完 —

      量子位 QbitAI · 頭條號簽約

      關注我們,第一時間獲知前沿科技動態

      主站蜘蛛池模板: 毛片在哪看| 无码人妻毛片丰满熟妇区毛片国产| 最近的中文字幕| 久久精品视频7| 97人人超碰国产精品最新o| 亚洲熟妇大图综合色区| 伊人福利视频| 720lu国产刺激无码| 国产精品a国产精品a手机版| 亚洲第一色图| 综合亚洲色图| 欧美日韩精品久久久免费观看| 成人av一本不卡二卡| 女人久久| 国产精品乱码久久久| 国产成人无码精品久久久露脸| 永久免费观看美女裸体视频的网站| 久久精品视频在线| 黄色小毛片| 亚洲日韩一区精品射精| 少妇人妻中文字幕hd| 欧美在线小视频| 国产精品精| 99精品全国免费观看视频| 成人片国产精品亚洲| 亚洲第四页| av色图在线| 精品一区二区三区自拍图片区| 国产日产欧产精品推荐| 久久成人综合| 牛av| 国产成人无码a区在线观看导航 | 在线小视频你懂的| 亚洲大尺度无码专区尤物| 天堂在/线资源中文在线8| 九七影院在线观看免费观看电视| www.日韩一区| 高清性欧美暴力猛交| 久久婷婷五月综合色丁香| 亚洲精品无码mv在线观看| 超碰在线小说|