欧洲精品久久久av无码电影,日日噜噜夜夜爽爽,精品无码国产自产拍在线观看蜜,人妻少妇被粗大爽9797pw,羞国产在线拍揄自揄视频,国产白嫩漂亮美女在线观看,天码欧美日本一道免费,av大片在线无码免费

      歡迎來到同城快修-附近家電維修、家電清洗、家電安裝服務(wù)平臺

      24小時家電維修熱線:

      400—1558638

      當(dāng)前位置:主頁 > 空氣能 > 維修資訊 >

      20B跨級挑戰(zhàn)70B性能!國產(chǎn)開源大模型打造大模型新標(biāo)桿

      發(fā)布日期:2023-09-22 19:13:14 瀏覽:
      20B跨級挑戰(zhàn)70B性能!國產(chǎn)開源大模型打造大模型新標(biāo)桿

      機(jī)器之心發(fā)布

      機(jī)器之心編輯部

      9 月 20 日,上海人工智能實驗室(上海 AI 實驗室)與商湯科技聯(lián)合香港中文大學(xué)和復(fù)旦大學(xué)正式推出書生?浦語大模型(InternLM)200 億參數(shù)版本 InternLM20B,并在阿里云魔搭社區(qū)(ModelScope)開源首發(fā)。同時,書生?浦語面向大模型研發(fā)與應(yīng)用的全鏈條工具鏈全線升級,與 InternLM20B 一同繼續(xù)全面開放,向企業(yè)和開者提供免費商用授權(quán)。

      浪潮之上,大模型的應(yīng)用價值日趨受到關(guān)注。正如歷史上的任何一項新技術(shù),其生命力終究要回歸到是否可以廣泛落地,為世界帶來積極且真實的變化。在此背景下,上海 AI 實驗室聯(lián)合多家機(jī)構(gòu)推出了中量級參數(shù)的

      • 代碼庫鏈接:https://github.com/InternLM/InternLM
      • 魔搭社區(qū)鏈接:https://modelscope.cn/organization/Shanghai_AI_Laboratory

      自今年 6 月首次發(fā)布以來,書生?浦語已經(jīng)歷多輪升級,在開源社區(qū)和產(chǎn)業(yè)界產(chǎn)生了廣泛影響。

      書生?浦語 “增強(qiáng)版”:增的不只是量

      相比于國內(nèi)社區(qū)之前陸續(xù)開源的 7B 和 13B 規(guī)格的模型,20B 量級模型具備更為強(qiáng)大的綜合能力,在復(fù)雜推理和反思能力上尤為突出,因此可為實際應(yīng)用帶來更有力的性能支持;同時,20B 量級模型可在單卡上進(jìn)行推理,經(jīng)過低比特量化后,可運行在單塊消費級 GPU 上,因而在實際應(yīng)用中更為便捷。

      InternLM20B 是基于 2.3T token 預(yù)訓(xùn)練語料從頭訓(xùn)練的中量級語言大模型。相較于 InternLM7B,訓(xùn)練語料經(jīng)過了更高水平的多層次清洗,補(bǔ)充了高知識密度和用于強(qiáng)化理解及推理能力的訓(xùn)練數(shù)據(jù)。因此,在考驗語言模型技術(shù)水平的理解能力、推理能力、數(shù)學(xué)能力、編程能力等方面,InternLM20B 都有顯著提升。

      相比于此前的開源模型,InternLM20B 的能力優(yōu)勢主要體現(xiàn)在:

      優(yōu)異的綜合性能。InternLM20B 具備優(yōu)異的綜合性能,不僅全面領(lǐng)先相近量級的開源模型(包括 Llama33B、Llama213B 以及國內(nèi)主流的 7B、13B 開源模型),并且以不足三分之一的參數(shù)量,測評成績達(dá)到了 Llama270B 的水平。

      強(qiáng)大的工具調(diào)用能力。InternLM20B 拓展了模型的能力邊界,實現(xiàn)了大模型與現(xiàn)實場景的有效連接。InternLM20B 支持?jǐn)?shù)十類插件,上萬個 API 功能,在 ToolBench 評測集上獲得了最佳結(jié)果,在與 ChatGPT 的競賽中,勝率達(dá)到 63.5%。InternLM20B 還具備代碼解釋和反思修正能力,為智能體(Agent)的構(gòu)建提供了良好的技術(shù)基礎(chǔ)。

      更長的語境。通過多階段訓(xùn)練拓展,InternLM20B 支持 16K 語境長度,從而更有效地支撐長文理解、長文生成和超長對話。

      更安全的價值對齊。相比于之前版本,InternLM20B 在價值對齊上更加安全可靠。在研發(fā)訓(xùn)練的過程中,研究團(tuán)隊通過基于 SFT(監(jiān)督微調(diào))和 RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí)方式)兩階段價值對齊,以及專家紅隊的對抗訓(xùn)練,大幅提高其安全性。當(dāng)用戶帶著偏見提問時,模型能夠給出正面引導(dǎo)。

      全線升級的開源工具、數(shù)據(jù)體系。書生?浦語開源工具鏈全線升級,形成了更為完善的工具體系,其中包括預(yù)訓(xùn)練框架 InternLMTrain、低成本微調(diào)框架 XTuner、部署推理框架 LMDeploy、評測框架 OpenCompass 以及面向場景應(yīng)用的智能體框架 Lagent。書生?浦語工具鏈將和開源數(shù)據(jù)平臺 OpenDataLab 構(gòu)成強(qiáng)大的開源工具及數(shù)據(jù)體系,共同為學(xué)術(shù)界和產(chǎn)業(yè)界提供全鏈條的研發(fā)與應(yīng)用支持。

      全面升級的全鏈條工具體系

      架構(gòu)增強(qiáng):深結(jié)構(gòu)、長語境

      過去一段時間,國內(nèi)機(jī)構(gòu)陸續(xù)開源了多個參數(shù)量為 7B 和 13B 規(guī)格的模型,在評測中也取得了不俗的成績。但研究人員發(fā)現(xiàn),這些模型在適配下游任務(wù),尤其是對準(zhǔn)確性和推理能力要求較高的任務(wù)時,還存在局限。為了更好地支持這些任務(wù),業(yè)界呼喚一個中量級的開源模型,提供更強(qiáng)的理解、推理以及長文生成能力。

      在相對有限的參數(shù)規(guī)模下,研究人員在架構(gòu)設(shè)計時面臨重要的取舍 —— 提高模型的深度還是寬度?通過廣泛的對照實驗,書生?浦語團(tuán)隊發(fā)現(xiàn),更深的模型層數(shù)更有利于復(fù)雜推理能力的培養(yǎng)。因此在架構(gòu)設(shè)計時,研究人員把模型層數(shù)設(shè)定為 60 層,超過 7B 與 13B 模型通常采用的 32 層或者 40 層設(shè)計;同時內(nèi)部維度保持在 5120,處于適中水平。通過架構(gòu)設(shè)計上的新取舍,InternLM20B 在較高計算效率的條件下實現(xiàn)了復(fù)雜推理能力的顯著提升。

      InternLM20B 還支持更長的語境長度。在訓(xùn)練過程中,模型的語境長度分階段從 2K 拓展到 8K。在推理側(cè),基于 Dynamic NTK 技術(shù),把模型推理可支持的語境長度進(jìn)一步延展到 16K。長語境為模型的能力拓展,包括工具調(diào)用、代碼解釋以及反思修正等提供了更大的空間,成為支撐在 InternLM20B 之上打造智能體(Agent)的關(guān)鍵技術(shù)基礎(chǔ)。

      綜合性能增強(qiáng):多個評測中領(lǐng)先

      基于 OpenCompass 大模型評測平臺,研究人員在涵蓋語言、知識、理解、推理和學(xué)科能力等五大維度的 50 個主流評測集上,對 InternLM20B 及相近量級的開源模型進(jìn)行了全面測試比較。評測結(jié)果顯示,InternLM20B 在全維度上領(lǐng)先于開源 13B 量級模型,平均成績不僅明顯超越 Llama33B,甚至優(yōu)于被稱為開源模型的標(biāo)桿 Llama270B。

      基于 OpenCompass 的 InternLM20B 及相近量級開源模型測評結(jié)果

      下表顯示了 13B 及更高參數(shù)量的主流開源模型在各個維度上的平均成績(紅色字體為 13B33B 量級范圍內(nèi)各能力維度最高評分)。InternLM20B 在語言、知識學(xué)科綜合評測上都超越 Llama270B,在推理能力評測上和 Llama270B 持平,而知識方面則仍有一定差距。但在上述所有維度上,InternLM20B 都顯著領(lǐng)先主流的 13B 量級開源模型。

      下表在一些有重要影響力的典型數(shù)據(jù)集上比較了主流開源模型的表現(xiàn)(紅色字體為 13B33B 參數(shù)量級范圍內(nèi)各項測評最佳成績):

      評測結(jié)果顯示,InternLM20B 在 MMLU、CEval、AGIEval 綜合性學(xué)科評測中成績優(yōu)異,在同量級開源模型中處于領(lǐng)先位置。MMLU 被普遍認(rèn)為是評價一個語言模型綜合能力的關(guān)鍵指標(biāo),InternLM20B 在 MMLU 上取得 62.05 的成績,接近 Llama65B 的水平;而在包含中文學(xué)科考試的 CEval 和 AGIEval 上,InternLM20B 的表現(xiàn)也明顯超過了 Llama270B。

      知識問答評測如 BoolQ、TriviaQA、NaturalQuestions 等,主要評價模型對于事實性知識的掌握能力,在此維度上,InternLM20B 的表現(xiàn)超越 13B 模型,與 Llama33B 各有千秋,但相比于 Llama65B 或者 Llama270B 仍有一定差距。

      CMRC、CSL、RACE 分別為面向百科知識、科技文獻(xiàn)以及學(xué)生閱讀理解的評測集,而 XSum 則是挑戰(zhàn)性的文獻(xiàn)摘要評測 —— 上述評測均為考察大模型理解能力。在理解能力維度,InternLM20B 表現(xiàn)突出,全面超越包括 Llama270B 在內(nèi)的各個量級的開源模型。

      推理,尤其是復(fù)雜推理,是語言模型目前面臨的常見難題,也是模型能否支撐實際應(yīng)用的關(guān)鍵能力。上表中所列 WinoGrande、GSM8K、PIQA、BigBenchHard(BBH)分別考察模型在常識推理、數(shù)學(xué)推理、物理相關(guān)推理以及有挑戰(zhàn)性的綜合推理方面的能力。InternLM20B 均獲得明顯超越主流的 13B 開源模型的成績,在 WinoGrande、GSM8K 和 PIQA 評測上已非常接近 Llama65B 此類重量級模型的推理能力水平。

      InternLM20B 的編程能力也有顯著提升。在 HumanEval 和 MBPP 兩個典型評測集上,全面超越了主流 13B 開源模型、Llama33B 和 Llama65B,接近 Llama270B 的水平。

      在 HuggingFace 最新公布的 Open LLM Leaderboard 評測榜單上,InternLM20B 在參數(shù)量 60B 以下基模型中平均成績領(lǐng)先,也超過了 Llama65B。

      總體而言,InternLM20B 在綜合能力上全面領(lǐng)先于 13B 量級的開源模型,在評價推理和編程能力的多個評測集上接近甚至超越 Llama65B,在中文相關(guān)的評測上普遍超越 Llama270B。

      調(diào)用工具能力增強(qiáng):不會也能學(xué)

      工具調(diào)用是拓展大語言模型能力邊界的重要手段,也是 OpenAI 近期推出大模型的重點特性之一。InternLM20B 對話模型支持了日期、天氣、旅行、體育等數(shù)十個方向的內(nèi)容輸出及上萬個不同的 API。

      在清華大學(xué)等機(jī)構(gòu)聯(lián)合發(fā)布的大模型工具調(diào)用評測集 ToolBench 中,InternLM20B 和 ChatGPT 相比,達(dá)到了 63.5% 的勝率,在該榜單上取得了最優(yōu)結(jié)果,表現(xiàn)出強(qiáng)大的工具調(diào)用能力。

      InternLM20B 模型還展現(xiàn)出一定的零樣本泛化能力,對于模型在訓(xùn)練過程中并沒有學(xué)習(xí)過一些工具,InternLM20B 也能根據(jù)工具描述和用戶提問來調(diào)用工具完成任務(wù)。例如給模型提供一些 AI 工具,模型可以自己進(jìn)行規(guī)劃和推理,完成用戶的問題。

      InternLM20B 可自主調(diào)用工具完成任務(wù)

      價值觀增強(qiáng):更安全的開源模型

      更貼合人類價值觀的大語言模型,才有可能更好地充當(dāng) “人類助手” 的角色。InternLM20B 在迭代過程中加入了大量符合人類價值觀的數(shù)據(jù),研究團(tuán)隊組織相關(guān)領(lǐng)域?qū)<覍δP瓦M(jìn)行了多輪紅隊攻擊,大幅提升其安全性。

      當(dāng)用戶向 InternLM20B 提出帶有偏見的問題時,它能夠識別出不安全因素,并在回答中給出正確的價值引導(dǎo)。

      對話能力增強(qiáng):語境長度達(dá)到 16K

      InternLM20B 在訓(xùn)練階段的語境長度分階段拓展到了 8K,同時通過 Dynamic NTK 等手段將推理時的語境長度拓展到了 16K。基于 16K 的語境長度,InternLM20B 可以有效支持長文理解、長文生成和超長對話。

      下面一個例子展示了 InternLM20B 的長文理解能力:讓大模型閱讀某知名咖啡品牌的最新新聞,模型能夠準(zhǔn)確回答提出的三個問題。

      InternLM20B 還具備為長篇論文和報告進(jìn)行準(zhǔn)確摘要提取的能力。研究人員向模型輸入經(jīng)典論文 ResNet 的 Introduction 章節(jié),它能較好地寫出摘要,準(zhǔn)確概括了 ResNet 的核心思想和實驗效果。

      全鏈條工具體系再鞏固,全面升級

      今年 7 月,上海 AI 實驗室與商湯科技聯(lián)合高校在正式發(fā)布書生?浦語的同時,在業(yè)內(nèi)率先開源了覆蓋數(shù)據(jù)、預(yù)訓(xùn)練、微調(diào)、部署和評測的全鏈條工具體系。歷經(jīng)數(shù)月升級,書生?浦語全鏈條開源工具體系鞏固升級,并向全社會提供免費商用。

      數(shù)據(jù) OpenDataLab 開源 “書生?萬卷” 預(yù)訓(xùn)練語料

      書生?萬卷是上海 AI 實驗室開源的多模態(tài)語料庫,包含文本數(shù)據(jù)集、圖文數(shù)據(jù)集、視頻數(shù)據(jù)集三部分,數(shù)據(jù)總量超過 2TB。目前,書生?萬卷 1.0 已被應(yīng)用于書生?多模態(tài)、書生?浦語的訓(xùn)練。通過對高質(zhì)量語料的 “消化”,書生系列模型在語義理解、知識問答、視覺理解、視覺問答等各類生成式任務(wù)表現(xiàn)出優(yōu)異性能。

      預(yù)訓(xùn)練 InternLM 高效預(yù)訓(xùn)練框架:除大模型外,InternLM 代碼庫開源了預(yù)訓(xùn)練框架 InternLMTrain。深度整合 Transformer 模型算子提升了訓(xùn)練效率,并提出了獨特的 Hybrid Zero 技術(shù),實現(xiàn)了計算和通信的高效重疊,大幅降低訓(xùn)練過程中的跨節(jié)點通信流量。得益于極致的性能優(yōu)化,實現(xiàn)了千卡并行計算的高效率,訓(xùn)練性能達(dá)行業(yè)領(lǐng)先水平。

      微調(diào) InternLM 全參數(shù)微調(diào)、XTuner 輕量級微調(diào):InternLM 支持對模型進(jìn)行全參數(shù)微調(diào),支持豐富的下游應(yīng)用。同時,低成本大模型微調(diào)工具箱 XTuner 也在近期開源,支持多種大模型及 LoRA、QLoRA 等微調(diào)算法,通過 XTuner,最低僅需 8GB 顯存即可對 7B 模型進(jìn)行低成本微調(diào),20B 模型的微調(diào),在 24G 顯存的消費級顯卡上就能完成。

      部署 LMDeploy 支持十億到千億級參數(shù)語言模型的高效推理:LMDeploy 涵蓋了大模型的全套輕量化、推理部署和服務(wù)解決方案,支持了從十億到千億級參數(shù)的高效模型推理,在吞吐量等性能上超過 FasterTransformer、vLLM 和 Deepspeed 等社區(qū)主流開源項目。

      評測 OpenCompass 一站式、全方位大模型評測平臺:OpenCompass 是上海 AI 實驗室開源的大模型評測平臺,構(gòu)建了包含學(xué)科、語言、知識、理解、推理五大維度的評測體系,支持超過 50 個評測數(shù)據(jù)集和 30 萬道評測題目,支持零樣本、小樣本及思維鏈評測,是目前最全面的開源評測平臺。自 7 月發(fā)布以來,受到學(xué)術(shù)界和產(chǎn)業(yè)界廣泛關(guān)注,目前已為阿里巴巴、騰訊、清華大學(xué)等數(shù)十所企業(yè)及科研機(jī)構(gòu)廣泛應(yīng)用于大模型研發(fā)。

      應(yīng)用 Lagent 輕量靈活的智能體框架:書生?浦語團(tuán)隊同時開源了智能體框架,支持用戶快速將一個大語言模型轉(zhuǎn)變?yōu)槎喾N類型的智能體,并提供典型工具為大語言模型賦能。Lagent 開源框架支持 InternLM、Llama 及 ChatGPT 等大語言模型,并集合了 ReAct、AutoGPT 及 ReWoo 等多種類型的智能體能力。在 Lagent 的加持下,這些智能體可調(diào)用大語言模型進(jìn)行規(guī)劃推理和工具調(diào)用,并可在執(zhí)行中及時進(jìn)行反思和自我修正。

      基于書生?浦語大模型,上海 AI 實驗室已發(fā)展出更豐富的下游應(yīng)用,將于近期陸續(xù)向?qū)W術(shù)界及產(chǎn)業(yè)界分享。

      面向大模型掀起的新一輪創(chuàng)新浪潮,上海 AI 實驗室致力于以原始創(chuàng)新引領(lǐng)技術(shù)進(jìn)步,持續(xù)打造綜合能力更強(qiáng)大的基礎(chǔ)模型,構(gòu)建更完整易用的全鏈條工具體系,并堅持通過開源開放、免費商用,全面賦能整個 AI 社區(qū)生態(tài)的繁榮發(fā)展,幫助企業(yè)和研究機(jī)構(gòu)降低大模型的開發(fā)和應(yīng)用門檻,讓大模型的價值在各行各業(yè)中綻放。

      全鏈條工具體系開源鏈接:

      • “書生?萬卷” 預(yù)訓(xùn)練語料:https://github.com/opendatalab/WanJuan1.0
      • InternLM 預(yù)訓(xùn)練框架:https://github.com/InternLM/InternLM
      • XTuner 微調(diào)工具箱:https://github.com/InternLM/xtuner
      • LMDeploy 推理工具鏈:https://github.com/InternLM/lmdeploy
      • OpenCompas 大模型評測平臺:https://github.com/opencompass/opencompass
      • Lagent 智能體框架:https://github.com/InternLM/lagent
      主站蜘蛛池模板: 精品免费国产一区二区| 日本在线网站| 伊人久久综合| 欧美肥老太交性506070| 人妻中文字系列无码专区| 乱人伦中文字幕在线| 国产精品自拍第一页| 国产自产一区二区三区视频| 亚洲黄色中文字幕| 国产成人精品a∨一区二区| 五月天黄色网址| 美女十八毛片| 国产av综合影院| 国产一区二区三区视频| 91久久亚洲| 久久先锋男人av资源网站| 亚洲欧美日韩另类丝袜一区| 青青草免费在线| 人妻少妇中文字幕久久| 国产精品美女在线| 在线观看黄网址| 国产精品毛片a∨一区二区三区| 日韩欧美在线视频| 黄色免费网页| 日韩av爽爽爽久久久久久| 国产精品天堂avav在线观看| 黄色一级大片| wwwwxxxxx日本| 国厂精品114福利电影免费| 精品久久久久久一区二区里番| 亚洲中文精品久久久久久不卡| 五月激情丁香婷婷| 东京一本一道一二三区| 91精品国产色综合久久不卡98| 亚洲国产成人精品无码区在线观看| 男女高潮激烈免费观看| 青草视频网| 新婚之夜玷污岳丰满少妇在线观看| 成人免费无码不卡毛片| 国产av人人夜夜澡人人爽麻豆| 国产精品青青草原免费无码|