TLM32E58灰屏故障維修(tlm32v66a灰屏)

發(fā)布日期：2023-01-29 22:40:52 瀏覽：

前沿拓展：

機(jī)器之心專欄

清華大學(xué)

清華提出的高效學(xué)習(xí)框架 TLM 也學(xué)會(huì)了「抱佛腳」。

近期，來自清華大學(xué)的研究者們提出了一種簡單高效的 NLP 學(xué)習(xí)框架。不同于當(dāng)下 NLP 社區(qū)主流的大規(guī)模預(yù)訓(xùn)練 + 下游任務(wù)微調(diào)（pretrainingfinetuning）的范式，這一框架無需進(jìn)行大規(guī)模預(yù)訓(xùn)練。相較于傳統(tǒng)的預(yù)訓(xùn)練語言模型，該框架將訓(xùn)練效率 (Training FLOPs) 提升了兩個(gè)數(shù)量級(jí)，并且在多個(gè) NLP 任務(wù)上實(shí)現(xiàn)了比肩甚至超出預(yù)訓(xùn)練模型的性能。這一研究結(jié)果對大規(guī)模預(yù)訓(xùn)練語言模型的必要性提出了質(zhì)疑：大規(guī)模預(yù)訓(xùn)練對下游任務(wù)的貢獻(xiàn)究竟有多大？我們真的需要大規(guī)模預(yù)訓(xùn)練來達(dá)到最好的效果嗎？

論文地址：https://arxiv.org/pdf/2111.04130.pdf項(xiàng)目地址：https://github.com/yaoxingcheng/TLM

預(yù)訓(xùn)練語言模型因其強(qiáng)大的性能被廣泛關(guān)注，基于預(yù)訓(xùn)練微調(diào)（pretrainingfinetuning）的范式也已經(jīng)成為許多 NLP 任務(wù)的標(biāo)準(zhǔn)方法。然而，當(dāng)前通用語言模型的預(yù)訓(xùn)練成本極其高昂，這使得只有少數(shù)資源充足的研究機(jī)構(gòu)或者組織能夠?qū)ζ湔归_探索。這種「昂貴而集權(quán)」的研究模式限制了平民研究者們?yōu)?NLP 社區(qū)做出貢獻(xiàn)的邊界，甚至為該領(lǐng)域的長期發(fā)展帶來了障礙。

近期，為了緩解這一現(xiàn)狀，來自清華大學(xué)的研究者們提出的一種完全不需要預(yù)訓(xùn)練語言模型的高效學(xué)習(xí)框架。這一框架從通用語料中篩選出與下游任務(wù)相關(guān)的子集，并將語言建模任務(wù)與下游任務(wù)進(jìn)行聯(lián)合訓(xùn)練。研究者們稱之為 TLM (Taskdriven Language Modeling)。相較于傳統(tǒng)的預(yù)訓(xùn)練模型（例如 RoBERTa），TLM 僅需要約 1% 的訓(xùn)練時(shí)間與 1% 的語料，即可在眾多 NLP 任務(wù)上比肩甚至超出預(yù)訓(xùn)練模型的性能(如圖 1 所示)。研究者們希望 TLM 的提出能夠引發(fā)更多對現(xiàn)有預(yù)訓(xùn)練微調(diào)范式的思考，并推動(dòng) NLP 民主化的進(jìn)程。

語言模型會(huì)「抱佛腳」嗎? 任務(wù)驅(qū)動(dòng)的語言建模

TLM 提出的動(dòng)機(jī)源于一個(gè)簡單的觀察：人類可以通過僅對關(guān)鍵信息的學(xué)習(xí)，以有限的時(shí)間和精力快速掌握某一任務(wù)技能。例如，在臨考抱佛腳時(shí)，焦慮的學(xué)生僅需要根據(jù)考綱復(fù)習(xí)瀏覽若干相關(guān)章節(jié)即可應(yīng)對考試，而不必學(xué)習(xí)所有可能的知識(shí)點(diǎn)。類似地，我們也可以推測：預(yù)訓(xùn)練語言模型在下游任務(wù)上的優(yōu)良表現(xiàn)，絕大多數(shù)來源于語料中與下游任務(wù)相關(guān)的數(shù)據(jù)；僅利用下游任務(wù)相關(guān)數(shù)據(jù)，我們便可以取得與全量數(shù)據(jù)類似的結(jié)果。

為了從大規(guī)模通用語料中抽取關(guān)鍵數(shù)據(jù)，TLM 首先以任務(wù)數(shù)據(jù)作為查詢，對通用語料庫進(jìn)行相似數(shù)據(jù)的召回。這里作者選用基于稀疏特征的 BM25 算法[2] 作為召回算法。之后，TLM 基于任務(wù)數(shù)據(jù)和召回?cái)?shù)據(jù)，同時(shí)優(yōu)化任務(wù)目標(biāo)和語言建模目標(biāo) (如下圖公式所示)，從零開始進(jìn)行聯(lián)合訓(xùn)練。

1% 的算力 + 1% 的語料即可比肩預(yù)訓(xùn)練語言模型

為了測試 TLM 的性能，研究者們在 8 個(gè) NLP 分類任務(wù)上從三個(gè)不同規(guī)模展開了對比實(shí)驗(yàn)。這 8 個(gè)任務(wù)涵蓋了計(jì)算機(jī)科學(xué)、生物醫(yī)藥、新聞、評(píng)論等 4 個(gè)領(lǐng)域，包括了訓(xùn)練樣本數(shù)量小于 5000 的低資源任務(wù)（Hyperpartisan News, ACLARC, SciERC, Chemprot）和訓(xùn)練樣本數(shù)量大于 20000 的高資源任務(wù)（IMDB, AGNews, Helpfulness, RCT），覆蓋了話題分類，情感分類，實(shí)體關(guān)系抽取等任務(wù)類型。從實(shí)驗(yàn)結(jié)果可以看出，和對應(yīng)預(yù)訓(xùn)練微調(diào)基準(zhǔn)相比，TLM 實(shí)現(xiàn)了相當(dāng)甚至更優(yōu)的性能。平均而言，TLM 減少了兩個(gè)數(shù)量級(jí)規(guī)模的訓(xùn)練計(jì)算量 (Training FLOPs) 以及訓(xùn)練語料的規(guī)模。

任務(wù)驅(qū)動(dòng)的語言建模(TLM) vs 預(yù)訓(xùn)練語言模型(PLMs)

表格 1 直接對比了 TLM 和 PLM。整體來說，PLM 以極高的成本學(xué)習(xí)盡可能多的任務(wù)無關(guān)的知識(shí)，而 TLM 以非常低的成本針對每個(gè)任務(wù)學(xué)習(xí)相關(guān)知識(shí)。對比 TLM 和 PLM 有如下幾個(gè)方面特點(diǎn)。

1.推動(dòng) NLP 研究公平化和民主化(Democratization)

預(yù)訓(xùn)練本身嚴(yán)重依賴大量的計(jì)算資源，這一限制使得大多數(shù) NLP 研究者專項(xiàng)對微調(diào)算法的研究。然而微調(diào)性能上限很大程度上受預(yù)訓(xùn)練模型性能的約束。而 TLM 使得大多數(shù)研究人員可以以較低的代價(jià)和較高的效率，基于最先進(jìn)的解決方案對模型架構(gòu)、損失函數(shù)、算法等方面進(jìn)一步自由探索。

2. 高效性(Efficiency)

TLM 在平均每個(gè)任務(wù)的 FLOPs 消耗方面顯著優(yōu)于 PLM。當(dāng)我們有少數(shù)目標(biāo)任務(wù)需要解決的時(shí)候(例如研究人員希望對少量幾個(gè)數(shù)據(jù)集進(jìn)行研究)，TLM 會(huì)是非常高效的；然而當(dāng)需要一次性解決大量任務(wù)時(shí)(例如工業(yè)界構(gòu)建一個(gè) NLP 平臺(tái)為多方提供相似的服務(wù))，PLM 仍然具有優(yōu)勢。

3. 靈活性(Flexibility)

TLM 是任務(wù)驅(qū)動(dòng)的，所以可以給研究人員更大的自由度，從而自定義策略進(jìn)行標(biāo)記、序列長度、數(shù)據(jù)表示、超參數(shù)的調(diào)整等等，從而達(dá)到提高性能和效率的目的。

4. 通用性(Generality)

PLM 學(xué)習(xí)與任務(wù)無關(guān)的一般性表示，可用于小樣本和零樣本學(xué)習(xí)，而 TLM 通過學(xué)習(xí)任務(wù)相關(guān)的表示一定程度犧牲通用型換取效率。從這個(gè)意義上，TLM 需要在通用型方面進(jìn)一步提升。此外也可以 PLM 和 TLM 結(jié)合從而在通用性和效率之間實(shí)現(xiàn)更好的權(quán)衡。

深入觀察 TLM：讓更多參數(shù)為下游任務(wù)服務(wù)

為了深入了解 TLM 的工作機(jī)制，研究人員對模型每個(gè)注意力頭所輸出的注意力分?jǐn)?shù)進(jìn)行了可視化。可以觀察到，TLM 的注意力模式中包含了更多的「對角線」模式（圖 3 紅框），也即大多 token 都將注意力分?jǐn)?shù)集中賦予了其鄰近 token，這種模式已在前人的工作 [1] 中被證明對模型的最終預(yù)測有著重要貢獻(xiàn)。而預(yù)訓(xùn)練模型（BERT, RoBERTa）中則包含了大量「垂直」模式的注意力頭（圖 3 灰色區(qū)域），也即大多 token 都將注意力分?jǐn)?shù)集中賦予了 [CLS]，[SEP] 或者句號(hào)這種毫無語義或者句法信息的詞匯上。這一現(xiàn)象表明 TLM 中參數(shù)利用率要顯著高于預(yù)訓(xùn)練語言模型，TLM 或許針對下游任務(wù)學(xué)習(xí)到了更加富有語義信息的表示。

總結(jié)

TLM 的提出讓 NLP 研究跳脫出預(yù)訓(xùn)練微調(diào)范式成為了可能，這使得 NLP 研究者們可以更為自由地探索新興的模型結(jié)構(gòu)與訓(xùn)練框架，而不拘泥于大規(guī)模預(yù)訓(xùn)練模型。在未來，更多有趣的研究可以在 TLM 的基礎(chǔ)上展開，例如：如何經(jīng)濟(jì)地達(dá)到更大規(guī)模預(yù)訓(xùn)練模型的表現(xiàn)效果；如何提升 TLM 的通用性與可遷移性；可否利用 TLM 進(jìn)行小樣本或零樣本學(xué)習(xí)等等。

參考文獻(xiàn)

[1] Elena Voita, David Talbot, Fedor Moiseev, Rico Sennrich, and Ivan Titov. 2019. Analyzing multihead selfattention: Specialized heads do the heavy lifting, the rest can be pruned. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 5797–5808, Florence, Italy. Association for Computational Linguistics.

[2] Stephen E. Robertson and Hugo Zaragoza. 2009. The probabilistic relevance framework: BM25 and beyond. Found. Trends Inf. Retr., 3(4):333–389.

拓展知識(shí)：

上一篇：tl494cn 故障

下一篇：TLM32E58灰屏故障維修(海信tlm32e58灰屏)

TLM32E58灰屏故障維修(tlm32v66a灰屏)

前沿拓展：

拓展知識(shí)：

相關(guān)推薦

熱門排行

最新發(fā)布

貼片代碼怎么看(深入解讀貼片代碼：洞悉世界編碼秘密)

怎么拆彩電顯像管管座(拆解彩電顯像管管座技巧——30字以內(nèi))

壁掛爐一天多少方氣(壁掛爐每天消耗幾方氣能？)

海歌壁掛爐官網(wǎng)(海歌壁掛爐：讓溫暖環(huán)繞你)

德能空氣能故障代碼e5(空調(diào)故障代碼E5的原因與解決方法)

隨便看看

24小時(shí)家電維修熱線： 400—1558638