給人工智能投喂了《四庫全書》等古籍文獻后,它已經(jīng)能寫古詩了
輸入指令,就能生成一首像模像樣的古詩;點幾下鼠標,難懂的古文就被翻譯成現(xiàn)代漢語。
南京農(nóng)業(yè)大學信息管理學院王東波教授研究團隊近日發(fā)布的“荀子”古籍大語言模型,是國內(nèi)首個專門應用于古籍處理與研究的智能工具,能夠?qū)崿F(xiàn)文本翻譯、實體識別、文本摘要、文本標注、標點和詞法分析、詩歌生成等任務。
今年,大模型特別火熱。在上個月的世界互聯(lián)網(wǎng)大會烏鎮(zhèn)峰會上,各個企業(yè)研發(fā)的通用大模型就成為大眾的寵兒,展示臺前總是排著長隊,大家都想體驗上一番。有文化遺產(chǎn)保護領(lǐng)域的專家提出,愿意提供相關(guān)數(shù)據(jù),未來希望能夠?qū)⒋竽P秃妥约貉芯康拇怪鳖I(lǐng)域相結(jié)合。
“荀子”就是一種垂直領(lǐng)域的大模型。
王東波介紹,目前的通用大語言模型在解決領(lǐng)域化的問題和具體應用需求上整體性能還不突出,所以需要領(lǐng)域化、場景化的大語言模型,這也是構(gòu)建“荀子”大語言模型的意義和價值之所在。
在王東波看來,開發(fā)古籍大語言模型是一個很大的工程。他的研究團隊基本上涵蓋了計算機、信息管理、語言學、古典文獻學和目錄學等各個領(lǐng)域的人員,是一個跨學校、跨專業(yè)和跨領(lǐng)域的團隊。在數(shù)據(jù)加工、參數(shù)調(diào)優(yōu)和場景的應用方面均經(jīng)過了反復、多次和長時間的驗證、討論和總結(jié)。“在這個過程中最難的還是高質(zhì)量數(shù)據(jù)的加工和整理,投入時間和人力最多,也是最難之處。”他說。
王東波團隊從2008年開始接觸古籍,2013年至今一直專注于人工精標注數(shù)據(jù)的工作,在大量人工標注的基礎上,再讓機器學習。團隊給“荀子”投喂了40億字大型混合語料數(shù)據(jù),包含了《四庫全書》在內(nèi)的諸多古籍文獻。但他也坦言,“我們這個模型目前還有很多問題,關(guān)鍵是高質(zhì)量精加工數(shù)據(jù)的缺乏導致。”
之后,“荀子”古籍大語言模型也將應用在文化產(chǎn)業(yè)方面,比如數(shù)字人、游戲、文化旅游。在教育層面,能夠應用在中小學的古籍學習和教學、大學生的古籍文化傳授等方面。
隨著國內(nèi)大模型的不斷發(fā)展,對垂直模型的重視也在不斷增加,有業(yè)內(nèi)人士指出,這將是百模大戰(zhàn)的“后半場”。比如華為發(fā)布盤古金融、電力、藥物分子三個垂直領(lǐng)域大模型;阿里云宣布與7家企業(yè)推動大模型在油氣、電力、交通等行業(yè)落地;百度正式發(fā)布國內(nèi)首個“產(chǎn)業(yè)級”醫(yī)療AI大模型靈醫(yī)大模型;攜程集團發(fā)布首個旅游行業(yè)垂直大模型“攜程問道”等。尤其是在金融和醫(yī)療領(lǐng)域,垂直大模型已經(jīng)加速落地。而比起普適性的通用大模型,垂直大模型對專業(yè)度的要求更高,更能針對性地解決行業(yè)問題。“在真正的AGI(人工通用智能)未實現(xiàn)之前,垂直領(lǐng)域的大語言模型仍有其存在的必要和價值。”王東波說。
欄目主編:孔令君 文字編輯:孔令君 題圖來源:上觀題圖
來源:作者:劉暢
- TCL中央空調(diào)售后服務熱線01-30
- NIGAO集成灶售后服務電話10-23
-
格力空調(diào)知識講解(如何正確使用和保養(yǎng)格力空調(diào))。
2025-06-07
-
洗衣機馬達怎么試(洗衣機馬達測試方法)
2025-06-07
-
合肥高新區(qū)燃氣灶油煙機維修(如何自行解決常見故障)
2025-06-07
-
貝格爾空氣源熱泵售后維修電話(貝格爾空氣源熱泵售后維修電話)
2025-06-07
-
空調(diào)清洗劑的危害(使用不當會對身體造成哪些傷害?)
2025-06-07


