給人工智能投喂了《四庫全書》等古籍文獻后,它已經能寫古詩了
輸入指令,就能生成一首像模像樣的古詩;點幾下鼠標,難懂的古文就被翻譯成現代漢語。
南京農業大學信息管理學院王東波教授研究團隊近日發布的“荀子”古籍大語言模型,是國內首個專門應用于古籍處理與研究的智能工具,能夠實現文本翻譯、實體識別、文本摘要、文本標注、標點和詞法分析、詩歌生成等任務。
今年,大模型特別火熱。在上個月的世界互聯網大會烏鎮峰會上,各個企業研發的通用大模型就成為大眾的寵兒,展示臺前總是排著長隊,大家都想體驗上一番。有文化遺產保護領域的專家提出,愿意提供相關數據,未來希望能夠將大模型和自己研究的垂直領域相結合。
“荀子”就是一種垂直領域的大模型。
王東波介紹,目前的通用大語言模型在解決領域化的問題和具體應用需求上整體性能還不突出,所以需要領域化、場景化的大語言模型,這也是構建“荀子”大語言模型的意義和價值之所在。
在王東波看來,開發古籍大語言模型是一個很大的工程。他的研究團隊基本上涵蓋了計算機、信息管理、語言學、古典文獻學和目錄學等各個領域的人員,是一個跨學校、跨專業和跨領域的團隊。在數據加工、參數調優和場景的應用方面均經過了反復、多次和長時間的驗證、討論和總結。“在這個過程中最難的還是高質量數據的加工和整理,投入時間和人力最多,也是最難之處。”他說。
王東波團隊從2008年開始接觸古籍,2013年至今一直專注于人工精標注數據的工作,在大量人工標注的基礎上,再讓機器學習。團隊給“荀子”投喂了40億字大型混合語料數據,包含了《四庫全書》在內的諸多古籍文獻。但他也坦言,“我們這個模型目前還有很多問題,關鍵是高質量精加工數據的缺乏導致。”
之后,“荀子”古籍大語言模型也將應用在文化產業方面,比如數字人、游戲、文化旅游。在教育層面,能夠應用在中小學的古籍學習和教學、大學生的古籍文化傳授等方面。
隨著國內大模型的不斷發展,對垂直模型的重視也在不斷增加,有業內人士指出,這將是百模大戰的“后半場”。比如華為發布盤古金融、電力、藥物分子三個垂直領域大模型;阿里云宣布與7家企業推動大模型在油氣、電力、交通等行業落地;百度正式發布國內首個“產業級”醫療AI大模型靈醫大模型;攜程集團發布首個旅游行業垂直大模型“攜程問道”等。尤其是在金融和醫療領域,垂直大模型已經加速落地。而比起普適性的通用大模型,垂直大模型對專業度的要求更高,更能針對性地解決行業問題。“在真正的AGI(人工通用智能)未實現之前,垂直領域的大語言模型仍有其存在的必要和價值。”王東波說。
欄目主編:孔令君 文字編輯:孔令君 題圖來源:上觀題圖
來源:作者:劉暢
- TCL中央空調售后服務熱線01-30
- NIGAO集成灶售后服務電話10-23
-
格力空調知識講解(如何正確使用和保養格力空調)。
2025-06-07
-
洗衣機馬達怎么試(洗衣機馬達測試方法)
2025-06-07
-
合肥高新區燃氣灶油煙機維修(如何自行解決常見故障)
2025-06-07
-
貝格爾空氣源熱泵售后維修電話(貝格爾空氣源熱泵售后維修電話)
2025-06-07
-
空調清洗劑的危害(使用不當會對身體造成哪些傷害?)
2025-06-07


