宋錦既然起源于蘇州,為什么叫宋錦?為什么會(huì)有宋錦到蜀錦的發(fā)展轉(zhuǎn)變?繅絲使用梭子的方式與一般織布有何不同?近日,在《中國(guó)世界級(jí)非遺文化悅讀系列》叢書(shū)發(fā)布會(huì)上,一款同步推出的“非物質(zhì)文化遺產(chǎn)大語(yǔ)言模型”引人注目。在模型中輸入上述問(wèn)題,一個(gè)個(gè)翔實(shí)、生動(dòng)的答案躍入眼簾。
南京農(nóng)業(yè)大學(xué)信息管理學(xué)院王東波教授接受記者采訪(fǎng)時(shí)表示,他帶領(lǐng)團(tuán)隊(duì)聯(lián)合南京大學(xué)“術(shù)語(yǔ)與翻譯跨學(xué)科研究基地”推出的這款模型,致力于推動(dòng)非遺文化的數(shù)字化保護(hù),為非遺文化的保護(hù)與傳播開(kāi)辟新路徑。
“非物質(zhì)文化遺產(chǎn)是中華優(yōu)秀傳統(tǒng)文化的重要組成部分,我們希望通過(guò)打造一款非遺領(lǐng)域的人工智能大模型,促進(jìn)中華優(yōu)秀傳統(tǒng)文化的國(guó)內(nèi)外傳播?!蓖鯑|波介紹,目前的通用領(lǐng)域大模型雖然在語(yǔ)言能力與通用知識(shí)領(lǐng)域表現(xiàn)出色,但缺乏對(duì)特定領(lǐng)域知識(shí)的了解。通過(guò)專(zhuān)業(yè)領(lǐng)域的數(shù)據(jù)開(kāi)展預(yù)訓(xùn)練,能夠彌補(bǔ)通用大模型在非遺知識(shí)領(lǐng)域的匱乏。
“在非物質(zhì)文化遺產(chǎn)領(lǐng)域,數(shù)據(jù)的獨(dú)特性與復(fù)雜性是大模型構(gòu)建的關(guān)鍵挑戰(zhàn)?!蓖鯑|波表示,為確保非遺大模型能夠精準(zhǔn)理解和運(yùn)用文化遺產(chǎn)領(lǐng)域的獨(dú)特知識(shí),研究團(tuán)隊(duì)在數(shù)據(jù)收集階段,從中國(guó)非物質(zhì)文化遺產(chǎn)網(wǎng)的政策、資源、學(xué)術(shù)等五大板塊獲取并整理了海量數(shù)據(jù),并利用學(xué)術(shù)文獻(xiàn)數(shù)據(jù)庫(kù)中的大量非遺相關(guān)期刊論文摘要,通過(guò)對(duì)網(wǎng)頁(yè)內(nèi)容的分類(lèi)解析和論文摘要的整理,構(gòu)建了一個(gè)內(nèi)容豐富、預(yù)訓(xùn)練數(shù)據(jù)總字?jǐn)?shù)超1868萬(wàn)字的數(shù)據(jù)集。
在王東波看來(lái),高質(zhì)量數(shù)據(jù)集的構(gòu)建是非遺大語(yǔ)言模型獲取相關(guān)領(lǐng)域?qū)I(yè)知識(shí)的必要條件。為使模型能夠更好地理解和響應(yīng)非遺相關(guān)問(wèn)題,研究團(tuán)隊(duì)通過(guò)對(duì)數(shù)據(jù)的量化分析和組織專(zhuān)家的深度參與,構(gòu)建了面向非遺的知識(shí)實(shí)體標(biāo)注方案,所完成的知識(shí)實(shí)體精標(biāo)注語(yǔ)料庫(kù)總字符數(shù)超176萬(wàn)。
經(jīng)過(guò)長(zhǎng)期的人工數(shù)據(jù)標(biāo)注與校驗(yàn),團(tuán)隊(duì)實(shí)現(xiàn)了非遺數(shù)據(jù)知識(shí)實(shí)體的精細(xì)標(biāo)注。為進(jìn)一步豐富訓(xùn)練數(shù)據(jù),研究團(tuán)隊(duì)結(jié)合數(shù)據(jù)生成的特性,與南京大學(xué)術(shù)語(yǔ)與翻譯跨學(xué)科研究基地的魏向清教授團(tuán)隊(duì)合作,依托超大型語(yǔ)言模型,融入了《中國(guó)世界級(jí)非遺文化悅讀系列》叢書(shū)中的對(duì)話(huà)內(nèi)容,對(duì)已有非遺文本數(shù)據(jù)進(jìn)行轉(zhuǎn)換與增強(qiáng),構(gòu)建了高質(zhì)量的非遺知識(shí)對(duì)話(huà)數(shù)據(jù)。
依托南京農(nóng)業(yè)大學(xué)高性能算力平臺(tái),研究團(tuán)隊(duì)訓(xùn)練出非遺領(lǐng)域基座大模型,又在非遺知識(shí)對(duì)話(huà)數(shù)據(jù)的基礎(chǔ)上進(jìn)一步構(gòu)建了非遺對(duì)話(huà)大模型。
“非遺對(duì)話(huà)大模型可以實(shí)現(xiàn)非遺文化的智能化傳播與知識(shí)普及,目前,這款模型有中英文兩種語(yǔ)言模式。后期我們也將嘗試引入其他語(yǔ)種,將不同地域的非遺文化融合,打破語(yǔ)言障礙,助力中國(guó)非遺文化走向世界?!蓖鯑|波表示,團(tuán)隊(duì)希望通過(guò)非遺領(lǐng)域大語(yǔ)言模型,促進(jìn)傳統(tǒng)故事、技藝、習(xí)俗等內(nèi)容的數(shù)字化、知識(shí)化、系統(tǒng)化保護(hù)與利用,建立非遺的長(zhǎng)效保護(hù)體系,確保非遺的可持續(xù)發(fā)展。(記者 金鳳 通訊員 趙志梟)
轉(zhuǎn)自:科技日?qǐng)?bào)
【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來(lái)源“中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)和立場(chǎng)。版權(quán)事宜請(qǐng)聯(lián)系:010-65363056。
延伸閱讀
版權(quán)所有:中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號(hào)-2京公網(wǎng)安備11010502035964