北京2022年9月26日 /美通社/ -- 日前,由上海世紀(jì)出版集團(tuán)統(tǒng)一規(guī)劃、上海古籍出版社論證實(shí)施的"尚古匯典·古籍?dāng)?shù)字服務(wù)平臺(tái)"一期項(xiàng)目正式上線。該平臺(tái)是一個(gè)基于光學(xué)文字識(shí)別(OCR)、自然語(yǔ)言處理、大規(guī)模語(yǔ)料庫(kù)等智能算法技術(shù),聚合上海世紀(jì)出版集團(tuán)內(nèi)部古籍資源,所形成的一個(gè)鏈接并服務(wù)古籍整理出版者、古籍專(zhuān)業(yè)研究者、傳統(tǒng)文化愛(ài)好者的古籍內(nèi)容生產(chǎn)與知識(shí)服務(wù)的數(shù)字化開(kāi)放平臺(tái)。浪潮信息與元腦伙伴上海華胄為上海古籍出版社提供技術(shù)支持,平臺(tái)現(xiàn)已涵蓋古籍整理1168種,總字?jǐn)?shù)超過(guò)3億字,并且即將開(kāi)放古籍OCR、自動(dòng)標(biāo)點(diǎn)、自動(dòng)標(biāo)引等工具。
AI加速推動(dòng)古籍整理利用轉(zhuǎn)型升級(jí)
一直以來(lái),古籍保護(hù)主要采用原生性保護(hù)方式,即把古籍當(dāng)作"文物"保護(hù)起來(lái),后來(lái)出現(xiàn)再生性保護(hù)方式,對(duì)古籍進(jìn)行影印再造和影像保存,此種方式呈現(xiàn)的圖像整體質(zhì)量較低,翻閱難度大,難以滿足讀者和研究人員的需要。近十幾年來(lái),各種古籍?dāng)?shù)據(jù)庫(kù)服務(wù)開(kāi)始興起,但是市面上的產(chǎn)品大多良莠不齊,缺少精品。
為增補(bǔ)完善國(guó)家古籍?dāng)?shù)字化基礎(chǔ)資源、全面盤(pán)活古籍核心文獻(xiàn)、完善古籍知識(shí)生產(chǎn)和服務(wù)模式,由上海古籍出版社打造的"尚古匯典·古籍?dāng)?shù)字服務(wù)平臺(tái)"于去年9月啟動(dòng),一期項(xiàng)目于近期正式上線,用戶(hù)可以實(shí)現(xiàn)古籍全文檢索、在線閱讀,同時(shí)提供聯(lián)機(jī)字典、紀(jì)年換算等實(shí)用工具。
在技術(shù)上,"尚古匯典·古籍?dāng)?shù)字服務(wù)平臺(tái)"將分別籌劃打造以知識(shí)生產(chǎn)及知識(shí)服務(wù)為目標(biāo)的兩個(gè)技術(shù)平臺(tái),即以古籍全文識(shí)別系統(tǒng)(OCR)、古籍智能整理系統(tǒng)、古籍智能算法平臺(tái)為基礎(chǔ)的知識(shí)生產(chǎn)平臺(tái),和實(shí)現(xiàn)海量古籍文獻(xiàn)在資源層、內(nèi)容層、語(yǔ)義層的關(guān)聯(lián),以此構(gòu)建的古籍知識(shí)服務(wù)平臺(tái)。
元腦伙伴上海華胄助力打造先進(jìn)算力底座
古籍的提取并不是一件容易的事情,由于年代久遠(yuǎn)、水解、氧化、微生物降解等原因,很多古籍都難完整保留下來(lái),科研人員需要對(duì)其進(jìn)行更大規(guī)模的提取,以獲得更多的有效數(shù)據(jù)。
無(wú)論是古籍的分析還是提取,或是針對(duì)研究數(shù)據(jù)的處理,背后都對(duì)算力提出了極高的要求。過(guò)去科研人員通常使用臺(tái)式機(jī)和普通的服務(wù)器進(jìn)行一系列數(shù)據(jù)分析,單次處理的古籍?dāng)?shù)量非常有限。隨著古籍技術(shù)平臺(tái)的升級(jí),科研人員的捕獲能力得到增強(qiáng),實(shí)驗(yàn)所得的古籍文字量大幅提升,繼而帶來(lái)了巨大的數(shù)據(jù)處理任務(wù),當(dāng)前算力已經(jīng)遠(yuǎn)遠(yuǎn)無(wú)法滿足需求。
作為元腦合作伙伴,上海華胄為上海古籍出版社提供最新一代AI旗艦服務(wù)器靈活布置次級(jí)業(yè)務(wù)系統(tǒng),保障業(yè)務(wù)系統(tǒng)的高可用,為古籍研究帶來(lái)源源不斷的優(yōu)質(zhì)算力,為其搭建高效應(yīng)用平臺(tái)。
該平臺(tái)的OCR系統(tǒng)、自動(dòng)標(biāo)點(diǎn)與自動(dòng)標(biāo)引技術(shù)開(kāi)發(fā)都已趨于成熟,其中OCR技術(shù)可以在一分鐘以?xún)?nèi)完成200頁(yè)古籍圖像的識(shí)別,準(zhǔn)確率超過(guò)93%。OCR輸出的文本在經(jīng)過(guò)自動(dòng)標(biāo)點(diǎn)和標(biāo)引之后,可以快速達(dá)到可檢索、便于閱讀的目的,極大方便了學(xué)術(shù)研究。未來(lái),這一平臺(tái)還通過(guò)解析上海古籍出版社海量古籍資源內(nèi)容,對(duì)其進(jìn)行知識(shí)結(jié)構(gòu)化揭示,重構(gòu)原有的古籍內(nèi)容組織形式,并創(chuàng)建全新的知識(shí)模塊,實(shí)現(xiàn)古籍資源的知識(shí)化、專(zhuān)業(yè)化服務(wù)。
上海古籍出版社副社長(zhǎng)吳長(zhǎng)青表示,通過(guò)采用OCR的文本生成技術(shù)、自然語(yǔ)言處理的文本整理與標(biāo)引等先進(jìn)技術(shù),大量?jī)?yōu)秀古籍可以在準(zhǔn)確權(quán)威的平臺(tái)上與公眾、專(zhuān)業(yè)研究人員面對(duì)面,使用效率大幅提高,有力促進(jìn)海量?jī)?yōu)秀傳統(tǒng)文化信息便利快捷有效利用。
古籍文化不止是義理、訓(xùn)詁與考證,古代文學(xué)的研究也不應(yīng)該只停留在古籍館與古文工作者的論文中,其價(jià)值更在于以古人的感受、思考去慰藉、照亮現(xiàn)代人。浪潮信息、上海華胄未來(lái)將基于元腦AIStore,積極探索大數(shù)據(jù)、語(yǔ)義網(wǎng)絡(luò)關(guān)聯(lián)及知識(shí)圖譜等技術(shù)在古籍行業(yè)的應(yīng)用,推進(jìn)中華優(yōu)秀傳統(tǒng)文化的創(chuàng)造性轉(zhuǎn)化和創(chuàng)新性發(fā)展,并以此賦能古籍整理出版和學(xué)術(shù)研究、國(guó)學(xué)傳習(xí)。