北大與字節合作推古籍數字化平臺：3年完成萬部古籍整理

2022-10-12 來自新浪科技發表於業界精選

近日，由“北京大學—字節跳動數字人文開放實驗室”研發的古籍數字化平臺“識典古籍”測試版正式上線。據介紹，該平臺涵蓋390部經典古籍，主要來自《四部叢刊》，共計3000多萬字，即日起向公眾免費開放。未來三年將陸續完成一萬種古籍的智能化整理工作，基本覆蓋儒傢、道傢和佛學的核心典籍目錄，屆時將全部免費開放。

據解，上述實驗室系今年3月北京大學與字節跳動合作成立，將人工智能技術應用於古籍資源的智能化整理。“識典古籍”平臺上線是雙方合作的最新進展。與其他古籍數字化平臺相比，“識典古籍”頁面簡潔、瀏覽流暢，提供影印底本作為參照，還具備主題詞檢索和繁簡體轉換功能，後續將上線手機移動版平臺。

當前，中國的古籍數字化還處於初級階段，面臨技術難度高、資金缺口大、人才緊張等難點。相關資料顯示，現存的20多萬種古籍中，隻有8萬種完成影像數字化掃描，近4萬種完成文本數字化。據專傢統計，從1949年到2019年，國內共修復整理出版古籍近3.8萬種，要將現存古籍全部修復整理出來，可能需要300年時間；若利用人工智能技術輔助修復整理，大概二三十年就能完成。

據“識典古籍”項目負責人介紹，該平臺當前主要使用三種技術，包括文字識別、自動標點和命名實體識別。據悉，目前行業內OCR識別準確率平均為93%至94%，“識典古籍”的準確率為96%至97%。

北大與字節合作推古籍數字化平臺：3年完成萬部古籍整理

相關推薦

字節跳動剛收編一位北大女CEO

放心淘汰五筆？拼音輸入法發力騰訊、OPPO等補上最後一環：生僻字字體包

揭秘TikTok CEO周受資：被字節跳動削權的二把手

歷史最大百科全書《永樂大典》首次線上免費看

三顧種草而不得小紅書終成字節心病

送懂車帝“出嫁”，張一鳴豪賭AI

2023兔年央視春晚節目單來：群星聚集小品、相聲都齊

TikTok賺錢能力原來越強，谷歌FB害怕瞭嗎？

北大發起復現Sora：框架已搭袁粒、田永鴻領銜 AnimateDiff大神響應

消息稱字節跳動與摩根大通合作進軍支付領域

億萬富翁被拐25年的兒子究竟是咋找到的？

是路“漫漫”還是路“曼曼”？網友吵翻又學錯嗎：眾專傢科普可通用

騰訊、字節“世紀大和解”！《王者榮耀》抖音直播今起全面開放：禁播已5年

數字科技生態大會數智渠道新生態合作論壇在粵召開