北大與字節合作推古籍數字化平臺:3年完成萬部古籍整理


近日,由“北京大學—字節跳動數字人文開放實驗室”研發的古籍數字化平臺“識典古籍”測試版正式上線。據介紹,該平臺涵蓋390部經典古籍,主要來自《四部叢刊》,共計3000多萬字,即日起向公眾免費開放。未來三年將陸續完成一萬種古籍的智能化整理工作,基本覆蓋儒傢、道傢和佛學的核心典籍目錄,屆時將全部免費開放。


據解,上述實驗室系今年3月北京大學與字節跳動合作成立,將人工智能技術應用於古籍資源的智能化整理。“識典古籍”平臺上線是雙方合作的最新進展。與其他古籍數字化平臺相比,“識典古籍”頁面簡潔、瀏覽流暢,提供影印底本作為參照,還具備主題詞檢索和繁簡體轉換功能,後續將上線手機移動版平臺。

當前,中國的古籍數字化還處於初級階段,面臨技術難度高、資金缺口大、人才緊張等難點。相關資料顯示,現存的20多萬種古籍中,隻有8萬種完成影像數字化掃描,近4萬種完成文本數字化。據專傢統計,從1949年到2019年,國內共修復整理出版古籍近3.8萬種,要將現存古籍全部修復整理出來,可能需要300年時間;若利用人工智能技術輔助修復整理,大概二三十年就能完成。

據“識典古籍”項目負責人介紹,該平臺當前主要使用三種技術,包括文字識別、自動標點和命名實體識別。據悉,目前行業內OCR識別準確率平均為93%至94%,“識典古籍”的準確率為96%至97%。


相關推薦

2022-08-07

隻是讓人好奇,字節跳動為何要買下一傢高端婦兒醫院?北大女學霸創業17年高瓴、華平、君聯、華興都投美中宜和的故事,始於一位歸國女博士胡瀾。資料顯示,胡瀾畢業於北京大學醫學部(原北京醫科大學),後赴美國於俄

2023-04-24

全統計,我國有超過 6000 萬人名,以及大量地名、方言、古籍文獻中包含生僻字,而其中大部分無法輸入和顯示,隱身”於數字時代。其實,去年11月,騰訊、搜狗輸入法聯合工信部電子工業標準化研究院、漢儀字庫共同發起漢

2022-09-17

隨著TikTok在全球爆紅,並積累大約16億的月活躍用戶,它與字節跳動的關系引發監管機構的擔憂。TikTok在一封電子郵件中表示,周受資是其產品和戰略決策的最終負責人。字節跳動表示,他熟悉公司的業務。財務管傢外界對於周

2023-02-09

化全文和知識標引示范,並且全部免費開放,讓這珍貴的古籍能帶給更多人知識的滋養,也讓這部中國文化的重要符號更加閃耀。一部巨著,彰顯國威,造福萬代。《永樂大典》包括經、史、子,集天文地理,陰陽醫術,占卜,

2022-07-11

頻版圖,催生出一個全民型娛樂平臺。張一鳴的殺伐決斷與字節跳動的攻城略地相輔相成。其可貴之處在於,新生代巨頭陣營中,京東是在騰訊陰影下長大,滴滴、小米在新領域壯大,不過是在填補 BAT 時代老版圖的空白,唯獨

2024-06-14

。過去半年多,懂車帝的股權和人員架構有不少新變化,與字節形成一定程度的隔離。它的大股東由今日頭條變更為廈門的一傢新公司,還傳出一部分員工勞務關系遷移、開設獨立辦公地點的消息。這被視為懂車帝獨立發展和上

2023-01-21

是利用VR三維繪制等總臺新技術,讓上古神獸走出”文獻古籍,和現代生活中的孩子們奇妙相遇。語言類節目中,相聲《我的變、變、變》詼諧幽默,小品《坑》《初見照相館》《馬上到》《上熱搜》等聚焦社會熱點和百姓日常

2022-06-25

上買東西的過程非常簡單,就像點擊一下鼠標那樣。”據與字節跳動關系密切的人士透露,TikTok計劃今年將其電子商務總商品交易額增至20億美元,到2023年增至230億美元。印尼是人口最多的市場之一,將在TikTok實現預期目標中發

2024-03-03

北大團隊發起一項Sora復現計劃——OpenSora。框架、實現細節已出:初始團隊一共13人:帶隊的是北大信息工程學院助理教授、博導袁粒和北大計算機學院教授、博導田永鴻等人。為什麼發起這項計劃?因為資源有限,團隊希望集

2023-01-06

支付領域。據美國《福佈斯》1月5日報道,摩根大通正在與字節跳動合作,幫助字節跳動開發支付技術。報道指出,字節跳動聘請摩根大通來簡化這些交易,改善支付的發送和接收方式,並為字節跳動的十幾種產品建立一個集中

2023-12-07

累計找回 600 多人。於是,四川警方找上他們,想要一起合作把那 10 個孩子給找回來。巧的是,當時他們用的也是跨年齡人臉識別技術。就是先對 0 歲 -18 歲的人臉成長變化進行模擬建模,再通過機器學習計算出孩子可能長成什

2022-11-04

教材編者應盡量使用反映作者當時意思的用字版本,積累古籍整理的相關知識,對於存在異字的,可以註釋說明。而學生和讀者,其實可以不必太去考據這些差別不大的字眼,應更多去體會詩的美好意境。比如該詩句中屈原寫吾

2024-01-21

2019年在抖音全面禁播,距今近5年,本次復播意味著騰訊與字節跳動迎來世紀大和解”。據國內媒體報道,自2016年起,騰訊多次狀告字節跳動,指控其旗下平臺直播騰訊系遊戲的行為侵犯著作權。2019年1月,廣州知識產權法院裁

2023-11-10

2023年11月9日下午,2023數字科技生態大會數智渠道新生態合作論壇在廣州召開。本次論壇以“數聚生態智贏未來”為主題,旨在與產業鏈合作夥伴深入交流,共謀合作發展新機遇、共創轉型升級新格局,持續構建以客戶為中心的