北京大学デジタル人文研究センター、北京大学・字節跳動(バイトダンス)デジタル人文開放実験室、北京大学人工知能(AI)研究院が共催する「古書籍スマート情報処理」シリーズシンポジウムがこのほど、オンライン開催された。光明日報が伝えた。
シンポジウムでは、北京大学デジタル人文研究センターの王軍センター長が、次のように計算した。中国に現存する古書籍は約20万種で、1949年から2019年の間に3万8000種近くが修復・整理・出版された。このペースでいくと、現存する古書籍をすべて修復・整理するのに300年かかる可能性がある。しかしAI技術で修復・整理をアシストすれば、およそ20−30年で完了するだろうという。
王氏が語る「AI技術による古書籍の修復」は未来の科学的構想ではなく、現実における生き生きとした現実になろうとしている。バイトダンスは北京大学教育基金会に寄贈し、北京大学・バイトダンスデジタル人文開放実験室による「古書籍デジタル化プラットフォーム」の研究開発を支援し、スマート技術により中華古書籍資源のデジタル化建設を急ぐとした。3年内に厳選された1万種の古書籍のスマート化修復・整理が行われる見込みだという。
古書籍の保護は長期的に、原始的な保護方式が採用されてきた。これはつまり古書籍が「文化財」として保護されることだ。その後は再生的保護方法が登場し、古書籍の影印と画像の保存が行われた。古書籍が紙またはマイクロフィルムとして存在できるようになった。現在のデジタル化古書籍の多くがマイクロフィルムから変換されたもので、解像度が低く、白黒が中心的だ。
すべての古書籍をデジタル化の手段で影印・出版するとしても、その古書籍は融通がきかず、便利に利用できない。北京大学中国語学部の楊海峥教授は、次の分かりやすい例を挙げた。影印された古書籍には句読点がなく、非常に読みにくい。また古書籍の内容の検索ができず、ある内容を読もうとするならば原文を最初から読む必要があり、スピーディに必要な知識が得られない。そのため伝統的な古書籍の利用率を高めるためには、古書籍の内容をデジタルテキストに変換しなければならない。かつてこの変換は主に専門家が自ら行い、時間的コストが極めて高かった。
王氏によると、近年は北京大学を含む多くの大学及び科学研究機関が、古書籍のデジタル化をめぐり画期的な取り組みを進めている。OCR(光学文字認識)、AI句読、実体識別などの成熟した技術と経験を蓄積している。OCRの応用を例にすると、電子設備で紙の古書籍をスキャンすることで、その内容がコンピューター内に入力され、相応するデジタルファイルが生成される。その効率は人の手による入力よりけた違いに高い。
北京大学デジタル人文研究センターはAIとビッグデータ技術を利用し、先秦から明清の時代を跨ぐ大規模古書籍テキストを整理し、すでに古書籍の自動句読を実現している。平均正解率は94%。同時に人名、地名、時代名、官職名、書名の自動識別を実現しており、その中古史料における正確度は98%近くにのぼっている。(編集YF)
「人民網日本語版」2022年4月11日