中国のモデルがスター数最多のOCRプロジェクトに、グーグルを超え開発者の注目集める

人民網日本語版 2026年04月03日10:17

中国のオープンソースモデルが再び世界の注目を集めている。百度の大規模言語モデル(LLM)「文心」の派生モデルであるPaddleOCRがこのほど、GitHubでのスター数が7万3300を突破し、初めてグーグルのTesseract OCRを上回り、世界で最もスター数の多いOCRオープンソースプロジェクトとなり、世界中の開発者から高い注目と評価を集めている。科技日報が伝えた。

OCR(光学文字認識)は文字のデジタル化における中核技術であり、画像やPDF内の文字を編集可能なテキストへと変換することができる。長年にわたり、グーグルのTesseract OCRはこの分野のベンチマークとされてきた。今回のPaddleOCRによる逆転は、AI時代におけるOCR技術体系の再構築を迎えており、LLMとの相互強化が新たなトレンドとなっていることを意味する。

PaddleOCRは「文心」をベースにトレーニングされており、異形枠位置特定技術を革新的に導入。紙文書のスキャン時に発生しがちな傾きや折れ曲がり、歪みといった問題を効果的に解決する。同モデルは110以上の言語に対応し、テキストと画像が混在するレイアウトや表、数式など複雑な形式も正確に解析可能で、構造化データとして直接出力できるため、LLMに高品質なデータを提供する基盤となる。

また、LLM技術の進展がOCRの高度化を後押ししており、PaddleOCRは単なる「文字認識」から文書内容の深い理解へと進化している。現在、PaddleOCR OCEANエコシステム連盟が設立され、Hugging Faceなど世界のパートナーが参加。オープンソースOCR技術のより多くの分野における実用化が推進される見通しだ。(編集YF)

「人民網日本語版」2026年4月3日

注目フォトニュース

関連記事