DeepSeek-R1の訓練方法が「ネイチャー」に掲載
人民網日本語版 2025年09月18日14:03
DeepSeek-AIチームの梁文鋒氏とその同僚は17日に学術誌「ネイチャー」で、オープンソース人工知能(AI)モデル「DeepSeek-R1」が採用する大規模推論モデルの訓練方法を発表した。研究によると、大規模言語モデル(LLM)の推論能力は純粋な強化学習によって向上させることができ、それによって性能向上に必要な人間の入力作業量を削減できる。訓練されたモデルは数学、プログラミング競技、STEM分野の大学院レベルの課題といったタスクにおいて、従来の訓練を受けたLLMよりも優れた性能を示すとしている。科技日報が伝えた。
DeepSeek-R1には、推論プロセスの最適化を目的とする、人間の監督下で行う深層トレーニング段階が含まれている。梁氏のチームの報告によると、このモデルは推論ステップの開発において人間が示す事例ではなく、強化学習を採用することで、訓練コストと複雑性を低減させている。
DeepSeek-R1は、優れた問題解決の事例を提示されると、それを基に推論プロセスを生成するテンプレートを得る。つまり、このモデルは問題を解くことでインセンティブを得て、強化学習の効果を高めることができることを意味している。チームは、今後の研究ではインセンティブプロセスの最適化に焦点を当てることで、推論とタスク結果の信頼性を高められるとまとめている。
AIのパフォーマンスを評価する数学ベンチマークテストにおいて、DeepSeek-R1-ZeroとDeepSeek-R1の得点はそれぞれ77.9%と79.8%だった。プログラミング競技や、大学院レベルの生物学、物理、化学の問題でも優れたパフォーマンスを示している。(編集YF)
「人民網日本語版」2025年9月18日
注目フォトニュース
関連記事
- 2025年「フォーチュン」中国テック企業50社 ファーウェイ・DeepSeek・CATLがトップ3
- 専門家「今後18ヶ月で中国にDeepSeek式のブレイクスルーが100件以上現れる」
- DeepSeekが最新アップデートを発表 初の試用レビューが登場
- 地震救援に初活用! ミャンマー救援の言語障壁を7時間で克服したディープシーク
- 中国証監会主席「ディープシークが中国の資産価値再評価を牽引」
- 「騰訊元宝」がディープシークを抜いてアップルストアのランキングトップに立ったワケは?
- 78.8%の回答者がディープシークを仕事や生活の支援に活用
- 浙江省義烏の業者もディープシークで商品販売 「外国語ペラペラ」に
- 国産大規模言語モデル「ディープシーク」のローカリゼーション評価作業が開始
- 「DeepSeek」が史上最速でDAU3000万人を突破したアプリに
このウェブサイトの著作権は人民網にあります。
掲載された記事、写真の無断転載を禁じます。
Tel:日本(03)3449-8257 Mail:japan@people.cn
掲載された記事、写真の無断転載を禁じます。
Tel:日本(03)3449-8257 Mail:japan@people.cn