1度に16秒の高画質動画を直接生成 中国独自開発の動画生成大規模AIモデルが発表
テキストを入力するだけでリアルな動画を生成してくれる。動画生成大規模AI(人工知能)モデル「Sora」が今年初め、世界のAI業界の内外から広く注目された。27日、2024中関村フォーラム年次総会で、中国が独自に開発した「長時間・高一貫性・高ダイナミクス」という特徴を持つ動画生成大規模AIモデル「Vidu」が初発表された。新華社が伝えた。
会場で明らかになったところによると、この動画生成大規模AIモデルは清華大学と北京生数科技有限公司(生数科技)が研究開発したもので、テキストの記述に基づき、最長16秒で解像度1080pの高画質動画コンテンツを直接生成できる。現実の物理世界をシミュレーションできる上、豊富な想像力も合わせ持つ。
清華大学人工知能研究院副院長で、生数科技の首席科学者の朱軍氏は、「中国の動画生成大規模AIモデルの動画の長さは約4秒が大半だが、Viduは1度に16秒の動画を生成できる。また動画はなめらかさを維持し、カメラの移動に伴い人物及びシーンが時間と空間の中で高い一貫性を保つことができる」と述べた。
ダイナミクスの面では、Viduは複雑な動きのあるシーンを生成でき、単純にカメラを前後左右に動かす固定的なアングルに限られず、1本の動画の中で、ロングショット、クローズショット、ミディアムショット、アップショットなど異なるアングルも切り替えられる。中には、長回し、フォーカストラッキング、トランジションなどの効果も含まれる。
「Viduは実際の物理世界をシミュレーションし、細部が複雑で物理法則に合致するシーンを生成できる。例えば合理的な光と影の効果や、細やかな人物の表情などだ。さらには深みと複雑性を持つ超現実主義的な内容も創出できる」。朱氏は、「『ワンステップ』の生成方法を採用しているため、動画のシーンが最初から最後まで連続的に生成され、明らかなフレーム挿入が見られない」と説明した。
このほか、Viduはパンダやドラゴンなどの映像も生成できる。
Viduの技術のブレイクスルーは、チームの機械学習及びマルチモーダル大規模AIモデルの長期的な蓄積によるものだ。その中核テクノロジーアーキテクチャはチームが早くも22年に打ち出すとともに、独自の研究開発を続けた。朱氏は、「汎用視覚モデルとしてのViduは今後、より多様で長時間の動画コンテンツを生成し、異なる生成任務を模索する。そのフレキシブルなアーキテクチャはより多くのモーダルに対応し、マルチモーダル汎用能力の境界をさらに広げてくれると確信する」と述べた。(編集YF)
「人民網日本語版」2024年4月29日
注目フォトニュース
関連記事
- スタンフォード大がAIレポートを発表 中国の大規模言語モデル数が世界2位
- AIは「電気を食う怪物」?電力不足に直面? 中国のソリューションに注目
- 胡潤研究院「世界のユニコーン企業はAIなど3分野に集中」
- 中国で業界特化型AIモデルが次々誕生 コード生成もAIがサポート
- レノボCTO「大規模言語モデルの次はAIエージェント」
- 北京市、AI大規模言語モデルに供給する3500Pの計算力を追加
- 浙江省初の「デジタルグリーフケア」体験空間がオープン 「AI+葬儀」を模索
- 「AIは5年内に映像・音声のチューリングテストに合格」中国工程院院士が予測
- 中国企業はAI人材を重視、33%多く給与支給の意向
- 雲南省第1弾・621ヶ所の変電所、AI点検を実現
掲載された記事、写真の無断転載を禁じます。
Tel:日本(03)3449-8257 Mail:japan@people.cn