1度に16秒の高画質動画を直接生成 中国独自開発の動画生成大規模AIモデルが発表

人民網日本語版 2024年04月29日14:58

テキストを入力するだけでリアルな動画を生成してくれる。動画生成大規模AI(人工知能)モデル「Sora」が今年初め、世界のAI業界の内外から広く注目された。27日、2024中関村フォーラム年次総会で、中国が独自に開発した「長時間・高一貫性・高ダイナミクス」という特徴を持つ動画生成大規模AIモデル「Vidu」が初発表された。新華社が伝えた。

会場で明らかになったところによると、この動画生成大規模AIモデルは清華大学と北京生数科技有限公司(生数科技)が研究開発したもので、テキストの記述に基づき、最長16秒で解像度1080pの高画質動画コンテンツを直接生成できる。現実の物理世界をシミュレーションできる上、豊富な想像力も合わせ持つ。

清華大学人工知能研究院副院長で、生数科技の首席科学者の朱軍氏は、「中国の動画生成大規模AIモデルの動画の長さは約4秒が大半だが、Viduは1度に16秒の動画を生成できる。また動画はなめらかさを維持し、カメラの移動に伴い人物及びシーンが時間と空間の中で高い一貫性を保つことができる」と述べた。

ダイナミクスの面では、Viduは複雑な動きのあるシーンを生成でき、単純にカメラを前後左右に動かす固定的なアングルに限られず、1本の動画の中で、ロングショット、クローズショット、ミディアムショット、アップショットなど異なるアングルも切り替えられる。中には、長回し、フォーカストラッキング、トランジションなどの効果も含まれる。

「Viduは実際の物理世界をシミュレーションし、細部が複雑で物理法則に合致するシーンを生成できる。例えば合理的な光と影の効果や、細やかな人物の表情などだ。さらには深みと複雑性を持つ超現実主義的な内容も創出できる」。朱氏は、「『ワンステップ』の生成方法を採用しているため、動画のシーンが最初から最後まで連続的に生成され、明らかなフレーム挿入が見られない」と説明した。

このほか、Viduはパンダやドラゴンなどの映像も生成できる。

Viduの技術のブレイクスルーは、チームの機械学習及びマルチモーダル大規模AIモデルの長期的な蓄積によるものだ。その中核テクノロジーアーキテクチャはチームが早くも22年に打ち出すとともに、独自の研究開発を続けた。朱氏は、「汎用視覚モデルとしてのViduは今後、より多様で長時間の動画コンテンツを生成し、異なる生成任務を模索する。そのフレキシブルなアーキテクチャはより多くのモーダルに対応し、マルチモーダル汎用能力の境界をさらに広げてくれると確信する」と述べた。(編集YF)

「人民網日本語版」2024年4月29日

注目フォトニュース

関連記事