中国独自開発の動画生成LLM「Vidu」が全世界リリース

人民網日本語版　2024年08月05日10:09

テキストを入力するか画像をアップロードすると、すぐにリアルな動画が生成される。こんなことを可能にした中国独自開発の汎用動画生成大規模言語モデル（LLM）「Vidu」が、このほど全世界に向けてリリースされた。この動画生成LLMは、テキストから動画を生成する機能と画像から動画を生成する機能の2つのコア機能を備え、動画は4秒または８秒の長さを選択することができ、画像の解像度は最高で1080pに達し、4秒の動画を生成するのに30秒しかかからない。新華社が伝えた。

画像はテキストを入力して「Vidu」で生成した動画の画面。（写真提供は取材対象者）

テキストを入力して「Vidu」で生成した動画の画面。（写真提供は取材対象者）

Viduは清華大学が北京生数科技有限公司と共同で開発したもので、今年4月に行われた2024年中関村フォーラム年次総会で初めて発表された。清華大学人工知能（AI）研究院副院長で同公司首席サイエンティストの朱軍氏は、「Viduには、生成される動画の時間が長く、高一貫性、高ダイナミクスという特徴が備わっており、テキストと画像から高解像度の動画を生成することができ、高い流暢性と高ダイナミクスの画像効果を維持することができる。現時点で、Viduは1回あたり最長32秒の動画を生成できる」と説明した。

また朱氏は、「Viduは実在の物理的世界をシミュレーションすることができ、細部にこだわり複雑かつ物理法則に合ったシーンを生成することもできる。たとえば合理的な光と影の効果、人物の細かい表情などを生成できるし、深みと複雑さを備えたシュールレアリスティックなコンテンツを生み出すこともできる。SF、西部劇、ロマンス、アニメなど複数タイプの映画について、Viduはそれぞれのスタイルに合った画面を生成でき、煙や霧、まぶしい光など、映画・テレビレベルの視覚効果の画面も生成できる」と説明した。

Viduはダイナミクスの面で、複雑な動的映像を生成することが可能で、大規模で正確なアクションを生成でき、画面の中で遠景、近景、中景、クローズアップなどのレンズの切り替えが可能で、ロングショット、ズーム、トランジションなどの効果も直接生成できるという。

画像はテキストを入力して「Vidu」で生成した動画の画面。（写真提供は取材対象者）

テキストを入力して「Vidu」で生成した動画の画面。（写真提供は取材対象者）

同公司によると、テキストからの動画生成機能と画像からの動画生成機能の2つの基本的機能のほか、ユーザーにより多様で個性を表現できる動画の創作体験を提供するため、Viduは「アニメスタイル」と「キャラクター一貫性」の2つの新機能をリリースした。画像からの動画生成セクションで「キャラ一貫性」機能を利用すると、ユーザーは人の画像か自分で設定したキャラクターのイラストをアップロードし、テキストを打ち込み、画像の中のキャラクターを指定して、好みのシーンで好みのアクションをさせることができる。この機能により動画制作プロセスが簡略化され、創作の自由度も増した。

Viduを使用するのに申請の必要はなく、ユーザーはメールアドレスを登録すればすぐに体験できる。Viduの技術的飛躍は開発チームが機械学習（マシンラーニング）とマルチモーダル大規模言語モデルで長年にわたり積み上げてきた成果が土台になっており、その中核技術のアーキテクチャはチームが22年に提起し、その後も独自開発を続けてきたものだ。（編集KS）

「人民網日本語版」2024年8月5日

過去記事

多言語

中国独自開発の動画生成LLM「Vidu」が全世界リリース

注目フォトニュース

関連記事