ライブ配信者の茜茜が15日、「双子の妹」の手を引き科大訊飛のTikTokライブ配信スタジオに登場した。この「双子の配信者」は瓜二つの「姉妹」に見えるが、西西は科大訊飛が新たに発表した「AIバーチャルヒューマンライブ配信システム」によって作られたもので、茜茜の外見をコピーしただけでなく、駆動能力も付与していることで、バーチャル配信者によるライブ配信が可能になった。科技日報が伝えた。
■バーチャル配信者はカスタマイズ可能でキャラクターも選べる
科大訊飛研究院の劉聡執行院長は取材に、「これは主に音声認識、顔モデリング、口の動きの予測、音声駆動などの独自のキーテクノロジーをよりどころに、ユーザーはテキストまたは音声により入力し、バーチャルヒューマンにライブ配信させることによってスマート駆動を実現し、スピーディかつ便利にバーチャルライブ配信を行える」と述べた。
劉氏によると、科大訊飛はビッグデータマルチモードプレトレーニングの言語及び発話者と関連のない口の動きの駆動フレームに基づき、本物さながらの口の動きの合成効果を保証すると同時に、異なる言語、方言、音色を含む異なるタイプの音声の口の動きを実現する。バーチャル配信者は時空の制限を受けず、寝室のベッドからでもライブ配信できる。しかもいつでも本物の配信者と「シームレス」に切り替えられ、よりフレキシブルで変化が大きい。劉氏は、「AIバーチャルヒューマンライブ配信システムはさらに、豊富なシーンバンクを持つ。ライブ配信の内容、バーチャルヒューマンの『性格』などに基づき自由にカスタマイズし、専用のバーチャルヒューマンライブ配信スタジオを作れる」と述べた。
科大訊飛の「AIバーチャルヒューマンライブ配信システム」には豊富なイメージバンクがあり、視聴者の好みや需要に基づき五官をカスタマイズし、新たなバーチャルヒューマンを作ることができる上、各シーンにふさわしいイメージを与えることも可能だ。2Dや3D、半身や全身、さらにはキャラクターの種類を選択できる。劉氏は、「科大訊飛の先進的な音声合成技術は、バーチャルヒューマンのパーソナライズされた音声バンクを作れ、生身の人間の声を再現したり、特色ある声を作ることができる。多言語技術によりAIバーチャル配信者は中国語と英語を混ぜた配信が可能で、さらに日本語、韓国語、タイ語、ベトナム語など複数の国の言語をサポートでき、非常にグローバルだ」と述べた。
■各業界で使用可能、将来的には一般家庭の利用も
バーチャル配信者はさらに需要に基づきマルチターミナルインターフェースを提供でき、さらに複数のシーンに向け垂直かつ完全なソリューションを提供できる。メディア、金融、文化・観光、政府・企業など複数の業界で使用可能だ。音声・動画コンテンツの自動生成、スマートインタラクティブのAI商品サービスを提供し、自動化・スマート化の顧客価値の実現をアシストする。
うちメディアの報道シーンでは、大量の音声・動画コンテンツを対象にニュースコンテンツの音声・動画自動生成が可能だ。文字を入力するだけで「ワンストップ」で動画を生成できる。特に重大で突発的なニュースなどの更新頻度がより高いコンテンツの配信により、効率を大幅にアップできる。現在は中央テレビニュース、人民日報デジタル配信、合肥電視台などのメディアで、科大訊飛と共に構築したバーチャル配信者が活躍している。
劉氏は、「バーチャルヒューマンを担い手とする新世代マン・マシン・インタラクションが急速に進化する。感知、理解、表現など複数の次元で技術の進展を続け、マン・マシン・インタラクションを飛躍的に向上させる必要がある。簡単に言えば我々はバーチャルヒューマンがより賢くなり、感情と個性を持ち、人類の仕事と生活をサポートできるようになることを願っている」と述べ、バーチャルヒューマンの将来の発展に自信を深めている。(編集YF)
「人民網日本語版」2022年5月18日