上海人工知能実験室、マルチモーダル言語データを発表

人民網日本語版　2023年08月16日13:33

上海人工知能実験室はこのほど、言語データ連盟の会員機関と共同で、オープンソースの「書生・万巻」1.0マルチモーダルプレトレーニング言語データを公開した。人民日報が伝えた。

「書生・万巻」1.0は言語データ連盟の会員機関の豊富なコンテンツの蓄積と上海人工知能実験室のデータ処理力などの優位性を集約し、学術界及び産業界に質の高い基盤モデルマルチモーダルプレトレーニング言語データを提供することになる。

今回公開されたデータの総量は2TBを超えており、テキスト、画像・文字、動画の3つのデータ集が含まれる。うちテキストデータはウェブサイト、百科事典、書籍、特許、教材、試験問題などから得られたもので、データ総量はファイル5億個以上、データサイズは1TBを超え、科学技術、文学、メディア、教育、法律など複数の分野を網羅。画像・文字データは主にオープンなウェブサイトから得られたもので、処理された後に画像とテキストが混在したファイルを形成し、総量は2200万個以上で、データサイズは140GB（画像を除く）を超え、ニュース、人物、自然景観、社会生活など複数の分野を網羅。動画データは主に中央広播電視総台と上海文広集団から得られたもので、ニュースや映画・テレビなど複数種類の番組・映像が含まれ、動画ファイルは計1000個以上で、データサイズは900GBを超え、内容的には軍事、文芸、スポーツ、自然、知識、映像芸術などが含まれる。（編集YF）

「人民網日本語版」2023年8月16日

過去記事

多言語

上海人工知能実験室、マルチモーダル言語データを発表

注目フォトニュース

関連記事