新データセットの概要
今回提供が始まったデータセットは、2名の話者がそれぞれ独立したチャンネルに収録された対話音声コーパスです。話者ダイアライゼーションモデルの学習・評価、ASRモデルの対話ドメイン適応、そして音声基盤モデルやLLMの事前学習・ファインチューニング用データとして活用が期待されています。
このデータセットには、性別や年齢の多様性を考慮した日本人87組が、WEB会議環境で交わしたプライベートな対話が収録されています。ステレオLR分離形式で提供されるため、各話者の音声を個別に抽出することが可能です。趣味や特技、価値観といった自然な対話シーンが収められており、スクリプトを読み上げたものではなく、自発的な発話に近い音声的特性を持っています。
データセットの主な特徴は以下の通りです。
| データ種別 | 音声(2話者対話・LR分離) |
|---|---|
| 収録話者 | 日本人87組(性別・年齢の多様性あり) |
| 収録時間 | 約500時間(1ファイルあたり約60分) |
| データ形式 | mp3 |
| サンプリング/ビットレート | 48kHz / 192kbps / ステレオ |
| 収録内容の特徴 | ・WEB会議形式での収録 |
| 利用用途 | 商用利用可能・研究利用可能・生成AI学習利用可能 |
サンプルデータは以下のリンクから確認できます。
https://qleandataset.visual-bank.co.jp/lineup/ds-049
多彩なAI開発への活用シーン
このデータセットは、さまざまなAI開発において具体的なユースケースが想定されています。
-
話者ダイアライゼーション(Speaker Diarization)モデルの学習・評価: LR分離済みの2話者音声は、グラウンドトゥルースとして機能し、pyannote.audioやNeMoなどのダイアライゼーションモデルの発話セグメント単位のDER評価データとして利用できます。混合音声を生成してから分離精度を測るシミュレーション実験にも応用可能です。
-
対話ドメインASRのファインチューニング: 読み上げ音声コーパスとは異なる、自発話や対話特有の言語現象(言い淀み・言い直し・重複発話)を含むため、WhisperやESPnetなどのASRモデルを対話ドメインに適応させるfew-shot・LoRAファインチューニングデータとして有効です。トランスクリプトとのアラインメントによるCER・WER評価にも利用できます。
-
音声分離(Speech Separation)モデルの性能評価: ステレオLR分離済み音声を混合して疑似混合音声を生成し、Conv-TasNetやDPTNet・SepFormerなどの音声分離モデルの性能をSI-SDR・PESQなどで評価するベンチマークデータセットとして利用できます。
-
音声基盤モデル(Speech LLM)の事前学習・継続事前学習: 音声とテキストを統合的に扱う音声基盤モデル(Speech LLM)の学習には、音声・トランスクリプトが対応付いた大規模データが必要です。500時間規模かつ話者分離済みという特性は、SpeechGPTやQwen-Audioのような音声言語モデルの事前学習・継続事前学習(continual pretraining)用データ、またmulti-modal alignment(音声とテキストの対応学習)用データとして活用できます。
-
コンタクトセンター向けカスタムSTTエンジン開発: WEB会議形式の2話者対話という収録条件が、実際のカスタマーサポート・面接・カウンセリング音声と近い環境を再現しています。Google STT・Amazon Transcribeのカスタム言語モデル構築、またはWhisperのドメイン適応ファインチューニングによる業務特化STTエンジン開発に活用できます。
また、特定の年齢層・性別構成・対話トピックを指定したカスタム収録や、特定ドメイン(医療・金融など)を想定した対話データの追加収集にも対応しており、柔軟なニーズに応えることが可能です。
Qlean Datasetについて
『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する、権利がクリアで商用利用も可能なAI学習用データソリューションです。音声、画像、動画、3D、テキストなど多様な形式に対応し、AI開発者が法的リスクなく高品質なデータを調達・活用できる環境を提供しています。
国内外のデータホルダーや、ラジオ・新聞社・通信社などのメディアとの協業により、業界特化・トレンド直結のデータラインナップ『AIデータレシピ』を随時追加しています。既存データは最短2営業日で納品され、カスタム収録や収集にも対応しています。
-
Qlean Datasetサイト:https://qleandataset.visual-bank.co.jp/
Visual Bank株式会社について
Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに掲げ、AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業です。漫画家向けのAI補助ツール『THE PEN』や、AI学習用データセット開発サービス『Qlean Dataset』を提供する株式会社アマナイメージズを100%子会社に持っています。
同社は、国の研究開発プログラム「GENIAC」にも採択されており、社会実装に向けた取り組みを加速させています。
-
代表取締役CEO:永井 真之
-
所在地:〒107-0062 東京都港区南青山7-1-7 C-Cube南青山ビル6F
-
Visual Bank企業URL:https://visual-bank.co.jp/
-
アマナイメージズ企業URL:https://amanaimages.com/about/