Qlean Dataset、AI開発を加速する「日本語2話者LR分離済みプライベート対話音声・トランスクリプト付き」データセットを提供開始

新データセットの概要

今回提供が始まったデータセットは、2名の話者がそれぞれ独立したチャンネルに収録された対話音声コーパスです。話者ダイアライゼーションモデルの学習・評価、ASRモデルの対話ドメイン適応、そして音声基盤モデルやLLMの事前学習・ファインチューニング用データとして活用が期待されています。

このデータセットには、性別や年齢の多様性を考慮した日本人87組が、WEB会議環境で交わしたプライベートな対話が収録されています。ステレオLR分離形式で提供されるため、各話者の音声を個別に抽出することが可能です。趣味や特技、価値観といった自然な対話シーンが収められており、スクリプトを読み上げたものではなく、自発的な発話に近い音声的特性を持っています。

データセットの主な特徴は以下の通りです。

データ種別 音声(2話者対話・LR分離)
収録話者 日本人87組(性別・年齢の多様性あり)
収録時間 約500時間(1ファイルあたり約60分)
データ形式 mp3
サンプリング/ビットレート 48kHz / 192kbps / ステレオ
収録内容の特徴 ・WEB会議形式での収録
利用用途 商用利用可能・研究利用可能・生成AI学習利用可能

サンプルデータは以下のリンクから確認できます。
https://qleandataset.visual-bank.co.jp/lineup/ds-049

多彩なAI開発への活用シーン

このデータセットは、さまざまなAI開発において具体的なユースケースが想定されています。

  • 話者ダイアライゼーション(Speaker Diarization)モデルの学習・評価: LR分離済みの2話者音声は、グラウンドトゥルースとして機能し、pyannote.audioやNeMoなどのダイアライゼーションモデルの発話セグメント単位のDER評価データとして利用できます。混合音声を生成してから分離精度を測るシミュレーション実験にも応用可能です。

  • 対話ドメインASRのファインチューニング: 読み上げ音声コーパスとは異なる、自発話や対話特有の言語現象(言い淀み・言い直し・重複発話)を含むため、WhisperやESPnetなどのASRモデルを対話ドメインに適応させるfew-shot・LoRAファインチューニングデータとして有効です。トランスクリプトとのアラインメントによるCER・WER評価にも利用できます。

  • 音声分離(Speech Separation)モデルの性能評価: ステレオLR分離済み音声を混合して疑似混合音声を生成し、Conv-TasNetやDPTNet・SepFormerなどの音声分離モデルの性能をSI-SDR・PESQなどで評価するベンチマークデータセットとして利用できます。

  • 音声基盤モデル(Speech LLM)の事前学習・継続事前学習: 音声とテキストを統合的に扱う音声基盤モデル(Speech LLM)の学習には、音声・トランスクリプトが対応付いた大規模データが必要です。500時間規模かつ話者分離済みという特性は、SpeechGPTやQwen-Audioのような音声言語モデルの事前学習・継続事前学習(continual pretraining)用データ、またmulti-modal alignment(音声とテキストの対応学習)用データとして活用できます。

  • コンタクトセンター向けカスタムSTTエンジン開発: WEB会議形式の2話者対話という収録条件が、実際のカスタマーサポート・面接・カウンセリング音声と近い環境を再現しています。Google STT・Amazon Transcribeのカスタム言語モデル構築、またはWhisperのドメイン適応ファインチューニングによる業務特化STTエンジン開発に活用できます。

また、特定の年齢層・性別構成・対話トピックを指定したカスタム収録や、特定ドメイン(医療・金融など)を想定した対話データの追加収集にも対応しており、柔軟なニーズに応えることが可能です。

Qlean Datasetについて

『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する、権利がクリアで商用利用も可能なAI学習用データソリューションです。音声、画像、動画、3D、テキストなど多様な形式に対応し、AI開発者が法的リスクなく高品質なデータを調達・活用できる環境を提供しています。

国内外のデータホルダーや、ラジオ・新聞社・通信社などのメディアとの協業により、業界特化・トレンド直結のデータラインナップ『AIデータレシピ』を随時追加しています。既存データは最短2営業日で納品され、カスタム収録や収集にも対応しています。

Visual Bank株式会社について

Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに掲げ、AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業です。漫画家向けのAI補助ツール『THE PEN』や、AI学習用データセット開発サービス『Qlean Dataset』を提供する株式会社アマナイメージズを100%子会社に持っています。

同社は、国の研究開発プログラム「GENIAC」にも採択されており、社会実装に向けた取り組みを加速させています。

最近の記事
PAGE TOP