ブログ

Qlean Dataset、AI開発を加速する「日本語2話者LR分離済みプライベート対話音声・トランスクリプト付き」データセットを提供開始

2026.06.24

新データセットの概要

今回提供が始まったデータセットは、2名の話者がそれぞれ独立したチャンネルに収録された対話音声コーパスです。話者ダイアライゼーションモデルの学習・評価、ASRモデルの対話ドメイン適応、そして音声基盤モデルやLLMの事前学習・ファインチューニング用データとして活用が期待されています。

このデータセットには、性別や年齢の多様性を考慮した日本人87組が、WEB会議環境で交わしたプライベートな対話が収録されています。ステレオLR分離形式で提供されるため、各話者の音声を個別に抽出することが可能です。趣味や特技、価値観といった自然な対話シーンが収められており、スクリプトを読み上げたものではなく、自発的な発話に近い音声的特性を持っています。

データセットの主な特徴は以下の通りです。

データ種別	音声（2話者対話・LR分離）
収録話者	日本人87組（性別・年齢の多様性あり）
収録時間	約500時間（1ファイルあたり約60分）
データ形式	mp3
サンプリング/ビットレート	48kHz / 192kbps / ステレオ
収録内容の特徴	・WEB会議形式での収録
利用用途	商用利用可能・研究利用可能・生成AI学習利用可能

サンプルデータは以下のリンクから確認できます。
https://qleandataset.visual-bank.co.jp/lineup/ds-049

多彩なAI開発への活用シーン

このデータセットは、さまざまなAI開発において具体的なユースケースが想定されています。

話者ダイアライゼーション（Speaker Diarization）モデルの学習・評価: LR分離済みの2話者音声は、グラウンドトゥルースとして機能し、pyannote.audioやNeMoなどのダイアライゼーションモデルの発話セグメント単位のDER評価データとして利用できます。混合音声を生成してから分離精度を測るシミュレーション実験にも応用可能です。
対話ドメインASRのファインチューニング: 読み上げ音声コーパスとは異なる、自発話や対話特有の言語現象（言い淀み・言い直し・重複発話）を含むため、WhisperやESPnetなどのASRモデルを対話ドメインに適応させるfew-shot・LoRAファインチューニングデータとして有効です。トランスクリプトとのアラインメントによるCER・WER評価にも利用できます。
音声分離（Speech Separation）モデルの性能評価: ステレオLR分離済み音声を混合して疑似混合音声を生成し、Conv-TasNetやDPTNet・SepFormerなどの音声分離モデルの性能をSI-SDR・PESQなどで評価するベンチマークデータセットとして利用できます。
音声基盤モデル（Speech LLM）の事前学習・継続事前学習: 音声とテキストを統合的に扱う音声基盤モデル（Speech LLM）の学習には、音声・トランスクリプトが対応付いた大規模データが必要です。500時間規模かつ話者分離済みという特性は、SpeechGPTやQwen-Audioのような音声言語モデルの事前学習・継続事前学習（continual pretraining）用データ、またmulti-modal alignment（音声とテキストの対応学習）用データとして活用できます。
コンタクトセンター向けカスタムSTTエンジン開発: WEB会議形式の2話者対話という収録条件が、実際のカスタマーサポート・面接・カウンセリング音声と近い環境を再現しています。Google STT・Amazon Transcribeのカスタム言語モデル構築、またはWhisperのドメイン適応ファインチューニングによる業務特化STTエンジン開発に活用できます。

また、特定の年齢層・性別構成・対話トピックを指定したカスタム収録や、特定ドメイン（医療・金融など）を想定した対話データの追加収集にも対応しており、柔軟なニーズに応えることが可能です。

Qlean Datasetについて

『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する、権利がクリアで商用利用も可能なAI学習用データソリューションです。音声、画像、動画、3D、テキストなど多様な形式に対応し、AI開発者が法的リスクなく高品質なデータを調達・活用できる環境を提供しています。

国内外のデータホルダーや、ラジオ・新聞社・通信社などのメディアとの協業により、業界特化・トレンド直結のデータラインナップ『AIデータレシピ』を随時追加しています。既存データは最短2営業日で納品され、カスタム収録や収集にも対応しています。

Qlean Datasetサイト：https://qleandataset.visual-bank.co.jp/
AIデータレシピ：https://qleandataset.visual-bank.co.jp/lineup
お問い合わせ：https://qleandataset.visual-bank.co.jp/contact

Visual Bank株式会社について

Visual Bank株式会社は、「あらゆるデータの可能性を解き放つ」をミッションに掲げ、AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業です。漫画家向けのAI補助ツール『THE PEN』や、AI学習用データセット開発サービス『Qlean Dataset』を提供する株式会社アマナイメージズを100%子会社に持っています。

同社は、国の研究開発プログラム「GENIAC」にも採択されており、社会実装に向けた取り組みを加速させています。