カラクリ、国産CUAモデル「KARAKURI VL2」を開発 ― 画像編集・メール操作でClaude Sonnet 4.6超え

カラクリが国産CUAモデル「KARAKURI VL2」を発表

カラクリ株式会社は、経済産業省の生成AI開発支援プログラム「GENIAC」第3期の成果として、PC操作を自律的に実行する国産CUA(Computer Use Agent)向け視覚言語モデル「KARAKURI VL2」(8Bパラメータ)を開発しました。このモデルは、日本語環境でのPC操作に特化し、特定の業務領域で高い性能を発揮しています。

注目すべきベンチマーク結果

自社開発の日本語PC操作ベンチマーク「OSWorld-JP v0.2」(100タスク)で評価した結果、「KARAKURI VL2」はいくつかの点で優れた性能を示しました。特に、画像編集(GIMP)とメール操作(Thunderbird)の2カテゴリでは、Claude Sonnet 4.6を上回るスコアを記録しています。また、複数のアプリケーションを横断して操作する「multi_apps」カテゴリでは、ベースモデルと比較して約2.8倍ものスコア向上を達成しました。

この「KARAKURI VL2」は、8Bパラメータという軽量設計でありながら、ベースモデルの4倍のパラメータを持つモデルの約88%の性能に迫る効率性も実証しています。これは、エンタープライズ環境でのローカル運用を前提とした軽量化の方向性が有効であることを示唆しています。

モデルとベンチマークのオープンソース公開

カラクリは、開発した学習済みモデル「KARAKURI VL2」と、評価に用いたベンチマーク「OSWorld-JP」をオープンソースで公開しています。これにより、第三者による評価の再現性を高めるとともに、国内におけるCUA研究の共通評価基盤の確立に貢献することを目指しています。学習用コードについても、近日中に公開が予定されています。

「KARAKURI VL2」の技術的特長

「KARAKURI VL2」には、主に3つの技術的特長があります。

  1. ローカル環境で動作する軽量モデル
    8Bパラメータという軽量設計により、企業のオンプレミス環境での動作が可能です。これにより、機密性の高いデータを外部に送信することなく、セキュアな環境でPC操作の自動化を実現します。
  2. 合成データによる業務特化学習
    実際の業務操作パターンを合成データとして生成し、学習に活用しています。これにより、コンタクトセンターなどで日常的に行われる画像編集やメール操作といった特定の業務において、汎用モデルを上回る精度を実現しました。
  3. AWS Trainiumによる学習基盤
    学習基盤にはAWS Trainiumを採用。Qwen3-VLアーキテクチャのTrainium上での大規模学習は、2026年3月時点では公開事例が確認されていない取り組みです。

開発の背景と今後の展望

これまで、主要なCUAモデルは英語環境に最適化されており、日本語UIや国内で広く使われる業務ソフトウェアへの対応が課題でした。カラクリは、GENIAC第2期で開発した32Bモデル「KARAKURI VL」の課題であった推論コストとローカル運用性を改善するため、今回の8Bモデルへの軽量化と日本語ベンチマークの開発に取り組みました。

カラクリのCPO(最高プロダクト責任者)中山 智文氏は、日本の「現場の磨き上げ」をAIの知性に変えることを目指し、業界特化、独自データ活用、自前運用の3つの領域に特化したと述べています。総合性能では海外大手モデルに差があるものの、現場の実務で使われる特定のアプリケーション操作においては、軽量モデルでも十分な精度が出せることを確認したとのことです。

今後、カラクリは「KARAKURI VL2」を基盤としたAIエージェントアプリケーションのサービス化を進め、カスタマーサポート領域から複数アプリケーション間の操作自動化へと対象を拡大していく予定です。また、ベンチマーク「OSWorld-JP」のタスク拡充と評価カテゴリ追加を進め、国内CUA研究の標準的な評価基盤としての発展を目指します。

カラクリ株式会社の詳細については、以下のURLをご覧ください。
https://karakuri.ai/

最近の記事
PAGE TOP