リコーがリーズニング性能を持つマルチモーダル大規模言語モデルを開発、軽量モデルを無償公開

マルチモーダルLMMとは?企業が抱えるドキュメント活用の課題

LMM(Large Multimodal Model)は、テキスト・画像・音声・動画など複数の種類のデータを同時に処理できるAI技術です。スクリーンショットからのテキスト要約や、図表を含む質問への回答など、さまざまなタスクにおいて高い性能を発揮することから、幅広いデータ形式を扱えるAIとして期待が高まっています。

企業内には、請求書や領収書のようなトランザクションデータから、事業戦略、サービスマニュアル、品質管理基準など、多様なドキュメントが蓄積されています。これらのドキュメントには、テキストだけでなく、図や表組、画像なども含まれており、企業内での効率的な利用や新たな価値創出が期待されています。一方で、「テキスト検索では意図した結果が得られない」「検索機能のみでは文書の十分な活用が難しい」といった課題も指摘されています。

近年では、労働力減少への対応、ベテラン社員の退職に伴う技能伝承、外国人労働者の増加に伴う文書の多言語化といった経営課題への対応が求められており、AIを活用して企業内の知識を効率的に活用するニーズが高まっています。

リコーは、2024年8月から実施されたGENIACの第2期において、700億パラメータのLMMを開発し、その基本モデルおよび独自開発のベンチマークツールを無償公開しました。また、2026年1月には、中国のアリババクラウドが開発・提供する大規模言語モデル(LLM)ファミリーの「Qwen2.5-VL-32B-Instruct」をベースとした320億パラメータのコンパクトなLMMを開発しています。

複雑なドキュメント理解を深めるリーズニングLMMの進化

GENIAC第3期では、「Qwen3-VL-32B-Instruct」をベースに、多段推論によって複雑なドキュメントを高精度に理解できるリーズニングLMMの基本モデル「Qwen3-VL-Ricoh-32B-20260227」が開発されました。このモデルでは、強化学習やカリキュラム学習といった学習手法の工夫により、複数ページにまたがる図表を関連付けて理解し、読解難易度の高い質問に対しても、高精度な回答を生成することが可能になりました。強化学習では独自の報酬関数を設定することで学習効率を高める一方、過学習を抑制しています。また、カリキュラム学習では、難易度設定と学習ペースの最適化が行われました。

これらの取り組みにより、「Gemini2.5-Pro」などの大型商用モデルと同等のベンチマーク結果が確認されています(2026年2月17日時点)。

ベンチマーク結果(リコーのモデルは上から4番目)

性能比較

さらに、日本企業での実務利用を想定し、思考プロセスの日本語化にも取り組みました。これにより、日本語文書の読み取り精度向上に加え、回答の判断根拠や前提条件を日本語で確認できるようになり、実務利用における信頼性を高めています。

本モデルの性能面での特徴は以下の通りです。

  • 図表読解の深化: 強化学習やカリキュラム学習による推論プロセスの導入により、複雑なドキュメントの読み間違いが大幅に低減。

  • 論理思考力の向上: データの抽出に留まらず、読み取った数値に基づく計算や比較分析の精度が向上。

  • 高信頼な回答生成: 思考プロセスを日本語化することで回答の根拠が明確になり、ビジネス実務における信頼性が向上。

本モデル開発で適用した技術を活用した軽量モデル「Qwen3-VL-Ricoh-8B-20260227」は、以下のURLで無償公開されています。

Qwen3-VL-Ricoh-8B-20260227

企業での活用と今後の展開

セキュリティ、プライバシー、ガバナンスの観点から、オンプレミスや自社データセンターなどの社内専用環境でAIを利用したいと考える企業は多く、省リソースでAIを活用できる環境へのニーズが高まっています。リコーが開発した本モデルは、オンプレミス環境での導入が可能であり、企業の業種・業務に応じたファインチューニングにも対応しています。

また、企業内での活用を加速するためには、開発コストや運用コストの低減も重要な課題です。リコーは、モデルマージ技術の活用により、効率的な開発プロセスを確立し、プライベートモデルの提供に活用していきます。さらに、独自の画像トークン圧縮技術を用いることで、高性能化に伴い増大する運用コストの低減にも取り組んでいます。

リコーのLLM/LMMモデルラインアップ

本モデルの具体的な適用例として、製造業のお客様からは、トラブル発生時に社内ドキュメントを高精度に参照することによる早期解決や、製品開発段階における設計図と要求仕様の適合確認などのニーズが寄せられており、今後実証実験を進めていく予定です。

リコーはこれまで、多様なAIソリューションを通じて、企業の業務変革を支援してきました。特に、複合機やスキャナー、カメラなどのエッジデバイス開発で培った画像処理技術や、ドキュメントおよびワークフローマネジメントに関する長年の知見を活かしたドキュメントAIの開発に強みを持っています。

2025年12月には、企業内に蓄積されたノウハウや経験など、言語化されていない「暗黙知」を含む情報資産をAIで利活用する企業向けAIプラットフォーム「Hi.DEEN」を発表しました。また2026年3月には、AI・デジタル技術を軸にコンサルティング事業を展開する株式会社ライズ・コンサルティング・グループと、企業の経営課題解決を目的として、AX(AIトランスフォーメーション)の実現を支援する合弁会社設立に向けた基本合意書を締結しています。

リコーは、これらの取り組みに加え、GENIACで得られた成果を広く社会に還元することで、日本企業の知の結晶ともいえるドキュメントの利活用を促進します。これにより、業務革新と付加価値の高い働き方を支援し、企業価値の向上に貢献していく方針です。

詳しい技術情報は、リコーの技術ページで確認できます。

“はたらく”を支えるリコーの大規模言語モデル(LLM)

※社名、製品名は、各社の商標または登録商標です。

最近の記事
PAGE TOP