Elithが国際AIセーフティハッカソンに日本から唯一参加、最前線で技術検証に貢献

「Open Safeguard Hackathon」とは

このハッカソンは、2025年12月8日に米サンフランシスコで、ROOST、Hugging Face、OpenAIの共催で開催されました。AIがオンライン上で引き起こす可能性のあるリスクやハームに対応するため、オープンでコミュニティ主導のAIセーフティ技術を実践的に検証・開発する場として企画されました。政策、研究、プロダクト実装の第一線で活躍する専門家約75名が米国を中心に集まり、セーフティモデルの活用や課題について集中的な議論と開発が行われました。

OpenAIが公開したオープンウェイトのセーフティ推論モデル「gpt-oss-safeguard」をはじめ、複数のオープンセーフティモデルを用いた検証・実装が進められ、以下の3つのトラックに分かれてプロジェクトが進行しました。

  • Policy Development:オープンセーフティモデルを活用したポリシー検証・改善

  • Model Testing:モデル性能やコストを含めた実践的評価

  • Real-World Applications:実運用を想定したプロダクト・ワークフローへの統合検証

Open Safeguard Hackathon 集合写真

Elithの貢献と技術的成果

Elithは、日本から唯一の参加企業としてこのイベントに参画し、AIセーフティモデルの実装・評価に関する国際的な知見や、オープンな技術基盤を活用した協調的な取り組みについて、現場レベルでの議論と検証に加わりました。

特に、Track 2(Model Testing)とTrack 3(Interpretability / Token-level Analysis)に参加し、セーフティモデルの挙動理解を目的とした技術検証を行いました。「gpt-oss-safeguard」を対象に、判定に影響を与える要素やポリシーとの関係性について分析し、その結果を共有可能な形で整理しています。

イベントの様子

本ハッカソンでのElithの技術的成果は、ROOST Model Community 上の公式ディスカッションで公開されています。

  • Track 2(Model Testing) — gpt-oss-safeguard 実践評価
    Elithは多層的評価パイプラインを用い、364件の攻撃プロンプトを体系的に設計・評価しました。これにより、「gpt-oss-safeguard-20B」に対する検出失敗(バイパス)がFraudやMalwareカテゴリで顕著に発生する傾向を定量的に明らかにし、実運用環境で想定される攻撃パターンとそれに対するモデルの脆弱性を示しています。

  • Track 3(Interpretability / Token-level Analysis) — モデル内部挙動の可視化
    モデルの安全判定に寄与する内部表現を理解するため、カスタムAPIを用いたトークンレベルの注意重み解析を実装しました。これによって、どのトークンが安全性判断に強く関与しているかを可視化し、なぜ特定のバイパスが発生するのかという「理由」の解釈性を深める技術的アプローチを提示しています。

これらの投稿は、モデル評価と解釈性という二つの視点から、オープンセーフティモデルの実装上のリスクと挙動を国際標準レベルで検証・共有する意欲的な技術成果として発信されています。

今後の展望

Elithは本イベントを通じて、実装現場におけるセーフティモデルの活用可能性や限界、ポリシー設計とモデル挙動の関係性について、国際的な実践知見を共有・吸収しました。オープンな技術基盤を軸に、多様な組織が協調しながらAIセーフティを前進させるアプローチは、今後のAI社会実装において不可欠であると再認識しています。

Elithは今後も、生成AIおよびAIセーフティ領域において、研究・実装・社会的責任を横断する取り組みを国内外のパートナーとともに推進していくとしています。

イベント概要

  • 名称:Open Safeguard Hackathon

  • 開催日:2025年12月8日

  • 開催地:米国 サンフランシスコ

  • 主催:ROOST、Hugging Face、OpenAI

関連情報

Elithの提出内容に関する詳細は、以下のGitHubリンクから確認できます。

株式会社Elithについて

Elithは、クライアントと共に課題を発見し、AIによる最適な解決策を共創するパートナーです。人・組織・技術といった多様な「粒子」を融合させ、イノベーションを創出し、次の時代を切り拓くテックカンパニーとして活動しています。製造業、金融業、医療業など、さまざまな業種のクライアントの事業成長を支援するため、コンサルティング、生成AIの利活用、LLM(大規模言語モデル)、画像AIの開発・システム構築、AI教育アドバイザリーなどのソリューションを提供しています。

最近の記事
PAGE TOP