Forgeフレームワーク、構造化ガードレールで8BモデルをSoTA級精度に引き上げ
Original: Forge: Open-Source Guardrails Take an 8B Model from 53% to 99% on Agentic Tasks View original →
小規模モデルで高い信頼性を実現
オープンソースPythonフレームワークForgeが、セルフホスト型言語モデルのエージェントワークフローにおける信頼性を劇的に向上させることを証明した。大規模モデルへのスケールアップではなく、構造化ガードレールの適用によってMinistral-3 8Bモデルのエージェントタスク精度を53%から99%に引き上げた。
4つのガードレール機構
Forgeの信頼性向上は4つの軽量コンポーネントから成る。レスキューパース(不正な形式のツール呼び出しを修正)、リトライ誘導(正しい応答方向へモデルを誘導)、ステップ強制(必須ワークフローステップの順序実行を保証)、コンテキスト管理(VRAMを考慮した階層的コンテキスト圧縮)だ。
ベンチマーク結果
最良のセルフホスト構成(llama-server上のMinistral-3 8B Q8)は、26シナリオ評価スイートで86.5%、最難関推論ティアで76%を記録。標準的なエージェントタスクでは精度が53%から99%へと向上した。
3つの利用モード
WorkflowRunner(完全なエージェントループ管理)、ガードレールミドルウェア(既存オーケストレーションへの組み込み)、OpenAI互換プロキシサーバーの3モードをサポート。Ollama、llama-server、Llamafile、Anthropicバックエンドに対応し、Python 3.12+が必要だ。
Related Articles
AlibabaのQwenチームがエージェント重視のフロンティアモデルQwen3.7-Maxを公開した。Artificial Analysis評価でGPT 5.4に迫る5位を記録し、オープンウェイトフロンティアモデルの新基準を示している。
MinishLabが公開したSembleは、AIエージェントがコードベースを探索する際のトークン消費量をgrep+read比で98%削減するオープンソースのコード検索ライブラリ。Claude Code・Cursor等のAIコーディング環境にMCPサーバーとして即座に統合でき、Transformerモデルの99%の検索品質をCPUのみで実現する。
GoogleがエージェントワークフローとマルチステップタスクのためにGemini 3.5 Flashをリリースした。競合フロンティアモデル比4倍の出力速度とコスト半減を実現し、コーディング・推論・マルチモーダルの各ベンチマークでトップ水準を記録している。
Comments (0)
No comments yet. Be the first to comment!