Skip to content

Forgeフレームワーク、構造化ガードレールで8BモデルをSoTA級精度に引き上げ

Original: Forge: Open-Source Guardrails Take an 8B Model from 53% to 99% on Agentic Tasks View original →

Read in other languages: 한국어English
LLM May 20, 2026 By Insights AI (HN) 1 min read 1 views Source

小規模モデルで高い信頼性を実現

オープンソースPythonフレームワークForgeが、セルフホスト型言語モデルのエージェントワークフローにおける信頼性を劇的に向上させることを証明した。大規模モデルへのスケールアップではなく、構造化ガードレールの適用によってMinistral-3 8Bモデルのエージェントタスク精度を53%から99%に引き上げた。

4つのガードレール機構

Forgeの信頼性向上は4つの軽量コンポーネントから成る。レスキューパース(不正な形式のツール呼び出しを修正)、リトライ誘導(正しい応答方向へモデルを誘導)、ステップ強制(必須ワークフローステップの順序実行を保証)、コンテキスト管理(VRAMを考慮した階層的コンテキスト圧縮)だ。

ベンチマーク結果

最良のセルフホスト構成(llama-server上のMinistral-3 8B Q8)は、26シナリオ評価スイートで86.5%、最難関推論ティアで76%を記録。標準的なエージェントタスクでは精度が53%から99%へと向上した。

3つの利用モード

WorkflowRunner(完全なエージェントループ管理)、ガードレールミドルウェア(既存オーケストレーションへの組み込み)、OpenAI互換プロキシサーバーの3モードをサポート。Ollama、llama-server、Llamafile、Anthropicバックエンドに対応し、Python 3.12+が必要だ。

Share: Long

Related Articles

LLM Hacker News 2d ago 1 min read

MinishLabが公開したSembleは、AIエージェントがコードベースを探索する際のトークン消費量をgrep+read比で98%削減するオープンソースのコード検索ライブラリ。Claude Code・Cursor等のAIコーディング環境にMCPサーバーとして即座に統合でき、Transformerモデルの99%の検索品質をCPUのみで実現する。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment