Forgeフレームワーク、構造化ガードレールで8BモデルをSoTA級精度に引き上げ

小規模モデルで高い信頼性を実現

オープンソースPythonフレームワークForgeが、セルフホスト型言語モデルのエージェントワークフローにおける信頼性を劇的に向上させることを証明した。大規模モデルへのスケールアップではなく、構造化ガードレールの適用によってMinistral-3 8Bモデルのエージェントタスク精度を53%から99%に引き上げた。

4つのガードレール機構

Forgeの信頼性向上は4つの軽量コンポーネントから成る。レスキューパース（不正な形式のツール呼び出しを修正）、リトライ誘導（正しい応答方向へモデルを誘導）、ステップ強制（必須ワークフローステップの順序実行を保証）、コンテキスト管理（VRAMを考慮した階層的コンテキスト圧縮）だ。

ベンチマーク結果

最良のセルフホスト構成（llama-server上のMinistral-3 8B Q8）は、26シナリオ評価スイートで86.5%、最難関推論ティアで76%を記録。標準的なエージェントタスクでは精度が53%から99%へと向上した。

3つの利用モード

WorkflowRunner（完全なエージェントループ管理）、ガードレールミドルウェア（既存オーケストレーションへの組み込み）、OpenAI互換プロキシサーバーの3モードをサポート。Ollama、llama-server、Llamafile、Anthropicバックエンドに対応し、Python 3.12+が必要だ。

LLM Hacker News May 20, 2026 1 min read

Qwen3.7-Max、エージェントフロンティアでGPT-5.4と同等水準に

AlibabaのQwenチームがエージェント重視のフロンティアモデルQwen3.7-Maxを公開した。Artificial Analysis評価でGPT 5.4に迫る5位を記録し、オープンウェイトフロンティアモデルの新基準を示している。

#qwen #alibaba #llm

LLM X/Twitter 5d ago 1 min read

Databricks Omnigent、複数coding agentを1つのworkflowで運用制御

AI codingは単一assistantの選択から、複数agentの運用へ移っている。Omnigentはshared sessions、guardrails、human-in-the-loop workflowを持つopen-source meta-harnessだ。

#databricks #coding-agents #open-source

LLM Hacker News Mar 23, 2026 1 min read

Hacker NewsでOpenCodeに注目、terminal・IDE・desktopを横断する open source AI coding agent

OpenCode は Hacker News で 1,238 points と 614 comments を集めた。project site は、terminal・IDE・desktop をまたぐ open source AI coding agent として、75+ providers、LSP integration、multi-session workflow、privacy-first 設計を前面に出している。

#coding-agent #developer-tools #open-source