Steerling-8B：生成するすべてのトークンを説明できる初の「本質的に解釈可能なLLM」

LLM解釈可能性への新アプローチ

Guide Labsが「生成するあらゆるトークンをその入力コンテキスト、人間が理解できる概念、訓練データまで追跡できる初の解釈可能なモデル」と主張するSteerling-8Bを公開しました。既存のモデルを事後分析する解釈可能性ツールとは異なり、Steerling-8BはアーキテクチャそのものにExplainabilityを組み込んでいます。

3種類のトークン帰属

Steerlingが生成するどのトークングループについても、3種類の帰属が同時に利用可能です：入力特徴帰属（プロンプトのどのトークンがその出力に強く影響したか）、概念帰属（「分析的」「臨床的」などのトーン概念や「遺伝子変異方法論」などのコンテンツ概念のランク付きリスト）、訓練データ帰属（その出力の概念がArXiv、Wikipedia、FLANなどの訓練ソースにどのように分布しているか）です。

実用的な応用

解釈可能性は単なる学術的貢献にとどまりません。Steerlingは推論時に再訓練なしで特定の概念を抑制または増幅する概念ステアリングを可能にし、数千の安全訓練例を明示的な概念制御に置き換えることができます。1.35兆トークンで訓練されたこのモデルは、2〜7倍多くのデータで訓練されたモデルに匹敵するパフォーマンスを示します。重みとコードはHugging FaceとGitHubで公開されています。

LLM Hacker News May 20, 2026 1 min read

Qwen3.7-Max、エージェントフロンティアでGPT-5.4と同等水準に

AlibabaのQwenチームがエージェント重視のフロンティアモデルQwen3.7-Maxを公開した。Artificial Analysis評価でGPT 5.4に迫る5位を記録し、オープンウェイトフロンティアモデルの新基準を示している。

#qwen #alibaba #llm

LLM Hacker News May 18, 2026 1 min read

AIエージェント向けコード検索ライブラリ「Semble」公開 — トークン使用量を98%削減

MinishLabが公開したSembleは、AIエージェントがコードベースを探索する際のトークン消費量をgrep+read比で98%削減するオープンソースのコード検索ライブラリ。Claude Code・Cursor等のAIコーディング環境にMCPサーバーとして即座に統合でき、Transformerモデルの99%の検索品質をCPUのみで実現する。

#semble #code-search #ai-agents

LLM Hacker News May 20, 2026 1 min read

Forgeフレームワーク、構造化ガードレールで8BモデルをSoTA級精度に引き上げ

オープンソースPythonフレームワークForgeが、構造化ガードレールを適用することでMinistral-3 8BモデルのエージェントタスクにおけるACCを53%から99%に向上させた。ACM CAIS '26で発表された研究成果だ。

#guardrails #agentic-ai #open-source