Steerling-8B：生成するすべてのトークンを説明できる初の「本質的に解釈可能なLLM」

LLM解釈可能性への新アプローチ

Guide Labsが「生成するあらゆるトークンをその入力コンテキスト、人間が理解できる概念、訓練データまで追跡できる初の解釈可能なモデル」と主張するSteerling-8Bを公開しました。既存のモデルを事後分析する解釈可能性ツールとは異なり、Steerling-8BはアーキテクチャそのものにExplainabilityを組み込んでいます。

3種類のトークン帰属

Steerlingが生成するどのトークングループについても、3種類の帰属が同時に利用可能です：入力特徴帰属（プロンプトのどのトークンがその出力に強く影響したか）、概念帰属（「分析的」「臨床的」などのトーン概念や「遺伝子変異方法論」などのコンテンツ概念のランク付きリスト）、訓練データ帰属（その出力の概念がArXiv、Wikipedia、FLANなどの訓練ソースにどのように分布しているか）です。

実用的な応用

解釈可能性は単なる学術的貢献にとどまりません。Steerlingは推論時に再訓練なしで特定の概念を抑制または増幅する概念ステアリングを可能にし、数千の安全訓練例を明示的な概念制御に置き換えることができます。1.35兆トークンで訓練されたこのモデルは、2〜7倍多くのデータで訓練されたモデルに匹敵するパフォーマンスを示します。重みとコードはHugging FaceとGitHubで公開されています。

LLM Hacker News 1d ago 1 min read

Browser HarnessにHN反応、足りないブラウザ操作を途中で自分で書くLLM

HNがこのリポジトリに反応したのは、また一つブラウザ自動化ラッパーが出たからではない。作業の途中でモデル自身が不足した helper を書き足しながら進む、という発想が刺さった。

#browser-automation #web-agents #cdp

LLM Hacker News Apr 6, 2026 1 min read

Hacker Newsが注目した Nanocode、約200ドルで Claude Code 風 model を訓練する JAX・TPU blueprint

Hacker Newsで注目された Nanocode は、tokenizer training、pretraining、synthetic data generation、agentic SFT、DPOを pure JAX と TPU workflow にまとめ、Claude Code 風の coding model を再現しようとする end-to-end open project だ。

#llm #jax #tpu

LLM Mar 29, 2026 1 min read

Mistral、reasoning・coding・multimodalを統合したオープンソースモデルMistral Small 4を発表

Mistralは2026年3月16日、reasoning、multimodal入力、agentic codingを1つにまとめたMistral Small 4を公開した。119B total parameters、6B active parameters、256k context window、Apache 2.0、configurable reasoning_effortが主要ポイントだ。

#llm #multimodal #reasoning