#model-evaluation

LLM X/Twitter Jul 14, 2026 1 min read

Claudeの価値傾向、30万超会話でモデル差と言語差を測るAnthropicの4軸評価研究と監視手法

Anthropicは30万件超の匿名会話を使い、Claudeの価値表現がモデルと言語でどう変わるかを測定した。4つの軸で整理する手法は、公開後のモデル監視にも使われる可能性がある。

LLM Reddit Mar 30, 2026 1 min read

r/MachineLearningで注目された94件のLLM比較、open modelの距離はどこまで縮んだか

3月1日にr/MachineLearningで注目を集めた比較投稿は、94件のLLM endpointを横断して、open modelがproprietary最上位にかなり近づいたと主張した。重要なのは順位そのものより、モデル選定が価格・速度・配備自由度まで含む運用判断へ変わったことだ。

#llm-benchmarks #open-source #model-evaluation

LLM Reddit Mar 7, 2026 1 min read

LocalLLaMAのPSA: 新モデル評価は便利ラッパーより基礎ランタイムを先に揃える

r/LocalLLaMAで注目されたPSAは、OllamaやLM Studioのような便利レイヤーがmodel behaviorを変えてしまうため、新モデルの評価はまずllama.cpp、transformers、vLLM、SGLangのような基礎ランタイムで行うべきだと勧めている。コメントでも、重要なのは特定ツールの好みではなく、template、stop token、sampling、quantizationを固定した再現性だと強調された。

#local-llm #model-evaluation #llama-cpp