Anthropicが出したのは単なる高性能モデルではなく、同じ基盤モデルを一般向けFableと限定向けMythosに分ける配布設計だ。価格は入力$10/出力$50、危険領域ではOpus 4.8への切り替えと30日保持も組み込まれる。
#llm
RSS FeedRedditで注目されたのは、Claude代替という見出しよりもtool call error rate 12%という具体的な限界だった。
大きな反応を集めた理由は古いCPUの意外性だけでなく、LLM inferenceの現実的なボトルネックが見えたことにある。
注目を集めた論点は、現代のlanguage modelをどこまで自分の手で作って学べるのかだった。
QVAC SDK 0.12.0はTurboQuantをopt-in機能として追加し、ローカルLLMのruntime context memoryを最大5倍削減する。8GB級GPUでも4B modelの262K contextを狙える点が大きい。
NVIDIAは550BパラメータのMoEモデルを、Agent ToolkitやOpenShellと一体で打ち出した。最大5倍の推論速度、最大30%のコスト低下、6月4日の提供開始が焦点になる。
HNの反応はコードだけでなくREADMEに集まった。vLLMの考え方を、小さな実装と教材の流れに落とし込んでいる点が評価された。
HNで注目されたのは資金調達そのものより、複数モデルを束ねるゲートウェイが本当に防御力のある基盤になるかだった。
Liquid AIがLFM2.5 8B-A1Bを発表。M5 Maxで毎秒253トークン、モバイルで30トークン、H100で18,500トークンの推論速度を達成し、同サイズの密なモデルを凌駕する性能を示した。
Quandriのエンジニアリングチームが、MCP(Model Context Protocol)の3つの構造的欠陥を指摘。コンテキストウィンドウの無駄遣い、運用信頼性の低さ、既存インフラとの重複が主な問題だと主張する。
議論の中心は「AIがどれだけ速く書けるか」ではなく、遅いレビューの反復で信頼できるコードに近づけるかだった。
世界最大のオープンライブラリAnna's Archiveが、大規模言語モデル向けにllms.txtガイダンスを公開しました。CAPTCHAはリソース保護目的であり、GitLab・トレント・JSON APIを通じた合法的バルクダウンロード経路を提案しています。