セキュリティ研究会社Cyeraが、Ollamaで認証なしにメモリを漏洩させられる深刻な脆弱性「Bleeding Llama」を発見した。ネットワーク公開している場合は即時パッチが必要だ。
LLM
RSS Feedllama.cppの新MTP対応PRを使ってQwen 3.6 27Bの推論速度を2.5倍に高める方法がLocalLLaMAで共有された。48GBで26万2,000トークンのコンテキストが利用可能になる。
GoogleがGemma 4モデルファミリー向けのMTPドラフターを公開。投機的デコーディングアーキテクチャにより、出力品質を損なわず推論速度を最大3倍向上させる。
OpenAIがGPT-5.5 InstantをChatGPTの新しいデフォルトモデルとしてリリースした。医療・法律・金融など高リスク領域での幻覚エラーを52.5%削減し、より簡潔で自然なトーンの回答を提供する。GmailPlusProユーザーから順次展開される。
FoodTruck BenchでDeepSeek V4 ProがGPT-5.2と実質同等の性能を記録した。GPT-5.2のテストから約10週後、コストは約17分の1での達成となった。
OpenAIがChatGPTのデフォルトモデルをGPT-5.3 InstantからGPT-5.5 Instantに切り替えた。医療・法律・金融などハイリスクな質問での幻覚が52.5%減少し、Gmail連携によるパーソナライズとメモリソースの透明性機能も追加された。
Sakana AIが音声AIの「低遅延」と「知識品質」を両立するKAME(亀)アーキテクチャを公開。フロントエンドS2SモデルとバックエンドLLMをタンデム接続し、2.1秒のパイプライン遅延なしでMT-Bench 6.43を達成した。
Poolside AIが2026年4月28日、初のオープンウェイトモデルLaguna XS.2をApache 2.0ライセンスで公開。33B総/3B活性のMoEアーキテクチャでシングルGPU動作を実現し、SWE-bench Verified 68.2%を達成。
Mistralが2026年4月29日に128BパラメータのオープンウェイトモデルMistral Medium 3.5を公開。従来の3モデル(Medium、Magistral、Devstral 2)を1つに統合し、SWE-bench Verifiedで77.6%を達成した。
Anthropicは5月5日、ウォールストリート限定ブリーフィングでClaude Opus 4.7と10種の金融ワークフローAIエージェントを発表。Microsoft 365との完全統合とMoody'sの6億社データパートナーシップも同時に発表された。
llama.cppのマルチトークン予測(MTP)サポートがベータ版に突入した。現在はQwen3.5 MTPに対応し、テンソル並列サポートと合わせてvLLMとのトークン生成速度の差が縮まると見込まれる。
DeepClaudeはClaude Codeのエージェントループをそのまま保ちつつ、API呼び出し先をDeepSeek V4 Proなどへ切り替えるオープンソースツール。出力トークンコストを$15/Mから$0.87/Mへ約17分の1に削減できる。