ARC PrizeはAnthropic Opus 4.8をARC-AGI-3の新SOTAとしたが、数字はbenchmarkの難しさも示す。スコアは1.5%、コストは約$10Kで、進歩はobjectとsystemの抽象化に結びついている。
ARC PrizeはAnthropic Opus 4.8をARC-AGI-3の新SOTAとしたが、数字はbenchmarkの難しさも示す。スコアは1.5%、コストは約$10Kで、進歩はobjectとsystemの抽象化に結びついている。
Microsoft AIは7つのMAIモデルで、自社モデル戦略をより明確にした。中心となる数字は35B active parameters、256K context、AIME 2025で97%、SWE Bench Proで53%だ。
OpenAIは汎用推論モデルがエルデシュの平面単位距離問題の予想上限を反証する構成を発見したと発表しました。数学者が証明を検証しましたが、ML研究者は手法の透明性に疑問を提起しています。
LocalLLaMAはこの問いを思いつき話で終わらせなかった。スレッドは、なぜ今のLLMがlatent vectorにreasoningを隠さず、なお言語として見える形を保っているのかという本気の議論に変わった。
HNはGPT-5.5を祝賀ムードより先に検算モードで迎えた。最初に問われたのは、どれだけ賢いかより、価格とコンテキスト帯、そしてコーディング時の振る舞いが本当に改善したのかだった。
重要なのは、GPT-5.5 launch直後に出た最初期のexternal benchmark readoutのひとつだという点だ。Artificial AnalysisはIntelligence Indexで3点差首位とした一方、指数実行コストは約20%高くなったと述べた。
AI at Metaは2026年4月8日のXで、Muse Sparkを tool use、visual chain of thought、multi-agent orchestration を備えた natively multimodal reasoning model として紹介した。Meta の公式発表では、このモデルはすでに Meta AI app と meta.ai を支えており、今後 WhatsApp、Instagram、Facebook、Messenger、AI glasses へ展開され、selected partners 向け private-preview API も提供されるとしている。
Hacker Newsで、Meta Superintelligence Labsによる Muse Spark の発表が大きく注目された。tool use、visual chain of thought、並列エージェント型の Contemplating mode を備えたマルチモーダル推論モデルだ。
ARC PrizeによるARC-AGI 3公開直後、r/singularityはinteractive environmentとaction-efficient scoringへの転換に注目した。要点は、frontier AIが未知環境での一般化・探索・計画ではまだ大きく遅れているということだ。
Mistralは2026年3月16日、reasoning、multimodal入力、agentic codingを1つにまとめたMistral Small 4を公開した。119B total parameters、6B active parameters、256k context window、Apache 2.0、configurable reasoning_effortが主要ポイントだ。
Microsoft Researchは2026年3月4日、15 billion parameterのopen-weight modelであるPhi-4-reasoning-vision-15Bを発表した。同社は、より大規模なsystemほどのcompute負荷を伴わずに、multimodal reasoning、math・science task、computer-use性能を高めることを狙ったと説明している。
Together AIは2026年3月19日、自社のfine-tuningサービスがtool call、reasoning、vision-language workflowをネイティブに支援すると発表した。リンク先のTogether AIブログは、100B+ parameter model、最大100GB dataset、大規模MoE modelで最大6倍のthroughput、学習前のcost estimateと実行中のETAまで含まれると説明している。