ARC Prize가 Opus 4.8을 ARC-AGI-3 새 SOTA로 기록하며 benchmark 경쟁의 기준을 다시 낮은 숫자로 보여줬다. 점수는 1.5%, 비용은 약 $10K로, 향상은 분명하지만 일반 지능과는 아직 거리가 있다.
ARC Prize가 Opus 4.8을 ARC-AGI-3 새 SOTA로 기록하며 benchmark 경쟁의 기준을 다시 낮은 숫자로 보여줬다. 점수는 1.5%, 비용은 약 $10K로, 향상은 분명하지만 일반 지능과는 아직 거리가 있다.
Microsoft AI가 7개 자체 모델을 내놓으며 OpenAI 의존도를 낮추는 경로를 더 구체화했다. 핵심 수치는 MAI-Thinking-1의 35B active parameter, 256K context, AIME 2025 97%, SWE Bench Pro 53%다.
OpenAI의 범용 추론 모델이 에르되시의 평면 단위거리 문제 추측 상한을 반증하는 반례를 찾아냈다고 발표했습니다. 수학자들이 증명을 검토했지만 ML 커뮤니티는 방법론 투명성에 의문을 제기합니다.
LocalLLaMA는 이 질문을 샤워실 잡담으로 넘기지 않았다. 스레드는 왜 오늘의 LLM이 잠재 벡터에 reasoning을 숨기지 않고, 여전히 언어 형태로 드러내는지에 대한 진짜 논쟁으로 번졌다.
HN은 GPT-5.5 출시 소식을 축하보다 검산으로 받았다. 첫 반응은 얼마나 똑똑한가보다 가격, 컨텍스트 구간, 그리고 코딩 태도가 정말 나아졌는가였다.
중요한 점은 GPT-5.5 출시 직후 나온 첫 외부 benchmark readout 가운데 하나라는 점이다. Artificial Analysis는 GPT-5.5가 자사 Intelligence Index에서 3점 차 선두로 올라섰지만 전체 지수 실행 비용은 여전히 약 20% 비싸졌다고 적었다.
AI at Meta는 2026년 4월 8일 X에서 Muse Spark를 tool use, visual chain of thought, multi-agent orchestration을 지원하는 natively multimodal reasoning model로 소개했다. Meta 공식 발표는 이 모델이 이미 Meta AI app과 meta.ai를 구동하고 있으며, 앞으로 WhatsApp, Instagram, Facebook, Messenger, AI glasses로 확장되고, selected partners 대상 private-preview API도 제공된다고 설명한다.
Hacker News에서 Meta Superintelligence Labs의 첫 Muse 모델인 Muse Spark 공개가 크게 주목받았다. 이 모델은 tool use, visual chain of thought, 병렬 에이전트 기반 Contemplating mode를 전면에 내세운다.
ARC Prize의 ARC-AGI 3 공개 직후 r/singularity는 새 벤치마크가 정답 여부뿐 아니라 행동 수 효율까지 점수에 반영한다는 점에 주목했다. 요지는 현재 frontier AI가 여전히 일반화된 상호작용 추론에서 사람과 큰 격차를 보인다는 것이다.
Mistral이 2026년 3월 16일 Mistral Small 4를 공개했다. 119B total parameters, 6B active parameters, 256k context window, Apache 2.0, configurable reasoning_effort를 결합해 reasoning·coding·multimodal 작업을 한 모델에 모았다.
Microsoft Research가 2026년 3월 4일 15 billion parameter open-weight 모델 Phi-4-reasoning-vision-15B를 공개했다. 회사는 이 모델이 multimodal reasoning, math·science task, computer-use scenario에서 경쟁력 있는 성능을 내면서도 compute cost를 낮추는 데 초점을 맞췄다고 설명했다.
Together AI는 2026년 3월 19일 자사 fine-tuning 서비스가 tool call, reasoning, vision-language workflow를 기본 지원한다고 밝혔다. 연결된 Together AI 블로그는 100B+ parameter 모델, 최대 100GB 데이터셋, 대형 MoE 모델에서 최대 6배 처리량, 학습 전 비용 추정과 실행 중 ETA 제공까지 포함된다고 설명한다.