#reasoning

LLM News Jun 26, 2026 1 min read

LLM reasoning, 답을 추론하기보다 기억을 꺼내는 장치일 수 있다는 증거

Google Research는 Gemini-2.5와 Qwen3-32B 실험에서 reasoning이 단순 사실 질문의 회상을 돕는 두 메커니즘을 분리했다. 추가 토큰은 계산 시간을 주고, 관련 사실은 정답 회상을 prime하지만 hallucination이 끼면 정확도가 떨어졌다.

#google-research #reasoning #hallucination

LLM Hacker News Jun 18, 2026 1 min read

GLM-5.2, open weights leaderboard의 새 기준선인가

오픈 weights 모델 경쟁의 논점이 단순 점수에서 비용, reasoning token, 실제 agent 작업 효율로 옮겨갔다.

#glm #open-weights #benchmarks

LLM X/Twitter Jun 3, 2026 1 min read

Opus 4.8, ARC-AGI-3에서 1.5%·약 $10K로 새 SOTA 기록

ARC Prize가 Opus 4.8을 ARC-AGI-3 새 SOTA로 기록하며 benchmark 경쟁의 기준을 다시 낮은 숫자로 보여줬다. 점수는 1.5%, 비용은 약 $10K로, 향상은 분명하지만 일반 지능과는 아직 거리가 있다.

#anthropic #opus-4-8 #arc-agi

AI X/Twitter Jun 3, 2026 1 min read

Microsoft MAI 7개 모델, 35B reasoning·5B coding으로 독자 노선 강화

Microsoft AI가 7개 자체 모델을 내놓으며 OpenAI 의존도를 낮추는 경로를 더 구체화했다. 핵심 수치는 MAI-Thinking-1의 35B active parameter, 256K context, AIME 2025 97%, SWE Bench Pro 53%다.

#microsoft #mai #coding

AI Reddit May 22, 2026 1 min read

OpenAI, AI로 에르되시 50년 수학 추측 반례 발견 주장

OpenAI의 범용 추론 모델이 에르되시의 평면 단위거리 문제 추측 상한을 반증하는 반례를 찾아냈다고 발표했습니다. 수학자들이 증명을 검토했지만 ML 커뮤니티는 방법론 투명성에 의문을 제기합니다.

#openai #mathematics #reasoning

LLM Reddit Apr 30, 2026 1 min read

LLM은 왜 벡터로 생각하지 않나, LocalLLaMA 140댓글이 모인 지점

LocalLLaMA는 이 질문을 샤워실 잡담으로 넘기지 않았다. 스레드는 왜 오늘의 LLM이 잠재 벡터에 reasoning을 숨기지 않고, 여전히 언어 형태로 드러내는지에 대한 진짜 논쟁으로 번졌다.

#llm #reasoning #latent-space

LLM Hacker News Apr 26, 2026 1 min read

GPT-5.5 API 공개에 HN 들썩, 성능보다 먼저 나온 가격·태도 논쟁

HN은 GPT-5.5 출시 소식을 축하보다 검산으로 받았다. 첫 반응은 얼마나 똑똑한가보다 가격, 컨텍스트 구간, 그리고 코딩 태도가 정말 나아졌는가였다.

#openai #gpt-5-5 #api

LLM X/Twitter Apr 23, 2026 1 min read

GPT-5.5, Artificial Analysis서 3점 차 1위…벤치 실행 비용은 20% 상승

중요한 점은 GPT-5.5 출시 직후 나온 첫 외부 benchmark readout 가운데 하나라는 점이다. Artificial Analysis는 GPT-5.5가 자사 Intelligence Index에서 3점 차 선두로 올라섰지만 전체 지수 실행 비용은 여전히 약 20% 비싸졌다고 적었다.

#gpt-5-5 #artificial-analysis #benchmarks

LLM X/Twitter Apr 12, 2026 1 min read

Meta, Meta Superintelligence Labs의 첫 모델 Muse Spark 공개

AI at Meta는 2026년 4월 8일 X에서 Muse Spark를 tool use, visual chain of thought, multi-agent orchestration을 지원하는 natively multimodal reasoning model로 소개했다. Meta 공식 발표는 이 모델이 이미 Meta AI app과 meta.ai를 구동하고 있으며, 앞으로 WhatsApp, Instagram, Facebook, Messenger, AI glasses로 확장되고, selected partners 대상 private-preview API도 제공된다고 설명한다.

#meta #muse-spark #multimodal

LLM Hacker News Apr 9, 2026 1 min read

Meta의 Muse Spark, 멀티모달 추론과 병렬 에이전트를 앞세워 공개

Hacker News에서 Meta Superintelligence Labs의 첫 Muse 모델인 Muse Spark 공개가 크게 주목받았다. 이 모델은 tool use, visual chain of thought, 병렬 에이전트 기반 Contemplating mode를 전면에 내세운다.

#meta #muse-spark #multimodal

AI Reddit Mar 30, 2026 1 min read

r/singularity가 주목한 ARC-AGI 3, 행동 효율까지 묻는 새 일반화 벤치마크

ARC Prize의 ARC-AGI 3 공개 직후 r/singularity는 새 벤치마크가 정답 여부뿐 아니라 행동 수 효율까지 점수에 반영한다는 점에 주목했다. 요지는 현재 frontier AI가 여전히 일반화된 상호작용 추론에서 사람과 큰 격차를 보인다는 것이다.

#arc-agi #benchmarks #reasoning

LLM Mar 29, 2026 1 min read

Mistral, reasoning·coding·multimodal 통합한 오픈소스 모델 Mistral Small 4 공개

Mistral이 2026년 3월 16일 Mistral Small 4를 공개했다. 119B total parameters, 6B active parameters, 256k context window, Apache 2.0, configurable reasoning_effort를 결합해 reasoning·coding·multimodal 작업을 한 모델에 모았다.

#llm #multimodal #reasoning