LocalLLaMA의 관심은 속도 숫자보다 FP4, DFlash speculative decoding, commodity GPU 조합이 실제로 어디까지 재현될 수 있느냐에 모였다.
LLM
RSS FeedHN 관심은 “큰 context window” 광고가 실제 작업 품질을 보장하지 않는다는 실무적 불신에 모였다.
AI agent 인프라 경쟁이 토큰 처리량이 아니라 동시 작업 수와 전력 효율로 옮겨가고 있다. NVIDIA는 Artificial Analysis의 새 AA-AgentPerf에서 GB300 NVL72가 H200보다 MW당 동시 coding agent 처리량을 최대 20배 높였다고 밝혔다.
장문·멀티모달·코딩 성능을 앞세운 MiniMax M3가 오픈 웨이트 배포 단계에 들어갔다. 모델 카드는 약 428B 파라미터와 23B 활성 파라미터, 1M 컨텍스트를 명시한다.
AI 모델 접근권이 제품 업데이트가 아니라 수출통제 지시로 끊겼다. Anthropic은 2026년 6월 13일 00:50 UTC 트윗에서 Fable 5와 Mythos 5를 모든 고객에게 비활성화해야 한다고 밝혔다.
r/MachineLearning의 관심은 “코드가 없는 SOTA”를 leaderboard에 어떻게 넣을지라는 현실적인 문제에 모였다.
Google DeepMind가 26B MoE open model DiffusionGemma를 공개했다. 256-token 블록을 병렬로 다듬는 text diffusion 방식으로 전용 GPU에서 최대 4x 빠른 생성을 노린다.
Codex가 몇 분짜리 보조 도구에서 몇 시간·며칠 단위 작업을 맡는 기업 에이전트로 이동한다. OpenAI는 Codex 주간 이용자가 500만 명을 넘고 올해 초보다 400% 늘었다며, Ona의 200만 개발자용 클라우드 실행 경험을 핵심 근거로 제시했다.
Claude Fable 5가 GDPval-AA 1932점으로 에이전트형 지식 업무 벤치마크 1위에 올랐다. Anthropic 모델이 상위 4개 중 3개를 차지했다는 점은 장시간 업무형 모델 경쟁이 성능표 중심으로 재편되고 있음을 보여준다.
코딩 모델 평가가 정답률에서 코드 리뷰 품질로 옮겨가고 있다는 점에 HN 관심이 모였다. FrontierCode는 PR을 실제 maintainer가 받아들일지에 초점을 둔다.
일반 사용자에게 풀린 것은 Fable 5지만, 핵심은 같은 기반 모델의 Mythos급 성능을 어디까지 열고 어디서 막을지다. Anthropic은 $10/$50 토큰 가격, 30일 보안 로그 보존, 일부 고위험 질의의 Opus 4.8 전환까지 함께 내놨다.
기업 RAG의 약점은 답을 모르는 것이 아니라, 필요한 근거가 다른 저장소에 흩어졌을 때 너무 일찍 멈추는 데 있다. Google Research는 충분한 문맥을 검사하고 다시 검색하는 Agentic RAG로 factuality 데이터셋 정확도를 최대 34% 높였다고 밝혔다.