LocalLLaMA가 본 포인트는 최고 속도가 아니었다. RTX 3090 한 장으로 218K 문맥을 밀어 올리고 긴 tool output에서도 덜 무너지는 구성이 더 중요했다.
#long-context
RSS FeedHN은 이번 스레드를 단순한 모델 공개로 보지 않았다. API 문서보다 먼저 Hugging Face 가중치와 base 모델이 모습을 드러내자, 커뮤니티의 관심은 홍보보다 실물 검증으로 곧장 옮겨갔다.
인기 있는 r/LocalLLaMA thread는 Gemma 4의 256k context window로 100k+ token 개인 저널을 로컬에서 분석한 사례를 소개하며, privacy가 on-device LLM의 실용적 이유가 될 수 있음을 보여줬다.
r/LocalLLaMA의 한 stress test는 Gemma 4 26B A4B가 llama.cpp에서 262,144 context window의 약 94% 지점에서도 일관성을 유지했다고 주장한다. 정식 benchmark는 아니지만, failure mode와 tuning 값을 함께 공개했다는 점에서 현장감 있는 자료다.
Together Research는 2026년 3월 27일 divide-and-conquer를 적용한 더 작은 모델이 long-context task에서 GPT-4o single-shot를 맞추거나 앞설 수 있다고 밝혔다. Together 블로그와 arXiv 논문은 이 방법이 planner-worker-manager 구조와 task, model, aggregator noise 분석에 기반한다고 설명한다.
Anthropic는 Opus 4.6과 Sonnet 4.6에 1M context를 general availability로 제공하고, long-context premium 없이 기본 가격을 적용한다고 밝혔다. Hacker News에서는 단순 사양 증가보다 실제 배포 economics 변화에 더 큰 관심이 모였다.
Azure는 2026-03-14 X 게시물에서 Claude Opus 4.6과 Sonnet 4.6의 1M 토큰 컨텍스트, flat pricing, 600 image/PDF page 입력 지원을 강조했다. Microsoft와 Anthropic 공식 문서는 이 세 가지 조건이 실제로 적용된다고 확인한다.
Hacker News에서 주목받은 LoGeR는 Google DeepMind와 UC Berkeley가 공개한 장문맥 3D 재구성 모델로, hybrid memory를 통해 후처리 최적화 없이 매우 긴 비디오를 다룬다고 설명한다.
LocalLLaMA 커뮤니티에서 Qwen3.5-35B-A3B 모델 카드가 빠르게 확산됐다. MoE 구조, 긴 context, 다양한 serving 프레임워크 호환성이 핵심 포인트로 언급된다.