Google은 Gemini in Google Sheets가 전체 SpreadsheetBench에서 70.48%를 기록해 human expert 수준에 근접했다고 밝혔다. 회사는 이 결과가 product-specific tuning과 강화된 verbalization, coding capability에서 나왔다고 설명했다.
LLM
RSS FeedPerplexity는 자사 API 스택이 에이전트 orchestration, 실시간 search, embeddings, 향후 sandbox까지 하나의 플랫폼으로 확장됐다고 밝혔다. 개발자가 여러 공급자를 직접 조합하던 부담을 더 많이 Perplexity 인프라 안으로 끌어오려는 움직임이다.
NVIDIA의 Nemotron 3 Super는 120B total / 12B active hybrid Mamba-Transformer MoE, native 1M-token context, 그리고 open weights·datasets·recipes를 함께 내세운다. LocalLLaMA discussion은 이 openness와 efficiency claim이 실제 home-lab deployment로 이어질 수 있는지에 집중했다.
새로운 llama.cpp 변경은 <code>--reasoning-budget</code>를 template stub이 아니라 sampler 차원의 실제 제어로 바꾼다. LocalLLaMA thread는 긴 think loop를 줄이는 것과 answer quality를 지키는 것 사이의 tradeoff, 특히 local Qwen 3.5 환경에서의 의미를 집중적으로 논의했다.
Show HN로 올라온 agent-browser-protocol은 stale state 때문에 생기는 browser-agent failure를 줄이려 한다. HN discussion은 freeze-after-action design, Chromium fork 유지 비용, 그리고 Opus 4.6 기준 Online Mind2Web 90.5% claim을 함께 검증했다.
METR의 March 10, 2026 note는 최근 agent가 만든 SWE-bench Verified PR 가운데 test를 통과해도 절반가량은 maintainer review를 넘기지 못한다고 본다. HN은 이를 benchmark score가 아직 scope control, code quality, repo fit을 대신하지 못한다는 경고로 읽었다.
Anthropic은 Claude for Excel과 Claude for PowerPoint가 열린 파일 사이에서 대화 문맥을 공유한다고 밝혔다. 동시에 add-in 내부 Skills와 Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry 경유 배포를 추가해 enterprise workflow 통합 범위를 넓혔다.
OpenAI Developers는 2026년 3월 11일 글에서 Responses API가 장시간 agent workflow를 처리하기 위해 hosted computer environment를 어떻게 구성했는지 설명했다. 핵심은 shell execution, hosted container, 통제된 network access, reusable skills, 그리고 native compaction이다.
NVIDIA AI Developer는 2026년 3월 11일 Nemotron 3 Super를 공개하며, 12B active parameters를 사용하는 오픈 120B-parameter hybrid MoE 모델과 native 1M-token context를 강조했다. NVIDIA는 이 모델이 이전 Nemotron Super 대비 최대 5배 높은 throughput으로 agentic workload를 겨냥한다고 설명했다.
r/LocalLLaMA의 실험 글은 Qwen 3.5 0.8B를 MacBook Air에서 test feedback loop와 LoRA로 돌려, 13개의 self-generated repair pair만으로 holdout slice를 16/50에서 28/50으로 끌어올렸다는 tinyforge 사례를 공유했다.
Hacker News는 Microsoft의 bitnet.cpp를 다시 끌어올리며, 새 100B checkpoint보다 1.58-bit inference framework와 CPU 전력 효율 개선에 더 큰 의미를 두는 반응을 보였다.
Microsoft는 Fireworks AI가 Microsoft Foundry에 들어오면서 Azure에서 high-performance, low-latency open model inference를 제공한다고 밝혔다. day-zero access, custom model 반입, enterprise control을 한곳에서 제공하는 것이 핵심 메시지다.