Google DeepMind가 Gemini 3.1 Pro를 출시했다. 전작 대비 추론 성능이 2배 이상 향상됐으며 ARC-AGI-2에서 77.1%를 달성했다. 18개 추적 벤치마크 중 12개에서 1위를 기록하면서 API 가격은 $2/$12로 그대로 유지된다.
#llm
스타트업 타알라스(Taalas)가 Llama 3.1 8B 모델의 가중치를 실리콘에 물리적으로 새긴 ASIC 칩을 출시했습니다. 초당 17,000 토큰을 생성하며 GPU 기반 시스템 대비 10배 빠르고 10배 저렴하며 10배 적은 전력을 소비합니다.
바이트댄스가 음력 설을 앞두고 Doubao 2.0을 출시했다. AIME 2025 98.3점, Codeforces 3020 등 주요 벤치마크에서 GPT-5.2와 비슷한 성능을 주장하면서도 가격은 서구 경쟁사 대비 약 10분의 1에 불과하다.
앤드레이 카파시가 LLM이 프로그래밍 언어와 소프트웨어 제약 환경을 완전히 변화시킨다고 분석했다. LLM은 코드 번역에서 특히 강점을 보이며, 향후 작성된 소프트웨어의 상당 부분이 여러 번 다시 쓰여질 것이라 전망했다.
스타트업 Taalas가 LLM 가중치를 실리콘 칩에 직접 식각하는 급진적인 접근법으로 초당 16,000 토큰이라는 놀라운 추론 속도를 달성했습니다. HBM 없이 모델 가중치를 하드웨어에 직접 구워 넣는 방식입니다.
Google DeepMind가 Gemini 3.1 Pro를 공개했다. 더 어려운 문제를 해결할 수 있도록 모델 전반의 지능을 대폭 향상시켰으며, Google AI Pro 및 Ultra 사용자를 시작으로 Gemini 앱과 NotebookLM, API를 통해 순차 제공된다.
OpenAI가 First Proof 챌린지에 제출한 모델 생성 증명 5건을 공개했다. 총 7개 문제 중 정답으로 판정된 제출은 없었지만, 연구 커뮤니티가 실패 사례와 추론 과정을 분석할 수 있도록 원문 제출물을 그대로 공유했다.
Hacker News 고반응 스레드에서 Taalas의 모델 특화 실리콘 접근이 주목받았다. 회사는 하드와이어드 Llama 3.1 8B 기반으로 사용자당 17K tokens/sec 성능을 주장했다.
Anthropic은 2026년 2월 4일 Claude를 광고 없는 대화 공간으로 유지하겠다고 밝혔다. 회사는 사용자 신뢰와 모델 유용성을 핵심 기준으로 제시하며, 수익은 구독과 enterprise 계약 중심으로 유지하겠다고 설명했다.
Hacker News에서 높은 관심을 받은 Gemini 3.1 Pro 출시 소식. Google은 개발자·기업·일반 사용자 채널 전반에 Preview를 확장하며, ARC-AGI-2 점수 77.1%를 강조했다.
Hacker News에서 높은 반응을 얻은 Step 3.5 Flash는 196B total parameter와 약 11B active parameter를 내세운 MoE foundation model로 소개됐으며, 256K context와 coding/agent benchmark 수치를 함께 공개했다.
Anthropic이 Claude Sonnet 4.6를 공개했다. 1M token context window(beta), 향상된 coding/computer use 성능, Sonnet 4.5와 동일한 API 가격($3/$15 per million tokens)이 핵심이다.