Google이 Gemini API와 Vertex AI를 통해 Gemini Embedding 2를 preview로 공개했다. 이 모델은 text, image, video, audio, document를 하나의 embedding space에 넣는 Google의 첫 네이티브 멀티모달 embedding 시스템이다.
LLM
OpenAI가 Codex Automations를 정식 출시하고 모델 선택, reasoning level, worktree/기존 브랜치 실행, 템플릿 재사용 같은 운영 제어를 추가했다고 밝혔다. Codex가 일회성 코딩 세션을 넘어 반복 가능한 백그라운드 엔지니어링 워크플로로 확장되고 있다는 신호다.
r/MachineLearning의 한 리뷰어는 no-LLM 규정이 있는 ICML 제출물이 사실상 전부 AI로 작성된 것처럼 보인다고 주장했고, 커뮤니티는 정책 집행과 리뷰 부담 문제를 직설적으로 논의했다.
Hacker News에서 화제가 된 Amine Raji의 local ChromaDB 실험은, RAG 보안의 핵심이 prompt 자체보다 source corpus 오염과 ingestion 검증에 있을 수 있음을 보여준다.
Microsoft는 March 9, 2026 Frontier Suite를 발표하고 Claude와 차세대 OpenAI models를 포함한 Copilot model diversity 확대를 공개했다. Agent 365는 May 1에 $15 per user로 general availability에 들어가고, Microsoft 365 E7 Frontier Suite는 May 1에 $99 per user로 출시된다.
Google은 March 3, 2026 Gemini 3.1 Flash-Lite를 공개하며 가장 빠르고 비용 효율적인 Gemini 3 계열 모델이라고 밝혔다. 이 모델은 Google AI Studio와 Vertex AI에서 preview로 제공되며, 가격은 $0.25/1M input tokens와 $1.50/1M output tokens다.
r/LocalLLaMA에서는 Qwen3.5-9B 기반의 open coding agent인 OmniCoder-9B가 frontier agent traces를 학습했다는 점에 관심이 모이고 있다.
r/MachineLearning에서는 가중치 변경 없이 중간 7개 층 블록만 복제해 leaderboard 성능을 끌어올렸다는 실험 노트가 큰 관심을 받고 있다.
Anthropic이 Claude의 인라인 시각화 기능을 공개했고, Hacker News에서는 데이터 분석과 설명 작업에서 바로 쓸 수 있는 UX 개선이라는 반응이 나왔다.
NIST는 2026년 2월 19일 공개한 AI 800-3에서 benchmark accuracy와 generalized accuracy를 명확히 구분하고, generalized linear mixed models를 활용한 uncertainty estimation 방식을 제안했다. 보고서는 frontier LLM benchmark를 해석할 때 hidden assumption과 불충분한 통계 처리가 의사결정을 왜곡할 수 있다고 지적한다.
OpenAI는 Chain-of-Thought controllability를 다루는 새로운 evaluation suite와 research paper를 공개했다. 회사는 GPT-5.4 Thinking이 reasoning을 숨기는 능력이 낮아 CoT monitoring이 여전히 유효한 safety signal이 될 수 있다고 설명했다.
OpenAI는 GPT-5.4 Thinking과 Pro를 ChatGPT, API, Codex에 걸쳐 순차적으로 출시한다고 밝혔다. 회사는 GPT-5.4를 coding, computer use, tool search, 1M-token context를 갖춘 professional work용 frontier model로 포지셔닝했다.