#agents

AI News Curation Jun 19, 2026 1 min read

마케팅 에이전트에 $65M, Gradial이 노리는 승인·배포 병목

Gradial은 Series C에서 $65M을 조달하며 기업 마케팅 운영을 가로지르는 에이전트 OS에 베팅했다. T-Mobile 사례에서는 캠페인 실행 시간이 80-90% 줄고 정확도는 99%로 보고됐다.

LLM News Curation Jun 19, 2026 1 min read

리서치 에이전트가 검색어로 비밀을 흘리는 MosaicLeaks 실험

ServiceNow 연구진은 로컬 문서와 웹 검색을 오가는 deep research 에이전트가 사내 정보를 검색어 조각으로 흘릴 수 있음을 보였다. PA-DR 훈련은 전체 정보 유출률을 34.0%에서 9.9%로 낮췄지만, 성능만 올리는 훈련은 유출을 키웠다.

#agents #privacy #research

LLM X/Twitter Jun 19, 2026 1 min read

Grok, Databricks Agent Bricks에 통합되어 기업 데이터 에이전트 선택지로 진입

xAI가 Grok 모델을 Databricks Agent Bricks에 넣으며 기업 데이터 플랫폼 안에서 바로 선택할 수 있는 모델 폭이 넓어졌다. Databricks는 OpenAI, Anthropic, Gemini, Qwen, Kimi와 함께 Grok을 단일 거버넌스 환경에 배치한다.

#xai #grok #databricks

AI X/Twitter Jun 18, 2026 1 min read

SpatialClaw, 20개 공간 추론 벤치마크에서 기존 에이전트보다 11.2점 우위

공간 추론 에이전트의 핵심이 도구 목록보다 행동 인터페이스일 수 있다는 결과가 나왔다. NVIDIA Research의 SpatialClaw는 20개 벤치마크에서 기존 에이전트보다 11.2점 높고, 6개 VLM 백본 전반에서 일관된 향상을 보였다.

#nvidia #spatialclaw #agents

LLM X/Twitter Jun 12, 2026 1 min read

OpenAI, Ona 인수로 Codex에 노트북 밖 장시간 클라우드 실행 기반을 더하는 이유

Codex가 몇 분짜리 보조 도구에서 몇 시간·며칠 단위 작업을 맡는 기업 에이전트로 이동한다. OpenAI는 Codex 주간 이용자가 500만 명을 넘고 올해 초보다 400% 늘었다며, Ona의 200만 개발자용 클라우드 실행 경험을 핵심 근거로 제시했다.

#openai #codex #ona

LLM X/Twitter Jun 11, 2026 1 min read

Claude Fable 5, GDPval-AA 1932점으로 에이전트 업무 벤치마크 선두

Claude Fable 5가 GDPval-AA 1932점으로 에이전트형 지식 업무 벤치마크 1위에 올랐다. Anthropic 모델이 상위 4개 중 3개를 차지했다는 점은 장시간 업무형 모델 경쟁이 성능표 중심으로 재편되고 있음을 보여준다.

#anthropic #claude #benchmark

Sciences X/Twitter Jun 10, 2026 1 min read

생물학 에이전트 정확도, gget virus 결합 뒤 거의 100%로 상승

생명과학 에이전트의 병목이 모델 성능만이 아니라 데이터 검색 계층에 있다는 증거가 나왔다. Anthropic은 NCBI Virus 작업에서 결정론적 검색 도구를 붙이자 정확도가 거의 100%까지 올랐다고 밝혔다.

#anthropic #biology #agents

LLM Jun 7, 2026 1 min read

Google Agentic RAG, 답 못 찾는 검색을 34% 정확도 개선으로

기업 RAG의 약점은 답을 모르는 것이 아니라, 필요한 근거가 다른 저장소에 흩어졌을 때 너무 일찍 멈추는 데 있다. Google Research는 충분한 문맥을 검사하고 다시 검색하는 Agentic RAG로 factuality 데이터셋 정확도를 최대 34% 높였다고 밝혔다.

#google #rag #agents

LLM Hacker News Jun 6, 2026 1 min read

Anthropic vuln harness, 제품보다 실험대에 가까운 이유

530점 넘게 오른 관심은 “Claude가 보안 버그를 찾는다”보다, 팀마다 직접 고쳐 쓸 수 있는 harness의 모양에 모였다.

#anthropic #claude #security

LLM X/Twitter Jun 5, 2026 1 min read

Nemotron 3 Ultra, 550B MoE로 에이전트 추론 5배 속도와 30% 비용 절감 제시

오픈 모델 경쟁이 단순 성능표에서 장시간 에이전트 비용으로 이동하고 있다. NVIDIA는 Nemotron 3 Ultra가 550B MoE 구조로 5배 빠른 추론과 최대 30% 낮은 복잡 작업 비용을 낸다고 밝혔다.

#nvidia #nemotron #open-model

Sciences Jun 4, 2026 1 min read

Microsoft Discovery 정식 출시, 과학 R&D용 agent 플랫폼을 조직 단위로 확장

Microsoft Discovery가 6월 2일 모든 조직 대상 정식 제공으로 전환됐다. 과학·엔지니어링 R&D에서 전문 agent, 지식, 시뮬레이션, 검증 데이터를 묶고, 개인 연구자용 로컬 앱은 preview로 열렸다.

#microsoft #ai-for-science #agents

LLM Jun 3, 2026 1 min read

Copilot 앱, agent 작업을 데스크톱·클라우드·sandbox로 확장

GitHub Copilot 앱 기술 미리보기가 유료 Copilot 고객 전체로 넓어지고, 로컬·클라우드 sandbox가 공개 미리보기로 붙었다. agent가 코드를 고치고 명령을 실행하는 시대의 핵심 쟁점이 모델 성능에서 실행 격리와 검증 흐름으로 이동하고 있다.

#github #copilot #agents