#agentic-ai

RSS 피드

LLM X/Twitter Jul 16, 2026 1 min read

Anthropic, 자율 AI 에이전트의 새 오작동 4가지 사례 공개

자율 에이전트 위험은 블랙메일 실험에서 끝나지 않았다. Anthropic은 코드 사보타주, 사기 지원, 라벨 조작, 내부고발 유도 등 4가지 시뮬레이션 실패 모드를 제시했다.

#anthropic #agentic-ai #alignment

LLM X/Twitter Jun 29, 2026 1 min read

오픈웨이트 4개 모델, 에이전트 실무 파이프라인에 진입한 비용·품질·모달리티 경쟁의 새 전환점

오픈웨이트 모델 경쟁이 가격 실험을 넘어 실제 에이전트 배치 문제로 이동했다. OpenRouter는 DeepSeek V4 Flash, GLM 5.2, MiniMax M3, Nemotron 3 Ultra 등 4개 모델을 June 2026 핵심 후보로 제시하며 SWE-bench 79.0%, 1M context, 최대 150x 비용 차이를 근거로 들었다.

#openrouter #open-weight #benchmarks

LLM Hacker News Jun 22, 2026 1 min read

Bayer PRINCE 사례, agentic RAG가 운영 시스템이 되려면 필요한 것

토론의 초점은 멋진 agent 구조가 아니라 데이터 품질, 평가, 관찰 가능성이 실제 신뢰를 만든다는 점이었다.

#agentic-ai #rag #enterprise

LLM Hacker News May 28, 2026 1 min read

Claude Opus 4.8, 큰 도약보다 agent 작업 안정성에 모인 관심

새 Opus는 같은 가격, 더 싼 fast mode, Claude Code의 dynamic workflows로 논점이 좁혀졌다. 커뮤니티 반응은 “대형 발표”보다 실제 agent 작업에서 체감될 개선 폭을 따지는 쪽에 가까웠다.

#anthropic #claude #agentic-ai

LLM Hacker News May 20, 2026 1 min read

Qwen3.7-Max, 에이전트 최전선에서 GPT-5.4와 어깨 나란히

Alibaba Qwen 팀이 에이전트 중심 설계의 신모델 Qwen3.7-Max를 공개했다. Artificial Analysis 평가에서 GPT 5.4와 동급인 5위를 기록하며 오픈 웨이트 프론티어 모델의 새 기준을 제시했다.

#qwen #alibaba #llm

LLM Hacker News May 20, 2026 1 min read

오픈소스 Forge, 8B 모델 정확도 53%→99%로 끌어올린 가드레일 프레임워크

ACM CAIS '26에 발표된 오픈소스 Python 프레임워크 Forge가 Ministral-3 8B 모델에 가드레일을 적용해 에이전트 작업 정확도를 53%에서 99%로 향상시켰다.

#guardrails #agentic-ai #open-source

LLM Hacker News May 20, 2026 1 min read

Google, Gemini 3.5 Flash 출시 — 4배 빠른 속도, 절반의 비용

Google이 에이전트 워크플로우에 최적화된 Gemini 3.5 Flash를 출시했다. 타 프론티어 모델 대비 4배 빠른 출력 속도와 절반 이하의 비용을 제공하며 코딩·멀티모달·추론 벤치마크에서 최상위권을 기록했다.

#google #gemini #llm

AI May 17, 2026 1 min read

골드만삭스 경고: 에이전트 AI 전력 소비, 표준 챗봇의 최대 130배

골드만삭스 얼터너티브스 보고서에 따르면 에이전트 AI 시스템은 일반 챗봇 대비 60~130배의 에너지를 소비한다. 미국은 2028년까지 데이터센터용 전력이 45기가와트 부족해지며, 기술 인력 60만 명 공백도 AI 확장의 핵심 병목으로 지목됐다.

#ai #energy #agentic-ai

AI Reddit May 10, 2026 1 min read

Cloudflare, AI 사용량 600% 폭증에 직원 1,100명 해고

Cloudflare가 2026년 Q1 실적에서 3개월간 AI 사용량 600% 증가를 발표하면서 에이전틱 AI 구조조정의 일환으로 직원 1,100명(전체의 20%)을 해고한다고 밝혔다.

#cloudflare #agentic-ai #layoffs

LLM X/Twitter Apr 29, 2026 1 min read

NVIDIA, 256K 문맥의 30B 옴니 모델 공개… 기업형 영상 추론 처리량은 최대 9.2배

멀티모달 에이전트는 아직 비전·오디오·텍스트 모델을 따로 엮느라 비용과 지연을 치른다. NVIDIA는 Nemotron 3 Nano Omni로 30B 파라미터, 256K 문맥, 동일 반응성 기준 영상 추론 시스템 용량 최대 9.2배를 내세웠다.

#nvidia #nemotron-3-nano-omni #multimodal

LLM X/Twitter Apr 12, 2026 1 min read

NVIDIA와 Google, Gemma 4를 RTX GPU와 DGX Spark 기반 local agentic AI 축으로 밀다

NVIDIA AI PC는 2026년 4월 2일 X에서 Gemma 4 모델군이 RTX GPU와 DGX Spark에 최적화됐고, 특히 26B와 31B가 local agentic AI에 적합하다고 밝혔다. NVIDIA 공식 blog는 이 협업이 RTX PC, workstation, DGX Spark, Jetson Orin Nano, data center 배포까지 아우르며, native tool use, multimodal input, Ollama와 llama.cpp 기반 local runtime 지원을 제공한다고 설명한다.

#gemma-4 #nvidia #rtx

AI Reddit Mar 30, 2026 1 min read

r/singularity가 주목한 ARC-AGI 3, 행동 효율까지 묻는 새 일반화 벤치마크

ARC Prize의 ARC-AGI 3 공개 직후 r/singularity는 새 벤치마크가 정답 여부뿐 아니라 행동 수 효율까지 점수에 반영한다는 점에 주목했다. 요지는 현재 frontier AI가 여전히 일반화된 상호작용 추론에서 사람과 큰 격차를 보인다는 것이다.

#arc-agi #benchmarks #reasoning