LLM Hacker News 3d ago 1 min read
Hacker News에서 주목받은 SWE-CI는 LLM 에이전트가 단일 패치가 아니라 CI 루프 속에서 저장소 품질을 장기간 유지할 수 있는지를 평가하는 arXiv 벤치마크다.
Hacker News에서 주목받은 SWE-CI는 LLM 에이전트가 단일 패치가 아니라 CI 루프 속에서 저장소 품질을 장기간 유지할 수 있는지를 평가하는 arXiv 벤치마크다.
Hacker News에서 주목받은 Agent Safehouse는 Claude Code, Codex 같은 agent를 macOS의 <code>sandbox-exec</code> 기반 deny-first sandbox 안에서 실행하는 도구다. project 단위 접근만 기본 허용하고 민감한 경로는 kernel 레벨에서 차단하며, 단일 Bash script와 Apache 2.0 license로 배포된다.
r/artificial에서 주목받은 보안 연구는 zero-width/Unicode Tags를 이용한 숨은 지시가 도구 사용형 LLM 에이전트에 미치는 영향을 분석했다. 공개 요약은 5개 모델, 8,308개 출력 평가를 제시한다.
Andrej Karpathy가 새로운 AI 에이전트 패러다임 "Claws"를 소개했습니다. OpenClaw와 같은 시스템이 LLM 에이전트 위에서 오케스트레이션, 스케줄링, 컨텍스트, 도구 호출, 지속성을 제공하는 새로운 AI 스택 레이어입니다.
Hacker News에서 주목받은 SkillsBench 논문은 86개 태스크·11개 도메인에서 Agent Skill의 실제 효용을 비교했다. curated skill은 평균 통과율을 크게 끌어올렸지만, 모델이 직접 만든 skill은 평균 개선 효과를 보이지 않았다.