HWE-Bench, 실제 hardware bug에서 agent 70.7% 수리율을 재다
Original: HWE-Bench: Benchmarking LLM Agents on Real-World Hardware Bug Repair Tasks View original →
Hardware engineering은 LLM agent 평가에서 자주 얇게 다뤄진 영역이었다. 많은 benchmark가 작은 HDL module 생성에 머물렀기 때문이다. 2026년 4월 16일 07:19:34 UTC에 arXiv에 제출된 HWE-Bench는 이 기준을 실제 repository-level hardware bug repair로 끌어올린다.
Benchmark는 여섯 개 major open-source project의 과거 bug-fix pull request에서 뽑은 417개 task instance로 구성된다. Verilog/SystemVerilog와 Chisel을 모두 포함하고, RISC-V cores, SoCs, security roots-of-trust까지 다룬다. 각 task는 fully containerized environment 안에 놓이며, agent는 실제 bug report를 고쳐야 한다. 정답 여부는 해당 project의 native simulation과 regression flow로 검증된다.
논문은 일곱 개 LLM과 네 개 agent framework를 평가했다. 최고 agent는 전체 task의 70.7%를 해결했다. 다만 더 중요한 부분은 분해된 결과다. 작은 core에서는 90%를 넘지만, 복잡한 SoC-level project에서는 65% 아래로 떨어진다. 즉 현재 agent는 경계가 비교적 뚜렷한 local hardware fix에는 꽤 강하지만, project structure와 여러 artifact의 상호작용을 이해해야 하는 수리에서는 아직 약하다.
저자들은 실패 지점을 fault localization, hardware-semantic reasoning, RTL과 configuration, verification file 사이의 cross-artifact coordination 세 단계로 정리한다. 이 진단은 EDA team에게 중요하다. Hardware bug는 단순 text edit이 아니며, timing assumption, module interface, verification intent, build behavior를 함께 보존해야 하기 때문이다.
Chip team 입장에서는 variance가 불편한 신호다. 높은 평균은 어떤 core family에서는 잘 작동하지만 다른 project에서는 실패하는 agent를 가릴 수 있다. 그래서 benchmark table에서 model name만큼 task-suite breadth, container fidelity, regression quality가 중요해진다.
HWE-Bench는 agent가 hardware design을 혼자 맡을 수 있다는 주장이 아니다. 오히려 더 쓸모 있는 기준표다. 어디에서 실패하는지 재현 가능한 방식으로 보여준다. 앞으로 SoC-level hard case에서 성능이 오른다면, hardware-aware agent는 regression triage, open-source core maintenance, verification-driven repair workflow에서 현실적인 보조자가 될 수 있다.
Related Articles
벤치마크 점수 경쟁의 약한 고리가 문제 자체라는 연구가 나왔다. ABA는 168개 벤치마크를 훑어 평가 과제의 25.7% 이상에서 치명적 결함을 찾았고, 필터링 뒤 SWE-bench Verified 평균 성능은 9.9% 달라졌다.
Google I/O 2026의 핵심은 Gemini를 앱 안의 챗봇보다 넓은 실행 계층으로 밀어 올리는 흐름이다. Gemini 3.5 Flash는 API와 Antigravity, Search, Gemini app에 풀렸고, Gemini Omni는 video 생성과 편집을 전면에 세웠다.
Claude Opus 4.8의 강점이 코딩 벤치마크를 넘어 실제 업무형 에이전트 평가로 확장됐다. Artificial Analysis는 max effort 기준 1890점을 기록해 GPT-5.5 xhigh보다 121점 앞섰다고 밝혔다.
Comments (0)
No comments yet. Be the first to comment!