HWE-Bench, 실제 hardware bug에서 agent 70.7% 수리율을 재다

Hardware engineering은 LLM agent 평가에서 자주 얇게 다뤄진 영역이었다. 많은 benchmark가 작은 HDL module 생성에 머물렀기 때문이다. 2026년 4월 16일 07:19:34 UTC에 arXiv에 제출된 HWE-Bench는 이 기준을 실제 repository-level hardware bug repair로 끌어올린다.

Benchmark는 여섯 개 major open-source project의 과거 bug-fix pull request에서 뽑은 417개 task instance로 구성된다. Verilog/SystemVerilog와 Chisel을 모두 포함하고, RISC-V cores, SoCs, security roots-of-trust까지 다룬다. 각 task는 fully containerized environment 안에 놓이며, agent는 실제 bug report를 고쳐야 한다. 정답 여부는 해당 project의 native simulation과 regression flow로 검증된다.

논문은 일곱 개 LLM과 네 개 agent framework를 평가했다. 최고 agent는 전체 task의 70.7%를 해결했다. 다만 더 중요한 부분은 분해된 결과다. 작은 core에서는 90%를 넘지만, 복잡한 SoC-level project에서는 65% 아래로 떨어진다. 즉 현재 agent는 경계가 비교적 뚜렷한 local hardware fix에는 꽤 강하지만, project structure와 여러 artifact의 상호작용을 이해해야 하는 수리에서는 아직 약하다.

저자들은 실패 지점을 fault localization, hardware-semantic reasoning, RTL과 configuration, verification file 사이의 cross-artifact coordination 세 단계로 정리한다. 이 진단은 EDA team에게 중요하다. Hardware bug는 단순 text edit이 아니며, timing assumption, module interface, verification intent, build behavior를 함께 보존해야 하기 때문이다.

Chip team 입장에서는 variance가 불편한 신호다. 높은 평균은 어떤 core family에서는 잘 작동하지만 다른 project에서는 실패하는 agent를 가릴 수 있다. 그래서 benchmark table에서 model name만큼 task-suite breadth, container fidelity, regression quality가 중요해진다.

HWE-Bench는 agent가 hardware design을 혼자 맡을 수 있다는 주장이 아니다. 오히려 더 쓸모 있는 기준표다. 어디에서 실패하는지 재현 가능한 방식으로 보여준다. 앞으로 SoC-level hard case에서 성능이 오른다면, hardware-aware agent는 regression triage, open-source core maintenance, verification-driven repair workflow에서 현실적인 보조자가 될 수 있다.

HWE-Bench, 실제 hardware bug에서 agent 70.7% 수리율을 재다

Related Articles

SkillOpt, 모델 가중치 그대로 agent 점수 23.5점 끌어올린 skill 학습법

GitHub Copilot 하네스, 5개 코딩 벤치마크에서 토큰 효율성 제시

OpenAI agent 사용량 1주일 새 2.5배, Codex 업무 수요를 가리키는 숫자 확대