HWE-Bench、実hardware bugでagentの70.7%修復率を測る

Hardware engineeringは、LLM agent評価で手薄になりがちな領域だった。多くのbenchmarkは、小さなHDL module生成にとどまっていたからだ。2026年4月16日07:19:34 UTCにarXivへ提出されたHWE-Benchは、評価対象を実際のrepository-level hardware bug repairへ広げている。

Benchmarkは、六つのmajor open-source projectにある過去のbug-fix pull requestから作られた417 task instancesで構成される。対象はVerilog/SystemVerilogとChiselにまたがり、RISC-V cores、SoCs、security roots-of-trustを含む。各taskはfully containerized environmentに置かれ、agentはreal bug reportを修正しなければならない。正しさはproject nativeのsimulationとregression flowsで確認される。

論文は七つのLLMと四つのagent frameworkを評価した。最高agentは全体で70.7%のtaskを解いた。だが重要なのは内訳だ。小さなcoreでは90%を超える一方、複雑なSoC-level projectでは65%未満に落ちる。つまり現在のagentは範囲が比較的閉じたlocal hardware fixには強いが、project structureや複数artifactの関係を理解する修正ではまだ苦戦する。

著者らは失敗を三つの段階に分ける。fault localization、hardware-semantic reasoning、そしてRTL、configuration、verification fileをまたぐcross-artifact coordinationだ。この分析はEDA teamにとって重い。Hardware bugは単なるtext editではなく、timing assumption、module interface、verification intent、project固有のbuild behaviorを同時に守る必要がある。

Chip teamにとって気になるのはvarianceだ。高い平均値は、あるcore familyではうまく動くが別のprojectでは失敗するagentを隠してしまう。だからbenchmark tableではmodel nameだけでなく、task-suite breadth、container fidelity、regression qualityも同じくらい重要になる。

HWE-Benchは、agentがhardware designを任せられるという宣言ではない。むしろ、どこで壊れるかを再現可能に示すpressure testだ。今後、難しいSoC-level caseで改善が進めば、hardware-aware agentはregression triage、open-source core maintenance、verification-driven repair workflowの実用的な補助役になり得る。

HWE-Bench、実hardware bugでagentの70.7%修復率を測る

Related Articles

SkillOpt、重みを変えずagent scoreを23.5pt押し上げるskill学習

GitHub Copilot harness、5つのcoding benchでtoken効率を提示

OpenAI agent製品の利用が1週間で2.5倍、Codex業務需要を示す重要数字として市場に浮上