HWE-Bench、実hardware bugでagentの70.7%修復率を測る
Original: HWE-Bench: Benchmarking LLM Agents on Real-World Hardware Bug Repair Tasks View original →
Hardware engineeringは、LLM agent評価で手薄になりがちな領域だった。多くのbenchmarkは、小さなHDL module生成にとどまっていたからだ。2026年4月16日07:19:34 UTCにarXivへ提出されたHWE-Benchは、評価対象を実際のrepository-level hardware bug repairへ広げている。
Benchmarkは、六つのmajor open-source projectにある過去のbug-fix pull requestから作られた417 task instancesで構成される。対象はVerilog/SystemVerilogとChiselにまたがり、RISC-V cores、SoCs、security roots-of-trustを含む。各taskはfully containerized environmentに置かれ、agentはreal bug reportを修正しなければならない。正しさはproject nativeのsimulationとregression flowsで確認される。
論文は七つのLLMと四つのagent frameworkを評価した。最高agentは全体で70.7%のtaskを解いた。だが重要なのは内訳だ。小さなcoreでは90%を超える一方、複雑なSoC-level projectでは65%未満に落ちる。つまり現在のagentは範囲が比較的閉じたlocal hardware fixには強いが、project structureや複数artifactの関係を理解する修正ではまだ苦戦する。
著者らは失敗を三つの段階に分ける。fault localization、hardware-semantic reasoning、そしてRTL、configuration、verification fileをまたぐcross-artifact coordinationだ。この分析はEDA teamにとって重い。Hardware bugは単なるtext editではなく、timing assumption、module interface、verification intent、project固有のbuild behaviorを同時に守る必要がある。
Chip teamにとって気になるのはvarianceだ。高い平均値は、あるcore familyではうまく動くが別のprojectでは失敗するagentを隠してしまう。だからbenchmark tableではmodel nameだけでなく、task-suite breadth、container fidelity、regression qualityも同じくらい重要になる。
HWE-Benchは、agentがhardware designを任せられるという宣言ではない。むしろ、どこで壊れるかを再現可能に示すpressure testだ。今後、難しいSoC-level caseで改善が進めば、hardware-aware agentはregression triage、open-source core maintenance、verification-driven repair workflowの実用的な補助役になり得る。
Related Articles
AIBuildAIはMLE-Benchで63.1%のmedal rateを報告し、AI model開発agentの評価軸を広げた。重要なのは、AutoMLの一部最適化ではなく設計、coding、debugging、training、tuningを一つのworkflowとして扱う点だ。
IBM ResearchのVAKRAはagent評価をstatic Q&Aからexecutable tool environmentへ移した。62 domains、8,000+ locally hosted APIs、3-7 step reasoning chainsを含み、surface-level tool useとenterprise agent reliabilityの差を示している。
Cloudflareは2026年3月19日、Workers AI に Moonshot AI の Kimi K2.5 を追加して large-model tier に入った。durable agent execution、large-context inference、lower-cost open model deployment を 1 つの stack にまとめる戦略が中心だ。
Comments (0)
No comments yet. Be the first to comment!