IBM VAKRA、tool agentが壊れる箇所を実行環境で測る
Original: Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents View original →
Agent benchmarkが難しいのは、answerだけでは仕事の全体を測れないからだ。Agentはtoolを選び、正しいargumentsを渡し、evidenceをretrievalし、constraintsを守り、実際に得た結果に基づいてfinal responseを書く必要がある。IBM ResearchがHugging Faceで2026年4月15日に公開したVAKRA分析は、この隙間を正面から扱っている。
VAKRAはenterprise-like environmentsでagentを評価するtool-grounded executable benchmarkだ。62 domainsにまたがるreal databasesを背後に持つ8,000+ locally hosted APIsと、domain-aligned document collectionsを提供する。Taskは3-7 step reasoning chainsを要求し、structured API interactionとunstructured retrievalをnatural-language tool-use constraintsの下で組み合わせる。Final answerだけでなく、valid execution traceをたどったかが問われる。
Benchmarkは4つのcapabilityで構成される。Business Intelligence APIsを使うAPI chainingは54 domainsの2,077 test instancesを含む。Dashboard APIsによるtool selectionは17 domainsの1,597 instancesで、domainごとに6から328 tools、平均116 toolsが登場する。Multi-hop reasoningは38 domainsの869 instances。最後のmulti-hop multi-source reasoning and policy adherenceは41 domainsの644 instancesで、APIs、document retrievers、dialog context、source-use policiesを組み合わせる。
Evaluatorも実際のfailureに合わせている。VAKRAはpredicted tool callsをground truthと同じenvironmentで実行し、final textだけでなくintermediate tool outputsを比較する。Policyを含むsectionではpolicy adherence、tool-call trajectory、final responseの順でwaterfall evaluationを行う。これにより、異なるtool pathで正しく解けた場合は認めつつ、evidenceの欠落、wrong arguments、hallucinated parameters、groundingされていないanswerを捉えられる。
結果はagent claimsへの現実チェックに近い。IBM ResearchはVAKRA上でmodels perform poorlyと述べる。Business Intelligence API segmentでは、tool schema理解の強さからGPT-OSS-120Bが最も良かった。Dashboard API tool selectionでは、Gemini-3-flash-previewがtested modelsのerror categories全般で前に出た。しかしhop depthが増えると全modelの性能が落ち、policy constraintsはさらに別の失敗を加える。Tool callができることと、end-to-endで信頼できるenterprise agent behaviorはまだ同じではない。
Related Articles
r/LocalLLaMAでMiniMax M2.7が一気に伸びた理由は、Hugging Face公開が単なるchat modelではなく、tool use、Agent Teams、deployment guideまで含むagent systemとして提示されたからだ。初期の関心はbenchmarkの数字だけでなく、実運用を意識したpackagingにも向いている。
HWE-BenchはLLM agent評価を小さなHDL taskからrepository-scaleのhardware repairへ移した。最高agentは全体で70.7%を解いたが、複雑なSoC-level projectでは65%未満に落ちた。
AIBuildAIはMLE-Benchで63.1%のmedal rateを報告し、AI model開発agentの評価軸を広げた。重要なのは、AutoMLの一部最適化ではなく設計、coding、debugging、training、tuningを一つのworkflowとして扱う点だ。
Comments (0)
No comments yet. Be the first to comment!