AWS, AgentCore Evaluations로 agent QA와 회귀 검증을 관리형 워크플로로 묶다

AWS는 2026년 03월 31일 Amazon Bedrock AgentCore Evaluations 상세 가이드를 공개하며, 이 서비스를 개발 단계와 production 단계 모두에서 agent 품질을 측정하는 managed system으로 제시했다. 핵심 메시지는 agent reliability를 몇 번의 샘플 대화로 감으로 판단하는 것이 아니라, 명시적인 metric과 regression baseline으로 지속 관찰해야 한다는 것이다.

AWS는 평가 단위를 session, trace, tool level로 나눠 문제가 어디서 발생하는지 분리하도록 설계했다. tool-heavy agent는 잘못된 tool을 고를 수도 있고, parameter를 틀릴 수도 있으며, tool output을 잘못 종합하거나, 기술적으로는 맞는 호출을 하고도 사용자의 최종 goal을 달성하지 못할 수도 있다. 서비스에는 Tool Selection Accuracy, Goal Success Rate 같은 built-in evaluators가 포함되며, custom evaluators와 AWS Lambda 기반 code-based evaluators도 지원한다.

주목할 부분은 LLM-as-a-judge scoring과 ground truth reference를 함께 묶은 방식이다. AWS는 expected response, expected trajectory, assertions를 넣어 agent가 올바른 tool을 올바른 순서로 호출했는지, 의도한 결과를 달성했는지 검증할 수 있다고 설명한다. 또한 특정 사례를 점검하는 on-demand evaluation과 production 흐름을 계속 감시하는 online evaluation을 모두 지원하며, 결과는 AgentCore Observability in CloudWatch로 연결된다.

서비스는 agent 평가를 ad hoc prompt 확인에서 반복 가능한 measurement로 전환한다.
ground-truth input은 tool-using agents의 regression testing을 더 구체적으로 만든다.
CloudWatch 연동은 agent quality를 latency, cost와 함께 운영 지표로 취급하게 만든다.

더 큰 흐름에서 보면 agent platform이 완전한 software engineering stack으로 진화하고 있다는 신호다. 이제 agent 구축은 model 선택과 tool 연결만으로 끝나지 않으며, instrumentation, scoring, monitoring, release gate까지 포함한다. AWS는 runtime telemetry에 가까운 위치에서 그 전체 lifecycle을 가져가려는 모습이다.

AWS, AgentCore Evaluations로 agent QA와 회귀 검증을 관리형 워크플로로 묶다

Related Articles

GLM-5.2를 느린 PC에서 돌리는 Colibri, Local AI의 병목은 GPU만이 아닌 이유

Clawk, 코딩 에이전트에게 내 노트북 대신 버리는 Linux VM

13년 된 Xeon에서 Gemma 4 26B, GPU 없이 5 tok/s

Related Articles

GLM-5.2를 느린 PC에서 돌리는 Colibri, Local AI의 병목은 GPU만이 아닌 이유
744B MoE 모델을 소비자용 PC에서 돌리겠다는 실험에 관심이 모였다. Colibri는 GLM-5.2의 활성 파라미터와 전문가 라우팅 구조를 이용해, 거대한 모델을 전부 RAM이나 GPU에 올리지 않는 쪽으로 설계를 잡았다.

Clawk, 코딩 에이전트에게 내 노트북 대신 버리는 Linux VM

13년 된 Xeon에서 Gemma 4 26B, GPU 없이 5 tok/s
HN의 논점은 “느리지만 된다”가 아니라 비용과 제어권이었다. 오래된 dual Xeon E5-2690 v2가 ik_llama.cpp 패치로 Gemma 4 26B-A4B를 CPU-only로 돌리며 local inference의 현실선을 다시 그었다.