LLM 4h ago 2 min read
Snyk VulnBench JS 1.0은 같은 JavaScript 취약점 리뷰를 300번 반복해 LLM 보안 점검의 재현성을 측정했다. 최고 LLM 설정도 Snyk-reference F1 75.4%에 그쳤고, reference 밖 추가 보고의 49.7%는 5번 중 1번만 나타났다.
Snyk VulnBench JS 1.0은 같은 JavaScript 취약점 리뷰를 300번 반복해 LLM 보안 점검의 재현성을 측정했다. 최고 LLM 설정도 Snyk-reference F1 75.4%에 그쳤고, reference 밖 추가 보고의 49.7%는 5번 중 1번만 나타났다.