#guardrails

LLM Hacker News May 20, 2026 1 min read

오픈소스 Forge, 8B 모델 정확도 53%→99%로 끌어올린 가드레일 프레임워크

ACM CAIS '26에 발표된 오픈소스 Python 프레임워크 Forge가 Ministral-3 8B 모델에 가드레일을 적용해 에이전트 작업 정확도를 53%에서 99%로 향상시켰다.

AI Reddit Apr 16, 2026 1 min read

Prompt guardrail만으로는 안 된다는 말, LocalLLaMA는 결국 실행 전 차단으로 모였다

이 글이 먹힌 이유는 agent builder들이 이미 겪고 있는 감각을 정확히 찔렀기 때문이다. model이 API를 호출하고 file을 바꾸고 script를 실행하고 MCP tool까지 건드리는 순간, 문제는 출력 품질이 아니라 실제 실행을 누가 어디서 막느냐가 된다.

#ai-agents #agent-safety #guardrails

AI Hacker News Feb 20, 2026 1 min read

HN 화제: 다국어 환경에서 LLM Guardrail 신뢰성이 크게 흔들릴 수 있다는 분석

Hacker News에서 높은 반응을 얻은 글은 동일한 정책 의미라도 언어가 바뀌면 guardrail 점수가 36-53%까지 달라질 수 있다고 보고하며, 다국어 안전성 평가의 구조적 공백을 지적한다.

#llm-safety #guardrails #multilingual