r/MachineLearning이 붙든 HALO-Loss의 포인트: 모델에 진짜 "모르겠습니다"를 말할 자리를 만들자는 제안
Original: "I don't know!": Teaching neural networks to abstain with the HALO-Loss. [R] View original →
r/MachineLearning에서 이 포스트가 반응을 얻은 이유는 “AI safety”라는 큰 구호보다 훨씬 구체적이다. 글쓴이가 내세운 주장은 간단하다. Cross-Entropy를 대체하는 loss를 써서 모델이 확신 없는 입력에 대해 진짜로 “I don't know”라고 물러날 수 있게 만들고, 그 과정에서 base accuracy는 거의 잃지 않는다는 것이다. 커뮤니티가 바로 붙잡은 것도 그 trade-off였다. 정확도를 희생하지 않고 calibration과 OOD rejection을 같이 가져갈 수 있느냐는 질문이다.
작성자는 HALO-Loss가 unconstrained dot product 대신 learned prototype과의 Euclidean distance를 쓰고, latent space 원점에 zero-parameter abstain class를 붙일 수 있게 만든다고 설명한다. 요지는 모델이 쓰레기 입력을 받아도 무작정 한 클래스로 밀어붙이지 않고, 수학적으로 정해진 “모르겠다” 위치를 가질 수 있다는 것이다. 포스트에 적힌 실험 수치는 다음과 같다.
- CIFAR-10 base accuracy: +0.23%
- CIFAR-100 base accuracy: -0.14%
- ECE: 약 8%에서 1.5%로 하락
- SVHN FPR@95: 22.08%에서 10.27%로 하락
흥미로운 건 댓글 분위기다. 상위 댓글은 과장된 환호보다 바로 benchmark와 novelty를 따졌다. 한 사용자는 CIFAR만으로는 부족하니 CalTech256 같은 데이터셋도 보자고 했고, 다른 사용자는 prototype 기반 분류나 contrastive similarity와 겹치는 부분을 짚으면서 진짜 차별점이 regularization에 있는지 물었다. 이런 반응은 오히려 좋다. 커뮤니티가 이 아이디어를 충분히 진지하게 받아들였기 때문에, 곧바로 “무엇이 새롭고 어디까지 일반화되나”를 캐묻고 있다는 뜻이기 때문이다.
이 연구가 더 커질 수 있는 이유도 거기에 있다. 만약 HALO-Loss가 작은 vision benchmark 바깥에서도 유지된다면, 안전이 중요한 classification, out-of-distribution detection, multimodal alignment rejection threshold 같은 문제에 꽤 실용적인 옵션이 된다. 글쓴이는 기술 블로그와 코드도 함께 공개했다. 원문 스레드는 r/MachineLearning에서 볼 수 있다. 이 포스트가 흥미로운 이유는 멋진 슬로건이 아니라, calibration과 abstention을 같은 loss 설계 안에서 다뤄보겠다는 꽤 구체적인 시도이기 때문이다.
Related Articles
GitHub는 X를 통해 dependency locking, policy-based execution, runner network control을 포함한 Actions 보안 로드맵을 공개했다. 계획에는 workflow-level dependency 잠금, ruleset 기반 실행 보호, GitHub-hosted runner용 native egress firewall이 포함된다.
PyTorch는 2026년 4월 9일 X에서 Safetensors와 Helion이 PyTorch Foundation의 foundation-hosted project로 합류했다고 밝혔다. 이번 조정으로 foundation은 model distribution safety와 저수준 kernel tooling에 대한 역할을 더 크게 갖게 된다.
Astral의 2026년 4월 8일 글이 HN에서 주목받은 이유는 공급망 보안을 추상론이 아니라 CI/CD 운영 규칙으로 풀어냈기 때문이다. 위험한 GitHub Actions trigger 금지, action hash pinning, <code>permissions: {}</code> 기본화, secret 격리, GitHub App과 Trusted Publishing 조합이 핵심으로 꼽혔다.
Comments (0)
No comments yet. Be the first to comment!