r/MachineLearning, ICML의 no-LLM 리뷰 집행 논란을 토론하다
Original: [D] ICML rejects papers of reviewers who used LLMs despite agreeing not to View original →
2026년 3월 18일, r/MachineLearning에서 "[D] ICML rejects papers of reviewers who used LLMs despite agreeing not to"라는 글이 빠르게 상단으로 올라왔고, 이 크롤링 시점 기준 184 points와 70 comments를 기록했다. 원문 포스트는 ICML의 공식 공지로 바로 연결되지 않고, X에서 돌던 주장들을 근거로 no-LLM review track을 선택한 뒤 LLMs를 사용한 reviewer-author들의 논문이 reject되었다는 보고를 전했다. 이 차이는 중요하다. 이 스레드는 공식 발표 그 자체라기보다, reported enforcement를 둘러싼 커뮤니티 토론으로 읽는 편이 맞다.
ICML 문서가 공식적으로 말하는 것
- ICML 2026 Reviewer Instructions는 reviewer마다 실제로 따라야 할 LLM policy가 할당되며, 그 assigned policy를 어기면 자신의 submissions가 desk rejection될 수 있다고 적고 있다.
- 같은 문서는 Position Paper Track reviewing은 conservative no-LLM policy를 따라야 한다고 명시한다.
- ICML Peer-review Ethics는 LLM policy 위반을 reviewer duty neglect의 한 형태로 다루며, 같은 저자의 모든 submissions에 대한 desk rejection 사유가 될 수 있다고 설명한다.
- 또한 authors의 prompt injection은 금지하지만, reviewer의 LLM 사용을 탐지하려는 목적의 canary성 문구만 들어 있는 경우에는 논문을 penalize하지 않겠다고 적고 있다.
바로 이 지점 때문에 댓글들은 generic AI detector보다 prompt-injection canary 이야기에 더 집중했다. 2026년 2월의 별도 r/MachineLearning thread에서는 PDF 안에 숨겨진 문자열이 compliance check 용도일 수 있다는 보고가 나왔다. 이번 3월 토론에서도 여러 댓글은 이런 canary 방식이 문체 기반 AI detection보다 훨씬 신뢰도가 높다고 봤다. 스타일 추정이 아니라, 특정 문구가 review에 그대로 나타나는지 보는 deterministic marker에 가깝기 때문이다.
Reddit 토론이 모인 방향
- 가장 추천을 많이 받은 댓글들은, reviewer가 명시적으로 no-LLM policy에 동의했다면 엄격한 집행이 맞다고 봤다.
- 또 다른 반응은 핵심 문제가 LLM의 유용성 자체가 아니라, reviewer가 스스로 고른 rule을 어겨도 시스템이 유지될 수 있느냐는 governance 문제라고 정리했다.
- 가장 많이 나온 우려는 coauthor risk였다. 한 사람이 review policy를 어기면 공동저자 전체가 함께 불이익을 받을 수 있다는 점이다.
이 스레드가 중요한 이유는 conference gossip을 넘어서 있기 때문이다. AI 학회들은 review-time LLM use를 먼 미래의 논쟁거리로 다루는 단계에서 벗어나, 실제 enforcement mechanism과 reviewer acknowledgement, desk rejection language를 문서에 넣기 시작했다. 모든 reported case가 공개적으로 확정되는지는 별개로, 정책의 방향성만큼은 이미 상당히 명확하다.
출처: r/MachineLearning discussion · ICML 2026 Reviewer Instructions · ICML 2026 Peer-review Ethics · earlier Reddit thread on PDF canaries
Related Articles
r/MachineLearning에서 공유된 새 arXiv 논문은 unofficial model access provider가 연구 결과와 운영 신뢰성을 모두 흔들 수 있다고 지적한다.
Google DeepMind는 2026년 3월 17일, AGI 진전을 평가하기 위한 새로운 cognitive science 기반 framework를 공개하고 이를 실제 benchmark로 바꾸기 위한 Kaggle hackathon을 시작했다고 밝혔다. 이 제안은 10개의 cognitive ability를 정의하고 human baseline과의 비교를 권장하며, community-built evaluation에 총 20만 달러 상금을 건다.
2026년 3월 19일 Hacker News에서 주목받은 agent-sat는 weighted MaxSAT benchmark를 상대로 스스로 실험과 코드 수정을 반복하는 오픈소스 프로젝트다. README 기준으로 2024 MaxSAT Evaluation 229개 인스턴스 중 220개를 풀었고, 5개는 대회 최고 기록을 넘어섰으며, 1개는 novel solve라고 주장한다.
Comments (0)
No comments yet. Be the first to comment!