r/MachineLearning, 완전히 AI로 작성된 듯한 ICML 제출물에 반발
Original: [D] ICML paper to review is fully AI generated View original →
r/MachineLearning에서 화제가 된 글은 한 리뷰어의 짧지만 날카로운 불만에서 시작됐다. 그는 no-LLM assistant 규정이 있는 ICML 제출물을 리뷰하게 됐는데, 논문이 마치 “Twitter hype thread”처럼 읽히고 사실상 전부 AI가 쓴 것처럼 보인다고 적었다. 문제는 단순히 문체 취향이 아니라, 이런 경우 Area Chair에게 flag해야 하는지, 그 자체로 reject 사유인지, 혹은 연구는 사람이 하고 writing만 LLM이 했다고 가정해야 하는지 판단이 어렵다는 점이다.
댓글의 분위기는 의외로 단순했다. 가장 공감을 많이 받은 반응은 “AC에 보고하고, 짧게 리뷰하고, 최저 점수 주고, 넘어가라”였다. 다른 사용자들도 읽기 불편한 paper라면 그것만으로도 reject 이유가 될 수 있고, 정책이 명시적으로 LLM 사용을 금지한다면 따로 철학적 논쟁을 벌일 필요가 없다고 말했다. 일부는 연구의 질과 작성 과정은 분리해서 봐야 한다고 했지만, 해당 track의 rule이 이미 선을 그어 두었다는 쪽이 다수였다.
이 스레드가 흥미로운 이유는 peer review의 부담이 또 하나 늘어났다는 사실을 드러내기 때문이다. 리뷰어는 원래 방법론, 실험, 재현성만 봐도 바쁘다. 그런데 이제는 텍스트의 진위성과 작성 과정까지 추정해야 한다. 더구나 외부 관찰자 입장에서 이 사례의 사실 여부를 독립적으로 검증할 방법도 거의 없다. 결국 정책은 존재하지만, 집행은 이미 과부하 상태인 리뷰어에게 떠넘겨지는 셈이다.
학회 운영 관점에서 보면 이는 단순한 “AI 글쓰기 예절” 문제가 아니다. writing quality가 policy signal이 되어 버렸고, reviewer workload와 conference governance가 직접 연결되고 있다. 앞으로 no-LLM 규정을 유지하려면, 신고 경로와 증빙 기준을 더 구조화하지 않으면 비슷한 갈등이 반복될 가능성이 크다. 출처: r/MachineLearning discussion.
Related Articles
OpenAI는 First Proof 10문제 전체에 대한 증명 시도를 공개하고, 전문가 피드백 기준으로 최소 5개가 맞을 가능성이 높다고 밝혔다. 회사는 이를 일반 benchmark를 넘어서는 장기 추론 평가라고 설명했다.
r/MachineLearning의 고득점 토론(점수 390, 댓글 52)을 바탕으로, ICML 리뷰 정책과 PDF 내 숨은 텍스트 의혹이 왜 심사 신뢰성 이슈로 번졌는지 정리했다.
r/MachineLearning에서는 가중치 변경 없이 중간 7개 층 블록만 복제해 leaderboard 성능을 끌어올렸다는 실험 노트가 큰 관심을 받고 있다.
Comments (0)
No comments yet. Be the first to comment!