NeurIPS desk rejection 논란, AI detector를 심사 근거로 쓸 수 있나
Original: NeurIPS used uncalibrated AI detector for desk rejections [D] View original →
NeurIPS 2026 Position Paper Track에서 AI 사용 정책 위반을 이유로 desk rejection을 받은 저자가 문제를 공개하면서, r/MachineLearning의 논점은 논문 한 편의 억울함을 넘어섰다. 핵심은 Pangram 같은 proprietary AI-text detector를 심사 절차에서 어디까지 믿을 수 있느냐다.
글쓴이는 track leadership과의 서신, 공개 블로그 글을 근거로 detector output과 저자의 AI-use attestation이 desk rejection 판단에 함께 쓰였다고 설명했다. 여기서 생기는 문제는 순환성이다. detector 점수가 높다는 이유로 저자의 attestation을 의심하고, 그 의심을 다시 rejection 근거로 삼으면 detector는 보조 신호가 아니라 사실상의 판정자가 된다.
댓글은 이 절차가 특히 NeurIPS에서 나왔다는 점에 민감했다. AI detector는 watermark처럼 명확한 신호를 찾는 좁은 경우가 아니라면 false positive와 calibration 문제가 계속 제기돼 왔다. 한 댓글은 2022년 이전 논문도 detector에서 높은 점수를 받는 경우가 있다고 했고, 다른 댓글은 실제 의사결정에 쓰기에는 “명백한 저품질 생성문”을 잡는 용도 밖으로 나가기 어렵다고 지적했다.
연구 커뮤니티가 AI 사용을 관리해야 한다는 요구는 현실적이다. 그러나 도구의 불확실성을 절차가 흡수하지 못하면, policy enforcement가 재현 가능한 심사가 아니라 블랙박스 점수의 방어전이 된다. 이번 논란은 저자가 AI를 썼는지보다, 학회가 detector를 어떤 수준의 증거로 취급해야 하는지에 더 날카로운 질문을 남긴다.
Related Articles
Claude 수요를 감당할 자금 전쟁이 한 단계 커졌다. Anthropic은 $65B Series H로 post-money valuation $965B를 찍었고, run-rate revenue가 이달 초 $47B를 넘었다고 밝혔다.
Quandri 엔지니어링 팀이 MCP(Model Context Protocol)의 세 가지 구조적 결함을 분석했다. 컨텍스트 낭비, 낮은 신뢰성, 기존 인프라와의 중복이 핵심 문제다.
2026년 선거 대응이 챗봇 답변 조정에서 실제 개표 데이터와 이미지 출처 검증으로 옮겨간다. OpenAI는 미국·브라질 선거에서 AP 실시간 개표 데이터를 연결하고, SynthID와 C2PA를 함께 쓰는 공개 검증 도구를 예고했다.