NeurIPS desk rejection騒動、AI detectorは審査の証拠になり得るか

NeurIPS 2026 Position Paper Trackで、AI利用ポリシー違反を理由にdesk rejectionを受けたという投稿がr/MachineLearningで大きな議論になった。投稿者は、Pangramというproprietary AI-text detectorの出力と、著者側のAI-use attestationが判断材料に使われたと説明している。

問題は循環性にある。detectorの高いスコアを根拠にattestationの整合性を疑い、その疑いをdesk rejectionの根拠にするなら、detectorは単なる補助ではない。人間の確認があったとしても、実質的には未校正のスコアが判断を押し切る構造になる。

コメント欄が強く反応したのは、それがNeurIPSで起きたとされる点だ。AI detectorは、watermarkのような明確な信号を探す限定用途を除けば、false positiveやcalibrationの問題を抱え続けている。2022年以前の論文でも高スコアになる例があるという指摘や、明白な低品質生成文を拾う以上の用途には危ういという意見が出た。

学会がAI利用ルールを持つ必要はある。著者の開示も重要だ。ただし、証拠としての重み付けを間違えると、policy enforcementは再現可能な審査ではなく、ブラックボックス判定への異議申し立てになる。今回の論争は、AI detectorを研究評価に組み込むなら、どの段階で、どの責任範囲で使うべきかを改めて問うている。