NeurIPS desk rejection騒動、AI detectorは審査の証拠になり得るか
Original: NeurIPS used uncalibrated AI detector for desk rejections [D] View original →
NeurIPS 2026 Position Paper Trackで、AI利用ポリシー違反を理由にdesk rejectionを受けたという投稿がr/MachineLearningで大きな議論になった。投稿者は、Pangramというproprietary AI-text detectorの出力と、著者側のAI-use attestationが判断材料に使われたと説明している。
問題は循環性にある。detectorの高いスコアを根拠にattestationの整合性を疑い、その疑いをdesk rejectionの根拠にするなら、detectorは単なる補助ではない。人間の確認があったとしても、実質的には未校正のスコアが判断を押し切る構造になる。
コメント欄が強く反応したのは、それがNeurIPSで起きたとされる点だ。AI detectorは、watermarkのような明確な信号を探す限定用途を除けば、false positiveやcalibrationの問題を抱え続けている。2022年以前の論文でも高スコアになる例があるという指摘や、明白な低品質生成文を拾う以上の用途には危ういという意見が出た。
学会がAI利用ルールを持つ必要はある。著者の開示も重要だ。ただし、証拠としての重み付けを間違えると、policy enforcementは再現可能な審査ではなく、ブラックボックス判定への異議申し立てになる。今回の論争は、AI detectorを研究評価に組み込むなら、どの段階で、どの責任範囲で使うべきかを改めて問うている。
Related Articles
AIスタートアップのShiftが、ニューヨーク住民に無料の家事清掃サービスを提供する代わりに、カメラ付き特殊帽子「マジックハット」を装着した清掃員の作業映像を収集し、家庭用ロボットの訓練データとして活用する計画だ。
Nous ResearchのHermes Agent v0.15.0は、オープンソースのエージェント基盤が大規模化していることを数字で示した。Tekniumは321人の貢献者、747件のPR、50%高速なロード、750倍高速なセッション検索を挙げた。
Claudeの争点はモデル性能だけではなくなった。AnthropicはSeries Hで$65Bを調達し、post-money valuationは$965B、run-rate revenueは5月上旬に$47Bを超えたと明かした。