モデルが微調整で身につけた癖を自分で言語化できれば、監査のコストはかなり下がる。Anthropicは今回のX投稿で、introspection adapterがAuditBenchで平均59%を記録し、暗号化された隠れ攻撃9種のうち7種を浮かび上がらせたと示した。
#research
RSS FeedHNはレトロな会話ネタで終わらなかった。1931年以前のテキストだけで学習した13Bモデルが、汚染の少ない評価装置になりうること、そして現代知識なしでも単純なPython課題をこなす場面に強く反応している。
r/MachineLearningがこの論文を押し上げたのは、奇跡を約束しなかったからだ。深層学習理論がようやく相互に噛み合う証拠を十分に積み上げ、本物の科学プログラムのように見え始めたという主張と、誇大さより構造を出した説明が刺さった。
重要なのは、AIによるlabor riskが抽象的な予測からuser responseに基づく測定へ移っている点だ。Anthropicは81,000件の回答を分析し、高exposure職種ではjob displacementへの言及が約3倍多いと示した。
Googleは4月21日、Deep ResearchをGemini 3.1 Proベースへ引き上げ、MCP接続とMaxモードを加えた。Web検索、アップロード済みファイル、ライセンスデータを一つの調査フローにまとめたい金融・ライフサイエンス向けの動きだ。
r/MachineLearningが反応したのは、数字が小さいのに見覚えがありすぎたからだ。投稿者は今年確認した7件のpaper claimのうち4件を再現できず、2件はGitHub issueも未解決だと書いた。コメント欄は、reviewerがcodeをほとんど実行しない現実から、submission時に再現reportを生成させる案まで進んだ。
Cursorは、better coding modelがdeveloper workの形を変えるという主張にusage dataを添えた。500-team studyではhigh-complexity tasksが68%増え、documentationは62%、UI/stylingは15%だった。
HNでは「Diffusionでも品質を落とさずに済むのでは」という一点にすぐ火が付いた。I-DLMは並列寄りの生成速度とAR級の品質を両立できると主張していて、その話が実際のinference stackで通るのかまで議論が広がった。
今回のスレッドは、Claudeを調整対象ではなくalignment研究の実働役として使った点が大きい。Anthropicがリンクした資料では、9体のClaude Opus 4.6が人間ベースラインのPGR 0.23を0.97まで引き上げ、累積研究時間は約800時間だった。
r/MachineLearningの研究寄りpostは、pure spiking neural network language modelがrandom initializationから1.088Bパラメータまで到達したと主張し、強い関心を集めた。
OpenAIは、ChatGPTがscienceとmathematicsで既にresearch-scaleで使われていると述べた。2026年1月の報告書では、advanced science・math usageが週8.4 million messages、weekly userが約1.3 millionに達し、GPT-5.2がserious mathematical workでも初期成果を見せ始めたとしている。
OpenAIの2026年4月6日のX投稿は、external researchersとengineers向けのSafety Fellowshipを発表した。OpenAIによれば、このpilot programは2026年9月14日から2027年2月5日まで実施され、safety evaluation、robustness、privacy-preserving methods、agentic oversightなどを優先分野とする。