AlphaGoとAlphaZeroを生み出したDeepMindの研究者David Silverが、新興AI企業Ineffable Intelligenceのシードラウンドで欧州史上最大の11億ドルを調達。人間データを使わない強化学習だけで超知能を目指す。
#reinforcement-learning
RSS Feed重要なのは、有名RL研究者が単なる新モデルではなく新研究所で勝負に出た点だ。ReutersによればIneffableは11億ドルを調達し、評価額は51億ドル。会社は人間データではなく経験から知識を得る「スーパーラーナー」を前面に出している。
重要なのは、post-training agentsの競争がinference speedだけでなくreinforcement learning throughputにも左右されることだ。NVIDIAは、NeMo RLのFP8 pathがQwen3-8B-BaseでRL workloadsを1.48x高速化し、BF16 accuracyに沿うと示した。
RAD-2はdiffusion-based driving plannerをgenerator-discriminator構造に組み替え、imitation-only trainingの弱点にreinforcement learning feedbackを入れた。strong diffusion planner比でcollision rate 56%低下、complex urban trafficでの実配備も報告している。
Cursorは2026年3月26日、real-time reinforcement learningによって改善版Composer 2 checkpointを5時間ごとに出荷できると述べた。3月27日のtechnical reportでは、Kimi K2.5上のcontinued pretrainingとrealistic Cursor sessionでの大規模RLを組み合わせ、CursorBenchで61.3を記録したと説明している。
Together Researchは2026年3月31日、live inference traceから学習し、speculative draft modelをserving停止なしに非同期更新するopen-source frameworkのAuroraを公開した。ブログと論文によれば、Auroraはこの問題をasynchronous RLとして定式化し、traffic shift時に強いstatic speculator比で1.25xの追加高速化を示す。
2026年3月のHacker Newsで120 pointsと33 commentsを集めた記事は、Hamilton-Jacobi-Bellman equationの技術解説を前面に押し出した。continuous-time reinforcement learningとdiffusion modelを別々のML手法ではなく、同じcontrol theoryの構造として理解できるという主張だ。
r/singularityでは、Cursorが実ユーザー相互作用でComposerを学習し最短5時間ごとにcheckpointを展開するとする説明が話題になり、reward hackingを抑える補正ロジックも重要論点として共有された。
2026年3月15日のr/singularityで、LATENTの投稿は3,150 pointsと376 commentsを集めた。この研究は完全な試合motion captureではなく、5時間分のhuman motion fragmentからhumanoid tennis policyを学ぶアプローチを示している。