#reinforcement-learning

LLM X/Twitter Jul 25, 2026 1 min read

Nemotron 3 Nano、5ドル未満のRLで数学精度22%から91%へ

小型モデルでも短いRLループで特定タスクを大きく伸ばせる。NVIDIAはNemotron 3 Nanoが5ドル未満で数学精度を22%から91%へ上げたとした。

#nvidia #nemotron #reinforcement-learning

AI Jul 24, 2026 1 min read

Willowの誤り訂正、RL制御でlogical stabilityを3.5倍に

Google Quantum AIはWillow processorで、reinforcement learningが計算中にcontrol parameterを調整する実験を示した。driftを入れた条件でlogical stabilityは3.5倍になり、専門家のcalibration後でもlogical error rateをさらに20%下げた。

#google-quantum-ai #reinforcement-learning #quantum

LLM X/Twitter Jun 20, 2026 1 min read

OpenAI、敵対的圧力でも崩れにくいアラインメント訓練で12領域への一般化と微調整耐性を検証する安全評価の焦点

安全性評価の焦点が、単発ベンチマークから持続性へ移った。OpenAIは12領域の会話で有益な特性を強化し、敵対的プロンプトや有害な微調整の後も残るかを調べた。

#openai #alignment #reinforcement-learning

AI May 2, 2026 1 min read

AlphaGoの生みの親David Silver、AI新興企業Ineffable Intelligenceで欧州史上最大11億ドルを調達

AlphaGoとAlphaZeroを生み出したDeepMindの研究者David Silverが、新興AI企業Ineffable Intelligenceのシードラウンドで欧州史上最大の11億ドルを調達。人間データを使わない強化学習だけで超知能を目指す。

#funding #deepmind #reinforcement-learning

AI X/Twitter Apr 27, 2026 1 min read

デイビッド・シルバーのIneffable、11億ドルで「スーパーラーナー」始動

重要なのは、有名RL研究者が単なる新モデルではなく新研究所で勝負に出た点だ。ReutersによればIneffableは11億ドルを調達し、評価額は51億ドル。会社は人間データではなく経験から知識を得る「スーパーラーナー」を前面に出している。

#ineffable-intelligence #david-silver #reinforcement-learning

LLM X/Twitter Apr 22, 2026 1 min read

NVIDIA NeMo RL、FP8でQwen3-8BのRL post-training workloadを1.48x高速化

重要なのは、post-training agentsの競争がinference speedだけでなくreinforcement learning throughputにも左右されることだ。NVIDIAは、NeMo RLのFP8 pathがQwen3-8B-BaseでRL workloadsを1.48x高速化し、BF16 accuracyに沿うと示した。

#nvidia #nemo-rl #fp8

AI Apr 18, 2026 1 min read

RAD-2、closed-loop走行でcollision rateを56%下げた

RAD-2はdiffusion-based driving plannerをgenerator-discriminator構造に組み替え、imitation-only trainingの弱点にreinforcement learning feedbackを入れた。strong diffusion planner比でcollision rate 56%低下、complex urban trafficでの実配備も報告している。

#autonomous-driving #reinforcement-learning #diffusion

LLM X/Twitter Apr 5, 2026 1 min read

Cursor、継続事前学習から実運用RLまで Composer 2 の学習スタックを公開

Cursorは2026年3月26日、real-time reinforcement learningによって改善版Composer 2 checkpointを5時間ごとに出荷できると述べた。3月27日のtechnical reportでは、Kimi K2.5上のcontinued pretrainingとrealistic Cursor sessionでの大規模RLを組み合わせ、CursorBenchで61.3を記録したと説明している。

#cursor #composer-2 #reinforcement-learning

LLM X/Twitter Apr 1, 2026 1 min read

Together Research、RLベースのadaptive speculative decoding基盤 Aurora を公開

Together Researchは2026年3月31日、live inference traceから学習し、speculative draft modelをserving停止なしに非同期更新するopen-source frameworkのAuroraを公開した。ブログと論文によれば、Auroraはこの問題をasynchronous RLとして定式化し、traffic shift時に強いstatic speculator比で1.25xの追加高速化を示す。

#together-ai #aurora #speculative-decoding

Sciences Hacker News Mar 30, 2026 1 min read

Hacker News、continuous RLとdiffusion modelをつなぐHJB構造に注目

2026年3月のHacker Newsで120 pointsと33 commentsを集めた記事は、Hamilton-Jacobi-Bellman equationの技術解説を前面に押し出した。continuous-time reinforcement learningとdiffusion modelを別々のML手法ではなく、同じcontrol theoryの構造として理解できるという主張だ。

#reinforcement-learning #diffusion-models #control-theory

AI Reddit Mar 30, 2026 1 min read

r/singularityが注目したCursorのreal-time RL、Composer checkpointを5時間ごとに更新

r/singularityでは、Cursorが実ユーザー相互作用でComposerを学習し最短5時間ごとにcheckpointを展開するとする説明が話題になり、reward hackingを抑える補正ロジックも重要論点として共有された。

#cursor #reinforcement-learning #coding-agents

Humanoid Robots Reddit Mar 18, 2026 1 min read

r/singularityが押し上げたLATENT、5時間のimperfect motion dataから学ぶhumanoid tennis

2026年3月15日のr/singularityで、LATENTの投稿は3,150 pointsと376 commentsを集めた。この研究は完全な試合motion captureではなく、5時間分のhuman motion fragmentからhumanoid tennis policyを学ぶアプローチを示している。

#humanoid-robots #robotics #reinforcement-learning