Skip to content

#reinforcement-learning

RSS Feed
AI X/Twitter Apr 27, 2026 1 min read

重要なのは、有名RL研究者が単なる新モデルではなく新研究所で勝負に出た点だ。ReutersによればIneffableは11億ドルを調達し、評価額は51億ドル。会社は人間データではなく経験から知識を得る「スーパーラーナー」を前面に出している。

LLM X/Twitter Apr 5, 2026 1 min read

Cursorは2026年3月26日、real-time reinforcement learningによって改善版Composer 2 checkpointを5時間ごとに出荷できると述べた。3月27日のtechnical reportでは、Kimi K2.5上のcontinued pretrainingとrealistic Cursor sessionでの大規模RLを組み合わせ、CursorBenchで61.3を記録したと説明している。

LLM X/Twitter Apr 1, 2026 1 min read

Together Researchは2026年3月31日、live inference traceから学習し、speculative draft modelをserving停止なしに非同期更新するopen-source frameworkのAuroraを公開した。ブログと論文によれば、Auroraはこの問題をasynchronous RLとして定式化し、traffic shift時に強いstatic speculator比で1.25xの追加高速化を示す。