전 DeepMind 연구원 데이비드 실버가 인간 데이터 없이 강화학습만으로 범용 지식을 학습하는 AI를 개발하는 Ineffable Intelligence를 설립, 51억 달러 밸류에이션으로 11억 달러를 조달했다.
#reinforcement-learning
RSS Feed이 글이 큰 이유는 강화학습 계열의 핵심 연구자가 또 다른 데모가 아니라 새 연구소로 판을 갈아엎으려 하기 때문이다. Reuters 보도에 따르면 Ineffable은 11억달러 시드와 51억달러 가치로 출발했고, 회사는 인간 데이터가 아니라 경험에서 지식을 뽑아내는 “슈퍼러너”를 전면에 내세웠다.
중요한 점은 post-training agent 경쟁이 inference speed뿐 아니라 reinforcement learning throughput에 달려 있다는 데 있다. NVIDIA는 NeMo RL의 FP8 path가 Qwen3-8B-Base에서 RL workload를 1.48x 빠르게 하면서 BF16 accuracy를 따라간다고 제시했다.
RAD-2는 diffusion 기반 driving planner를 generator-discriminator 구조로 다시 짰다. imitation-only training이 약한 지점에 reinforcement learning feedback을 넣었고, strong diffusion planner 대비 collision rate 56% 감소와 complex urban traffic 실주행 배치를 보고했다.
Cursor는 2026년 3월 26일 real-time RL을 통해 5시간마다 개선된 checkpoint를 배포할 수 있다고 밝혔다. Cursor의 3월 27일 technical report는 Composer 2가 Kimi K2.5 기반 continued pretraining과 realistic Cursor session에서의 대규모 RL을 결합하며, CursorBench 61.3, SWE-bench Multilingual 73.7, Terminal-Bench 61.7을 기록했다고 설명한다.
Together Research는 2026년 3월 31일 live inference trace를 학습해 speculative draft model을 serving 중단 없이 비동기적으로 갱신하는 open-source framework Aurora를 공개했다. 회사의 블로그와 논문은 Aurora가 문제를 asynchronous RL로 재정의하며, traffic shift 상황에서 강한 static speculator 대비 1.25x 추가 속도 향상을 낼 수 있다고 설명한다.
2026년 3월 Hacker News에서 120 points와 33 comments를 모은 글은 Hamilton-Jacobi-Bellman equation에 대한 깊은 기술 해설을 전면에 올렸다. 이 글은 continuous-time reinforcement learning과 diffusion model을 별개의 ML 기법이 아니라 같은 control theory 구조 위에서 이해할 수 있다고 주장한다.
r/singularity에서는 Cursor가 실제 사용자 상호작용으로 Composer를 학습시키고 최대 5시간마다 새 checkpoint를 배포한다는 설명이 화제가 됐고, reward hacking을 줄이기 위한 보정 방식도 함께 논의됐다.
2026년 3월 15일 r/singularity의 LATENT 글은 3,150 points와 376 comments를 기록했다. 이 연구는 경기 전체 motion capture 대신 5시간 분량의 human motion fragment로 humanoid tennis policy를 학습하는 접근을 제시한다.