Skip to content

#reinforcement-learning

RSS Feed
AI X/Twitter Apr 27, 2026 1 min read

이 글이 큰 이유는 강화학습 계열의 핵심 연구자가 또 다른 데모가 아니라 새 연구소로 판을 갈아엎으려 하기 때문이다. Reuters 보도에 따르면 Ineffable은 11억달러 시드와 51억달러 가치로 출발했고, 회사는 인간 데이터가 아니라 경험에서 지식을 뽑아내는 “슈퍼러너”를 전면에 내세웠다.

LLM X/Twitter Apr 22, 2026 1 min read

중요한 점은 post-training agent 경쟁이 inference speed뿐 아니라 reinforcement learning throughput에 달려 있다는 데 있다. NVIDIA는 NeMo RL의 FP8 path가 Qwen3-8B-Base에서 RL workload를 1.48x 빠르게 하면서 BF16 accuracy를 따라간다고 제시했다.

LLM X/Twitter Apr 5, 2026 1 min read

Cursor는 2026년 3월 26일 real-time RL을 통해 5시간마다 개선된 checkpoint를 배포할 수 있다고 밝혔다. Cursor의 3월 27일 technical report는 Composer 2가 Kimi K2.5 기반 continued pretraining과 realistic Cursor session에서의 대규모 RL을 결합하며, CursorBench 61.3, SWE-bench Multilingual 73.7, Terminal-Bench 61.7을 기록했다고 설명한다.

LLM X/Twitter Apr 1, 2026 2 min read

Together Research는 2026년 3월 31일 live inference trace를 학습해 speculative draft model을 serving 중단 없이 비동기적으로 갱신하는 open-source framework Aurora를 공개했다. 회사의 블로그와 논문은 Aurora가 문제를 asynchronous RL로 재정의하며, traffic shift 상황에서 강한 static speculator 대비 1.25x 추가 속도 향상을 낼 수 있다고 설명한다.

Sciences Hacker News Mar 30, 2026 1 min read

2026년 3월 Hacker News에서 120 points와 33 comments를 모은 글은 Hamilton-Jacobi-Bellman equation에 대한 깊은 기술 해설을 전면에 올렸다. 이 글은 continuous-time reinforcement learning과 diffusion model을 별개의 ML 기법이 아니라 같은 control theory 구조 위에서 이해할 수 있다고 주장한다.