#reinforcement-learning

LLM X/Twitter Jul 25, 2026 1 min read

Nemotron 3 Nano, 5달러 미만 RL로 수학 정확도 22%에서 91%까지 상승

소형 오픈 모델도 짧은 RL 루프로 특정 과제 성능을 크게 끌어올릴 수 있다는 신호다. NVIDIA는 Nemotron 3 Nano가 5달러 미만 실험에서 22%에서 91%로 올랐다고 전했다.

#nvidia #nemotron #reinforcement-learning

AI Jul 24, 2026 1 min read

Google Willow, RL로 quantum error correction 안정성 3.5배 끌어올린 실험

Google Quantum AI는 Willow processor에서 reinforcement learning이 drift 중에도 control parameter를 조정하도록 만들었습니다. 실험 결과 error-correcting code의 logical stability가 3.5배 개선됐고, expert calibration 뒤에도 logical error rate가 20% 더 낮아졌습니다.

#google-quantum-ai #reinforcement-learning #quantum

LLM X/Twitter Jun 20, 2026 1 min read

OpenAI, 적대적 압박에도 유지되는 정렬 훈련으로 12개 영역 일반화와 파인튜닝 내성 검증

정렬 연구의 초점이 벤치마크 통과에서 압박 속 지속성으로 이동했다. OpenAI는 12개 영역의 대화 데이터로 유익한 특성을 강화하고, 적대적 프롬프트와 해로운 파인튜닝 이후에도 유지되는지 시험했다.

#openai #alignment #reinforcement-learning

LLM May 3, 2026 1 min read

AlphaGo 창시자 데이비드 실버, '슈퍼러너' AI 스타트업으로 유럽 최대 시드 11억 달러 유치

전 DeepMind 연구원 데이비드 실버가 인간 데이터 없이 강화학습만으로 범용 지식을 학습하는 AI를 개발하는 Ineffable Intelligence를 설립, 51억 달러 밸류에이션으로 11억 달러를 조달했다.

#research #funding #reinforcement-learning

AI X/Twitter Apr 27, 2026 1 min read

데이비드 실버의 Ineffable, 11억달러로 “슈퍼러너” 연구 시동

이 글이 큰 이유는 강화학습 계열의 핵심 연구자가 또 다른 데모가 아니라 새 연구소로 판을 갈아엎으려 하기 때문이다. Reuters 보도에 따르면 Ineffable은 11억달러 시드와 51억달러 가치로 출발했고, 회사는 인간 데이터가 아니라 경험에서 지식을 뽑아내는 “슈퍼러너”를 전면에 내세웠다.

#ineffable-intelligence #david-silver #reinforcement-learning

LLM X/Twitter Apr 22, 2026 1 min read

NVIDIA NeMo RL, FP8로 Qwen3-8B RL workload를 1.48x 가속

중요한 점은 post-training agent 경쟁이 inference speed뿐 아니라 reinforcement learning throughput에 달려 있다는 데 있다. NVIDIA는 NeMo RL의 FP8 path가 Qwen3-8B-Base에서 RL workload를 1.48x 빠르게 하면서 BF16 accuracy를 따라간다고 제시했다.

#nvidia #nemo-rl #fp8

AI Apr 18, 2026 1 min read

RAD-2, closed-loop 주행 test에서 collision rate 56% 낮췄다

RAD-2는 diffusion 기반 driving planner를 generator-discriminator 구조로 다시 짰다. imitation-only training이 약한 지점에 reinforcement learning feedback을 넣었고, strong diffusion planner 대비 collision rate 56% 감소와 complex urban traffic 실주행 배치를 보고했다.

#autonomous-driving #reinforcement-learning #diffusion

LLM X/Twitter Apr 5, 2026 1 min read

Cursor, 사전학습 연장부터 실제 워크플로 RL까지 Composer 2 학습 스택 공개

Cursor는 2026년 3월 26일 real-time RL을 통해 5시간마다 개선된 checkpoint를 배포할 수 있다고 밝혔다. Cursor의 3월 27일 technical report는 Composer 2가 Kimi K2.5 기반 continued pretraining과 realistic Cursor session에서의 대규모 RL을 결합하며, CursorBench 61.3, SWE-bench Multilingual 73.7, Terminal-Bench 61.7을 기록했다고 설명한다.

#cursor #composer-2 #reinforcement-learning

LLM X/Twitter Apr 1, 2026 2 min read

Together Research, RL 기반 adaptive speculative decoding 시스템 Aurora 공개

Together Research는 2026년 3월 31일 live inference trace를 학습해 speculative draft model을 serving 중단 없이 비동기적으로 갱신하는 open-source framework Aurora를 공개했다. 회사의 블로그와 논문은 Aurora가 문제를 asynchronous RL로 재정의하며, traffic shift 상황에서 강한 static speculator 대비 1.25x 추가 속도 향상을 낼 수 있다고 설명한다.

#together-ai #aurora #speculative-decoding

Sciences Hacker News Mar 30, 2026 1 min read

Hacker News, continuous RL과 diffusion model을 잇는 HJB 구조 조명

2026년 3월 Hacker News에서 120 points와 33 comments를 모은 글은 Hamilton-Jacobi-Bellman equation에 대한 깊은 기술 해설을 전면에 올렸다. 이 글은 continuous-time reinforcement learning과 diffusion model을 별개의 ML 기법이 아니라 같은 control theory 구조 위에서 이해할 수 있다고 주장한다.

#reinforcement-learning #diffusion-models #control-theory

AI Reddit Mar 30, 2026 1 min read

r/singularity가 주목한 Cursor의 real-time RL, Composer checkpoint를 5시간마다 갱신

r/singularity에서는 Cursor가 실제 사용자 상호작용으로 Composer를 학습시키고 최대 5시간마다 새 checkpoint를 배포한다는 설명이 화제가 됐고, reward hacking을 줄이기 위한 보정 방식도 함께 논의됐다.

#cursor #reinforcement-learning #coding-agents

Humanoid Robots Reddit Mar 18, 2026 2 min read

r/singularity가 밀어올린 LATENT, humanoid tennis를 5시간 imperfect motion data로 학습

2026년 3월 15일 r/singularity의 LATENT 글은 3,150 points와 376 comments를 기록했다. 이 연구는 경기 전체 motion capture 대신 5시간 분량의 human motion fragment로 humanoid tennis policy를 학습하는 접근을 제시한다.

#humanoid-robots #robotics #reinforcement-learning