Hacker News가 붙잡은 포인트는 이것이다: I-DLM은 diffusion LLM의 속도 이득을 AR 품질과 같이 가져가려 한다

Original: Introspective Diffusion Language Models View original →

Read in other languages: English日本語
LLM Apr 14, 2026 By Insights AI (HN) 1 min read 1 views Source

Hacker News에서 이 링크가 반응을 얻은 이유는 간단하다. 댓글 흐름이 바로 “이게 그냥 또 하나의 diffusion-for-text 실험인가, 아니면 실제로 더 빠른 Qwen 계열 serving으로 이어질 수 있는가”로 모였기 때문이다. 첫 댓글부터 눈길을 끈 지점은 연구팀이 autoregressive model을 기반으로 diffuser를 구성하면서도, base model과의 정합성을 꽤 강하게 유지하려 했다는 주장이다. HN 독자들은 특히 “bit-for-bit lossless”와 “기존 인프라에 바로 얹을 수 있다”는 문구를 실전 관점에서 읽고 있었다.

프로젝트 페이지의 핵심은 introspective consistency다. 저자들은 기존 diffusion language model이 denoising은 하지만, autoregressive model처럼 자신이 방금 낸 토큰을 다시 검증하는 성질은 약하다고 본다. 그래서 I-DLM은 introspective strided decoding으로 이전 토큰을 검증하면서 새 토큰을 동시에 전개한다. 페이지에 적힌 수치도 꽤 공격적이다.

  • I-DLM-8B: AIME-24 69.6, LiveCodeBench-v6 45.7
  • LLaDA-2.1-mini 16B: AIME-24 43.3, LiveCodeBench-v6 30.4
  • High concurrency에서 2.9-4.1x throughput
  • gated LoRA를 쓰면 base AR model과 bit-for-bit identical output 가능

HN에서 이걸 흥미롭게 본 또 다른 이유는 serving 쪽 메시지다. 페이지는 strict causal attention 덕분에 SGLang에 직접 붙일 수 있고, AR serving infrastructure 안에서 drop-in replacement처럼 다룰 수 있다고 적고 있다. diffusion text 연구가 벤치마크 숫자는 화려해도 인프라 요구사항이 무거워지면 현업 관심을 잃기 쉬운데, 이 프로젝트는 바로 그 병목을 먼저 건드린 셈이다. 32B 표에서도 AIME-25 80.0, HumanEval 96.3, IFEval 84.7 같은 수치를 내세우며 “속도만 빠른 우회로”가 아니라는 인상을 만들고 있다.

물론 댓글은 곧바로 검증 모드로 들어갔다. 누군가는 release note 날짜가 이상하지 않냐고 물었고, 또 다른 사람은 “그러면 정말 더 빠른 Qwen32B처럼 쓸 수 있나”를 묻고 있었다. 그 반응 자체가 이 링크의 성격을 잘 보여준다. HN은 이걸 논문 소개로 소비하기보다, 실제로 decode economics를 바꿀 수 있는지 계산 중이다. 원문은 project page, 커뮤니티 반응은 Hacker News thread에서 확인할 수 있다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.