HN이 붙잡은 I-DLM, Diffusion LLM도 품질을 안 버리고 갈 수 있을까

Hacker News에서 이 글이 올라오자마자 반응이 붙은 이유는 단순했다. Diffusion 기반 텍스트 생성은 빠를 수는 있어도 품질은 결국 무너진다는 오래된 전제를 정면으로 건드렸기 때문이다. I-DLM project page를 붙인 HN 스레드에는 267점과 47개의 댓글이 붙었고, 분위기는 과장된 환호보다는 정말로 throughput이 달라질 수 있는지 따져보는 쪽에 가까웠다.

원문 설명에 따르면 I-DLM의 핵심은 Diffusion language model이 자주 놓치는 "introspective consistency"를 잡는 데 있다. 이미 생성한 token과 이후 생성이 서로 어긋나지 않도록, Introspective Strided Decoding으로 이전 token을 확인하면서 새 token을 같은 forward pass에서 전진시키는 방식이다. 저자들은 I-DLM-8B가 AIME-24에서 69.6, LiveCodeBench-v6에서 45.7을 기록했고, LLaDA-2.1-mini (16B)보다 높은 점수와 함께 고동시성 환경에서 2.9배에서 4.1배 높은 throughput을 냈다고 적었다. gated LoRA를 쓰면 base AR model에 대한 bit-for-bit lossless acceleration도 가능하다는 설명이다.

HN 댓글에서 바로 나온 반응도 흥미롭다. 한 사용자는 Qwen autoregressor를 이렇게 변형해 base model과 경쟁 가능한 결과를 냈다는 점 자체가 꽤 놀랍다고 봤다. 반면 다른 댓글은 DFlash나 DDTree 같은 다른 acceleration 계열과 비교해야 한다고 짚었고, 또 다른 사용자는 이것이 직관적으로 말하는 "한 번에 다 뽑는 diffusion"과 얼마나 같은 부류인지 질문했다. 이런 반응은 꽤 건설적이다. 커뮤니티가 보고 싶은 것은 멋진 그래프 한 장이 아니라, 이런 방식이 실제 inference stack에 들어갔을 때 운영 복잡도까지 감당할 수 있느냐는 점이기 때문이다.

이 주장이 버티면 의미는 분명하다. 지금 사람들이 매번 체감하는 병목은 결국 순차적인 token generation이고, 이 부분이 바뀌면 local inference, coding assistant, 다중 사용자 서빙의 감각 자체가 달라진다. 그래서 이 스레드는 단순히 새로운 논문을 소비하는 분위기가 아니었다. 언어 모델의 속도 문제가 kernel과 quantization만의 문제가 아니라 model design에서도 다시 풀릴 수 있는지, HN이 집요하게 시험해 보는 장면에 가까웠다.

HN이 붙잡은 I-DLM, Diffusion LLM도 품질을 안 버리고 갈 수 있을까

Related Articles

TGI 유지보수 모드 소식, LocalLLaMA는 vLLM이 기본값이 되는 순간으로 읽었다

Cloudflare, 70+ models를 하나의 AI Gateway API로 묶었다

Google, Gemini 3.1 Flash-Lite preview 공개… 고속·저비용 LLM으로 대량 추론 공략

Comments (0)

Leave a Comment

Related Articles

TGI 유지보수 모드 소식, LocalLLaMA는 vLLM이 기본값이 되는 순간으로 읽었다

Cloudflare, 70+ models를 하나의 AI Gateway API로 묶었다

Google, Gemini 3.1 Flash-Lite preview 공개… 고속·저비용 LLM으로 대량 추론 공략
LLM Mar 22, 2026 1 min read