HN이 붙잡은 I-DLM, Diffusion LLM도 품질을 안 버리고 갈 수 있을까

Original: Introspective Diffusion Language Models View original →

Read in other languages: English日本語
LLM Apr 15, 2026 By Insights AI (HN) 1 min read 1 views Source

Hacker News에서 이 글이 올라오자마자 반응이 붙은 이유는 단순했다. Diffusion 기반 텍스트 생성은 빠를 수는 있어도 품질은 결국 무너진다는 오래된 전제를 정면으로 건드렸기 때문이다. I-DLM project page를 붙인 HN 스레드에는 267점과 47개의 댓글이 붙었고, 분위기는 과장된 환호보다는 정말로 throughput이 달라질 수 있는지 따져보는 쪽에 가까웠다.

원문 설명에 따르면 I-DLM의 핵심은 Diffusion language model이 자주 놓치는 "introspective consistency"를 잡는 데 있다. 이미 생성한 token과 이후 생성이 서로 어긋나지 않도록, Introspective Strided Decoding으로 이전 token을 확인하면서 새 token을 같은 forward pass에서 전진시키는 방식이다. 저자들은 I-DLM-8B가 AIME-24에서 69.6, LiveCodeBench-v6에서 45.7을 기록했고, LLaDA-2.1-mini (16B)보다 높은 점수와 함께 고동시성 환경에서 2.9배에서 4.1배 높은 throughput을 냈다고 적었다. gated LoRA를 쓰면 base AR model에 대한 bit-for-bit lossless acceleration도 가능하다는 설명이다.

HN 댓글에서 바로 나온 반응도 흥미롭다. 한 사용자는 Qwen autoregressor를 이렇게 변형해 base model과 경쟁 가능한 결과를 냈다는 점 자체가 꽤 놀랍다고 봤다. 반면 다른 댓글은 DFlash나 DDTree 같은 다른 acceleration 계열과 비교해야 한다고 짚었고, 또 다른 사용자는 이것이 직관적으로 말하는 "한 번에 다 뽑는 diffusion"과 얼마나 같은 부류인지 질문했다. 이런 반응은 꽤 건설적이다. 커뮤니티가 보고 싶은 것은 멋진 그래프 한 장이 아니라, 이런 방식이 실제 inference stack에 들어갔을 때 운영 복잡도까지 감당할 수 있느냐는 점이기 때문이다.

이 주장이 버티면 의미는 분명하다. 지금 사람들이 매번 체감하는 병목은 결국 순차적인 token generation이고, 이 부분이 바뀌면 local inference, coding assistant, 다중 사용자 서빙의 감각 자체가 달라진다. 그래서 이 스레드는 단순히 새로운 논문을 소비하는 분위기가 아니었다. 언어 모델의 속도 문제가 kernel과 quantization만의 문제가 아니라 model design에서도 다시 풀릴 수 있는지, HN이 집요하게 시험해 보는 장면에 가까웠다.

Share: Long

Related Articles

LLM 2d ago 1 min read

Cloudflare가 AI Gateway를 agent용 통합 inference layer로 확장해 Workers AI에서 70+ models와 12+ providers를 같은 API로 호출하게 했다. 핵심은 catalog 숫자보다, 한 작업에 inference call이 10번씩 이어지는 agent workflow에서 비용·retry·failover를 한곳에 모으는 데 있다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.