HNが食いついたI-DLM、Diffusion LLMは品質を捨てずに速くなれるのか

Hacker Newsでこの話題に火が付いた理由は単純で、Diffusionベースのテキスト生成は速くても品質が落ちる、という長年の前提を正面から揺らしたからだ。I-DLM project pageを貼った HNの投稿には267 pointsと47 commentsが付き、空気は単なる持ち上げというより、本当にthroughputが変わるのかを見に行く技術的な品定めに近かった。

元ページの説明では、Diffusion language modelが苦しんできた理由は、すでに生成したテキストと次の生成が噛み合わなくなる「introspective consistency」の弱さにあるという。I-DLMはIntrospective Strided Decodingを使い、前に出したtokenを検証しながら同じforward passで新しいtokenを進める。著者らはI-DLM-8BがAIME-24で69.6、LiveCodeBench-v6で45.7を出し、LLaDA-2.1-mini (16B)を上回り、高concurrencyでは2.9xから4.1xのthroughput向上を示したとしている。さらにgated LoRAによってbase AR modelからbit-for-bit lossless accelerationも可能だと書いている。

HNのコメントで面白かったのは、みんながすぐに本筋へ入ったことだ。ある初期コメントは、Qwenのautoregressorをこういうdiffuserに変えてbase modelと競えるのはかなりwildだと受け止めた。一方でDFlashやDDTreeとどう比べるべきか、そもそも直感的にいう「一度に全部出すdiffusion」とどこまで同じなのかを問い直す声も出た。この懐疑はむしろ健全だ。大事なのはbenchmarkの見栄えではなく、この系統の手法が現実のserving stackに入ったときに運用負荷まで含めて耐えられるかどうかだからだ。

もし主張どおりに持つなら、意味はかなり大きい。今も日常的に効いているボトルネックは結局sequential token generationで、その縛りが緩めばlocal inference、coding assistant、multi-user servingの体感が変わる。HNの反応は、Diffusion text generationが脇道の研究で終わるのか、それとも本気のserving storyになれるのかをコミュニティがその場で見極めようとしている感じだった。

HNが食いついたI-DLM、Diffusion LLMは品質を捨てずに速くなれるのか

Related Articles

Inception Labs, 초당 1,009 토큰 처리하는 확산 기반 추론 LLM 'Mercury 2' 출시

Nemotron-TwoTower 공개, autoregressive LLM을 diffusion으로 돌리는 실험

NVIDIA ModelExpress, DeepSeek-V4 Pro 기동 시간을 8분에서 1분대로 단축