Qwen FlashQLA 공개… 선형 attention 커널 전방 2~3배·역전파 2배 가속

이번 공개가 실제로 내놓은 것

Alibaba Qwen 팀은 꽤 저수준의 시스템 결과를 X에서 바로 open-source release로 연결했다. 공식 계정은 TileLang 기반 선형 attention 커널 라이브러리 FlashQLA를 소개하며 전방 2~3배, 역전파 2배 가속을 첫 줄에 내세웠다. 이 숫자가 중요한 이유는 장문맥과 edge-side agent workload에서 병목이 model 품질보다 attention kernel 효율로 옮겨가는 경우가 많기 때문이다. sequence length와 메모리 압박이 커질수록 커널이 느리면 model의 매력은 금방 사라진다.

“2-3× forward speedup. 2× backward speedup.”

연결된 GitHub 저장소는 이 수치의 배경을 더 분명히 적는다. FlashQLA는 GDN Chunked Prefill을 겨냥하고, Qwen3.5·Qwen3.6 계열 head 구성에서 NVIDIA Hopper 위 FLA Triton baseline과 비교해 벤치마크했다. README는 이득이 특히 pretraining과 edge-side agentic inference에서 크다고 설명한다. Qwen는 개선 근거를 세 가지로 정리한다. gate-driven automatic intra-card context parallelism, forward·backward 흐름의 hardware-friendly algebraic reformulation, 그리고 TileLang 위에 짠 fused warp-specialized kernel이다.

왜 이런 커널 공개가 model 전략까지 바꾸나

이런 계층의 인프라 작업이야말로 “로컬에서도 된다”거나 “싸게 서빙된다”는 말이 실제인지 가르는 기준이다. Qwen는 FlashQLA를 장문맥 workload, 작은 model, TP 비중이 높은 구성, 개인 기기 agent에 맞춘다고 말한다. 공개 저장소가 있다는 점도 중요하다. 개발자는 코드와 benchmark 설정을 직접 읽고, 이 속도 향상이 Qwen 내부 스택 밖에서도 유지되는지 검증할 수 있다.

Qwen 계정은 보통 실제 산출물이 딸린 model·systems release를 올리는 채널이고, 이번 공개도 그 흐름에 있다. 다음 관전점은 채택이다. FlashQLA가 더 넓은 open inference runtime으로 들어가는지, Hopper급 하드웨어 밖에서도 비슷한 이득이 나오는지, 그리고 edge-side story가 데모를 넘어 실제 agent 배포에서도 버티는지가 중요하다. 출처: Qwen source tweet · Qwen blog entry · GitHub 저장소

Qwen FlashQLA 공개… 선형 attention 커널 전방 2~3배·역전파 2배 가속

이번 공개가 실제로 내놓은 것

왜 이런 커널 공개가 model 전략까지 바꾸나

Related Articles

Qwen FlashQLA, Hopper 선형 어텐션 지연 최대 3배 단축 수치와 설계 공개

LocalLLaMA가 FlashQLA에 반응한 이유, 밈보다 숫자

RTX 3090에서 거의 2배, LocalLLaMA가 Luce DFlash에 몰린 이유

Comments (0)

Leave a Comment

Related Articles

Qwen FlashQLA, Hopper 선형 어텐션 지연 최대 3배 단축 수치와 설계 공개

LocalLLaMA가 FlashQLA에 반응한 이유, 밈보다 숫자

RTX 3090에서 거의 2배, LocalLLaMA가 Luce DFlash에 몰린 이유
LocalLLaMA는 이 글을 또 하나의 벤치마크 이미지로 넘기지 않았다. 단일 RTX 3090에서 Qwen3.6-27B 처리량을 평균 1.98배까지 끌어올렸고, 재학습 없이 긴 컨텍스트까지 버틴다는 점이 스레드의 열기를 만들었다.