Qwen FlashQLA 공개… 선형 attention 커널 전방 2~3배·역전파 2배 가속
Original: Qwen released FlashQLA with 2-3x forward linear attention speedup View original →
이번 공개가 실제로 내놓은 것
Alibaba Qwen 팀은 꽤 저수준의 시스템 결과를 X에서 바로 open-source release로 연결했다. 공식 계정은 TileLang 기반 선형 attention 커널 라이브러리 FlashQLA를 소개하며 전방 2~3배, 역전파 2배 가속을 첫 줄에 내세웠다. 이 숫자가 중요한 이유는 장문맥과 edge-side agent workload에서 병목이 model 품질보다 attention kernel 효율로 옮겨가는 경우가 많기 때문이다. sequence length와 메모리 압박이 커질수록 커널이 느리면 model의 매력은 금방 사라진다.
“2-3× forward speedup. 2× backward speedup.”
연결된 GitHub 저장소는 이 수치의 배경을 더 분명히 적는다. FlashQLA는 GDN Chunked Prefill을 겨냥하고, Qwen3.5·Qwen3.6 계열 head 구성에서 NVIDIA Hopper 위 FLA Triton baseline과 비교해 벤치마크했다. README는 이득이 특히 pretraining과 edge-side agentic inference에서 크다고 설명한다. Qwen는 개선 근거를 세 가지로 정리한다. gate-driven automatic intra-card context parallelism, forward·backward 흐름의 hardware-friendly algebraic reformulation, 그리고 TileLang 위에 짠 fused warp-specialized kernel이다.
왜 이런 커널 공개가 model 전략까지 바꾸나
이런 계층의 인프라 작업이야말로 “로컬에서도 된다”거나 “싸게 서빙된다”는 말이 실제인지 가르는 기준이다. Qwen는 FlashQLA를 장문맥 workload, 작은 model, TP 비중이 높은 구성, 개인 기기 agent에 맞춘다고 말한다. 공개 저장소가 있다는 점도 중요하다. 개발자는 코드와 benchmark 설정을 직접 읽고, 이 속도 향상이 Qwen 내부 스택 밖에서도 유지되는지 검증할 수 있다.
Qwen 계정은 보통 실제 산출물이 딸린 model·systems release를 올리는 채널이고, 이번 공개도 그 흐름에 있다. 다음 관전점은 채택이다. FlashQLA가 더 넓은 open inference runtime으로 들어가는지, Hopper급 하드웨어 밖에서도 비슷한 이득이 나오는지, 그리고 edge-side story가 데모를 넘어 실제 agent 배포에서도 버티는지가 중요하다. 출처: Qwen source tweet · Qwen blog entry · GitHub 저장소
Related Articles
작은 모델 한 번 더 내놓는 것보다 커널 최적화가 비용 곡선을 더 크게 꺾을 때가 있다. Qwen은 이번 X 글에서 Hopper 기반 선형 어텐션에 대해 순전파 2~3배, 역전파 2배 가속을 제시했고, 코드는 곧바로 GitHub에 공개했다.
최상단 댓글은 CP 밈으로 바로 달려갔지만, 글이 오래 붙은 이유는 따로 있었다. GDN chunked prefill에서 forward 2~3배, backward 2배라는 구체적 수치가 long-context와 엣지 추론 얘기로 곧장 이어졌기 때문이다.
LocalLLaMA는 이 글을 또 하나의 벤치마크 이미지로 넘기지 않았다. 단일 RTX 3090에서 Qwen3.6-27B 처리량을 평균 1.98배까지 끌어올렸고, 재학습 없이 긴 컨텍스트까지 버틴다는 점이 스레드의 열기를 만들었다.
Comments (0)
No comments yet. Be the first to comment!