Qwen FlashQLA 공개… 선형 attention 커널 전방 2~3배·역전파 2배 가속

Original: Qwen released FlashQLA with 2-3x forward linear attention speedup View original →

Read in other languages: English日本語
LLM Apr 30, 2026 By Insights AI 1 min read 1 views Source

이번 공개가 실제로 내놓은 것

Alibaba Qwen 팀은 꽤 저수준의 시스템 결과를 X에서 바로 open-source release로 연결했다. 공식 계정은 TileLang 기반 선형 attention 커널 라이브러리 FlashQLA를 소개하며 전방 2~3배, 역전파 2배 가속을 첫 줄에 내세웠다. 이 숫자가 중요한 이유는 장문맥과 edge-side agent workload에서 병목이 model 품질보다 attention kernel 효율로 옮겨가는 경우가 많기 때문이다. sequence length와 메모리 압박이 커질수록 커널이 느리면 model의 매력은 금방 사라진다.

“2-3× forward speedup. 2× backward speedup.”

연결된 GitHub 저장소는 이 수치의 배경을 더 분명히 적는다. FlashQLA는 GDN Chunked Prefill을 겨냥하고, Qwen3.5·Qwen3.6 계열 head 구성에서 NVIDIA Hopper 위 FLA Triton baseline과 비교해 벤치마크했다. README는 이득이 특히 pretraining과 edge-side agentic inference에서 크다고 설명한다. Qwen는 개선 근거를 세 가지로 정리한다. gate-driven automatic intra-card context parallelism, forward·backward 흐름의 hardware-friendly algebraic reformulation, 그리고 TileLang 위에 짠 fused warp-specialized kernel이다.

왜 이런 커널 공개가 model 전략까지 바꾸나

이런 계층의 인프라 작업이야말로 “로컬에서도 된다”거나 “싸게 서빙된다”는 말이 실제인지 가르는 기준이다. Qwen는 FlashQLA를 장문맥 workload, 작은 model, TP 비중이 높은 구성, 개인 기기 agent에 맞춘다고 말한다. 공개 저장소가 있다는 점도 중요하다. 개발자는 코드와 benchmark 설정을 직접 읽고, 이 속도 향상이 Qwen 내부 스택 밖에서도 유지되는지 검증할 수 있다.

Qwen 계정은 보통 실제 산출물이 딸린 model·systems release를 올리는 채널이고, 이번 공개도 그 흐름에 있다. 다음 관전점은 채택이다. FlashQLA가 더 넓은 open inference runtime으로 들어가는지, Hopper급 하드웨어 밖에서도 비슷한 이득이 나오는지, 그리고 edge-side story가 데모를 넘어 실제 agent 배포에서도 버티는지가 중요하다. 출처: Qwen source tweet · Qwen blog entry · GitHub 저장소

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment