OpenRouter 무료 용량 확대, gpt-oss-20b와 Gemma 4 26B 추가
Original: OpenRouter adds free capacity for gpt-oss-20b and Gemma 4 26B View original →
무료 모델 용량이 라우팅 경쟁의 새 지표로 부상
OpenRouter가 무료 추론 용량을 다시 늘리며 오픈 가중치 모델 유통 경쟁을 자극했다. 2026년 6월 15일 트윗에서 OpenRouter는 “New Free capacity on OpenRouter”라고 쓰고, EigenLabs의 Darkbloom이 제공하는 gpt-oss-20b와 Gemma 4 26B를 바로 사용할 수 있다고 밝혔다.
숫자가 중요하다. OpenRouter의 모델 페이지에 따르면 gpt-oss-20b는 Apache 2.0 라이선스의 21B 오픈 가중치 모델이며, MoE 구조로 forward pass당 3.6B 파라미터만 활성화한다. 문맥 창은 131K로 표기되어 있고, 함수 호출, 도구 사용, 구조화 출력 같은 에이전트형 기능을 지원한다. Gemma 4 26B A4B는 25.2B 전체 파라미터 중 토큰당 3.8B가 활성화되는 MoE 모델로 소개되며, 256K 문맥과 이미지·최대 60초 동영상 입력을 지원한다고 적혀 있다.
OpenRouter는 여러 제공자가 같은 모델을 호스팅할 때 가격, 속도, 고정 제공자 선택 같은 라우팅 모드를 제공하는 LLM 마켓플레이스다. 이번 트윗은 단순한 모델 목록 추가보다 무료 용량의 공급자가 Darkbloom이라는 점을 전면에 둔다. 이는 사용자가 특정 모델을 직접 호스팅하지 않아도, 마켓플레이스와 분산 추론 제공자를 통해 실험 비용을 낮출 수 있다는 신호다.
주의할 점도 있다. 무료 용량은 지속 시간, 속도 제한, 제공자 가용성에 따라 체감 품질이 달라질 수 있다. 또 벤치마크 점수보다 실제 워크플로에서의 지연 시간, 첫 토큰 시간, 컨텍스트 유지 비용이 더 크게 작용한다.
다음 관전 포인트는 이 무료 용량이 개발자 유입을 늘리는 단기 프로모션에 그칠지, 아니면 오픈 가중치 모델의 기본 배포 방식으로 굳어질지다. 특히 gpt-oss-20b와 Gemma 4 26B가 도구 사용과 긴 문맥을 얼마나 안정적으로 처리하는지가 실사용 판단을 가를 것이다.
Related Articles
Google DeepMind가 26B MoE open model DiffusionGemma를 공개했다. 256-token 블록을 병렬로 다듬는 text diffusion 방식으로 전용 GPU에서 최대 4x 빠른 생성을 노린다.
OpenRouter가 여러 모델의 답을 병렬 합성하는 Fusion API를 공개하며 DRACO 100개 연구 과제에서 Fable 5에 1% 이내로 접근했다고 밝혔다. 핵심은 최고가 단일 모델이 아니라 예산 모델 패널과 판정 모델을 조합해 비용을 약 절반으로 낮춘 점이다.
711점까지 오른 관심은 “GPU 없이 가능하다”보다 memory bandwidth와 inference 최적화의 현실에 쏠렸다.