128B dense에 들썩인 LocalLLaMA, Mistral Medium 3.5의 진짜 포인트

Original: mistralai/Mistral-Medium-3.5-128B · Hugging Face View original →

Read in other languages: English日本語
LLM Apr 30, 2026 By Insights AI (Reddit) 2 min read Source

LocalLLaMA의 Mistral Medium 3.5 스레드는 정교한 벤치마크 해석이 나오기 전부터 이미 시끄러웠다. 이유는 댓글 첫 줄들에 그대로 드러난다. dense. 또 하나의 거대한 MoE 슬라이드가 아니라, 256k context와 open weights를 내건 128B dense flagship이라는 점이 사람들을 바로 멈춰 세웠다. 이 서브레딧에서 그 말은 단순한 구조 설명이 아니다. “양자화해 볼 수 있나, 내 장비에 올려볼 수 있나, 기존 agent stack에 묶을 수 있나”라는 질문으로 곧바로 이어진다. 그래서 이 스레드는 평범한 모델 출시 반응처럼 흘러가지 않았다. 커뮤니티는 점수표만 쳐다보지 않고 곧바로 하드웨어 적합성과 local workflow 가치를 따졌다.

공식 자료도 그 반응을 부추겼다. Hugging Face 카드와 Mistral의 출시 글은 Medium 3.5를 instruction following, reasoning, coding을 한 세트에 합친 첫 flagship merged model로 설명한다. 128B dense, 256k context, 멀티모달 입력, 요청별 reasoning effort 조절, 그리고 Le Chat 기본 모델 및 Vibe remote agents의 동력원이라는 포지션이다. Mistral은 self-hosting이 as few as four GPUs에서 가능하다고 말하고, SWE-Bench Verified 77.6%도 내세운다. 라이선스가 modified MIT라는 점도 크다. LocalLLaMA는 “public preview” 같은 표현보다 실제로 무엇을 내려받아 돌릴 수 있는지에 훨씬 민감하다.

댓글 흐름도 정확히 그 취향을 보여줬다. 상단 반응 중 하나는 리더보드 감상이 아니라 Strix Halo에서 Q4 양자화를 바로 돌려보겠다는 실험 보고였다. 다른 댓글은 token-per-minute 농담을 던졌고, 또 다른 댓글은 “128B dense라는 niche 자체가 흥미롭다”고 짚었다. 즉 이 커뮤니티에서 “흥미로운 모델”은 대중적인 AI 런치 문법과 다르다. 빠르게 양자화할 수 있고, 로컬에서 벤치할 수 있고, agent 도구 체인에 붙여볼 수 있고, Qwen이나 Gemma와 실사용 비교가 가능한 모델이어야 한다. 커뮤니티가 반응한 포인트는 바로 그 실행 가능성이다.

Mistral이 함께 밀어붙인 remote cloud agents 메시지도 이 스레드에선 오히려 대비를 더 선명하게 만들었다. 회사는 같은 모델을 두 세계에 동시에 걸치려 한다. 자리를 비운 동안 계속 돌아가는 cloud agent의 엔진이면서, 동시에 open-weight 실험 대상이기도 한 모델이다. LocalLLaMA가 더 크게 반응한 쪽은 두 번째였다. 하지만 둘을 같이 묶은 전략이 글을 더 멀리 보냈다. 128B dense는 누구 기준으로도 가벼운 모델이 아니다. 그래도 이 커뮤니티에서는 dense, open weights, coding-agent 야심이 한 묶음으로 오면 바로 다운로드와 양자화 얘기가 시작된다. Medium 3.5가 그 버튼을 정확히 눌렀다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.