Mistral Medium 3.5, HN이 본 포인트는 128B·256K·오픈 가중치
Original: Mistral Medium 3.5 View original →
Mistral Medium 3.5에 대한 HN 반응은 꽤 선명했다. 사람들은 제품 소개 문구보다 계산기를 먼저 꺼냈다. Mistral은 이 모델을 instruction following, reasoning, coding을 하나로 합친 128B dense 모델로 소개했고, context window는 256K, 가중치는 modified MIT 라이선스로 공개했다. 이 조합이 바로 관심 포인트였다. “강한 모델”과 “그래도 self-hosting을 상상할 수 있는 모델”의 경계에 걸친 숫자처럼 보였기 때문이다.
공식 글의 핵심도 분명하다. Medium 3.5는 Le Chat의 기본 모델이 됐고, Vibe의 remote coding agent도 이 모델로 돈다. 요청마다 reasoning effort를 조절할 수 있고, 다양한 이미지 비율을 다루도록 vision encoder를 새로 학습했으며, SWE-Bench Verified 77.6%를 기록했다고 설명한다. 동시에 적으면 4 GPU 수준에서도 self-hosting이 가능하다고 주장한다. 여기에 Le Chat의 새 Work mode까지 묶으면서, 한 번의 답변이 아니라 더 긴 멀티스텝 작업을 처리하는 방향을 전면에 세웠다.
HN 댓글은 단순 환호가 아니었다. 한쪽은 이 비율을 높게 봤다. quant를 걸어도 수백 GB가 필요한 초대형 MoE보다, dense 128B가 오히려 현실적인 절충안일 수 있다는 반응이다. 반대쪽은 질문이 더 날카로웠다. Mixtral로 오픈 MoE 이미지를 만든 회사가 왜 다시 큰 dense 모델로 돌아오느냐는 것이다. frontier 최상위도 아니고 hosted 가격이 제일 싼 것도 아니라면, Mistral이 정확히 어느 전장을 노리는지 묻는 댓글이 이어졌다.
바로 그 갈등이 이 출시를 흥미롭게 만든다. 커뮤니티는 benchmark 왕관보다도 “협상 가능한 스택”을 원한다. 특정 두 회사만 기본값이 되는 시장보다, 충분히 강하고, 어느 정도는 직접 돌릴 수 있고, 가중치도 열려 있는 대안을 반긴다는 뜻이다. skeptics조차 이 모델을 무시하지 않고 배치 비용과 운영 현실로 따졌다는 점이 중요하다. HN은 Mistral이 성능 1등보다 선택지의 복원을 팔고 있다는 사실을 바로 읽어냈다.
Related Articles
LocalLLaMA가 가장 먼저 붙든 건 숫자보다 형태였다. Mistral Medium 3.5는 reasoning, coding, agent 작업을 한 모델에 묶으면서도 “이건 직접 돌려볼 수 있겠다”는 감각을 줬고, 그 지점이 스레드를 달궜다.
HN이 먼저 본 포인트는 open weights였다. 35B MoE지만 active parameter가 3B인 모델이 실제 coding agent 일을 버틸 수 있느냐가 핵심이었다. Qwen은 Qwen3.5-35B-A3B 대비 큰 개선을 내세웠고, 댓글은 곧바로 GGUF 변환, Mac 메모리 한계, open model끼리만 비교한 benchmark 해석으로 옮겨갔다.
HN은 Qwen3.6-27B를 벤치마크 승리보다 현실적으로 돌릴 수 있는 오픈 코딩 모델로 읽었다. 댓글도 점수표보다 메모리 요구량, self-hosting 가능성, dense 구조의 운영 단순성에 몰렸다.
Comments (0)
No comments yet. Be the first to comment!