Mistral Medium 3.5, HN이 본 포인트는 128B·256K·오픈 가중치

Mistral Medium 3.5에 대한 HN 반응은 꽤 선명했다. 사람들은 제품 소개 문구보다 계산기를 먼저 꺼냈다. Mistral은 이 모델을 instruction following, reasoning, coding을 하나로 합친 128B dense 모델로 소개했고, context window는 256K, 가중치는 modified MIT 라이선스로 공개했다. 이 조합이 바로 관심 포인트였다. “강한 모델”과 “그래도 self-hosting을 상상할 수 있는 모델”의 경계에 걸친 숫자처럼 보였기 때문이다.

공식 글의 핵심도 분명하다. Medium 3.5는 Le Chat의 기본 모델이 됐고, Vibe의 remote coding agent도 이 모델로 돈다. 요청마다 reasoning effort를 조절할 수 있고, 다양한 이미지 비율을 다루도록 vision encoder를 새로 학습했으며, SWE-Bench Verified 77.6%를 기록했다고 설명한다. 동시에 적으면 4 GPU 수준에서도 self-hosting이 가능하다고 주장한다. 여기에 Le Chat의 새 Work mode까지 묶으면서, 한 번의 답변이 아니라 더 긴 멀티스텝 작업을 처리하는 방향을 전면에 세웠다.

HN 댓글은 단순 환호가 아니었다. 한쪽은 이 비율을 높게 봤다. quant를 걸어도 수백 GB가 필요한 초대형 MoE보다, dense 128B가 오히려 현실적인 절충안일 수 있다는 반응이다. 반대쪽은 질문이 더 날카로웠다. Mixtral로 오픈 MoE 이미지를 만든 회사가 왜 다시 큰 dense 모델로 돌아오느냐는 것이다. frontier 최상위도 아니고 hosted 가격이 제일 싼 것도 아니라면, Mistral이 정확히 어느 전장을 노리는지 묻는 댓글이 이어졌다.

바로 그 갈등이 이 출시를 흥미롭게 만든다. 커뮤니티는 benchmark 왕관보다도 “협상 가능한 스택”을 원한다. 특정 두 회사만 기본값이 되는 시장보다, 충분히 강하고, 어느 정도는 직접 돌릴 수 있고, 가중치도 열려 있는 대안을 반긴다는 뜻이다. skeptics조차 이 모델을 무시하지 않고 배치 비용과 운영 현실로 따졌다는 점이 중요하다. HN은 Mistral이 성능 1등보다 선택지의 복원을 팔고 있다는 사실을 바로 읽어냈다.

Mistral Medium 3.5, HN이 본 포인트는 128B·256K·오픈 가중치

Related Articles

128B dense에 들썩인 LocalLLaMA, Mistral Medium 3.5의 진짜 포인트

Qwen3.6-35B-A3B, HN이 주목한 건 3B active MoE의 코딩 성능이었다

27B dense로 여기까지, Qwen3.6에 HN이 꽂힌 이유

Comments (0)

Leave a Comment

Related Articles

128B dense에 들썩인 LocalLLaMA, Mistral Medium 3.5의 진짜 포인트

Qwen3.6-35B-A3B, HN이 주목한 건 3B active MoE의 코딩 성능이었다
LLM Hacker News Apr 16, 2026 1 min read

27B dense로 여기까지, Qwen3.6에 HN이 꽂힌 이유
HN은 Qwen3.6-27B를 벤치마크 승리보다 현실적으로 돌릴 수 있는 오픈 코딩 모델로 읽었다. 댓글도 점수표보다 메모리 요구량, self-hosting 가능성, dense 구조의 운영 단순성에 몰렸다.