Mistral Medium 3.5, HN이 본 포인트는 128B·256K·오픈 가중치

Original: Mistral Medium 3.5 View original →

Read in other languages: English日本語
LLM Apr 30, 2026 By Insights AI (HN) 1 min read 1 views Source

Mistral Medium 3.5에 대한 HN 반응은 꽤 선명했다. 사람들은 제품 소개 문구보다 계산기를 먼저 꺼냈다. Mistral은 이 모델을 instruction following, reasoning, coding을 하나로 합친 128B dense 모델로 소개했고, context window는 256K, 가중치는 modified MIT 라이선스로 공개했다. 이 조합이 바로 관심 포인트였다. “강한 모델”과 “그래도 self-hosting을 상상할 수 있는 모델”의 경계에 걸친 숫자처럼 보였기 때문이다.

공식 글의 핵심도 분명하다. Medium 3.5는 Le Chat의 기본 모델이 됐고, Vibe의 remote coding agent도 이 모델로 돈다. 요청마다 reasoning effort를 조절할 수 있고, 다양한 이미지 비율을 다루도록 vision encoder를 새로 학습했으며, SWE-Bench Verified 77.6%를 기록했다고 설명한다. 동시에 적으면 4 GPU 수준에서도 self-hosting이 가능하다고 주장한다. 여기에 Le Chat의 새 Work mode까지 묶으면서, 한 번의 답변이 아니라 더 긴 멀티스텝 작업을 처리하는 방향을 전면에 세웠다.

HN 댓글은 단순 환호가 아니었다. 한쪽은 이 비율을 높게 봤다. quant를 걸어도 수백 GB가 필요한 초대형 MoE보다, dense 128B가 오히려 현실적인 절충안일 수 있다는 반응이다. 반대쪽은 질문이 더 날카로웠다. Mixtral로 오픈 MoE 이미지를 만든 회사가 왜 다시 큰 dense 모델로 돌아오느냐는 것이다. frontier 최상위도 아니고 hosted 가격이 제일 싼 것도 아니라면, Mistral이 정확히 어느 전장을 노리는지 묻는 댓글이 이어졌다.

바로 그 갈등이 이 출시를 흥미롭게 만든다. 커뮤니티는 benchmark 왕관보다도 “협상 가능한 스택”을 원한다. 특정 두 회사만 기본값이 되는 시장보다, 충분히 강하고, 어느 정도는 직접 돌릴 수 있고, 가중치도 열려 있는 대안을 반긴다는 뜻이다. skeptics조차 이 모델을 무시하지 않고 배치 비용과 운영 현실로 따졌다는 점이 중요하다. HN은 Mistral이 성능 1등보다 선택지의 복원을 팔고 있다는 사실을 바로 읽어냈다.

Share: Long

Related Articles

LLM Hacker News Apr 16, 2026 1 min read

HN이 먼저 본 포인트는 open weights였다. 35B MoE지만 active parameter가 3B인 모델이 실제 coding agent 일을 버틸 수 있느냐가 핵심이었다. Qwen은 Qwen3.5-35B-A3B 대비 큰 개선을 내세웠고, 댓글은 곧바로 GGUF 변환, Mac 메모리 한계, open model끼리만 비교한 benchmark 해석으로 옮겨갔다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment