Hacker News가 주목한 최신 LLM architecture 시각 레퍼런스
Original: LLM Architecture Gallery View original →
2026년 3월 HN에서 강한 반응을 얻은 Sebastian Raschka의 LLM Architecture Gallery는 최근 open model 계열을 한 화면에 모아 비교할 수 있게 만든 시각 레퍼런스다. Llama 3 8B, OLMo 2 7B, DeepSeek V3와 R1, Gemma 3 27B, Mistral Small 3.1 24B, Llama 4 Maverick, Qwen3 계열, Kimi K2, MiniMax, GPT-OSS 같은 모델이 아키텍처 다이어그램, 핵심 차이, 관련 개념과 함께 정리돼 있다. 흩어진 model card와 config.json을 하나의 탐색 가능한 표면으로 묶어 준다는 점이 강점이다.
HN이 높게 본 이유
댓글에서는 이 페이지가 dense, MoE, shared expert, hybrid attention, Gated DeltaNet 같은 설계 선택을 한 번에 스캔하게 해 준다는 점이 반복해서 언급됐다. 특정 모델 하나를 깊게 설명하기보다, 최근 LLM landscape 전체의 패턴을 빠르게 재구성하는 데 유용하다는 의미다. 몇몇 사용자는 Raschka의 Build an LLM From Scratch와 함께 보면 학습용 레퍼런스로 특히 가치가 크다고 평가했다.
실제로 드러난 한계
동시에 개선 요청도 분명했다. 다이어그램을 확대하면 흐려진다는 지적, 모델의 계보나 세대 차이를 더 잘 보여 주는 family-tree형 정렬이 있으면 좋겠다는 제안, 규모감과 설계 진화를 함께 읽을 수 있는 보조 시각화가 필요하다는 의견이 나왔다. 이는 비판이라기보다, architecture reference가 이제 단순한 그림 모음보다 비교 축까지 제공해야 한다는 요구에 가깝다.
왜 지금 중요한가
최근 open LLM은 단순히 parameter 수만 다른 것이 아니다. expert routing, local attention, KV cache, hybrid block design처럼 실제 serving과 training 선택에 영향을 주는 차이가 많아졌다. 이런 상황에서 한 페이지짜리 architecture atlas는 연구 글, model card, 배포 판단 사이의 마찰을 줄여 준다. HN의 반응은 이 자료가 단순한 참고 링크가 아니라, 빠르게 넓어지는 LLM stack을 이해하기 위한 실무 도구로 받아들여졌다는 점을 보여준다.
Source discussion: Hacker News
Original resource: LLM Architecture Gallery
Related Articles
r/MachineLearning에서는 가중치 변경 없이 중간 7개 층 블록만 복제해 leaderboard 성능을 끌어올렸다는 실험 노트가 큰 관심을 받고 있다.
LocalLLaMA에서 크게 주목받은 Sarvam AI의 발표는 Apache 2.0 기반의 reasoning model인 Sarvam 30B와 Sarvam 105B를 공개한다. 회사는 두 모델이 India에서 scratch부터 학습됐고, Mixture-of-Experts 구조를 바탕으로 reasoning, coding, agentic workflow, Indian-language 성능을 겨냥했다고 설명한다.
NVIDIA AI Developer는 2026년 3월 11일 Nemotron 3 Super를 공개하며, 12B active parameters를 사용하는 오픈 120B-parameter hybrid MoE 모델과 native 1M-token context를 강조했다. NVIDIA는 이 모델이 이전 Nemotron Super 대비 최대 5배 높은 throughput으로 agentic workload를 겨냥한다고 설명했다.
Comments (0)
No comments yet. Be the first to comment!