Guide Labs, 모든 토큰 생성 과정을 설명하는 '해석 가능한 LLM' Steerling-8B 출시
Original: Show HN: Steerling-8B, a language model that can explain any token it generates View original →
최초의 '본질적으로 해석 가능한' LLM
Guide Labs가 Steerling-8B를 출시했습니다. 이 모델은 '최초로 본질적으로 해석 가능한(inherently interpretable) 언어 모델'을 표방합니다. 기존의 LLM 해석 가능성(interpretability) 연구가 훈련 후 분석에 집중했다면, Steerling-8B는 모델 아키텍처 자체에 해석 가능성을 내장했습니다.
핵심 기능: 세 가지 추적
Steerling-8B가 생성하는 모든 토큰 그룹에 대해 세 가지 방식으로 추적이 가능합니다. 첫째, 입력 귀속(Input Attribution) — 어떤 프롬프트 토큰이 해당 출력에 영향을 미쳤는지 추적합니다. 둘째, 개념 귀속(Concept Attribution) — 출력을 생성하는 데 모델이 어떤 인간이 이해할 수 있는 개념(예: '분석적', '임상적', '유전자 변형 방법론')을 거쳤는지 확인합니다. 셋째, 훈련 데이터 귀속(Training Data Attribution) — 해당 출력이 ArXiv, Wikipedia, FLAN 등 어떤 훈련 소스에서 비롯된 지식을 활용했는지 보여줍니다.
기술적 기반
Steerling-8B는 인과 이산 확산 모델(causal discrete diffusion model) 백본을 기반으로 구축되었습니다. 이 아키텍처는 다음 토큰만이 아닌 다중 토큰에 걸친 생성을 조향(steer)할 수 있게 합니다. 또한 임베딩을 세 가지 구성 요소로 분해합니다: 입력에서 오는 정보, 모델의 내부 개념, 훈련 데이터에서 오는 지식.
실용적 활용
이 모델의 해석 가능성은 단순한 학술적 기여를 넘어 실용적 응용을 가능하게 합니다. 재훈련 없이 추론 시점에 특정 개념을 억제하거나 증폭할 수 있어 안전 정렬을 수천 개의 훈련 예제 대신 명시적 개념 조향으로 대체할 수 있습니다. 1.35조 토큰으로 훈련된 이 모델은 2~7배 더 많은 데이터로 훈련된 모델과 비견되는 성능을 보입니다. 가중치와 코드는 Hugging Face와 GitHub에서 공개됩니다.
Related Articles
HN이 이 저장소를 밀어 올린 이유는 또 다른 브라우저 자동화 래퍼라서가 아니다. 작업 도중 모델이 직접 브라우저 도우미 함수를 고쳐가며 진행한다는 발상이 더 크게 먹혔다.
Mistral이 2026년 3월 16일 Mistral Small 4를 공개했다. 119B total parameters, 6B active parameters, 256k context window, Apache 2.0, configurable reasoning_effort를 결합해 reasoning·coding·multimodal 작업을 한 모델에 모았다.
Hacker News에 오른 Nanocode는 tokenizer training, pretraining, synthetic data generation, agentic SFT, DPO를 pure JAX와 TPU workflow로 묶어 Claude Code 스타일 coding model을 재현하려는 end-to-end open project다.
Comments (0)
No comments yet. Be the first to comment!