Guide Labs, 모든 토큰 생성 과정을 설명하는 '해석 가능한 LLM' Steerling-8B 출시
Original: Show HN: Steerling-8B, a language model that can explain any token it generates View original →
최초의 '본질적으로 해석 가능한' LLM
Guide Labs가 Steerling-8B를 출시했습니다. 이 모델은 '최초로 본질적으로 해석 가능한(inherently interpretable) 언어 모델'을 표방합니다. 기존의 LLM 해석 가능성(interpretability) 연구가 훈련 후 분석에 집중했다면, Steerling-8B는 모델 아키텍처 자체에 해석 가능성을 내장했습니다.
핵심 기능: 세 가지 추적
Steerling-8B가 생성하는 모든 토큰 그룹에 대해 세 가지 방식으로 추적이 가능합니다. 첫째, 입력 귀속(Input Attribution) — 어떤 프롬프트 토큰이 해당 출력에 영향을 미쳤는지 추적합니다. 둘째, 개념 귀속(Concept Attribution) — 출력을 생성하는 데 모델이 어떤 인간이 이해할 수 있는 개념(예: '분석적', '임상적', '유전자 변형 방법론')을 거쳤는지 확인합니다. 셋째, 훈련 데이터 귀속(Training Data Attribution) — 해당 출력이 ArXiv, Wikipedia, FLAN 등 어떤 훈련 소스에서 비롯된 지식을 활용했는지 보여줍니다.
기술적 기반
Steerling-8B는 인과 이산 확산 모델(causal discrete diffusion model) 백본을 기반으로 구축되었습니다. 이 아키텍처는 다음 토큰만이 아닌 다중 토큰에 걸친 생성을 조향(steer)할 수 있게 합니다. 또한 임베딩을 세 가지 구성 요소로 분해합니다: 입력에서 오는 정보, 모델의 내부 개념, 훈련 데이터에서 오는 지식.
실용적 활용
이 모델의 해석 가능성은 단순한 학술적 기여를 넘어 실용적 응용을 가능하게 합니다. 재훈련 없이 추론 시점에 특정 개념을 억제하거나 증폭할 수 있어 안전 정렬을 수천 개의 훈련 예제 대신 명시적 개념 조향으로 대체할 수 있습니다. 1.35조 토큰으로 훈련된 이 모델은 2~7배 더 많은 데이터로 훈련된 모델과 비견되는 성능을 보입니다. 가중치와 코드는 Hugging Face와 GitHub에서 공개됩니다.
Related Articles
ACM CAIS '26에 발표된 오픈소스 Python 프레임워크 Forge가 Ministral-3 8B 모델에 가드레일을 적용해 에이전트 작업 정확도를 53%에서 99%로 향상시켰다.
Alibaba Qwen 팀이 에이전트 중심 설계의 신모델 Qwen3.7-Max를 공개했다. Artificial Analysis 평가에서 GPT 5.4와 동급인 5위를 기록하며 오픈 웨이트 프론티어 모델의 새 기준을 제시했다.
MinishLab이 공개한 Semble은 AI 에이전트가 코드베이스를 탐색할 때 소모되는 토큰을 grep+read 방식 대비 98% 줄이는 오픈소스 코드 검색 라이브러리다. Claude Code, Cursor 등 주요 AI 코딩 플랫폼에서 MCP 서버로 즉시 활용 가능하며, NDCG@10 기준 변환기 모델의 99% 품질을 CPU만으로 달성했다.