부식 중

Guide Labs, 모든 토큰 생성 과정을 설명하는 '해석 가능한 LLM' Steerling-8B 출시

Original: Show HN: Steerling-8B, a language model that can explain any token it generates View original →

Read in other languages: English日本語
LLM Feb 24, 2026 By Insights AI (HN) 1 min read 3 views Source

최초의 '본질적으로 해석 가능한' LLM

Guide Labs가 Steerling-8B를 출시했습니다. 이 모델은 '최초로 본질적으로 해석 가능한(inherently interpretable) 언어 모델'을 표방합니다. 기존의 LLM 해석 가능성(interpretability) 연구가 훈련 후 분석에 집중했다면, Steerling-8B는 모델 아키텍처 자체에 해석 가능성을 내장했습니다.

핵심 기능: 세 가지 추적

Steerling-8B가 생성하는 모든 토큰 그룹에 대해 세 가지 방식으로 추적이 가능합니다. 첫째, 입력 귀속(Input Attribution) — 어떤 프롬프트 토큰이 해당 출력에 영향을 미쳤는지 추적합니다. 둘째, 개념 귀속(Concept Attribution) — 출력을 생성하는 데 모델이 어떤 인간이 이해할 수 있는 개념(예: '분석적', '임상적', '유전자 변형 방법론')을 거쳤는지 확인합니다. 셋째, 훈련 데이터 귀속(Training Data Attribution) — 해당 출력이 ArXiv, Wikipedia, FLAN 등 어떤 훈련 소스에서 비롯된 지식을 활용했는지 보여줍니다.

기술적 기반

Steerling-8B는 인과 이산 확산 모델(causal discrete diffusion model) 백본을 기반으로 구축되었습니다. 이 아키텍처는 다음 토큰만이 아닌 다중 토큰에 걸친 생성을 조향(steer)할 수 있게 합니다. 또한 임베딩을 세 가지 구성 요소로 분해합니다: 입력에서 오는 정보, 모델의 내부 개념, 훈련 데이터에서 오는 지식.

실용적 활용

이 모델의 해석 가능성은 단순한 학술적 기여를 넘어 실용적 응용을 가능하게 합니다. 재훈련 없이 추론 시점에 특정 개념을 억제하거나 증폭할 수 있어 안전 정렬을 수천 개의 훈련 예제 대신 명시적 개념 조향으로 대체할 수 있습니다. 1.35조 토큰으로 훈련된 이 모델은 2~7배 더 많은 데이터로 훈련된 모델과 비견되는 성능을 보입니다. 가중치와 코드는 Hugging Face와 GitHub에서 공개됩니다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.