Guide Labs, 모든 토큰 생성 과정을 설명하는 '해석 가능한 LLM' Steerling-8B 출시
Original: Show HN: Steerling-8B, a language model that can explain any token it generates View original →
최초의 '본질적으로 해석 가능한' LLM
Guide Labs가 Steerling-8B를 출시했습니다. 이 모델은 '최초로 본질적으로 해석 가능한(inherently interpretable) 언어 모델'을 표방합니다. 기존의 LLM 해석 가능성(interpretability) 연구가 훈련 후 분석에 집중했다면, Steerling-8B는 모델 아키텍처 자체에 해석 가능성을 내장했습니다.
핵심 기능: 세 가지 추적
Steerling-8B가 생성하는 모든 토큰 그룹에 대해 세 가지 방식으로 추적이 가능합니다. 첫째, 입력 귀속(Input Attribution) — 어떤 프롬프트 토큰이 해당 출력에 영향을 미쳤는지 추적합니다. 둘째, 개념 귀속(Concept Attribution) — 출력을 생성하는 데 모델이 어떤 인간이 이해할 수 있는 개념(예: '분석적', '임상적', '유전자 변형 방법론')을 거쳤는지 확인합니다. 셋째, 훈련 데이터 귀속(Training Data Attribution) — 해당 출력이 ArXiv, Wikipedia, FLAN 등 어떤 훈련 소스에서 비롯된 지식을 활용했는지 보여줍니다.
기술적 기반
Steerling-8B는 인과 이산 확산 모델(causal discrete diffusion model) 백본을 기반으로 구축되었습니다. 이 아키텍처는 다음 토큰만이 아닌 다중 토큰에 걸친 생성을 조향(steer)할 수 있게 합니다. 또한 임베딩을 세 가지 구성 요소로 분해합니다: 입력에서 오는 정보, 모델의 내부 개념, 훈련 데이터에서 오는 지식.
실용적 활용
이 모델의 해석 가능성은 단순한 학술적 기여를 넘어 실용적 응용을 가능하게 합니다. 재훈련 없이 추론 시점에 특정 개념을 억제하거나 증폭할 수 있어 안전 정렬을 수천 개의 훈련 예제 대신 명시적 개념 조향으로 대체할 수 있습니다. 1.35조 토큰으로 훈련된 이 모델은 2~7배 더 많은 데이터로 훈련된 모델과 비견되는 성능을 보입니다. 가중치와 코드는 Hugging Face와 GitHub에서 공개됩니다.
Related Articles
Hacker News에서 주목받은 Sarvam AI의 발표는 IndiaAI mission 기반으로 인도에서 학습한 reasoning 중심 MoE 모델 Sarvam 30B와 105B를 오픈소스로 공개했다는 점에 있다. 공개 범위가 단순한 weights를 넘어 제품 배치, inference 최적화, Indian-language benchmark 성과까지 포함한다는 점이 핵심이다.
r/LocalLLaMA의 고득점 글은 llama-swap을 이용해 로컬 LLM 다중 모델 운영을 단순화한 경험을 공유한다. 단일 실행 파일, YAML 설정, systemd 자동 시작, 모델별 파라미터 필터링이 핵심 포인트로 제시됐다.
r/LocalLLaMA에서 주목받은 FlashAttention-4는 B200 BF16에서 최대 1605 TFLOPs/s를 제시하며, Blackwell의 메모리·SFU 병목을 겨냥한 파이프라인 개선을 소개했다.
Comments (0)
No comments yet. Be the first to comment!