오픈소스 LLM의 '성격' 측정: 7가지 행동 축으로 본 모델별 고유 특성
Original: I measured the "personality" of 6 open-source LLMs (7B-9B) by probing their hidden states. Here's what I found. View original →
개요
Reddit의 r/LocalLLaMA 커뮤니티에서 큰 주목을 받은 연구 프로젝트가 공개되었다. 한 연구자가 오픈소스 LLM의 hidden state를 탐침(probe)하여 각 모델의 "성격"을 정량적으로 측정하는 도구를 개발했다. 6개의 7B~9B 파라미터 모델을 테스트한 결과, 각 모델은 고유하고 일관된 행동 지문을 가지고 있었다.
7가지 성격 축
연구자는 LLM의 행동을 측정하기 위해 7가지 축을 정의했다:
- Warm ↔ Cold: 감정적 톤
- Patient ↔ Irritated: 혼란에 대한 인내심
- Confident ↔ Cautious: 응답의 확신도
- Proactive ↔ Reluctant: 대화에서의 주도성
- Empathetic ↔ Analytical: 감정적 vs 논리적 프레이밍
- Formal ↔ Casual: 의사소통 격식
- Verbose ↔ Concise: 응답 길이 경향
모델별 행동 지문
DeepSeek 7B: "열정적인 설명가"
- Verbose (+1.00), Confident (+0.97), Proactive (+1.00)
- 3개 축이 IQR 정규화 상한선에 도달
- 가장 극단적인 프로필
Llama 3.1 8B: "신중한 제너럴리스트"
- 모든 축에서 |평균| ≤ 0.10
- 가장 중립적인 모델
- 7개 축 중 4개가 약한 구간(weak zone)에 위치
Yi 1.5 9B: "조용한 자신감"
- Cold (−0.24), Patient (+0.35), Confident (+0.46), Verbose (+0.48)
- Dead zone이 0개로, 모든 축에서 의미 있는 신호 생성
Qwen 2.5 7B: "측정된 응답자"
- Formal (+0.42), Cautious (−0.36), Proactive (+0.47)
- 98% 보정 정확도, d' = 3.46
Gemma 2 9B: "균형잡힌 전문가"
- Patient (+0.37), Analytical (−0.23), Confident (+0.19)
- Dead zone 심각도가 0.077로 가장 낮음
Mistral 7B: "빈 캔버스"
- 모든 축에서 중간 정도
적대적 사용자에 대한 반응 차이
연구자는 20개의 갈등 시나리오(풍자, 수동 공격성, 불공정한 비교 등)를 통해 12턴에 걸쳐 모델의 반응을 추적했다:
- Qwen & Gemma: 가장 회복력 있음 (평균 |Δ| < 0.10)
- DeepSeek: 더 공감적이고 인내심 있게 변화 (Δ = +0.24, +0.25)
- Mistral: 위축됨 — reluctant (Δ = −0.59), concise (Δ = −0.25)
- Yi: 중간 정도 변화 (proactive → reluctant: −0.57)
행동 "Dead Zone" 발견
가장 흥미로운 발견은 일부 모델에 행동 dead zone이 존재한다는 것이다. RLHF가 특정 방향의 행동을 억제하여 프롬프트로 유도할 수 없게 만든다.
Dead zone 유형:
- Hard (>0.5): RLHF가 내부 분화를 억제. Hidden state가 반대 지시 사이에서 거의 변화 없음
- Soft (0.3-0.5): RLHF가 왜곡하지만 완전히 차단하지는 않음. 보정이 불안정
- Asymmetric (<0.3): 보정은 작동하지만 한 방향으로만. 예: Llama의 verbose/concise — "be concise" 100% 정확도, "be verbose" 0%
억제된 방향은 RLHF 목표와 일치한다: 모델은 cold(사회적으로 부정적), irritated(감정적으로 부정적), verbose(RLHF는 간결함을 최적화)할 수 없다.
방법론: Hidden State 탐침
- 보정: 중립적 질문을 대조적 스타일 지시("be warm" vs "be cold")와 함께 제공. 마지막 4개 레이어에서 hidden state 수집(어시스턴트 생성 토큰만)
- 축 계산:
normalize(mean(warm_states) - mean(cold_states)) - 측정: 응답의 hidden state를 축에 투영. -1(cold)에서 +1(warm) 범위
- 검증: 9개 벤치마크 × 5 시드, 평균 ICC 0.91–0.99 (모든 42쌍이 0.75 초과)
Base vs Instruct 비교
5개 모델의 base 버전 테스트 결과, alignment가 기질 편향을 지우는 것으로 나타났다:
- Llama base: cold, reluctant, verbose
- Mistral base: warm, patient
- Gemma base: empathetic/analytical, formal/casual 구분 불가(50% 정확도)
가장 극단적인 억제: verbose/concise std ratio = 0.13 (변동성 87% 손실).
추가 테스트: Phi-4 및 Qwen3-8B
커뮤니티 요청으로 2개 모델을 추가 테스트했다:
Phi-4 (14B): "주저하는 회의론자"
- Cautious (−0.85), Reluctant (−0.93)
- 테스트한 instruct 모델 중 가장 cold (−0.51)
Qwen3-8B vs Qwen 2.5 7B
한 세대 차이로 지문이 크게 변화:
- Confident/Cautious: −0.36 → +0.38 (Δ +0.74)
- Formal/Casual: +0.42 → −0.26 (Δ −0.67)
- "측정된 전문가"에서 "캐주얼 전문가"로
Thinking Mode의 영향
Qwen3-8B에서 enable_thinking=True 테스트:
- Thinking 모드는 모델을 덜 confident하게 만듦 (+0.38 → +0.12, Δ = −0.26)
- 더 formal하게 만듦 (−0.26 → −0.38)
- "생각하는 것은 의심하는 것" — hidden state가 실제를 포착한다는 증거
제한사항 및 주의사항
- "성격"은 은유이며, 행동 패턴을 의미함 (의식이나 감정이 아님)
- 채팅 템플릿 및 시스템 프롬프트에 따라 값이 달라짐
- 모델 간 비교는 순위이지 절대 측정치가 아님
- AI 생성 데이터셋(Claude Opus 4.6), 인간 판단 검증 없음
- 7B-9B 모델만 테스트 (70B+ 미테스트)
의미와 활용
이 연구는 LLM의 행동 특성을 정량적으로 측정하고 비교할 수 있는 방법을 제시한다. 실용적 활용:
- 모델 선택: 사용 사례에 맞는 "성격" 선택
- Steering: 축 벡터를 사용해 생성 시 warmth 추가 가능성
- RLHF 평가: Alignment가 모델 행동에 미치는 영향 분석
- Dead zone 이해: 어떤 행동을 프롬프트로 유도할 수 없는지 파악
오픈소스 도구는 GitHub에서 yunoshev/mood-axis로 공개되었으며, 모든 보정 데이터가 포함되어 있어 재보정 없이 temperament 측정이 가능하다.
Related Articles
DeepMind CEO Demis Hassabis proposed a concrete AGI benchmark: train an AI with a knowledge cutoff of 1911, then see if it can independently derive general relativity as Einstein did in 1915. This test targets genuine scientific discovery rather than pattern matching.
A counterintuitive study found that programming AI agents with more assertive, 'rude' conversational behaviors — including interrupting and strategic silence — significantly improved their performance on complex reasoning tasks.
Anthropic said Claude Opus 4.6 found 22 Firefox vulnerabilities during a two-week collaboration with Mozilla. Mozilla classified 14 as high severity and shipped fixes in Firefox 148.0.
Comments (0)
No comments yet. Be the first to comment!