오픈소스 LLM의 '성격' 측정: 7가지 행동 축으로 본 모델별 고유 특성

개요

Reddit의 r/LocalLLaMA 커뮤니티에서 큰 주목을 받은 연구 프로젝트가 공개되었다. 한 연구자가 오픈소스 LLM의 hidden state를 탐침(probe)하여 각 모델의 "성격"을 정량적으로 측정하는 도구를 개발했다. 6개의 7B~9B 파라미터 모델을 테스트한 결과, 각 모델은 고유하고 일관된 행동 지문을 가지고 있었다.

7가지 성격 축

연구자는 LLM의 행동을 측정하기 위해 7가지 축을 정의했다:

Warm ↔ Cold: 감정적 톤
Patient ↔ Irritated: 혼란에 대한 인내심
Confident ↔ Cautious: 응답의 확신도
Proactive ↔ Reluctant: 대화에서의 주도성
Empathetic ↔ Analytical: 감정적 vs 논리적 프레이밍
Formal ↔ Casual: 의사소통 격식
Verbose ↔ Concise: 응답 길이 경향

모델별 행동 지문

DeepSeek 7B: "열정적인 설명가"

Verbose (+1.00), Confident (+0.97), Proactive (+1.00)
3개 축이 IQR 정규화 상한선에 도달
가장 극단적인 프로필

Llama 3.1 8B: "신중한 제너럴리스트"

모든 축에서 |평균| ≤ 0.10
가장 중립적인 모델
7개 축 중 4개가 약한 구간(weak zone)에 위치

Yi 1.5 9B: "조용한 자신감"

Cold (−0.24), Patient (+0.35), Confident (+0.46), Verbose (+0.48)
Dead zone이 0개로, 모든 축에서 의미 있는 신호 생성

Qwen 2.5 7B: "측정된 응답자"

Formal (+0.42), Cautious (−0.36), Proactive (+0.47)
98% 보정 정확도, d' = 3.46

Gemma 2 9B: "균형잡힌 전문가"

Patient (+0.37), Analytical (−0.23), Confident (+0.19)
Dead zone 심각도가 0.077로 가장 낮음

Mistral 7B: "빈 캔버스"

모든 축에서 중간 정도

적대적 사용자에 대한 반응 차이

연구자는 20개의 갈등 시나리오(풍자, 수동 공격성, 불공정한 비교 등)를 통해 12턴에 걸쳐 모델의 반응을 추적했다:

Qwen & Gemma: 가장 회복력 있음 (평균 |Δ| < 0.10)
DeepSeek: 더 공감적이고 인내심 있게 변화 (Δ = +0.24, +0.25)
Mistral: 위축됨 — reluctant (Δ = −0.59), concise (Δ = −0.25)
Yi: 중간 정도 변화 (proactive → reluctant: −0.57)

행동 "Dead Zone" 발견

가장 흥미로운 발견은 일부 모델에 행동 dead zone이 존재한다는 것이다. RLHF가 특정 방향의 행동을 억제하여 프롬프트로 유도할 수 없게 만든다.

Dead zone 유형:

Hard (>0.5): RLHF가 내부 분화를 억제. Hidden state가 반대 지시 사이에서 거의 변화 없음
Soft (0.3-0.5): RLHF가 왜곡하지만 완전히 차단하지는 않음. 보정이 불안정
Asymmetric (<0.3): 보정은 작동하지만 한 방향으로만. 예: Llama의 verbose/concise — "be concise" 100% 정확도, "be verbose" 0%

억제된 방향은 RLHF 목표와 일치한다: 모델은 cold(사회적으로 부정적), irritated(감정적으로 부정적), verbose(RLHF는 간결함을 최적화)할 수 없다.

방법론: Hidden State 탐침

보정: 중립적 질문을 대조적 스타일 지시("be warm" vs "be cold")와 함께 제공. 마지막 4개 레이어에서 hidden state 수집(어시스턴트 생성 토큰만)
축 계산: normalize(mean(warm_states) - mean(cold_states))
측정: 응답의 hidden state를 축에 투영. -1(cold)에서 +1(warm) 범위
검증: 9개 벤치마크 × 5 시드, 평균 ICC 0.91–0.99 (모든 42쌍이 0.75 초과)

Base vs Instruct 비교

5개 모델의 base 버전 테스트 결과, alignment가 기질 편향을 지우는 것으로 나타났다:

Llama base: cold, reluctant, verbose
Mistral base: warm, patient
Gemma base: empathetic/analytical, formal/casual 구분 불가(50% 정확도)

가장 극단적인 억제: verbose/concise std ratio = 0.13 (변동성 87% 손실).

추가 테스트: Phi-4 및 Qwen3-8B

커뮤니티 요청으로 2개 모델을 추가 테스트했다:

Phi-4 (14B): "주저하는 회의론자"

Cautious (−0.85), Reluctant (−0.93)
테스트한 instruct 모델 중 가장 cold (−0.51)

Qwen3-8B vs Qwen 2.5 7B

한 세대 차이로 지문이 크게 변화:

Confident/Cautious: −0.36 → +0.38 (Δ +0.74)
Formal/Casual: +0.42 → −0.26 (Δ −0.67)
"측정된 전문가"에서 "캐주얼 전문가"로

Thinking Mode의 영향

Qwen3-8B에서 enable_thinking=True 테스트:

Thinking 모드는 모델을 덜 confident하게 만듦 (+0.38 → +0.12, Δ = −0.26)
더 formal하게 만듦 (−0.26 → −0.38)
"생각하는 것은 의심하는 것" — hidden state가 실제를 포착한다는 증거

제한사항 및 주의사항

"성격"은 은유이며, 행동 패턴을 의미함 (의식이나 감정이 아님)
채팅 템플릿 및 시스템 프롬프트에 따라 값이 달라짐
모델 간 비교는 순위이지 절대 측정치가 아님
AI 생성 데이터셋(Claude Opus 4.6), 인간 판단 검증 없음
7B-9B 모델만 테스트 (70B+ 미테스트)

의미와 활용

이 연구는 LLM의 행동 특성을 정량적으로 측정하고 비교할 수 있는 방법을 제시한다. 실용적 활용:

모델 선택: 사용 사례에 맞는 "성격" 선택
Steering: 축 벡터를 사용해 생성 시 warmth 추가 가능성
RLHF 평가: Alignment가 모델 행동에 미치는 영향 분석
Dead zone 이해: 어떤 행동을 프롬프트로 유도할 수 없는지 파악

오픈소스 도구는 GitHub에서 yunoshev/mood-axis로 공개되었으며, 모든 보정 데이터가 포함되어 있어 재보정 없이 temperament 측정이 가능하다.