오픈소스 LLM의 '성격' 측정: 7가지 행동 축으로 본 모델별 고유 특성
Original: I measured the "personality" of 6 open-source LLMs (7B-9B) by probing their hidden states. Here's what I found. View original →
개요
Reddit의 r/LocalLLaMA 커뮤니티에서 큰 주목을 받은 연구 프로젝트가 공개되었다. 한 연구자가 오픈소스 LLM의 hidden state를 탐침(probe)하여 각 모델의 "성격"을 정량적으로 측정하는 도구를 개발했다. 6개의 7B~9B 파라미터 모델을 테스트한 결과, 각 모델은 고유하고 일관된 행동 지문을 가지고 있었다.
7가지 성격 축
연구자는 LLM의 행동을 측정하기 위해 7가지 축을 정의했다:
- Warm ↔ Cold: 감정적 톤
- Patient ↔ Irritated: 혼란에 대한 인내심
- Confident ↔ Cautious: 응답의 확신도
- Proactive ↔ Reluctant: 대화에서의 주도성
- Empathetic ↔ Analytical: 감정적 vs 논리적 프레이밍
- Formal ↔ Casual: 의사소통 격식
- Verbose ↔ Concise: 응답 길이 경향
모델별 행동 지문
DeepSeek 7B: "열정적인 설명가"
- Verbose (+1.00), Confident (+0.97), Proactive (+1.00)
- 3개 축이 IQR 정규화 상한선에 도달
- 가장 극단적인 프로필
Llama 3.1 8B: "신중한 제너럴리스트"
- 모든 축에서 |평균| ≤ 0.10
- 가장 중립적인 모델
- 7개 축 중 4개가 약한 구간(weak zone)에 위치
Yi 1.5 9B: "조용한 자신감"
- Cold (−0.24), Patient (+0.35), Confident (+0.46), Verbose (+0.48)
- Dead zone이 0개로, 모든 축에서 의미 있는 신호 생성
Qwen 2.5 7B: "측정된 응답자"
- Formal (+0.42), Cautious (−0.36), Proactive (+0.47)
- 98% 보정 정확도, d' = 3.46
Gemma 2 9B: "균형잡힌 전문가"
- Patient (+0.37), Analytical (−0.23), Confident (+0.19)
- Dead zone 심각도가 0.077로 가장 낮음
Mistral 7B: "빈 캔버스"
- 모든 축에서 중간 정도
적대적 사용자에 대한 반응 차이
연구자는 20개의 갈등 시나리오(풍자, 수동 공격성, 불공정한 비교 등)를 통해 12턴에 걸쳐 모델의 반응을 추적했다:
- Qwen & Gemma: 가장 회복력 있음 (평균 |Δ| < 0.10)
- DeepSeek: 더 공감적이고 인내심 있게 변화 (Δ = +0.24, +0.25)
- Mistral: 위축됨 — reluctant (Δ = −0.59), concise (Δ = −0.25)
- Yi: 중간 정도 변화 (proactive → reluctant: −0.57)
행동 "Dead Zone" 발견
가장 흥미로운 발견은 일부 모델에 행동 dead zone이 존재한다는 것이다. RLHF가 특정 방향의 행동을 억제하여 프롬프트로 유도할 수 없게 만든다.
Dead zone 유형:
- Hard (>0.5): RLHF가 내부 분화를 억제. Hidden state가 반대 지시 사이에서 거의 변화 없음
- Soft (0.3-0.5): RLHF가 왜곡하지만 완전히 차단하지는 않음. 보정이 불안정
- Asymmetric (<0.3): 보정은 작동하지만 한 방향으로만. 예: Llama의 verbose/concise — "be concise" 100% 정확도, "be verbose" 0%
억제된 방향은 RLHF 목표와 일치한다: 모델은 cold(사회적으로 부정적), irritated(감정적으로 부정적), verbose(RLHF는 간결함을 최적화)할 수 없다.
방법론: Hidden State 탐침
- 보정: 중립적 질문을 대조적 스타일 지시("be warm" vs "be cold")와 함께 제공. 마지막 4개 레이어에서 hidden state 수집(어시스턴트 생성 토큰만)
- 축 계산:
normalize(mean(warm_states) - mean(cold_states)) - 측정: 응답의 hidden state를 축에 투영. -1(cold)에서 +1(warm) 범위
- 검증: 9개 벤치마크 × 5 시드, 평균 ICC 0.91–0.99 (모든 42쌍이 0.75 초과)
Base vs Instruct 비교
5개 모델의 base 버전 테스트 결과, alignment가 기질 편향을 지우는 것으로 나타났다:
- Llama base: cold, reluctant, verbose
- Mistral base: warm, patient
- Gemma base: empathetic/analytical, formal/casual 구분 불가(50% 정확도)
가장 극단적인 억제: verbose/concise std ratio = 0.13 (변동성 87% 손실).
추가 테스트: Phi-4 및 Qwen3-8B
커뮤니티 요청으로 2개 모델을 추가 테스트했다:
Phi-4 (14B): "주저하는 회의론자"
- Cautious (−0.85), Reluctant (−0.93)
- 테스트한 instruct 모델 중 가장 cold (−0.51)
Qwen3-8B vs Qwen 2.5 7B
한 세대 차이로 지문이 크게 변화:
- Confident/Cautious: −0.36 → +0.38 (Δ +0.74)
- Formal/Casual: +0.42 → −0.26 (Δ −0.67)
- "측정된 전문가"에서 "캐주얼 전문가"로
Thinking Mode의 영향
Qwen3-8B에서 enable_thinking=True 테스트:
- Thinking 모드는 모델을 덜 confident하게 만듦 (+0.38 → +0.12, Δ = −0.26)
- 더 formal하게 만듦 (−0.26 → −0.38)
- "생각하는 것은 의심하는 것" — hidden state가 실제를 포착한다는 증거
제한사항 및 주의사항
- "성격"은 은유이며, 행동 패턴을 의미함 (의식이나 감정이 아님)
- 채팅 템플릿 및 시스템 프롬프트에 따라 값이 달라짐
- 모델 간 비교는 순위이지 절대 측정치가 아님
- AI 생성 데이터셋(Claude Opus 4.6), 인간 판단 검증 없음
- 7B-9B 모델만 테스트 (70B+ 미테스트)
의미와 활용
이 연구는 LLM의 행동 특성을 정량적으로 측정하고 비교할 수 있는 방법을 제시한다. 실용적 활용:
- 모델 선택: 사용 사례에 맞는 "성격" 선택
- Steering: 축 벡터를 사용해 생성 시 warmth 추가 가능성
- RLHF 평가: Alignment가 모델 행동에 미치는 영향 분석
- Dead zone 이해: 어떤 행동을 프롬프트로 유도할 수 없는지 파악
오픈소스 도구는 GitHub에서 yunoshev/mood-axis로 공개되었으며, 모든 보정 데이터가 포함되어 있어 재보정 없이 temperament 측정이 가능하다.
Related Articles
Anthropic이 Claude의 내부 활성화값을 인간이 읽을 수 있는 텍스트로 변환하는 자연어 오토인코더(NLA) 기술을 공개했다. 모델 내부 상태를 직접 해석해 AI 감사와 정렬 연구에 활용할 수 있다는 점에서 해석 가능성 연구의 새 이정표다.
arXiv가 LLM이 생성한 오류(허위 참고문헌, 잘못된 결과 등)를 검수 없이 그대로 실은 논문에 대해 저자 전원에게 1년 제출 금지 처분을 내리기 시작했다. AI 생성 콘텐츠의 학문적 책임 소재를 명확히 하는 이정표적 조치다.
Google DeepMind의 Sierra Leone 교실 실험에서 학생들의 문제 접근 질문 비중이 68%에서 90%로 늘었다. 8주간 1,763명을 대상으로 한 RCT라는 점에서 교육용 AI 논의가 사용감이 아니라 행동 변화 지표로 이동했다.