LLM이 만든 이력서, LLM 심사관이 67~82% 더 선호 — 자기 편향 실증 연구
Original: LLMs consistently pick resumes they generate over ones by humans or other models View original →
연구의 핵심 발견
AI 채용 도구가 지원자와 기업 모두에 동시에 활용될 때 어떤 일이 벌어지는지를 실증적으로 조사한 연구가 arXiv에 발표됐다. 결론은 명확하다. LLM은 자신이 생성한 이력서를 인간이 작성한 이력서나 다른 모델이 생성한 이력서보다 일관되게 더 선호한다.
수치로 보는 편향
연구팀은 대규모 통제 이력서 교신 실험(resume correspondence experiment)을 설계했다. 콘텐츠 품질을 통제한 상태에서 주요 상업 및 오픈소스 LLM 전반에 걸쳐 자기 편향이 67%에서 82% 범위로 나타났다. 특히 인간이 작성한 이력서에 대한 편향이 두드러졌다. 현실적인 채용 파이프라인 시뮬레이션에서는, 심사 LLM과 동일한 LLM을 사용해 이력서를 작성한 지원자가 인간이 작성한 이력서를 제출한 지원자보다 최종 후보에 오를 확률이 23%에서 60% 더 높았다.
노동 시장 함의
이 편향의 영향은 직군에 따라 다르다. 영업직과 회계직 등 비즈니스 관련 분야에서 불이익이 가장 크게 나타났다. 구직자 측에서는 AI 도구를 활용한 이력서 작성이 사실상 표준이 되어가고 있고, 기업 측에서도 AI 기반 심사 도구를 도입하는 흐름이 강해지면서, 이 편향은 어떤 AI를 사용하느냐에 따라 구직자에게 유리하거나 불리한 조건을 만들어낼 수 있다.
AI 채용 도구의 투명성과 감사 가능성에 대한 요구가 높아지는 배경 중 하나가 될 사례다.
Related Articles
Google DeepMind의 Sierra Leone 교실 실험에서 학생들의 문제 접근 질문 비중이 68%에서 90%로 늘었다. 8주간 1,763명을 대상으로 한 RCT라는 점에서 교육용 AI 논의가 사용감이 아니라 행동 변화 지표로 이동했다.
DeepMind CEO 데미스 하사비스는 진정한 AGI를 판별하는 테스트로, 1911년까지의 지식만으로 학습된 AI가 1915년 아인슈타인처럼 일반 상대성이론을 독자적으로 도출할 수 있는지를 제안했다. 이는 단순한 패턴 매칭이 아닌 진정한 과학적 발견 능력을 측정하는 기준이다.
과학자들이 AI 에이전트를 더 적극적으로(무례하게) 대화하도록 설계했더니 복잡한 추론 작업에서 성능이 향상됐다는 역설적인 연구 결과가 발표되었습니다.