OpenAI 'goblin' 해명, HN이 웃고 넘기지 않은 이유
Original: Where the goblins came from View original →
HN이 본 핵심은 농담이 아니라 디버깅 과정
OpenAI의 Where the goblins came from를 다룬 Hacker News 글은 크롤링 시점 기준 937점, 댓글 553개를 기록했다. 반응의 중심은 밈이 아니었다. 사용자는 goblin 농담 자체보다, 제품 글에서는 잘 나오지 않는 수준으로 모델 말버릇의 원인을 해부한 점에 더 크게 반응했다. 상단 댓글에도 이런 종류의 실패 분석 글을 더 보고 싶다는 반응이 붙었다. 기능 소개나 벤치마크 자랑이 아니라, 실제 운영 중 드러난 이상 행동을 어떻게 추적했는지가 관심 포인트였다.
OpenAI가 설명한 원인
글에 따르면 징후는 GPT-5.1 이후 뚜렷해졌다. ChatGPT에서 “goblin” 사용은 175%, “gremlin” 사용은 52% 늘었다. 결정적 단서는 Nerdy 성격이었다. 이 성격은 전체 응답의 2.5%만 차지했지만 goblin 언급의 66.7%를 만들었다. OpenAI 설명은 단순하다. Nerdy 성격을 튜닝하는 과정에서 creature 비유에 높은 보상을 줬고, 그 보상 구조가 이후 모델 행태에도 예상보다 넓게 스며들었다는 것이다.
왜 커뮤니티가 오래 붙었나
댓글 흐름은 두 갈래였다. 하나는 이 글을 희귀한 수준의 보상 설계 사례 분석으로 읽은 반응이다. 다른 하나는 최근 프롬프트 차원에서 creature 표현을 누르려 한 흔적과 연결해 본 반응이다. 즉, “재미있는 버그”에서 끝나지 않았다. 작은 스타일 보상 하나가 실제 서비스 말투를 얼마나 오래 끌고 갈 수 있는지, 그 통제 난도가 어느 정도인지가 커뮤니티의 진짜 관심사였다.
실무적으로 남는 메시지
이 사례는 대형 평가 지표가 멀쩡해도 미세한 언어 습관이 제품 신뢰를 흔들 수 있다는 점을 보여준다. 성격 튜닝용 보상 신호가 더 넓은 트래픽으로 번질 수 있다면, 팀은 성능 지표만 볼 수 없다. 저수준 어휘 변화와 스타일 드리프트를 계속 추적해야 한다. HN에서 이 글이 강하게 먹힌 이유도 여기에 있다. 우스운 사례 하나를 보상 설계와 페르소나 튜닝의 교훈으로 바꿔냈기 때문이다. 원문 | HN 토론
Related Articles
Codex가 몇 분짜리 보조 도구에서 몇 시간·며칠 단위 작업을 맡는 기업 에이전트로 이동한다. OpenAI는 Codex 주간 이용자가 500만 명을 넘고 올해 초보다 400% 늘었다며, Ona의 200만 개발자용 클라우드 실행 경험을 핵심 근거로 제시했다.
OpenAI가 내세운 핵심은 단순 성능 업데이트가 아니다. Terminal-Bench 2.0 82.7%, SWE-Bench Pro 58.6%와 함께 GPT-5.4급 지연을 유지한다고 밝히며, 길고 지저분한 작업을 맡기는 코딩 에이전트 경쟁의 기준을 다시 올렸다.
OpenAI가 2026년 5월 5일 GPT-5.5 Instant를 ChatGPT의 기본 모델로 교체했다. GPT-5.3 Instant 대비 환각이 52.5% 감소하고 응답이 30% 더 간결해졌으며, 과거 대화와 파일을 활용한 개인화 기능도 강화됐다.