LocalLLaMA 게시글: Whisper 무음 hallucination 대응 실전 가이드
Original: We collected 135 phrases Whisper hallucinates during silence — here's what it says when nobody's talking and how we stopped it View original →
r/LocalLLaMA의 높은 반응을 얻은 글이 Whisper 운영 환경에서 자주 보고되는 문제를 구체적으로 정리했다. 핵심은 "무음인데도 그럴듯한 문장"이 생성되는 현상이다. 작성자는 실제 미팅 오디오를 대량 처리하는 과정에서 동일 패턴이 반복된다고 설명하며 blocklist를 공개했다.
게시글에 따르면 영어 기준 반복 hallucination 문구를 135개 수집했으며, "Thanks for watching" 같은 고정 문장과 동일 문장이 끝없이 반복되는 loop 유형이 포함됐다. 작성자는 이를 단순 노이즈가 아니라 decoder가 침묵 구간에서도 학습 분포상 그럴듯한 문장을 이어 쓰는 구조적 현상으로 해석한다.
공유된 대응책은 바로 적용 가능한 운영 체크리스트 형태다.
- Silero VAD 선행 게이트: 비음성 구간은 Whisper 호출 자체를 막음 (threshold 0.5, 연속 3프레임 비음성 시 종료).
condition_on_previous_text=False: 이전 창의 오출력이 다음 창으로 전파되는 연쇄를 차단.- 언어별 exact-string blocklist: 반복적으로 나타나는 문구를 즉시 제거.
- 반복 출력 감지: 동일 텍스트가 연속 발생하면 timestamp를 강제 전진.
beam_size=1: silence 상황에서 긴 탐색으로 hallucination이 커지는 현상을 줄임.
작성자는 FAccT 2024 "Careless Whisper" 논문도 인용하며, 의료 전사 같은 환경에서는 "빈 결과"보다 "틀린 문장"이 더 위험할 수 있다고 지적했다. 함께 제시된 GitHub 저장소에는 hallucinations/en.txt가 포함되어 있고, 현재 raw 파일에는 헤더를 제외한 텍스트 라인이 134개로 확인된다.
이 내용은 통제 실험 결과라기보다 community 기반 운영 보고에 가깝다. 그럼에도 실제 배포 환경에서 어떤 보호막을 먼저 쌓아야 하는지 매우 실무적인 출발점을 제공한다.
커뮤니티 출처: r/LocalLLaMA 원문
참고 저장소: Vexa (open-source)
Related Articles
OpenAI는 Codex Security를 Codex web을 통해 research preview로 배포한다고 밝혔다. 이 도구는 프로젝트 문맥을 반영해 더 높은 신뢰도의 취약점과 패치를 제시하는 application security agent로 소개됐다.
Hacker News에서 주목받은 에세이는 chardet 7.0 재라이선스 논쟁을 사례로, AI 기반 clean-room 재구현이 법적으로 가능하더라도 사회적으로 정당하다고 볼 수 있는지는 별개의 문제라고 짚었다.
r/MachineLearning에서 반응을 얻은 IronClaw는 sandboxed tool execution, encrypted credential handling, database-backed policy controls를 중심에 둔 Rust 기반 AI agent runtime이다. 이 글이 주목받은 이유는 agent security를 prompt 문제보다 systems 문제로 다루기 때문이다.
Comments (0)
No comments yet. Be the first to comment!