LocalLLaMA 게시글: Whisper 무음 hallucination 대응 실전 가이드

r/LocalLLaMA의 높은 반응을 얻은 글이 Whisper 운영 환경에서 자주 보고되는 문제를 구체적으로 정리했다. 핵심은 "무음인데도 그럴듯한 문장"이 생성되는 현상이다. 작성자는 실제 미팅 오디오를 대량 처리하는 과정에서 동일 패턴이 반복된다고 설명하며 blocklist를 공개했다.

게시글에 따르면 영어 기준 반복 hallucination 문구를 135개 수집했으며, "Thanks for watching" 같은 고정 문장과 동일 문장이 끝없이 반복되는 loop 유형이 포함됐다. 작성자는 이를 단순 노이즈가 아니라 decoder가 침묵 구간에서도 학습 분포상 그럴듯한 문장을 이어 쓰는 구조적 현상으로 해석한다.

공유된 대응책은 바로 적용 가능한 운영 체크리스트 형태다.

Silero VAD 선행 게이트: 비음성 구간은 Whisper 호출 자체를 막음 (threshold 0.5, 연속 3프레임 비음성 시 종료).
condition_on_previous_text=False: 이전 창의 오출력이 다음 창으로 전파되는 연쇄를 차단.
언어별 exact-string blocklist: 반복적으로 나타나는 문구를 즉시 제거.
반복 출력 감지: 동일 텍스트가 연속 발생하면 timestamp를 강제 전진.
beam_size=1: silence 상황에서 긴 탐색으로 hallucination이 커지는 현상을 줄임.

작성자는 FAccT 2024 "Careless Whisper" 논문도 인용하며, 의료 전사 같은 환경에서는 "빈 결과"보다 "틀린 문장"이 더 위험할 수 있다고 지적했다. 함께 제시된 GitHub 저장소에는 hallucinations/en.txt가 포함되어 있고, 현재 raw 파일에는 헤더를 제외한 텍스트 라인이 134개로 확인된다.

이 내용은 통제 실험 결과라기보다 community 기반 운영 보고에 가깝다. 그럼에도 실제 배포 환경에서 어떤 보호막을 먼저 쌓아야 하는지 매우 실무적인 출발점을 제공한다.

커뮤니티 출처: r/LocalLLaMA 원문
참고 저장소: Vexa (open-source)

LocalLLaMA 게시글: Whisper 무음 hallucination 대응 실전 가이드

Related Articles

Cohere, open 2B ASR model Transcribe와 WebGPU 브라우저 demo 전면 배치

Cohere, 14개 언어 지원 오픈소스 ASR Transcribe 공개

NVIDIA, 720p 1분 영상 생성 2.6B 오픈소스 월드 모델 공개