LocalLLaMA 게시글: Whisper 무음 hallucination 대응 실전 가이드
Original: We collected 135 phrases Whisper hallucinates during silence — here's what it says when nobody's talking and how we stopped it View original →
r/LocalLLaMA의 높은 반응을 얻은 글이 Whisper 운영 환경에서 자주 보고되는 문제를 구체적으로 정리했다. 핵심은 "무음인데도 그럴듯한 문장"이 생성되는 현상이다. 작성자는 실제 미팅 오디오를 대량 처리하는 과정에서 동일 패턴이 반복된다고 설명하며 blocklist를 공개했다.
게시글에 따르면 영어 기준 반복 hallucination 문구를 135개 수집했으며, "Thanks for watching" 같은 고정 문장과 동일 문장이 끝없이 반복되는 loop 유형이 포함됐다. 작성자는 이를 단순 노이즈가 아니라 decoder가 침묵 구간에서도 학습 분포상 그럴듯한 문장을 이어 쓰는 구조적 현상으로 해석한다.
공유된 대응책은 바로 적용 가능한 운영 체크리스트 형태다.
- Silero VAD 선행 게이트: 비음성 구간은 Whisper 호출 자체를 막음 (threshold 0.5, 연속 3프레임 비음성 시 종료).
condition_on_previous_text=False: 이전 창의 오출력이 다음 창으로 전파되는 연쇄를 차단.- 언어별 exact-string blocklist: 반복적으로 나타나는 문구를 즉시 제거.
- 반복 출력 감지: 동일 텍스트가 연속 발생하면 timestamp를 강제 전진.
beam_size=1: silence 상황에서 긴 탐색으로 hallucination이 커지는 현상을 줄임.
작성자는 FAccT 2024 "Careless Whisper" 논문도 인용하며, 의료 전사 같은 환경에서는 "빈 결과"보다 "틀린 문장"이 더 위험할 수 있다고 지적했다. 함께 제시된 GitHub 저장소에는 hallucinations/en.txt가 포함되어 있고, 현재 raw 파일에는 헤더를 제외한 텍스트 라인이 134개로 확인된다.
이 내용은 통제 실험 결과라기보다 community 기반 운영 보고에 가깝다. 그럼에도 실제 배포 환경에서 어떤 보호막을 먼저 쌓아야 하는지 매우 실무적인 출발점을 제공한다.
커뮤니티 출처: r/LocalLLaMA 원문
참고 저장소: Vexa (open-source)
Related Articles
Cohere는 2026년 3월 28일 Transcribe가 real-world noise 환경에서 speech recognition accuracy의 새 기준을 세운다고 밝히며 체험 링크를 공유했다. 함께 공개된 Hugging Face 자료는 Transcribe를 Apache 2.0 기반 2B-parameter, 14-language ASR model로 설명하고, 별도 WebGPU demo는 이 모델이 브라우저 로컬 환경에서도 동작함을 보여 준다.
HN이 이 글에 반응한 이유는 fake stars 자체보다, AI/LLM repo 시대에 “인기”라는 신호가 얼마나 싸게 만들어질 수 있는지였기 때문이다. 댓글들은 star 수 대신 commit, issue, code, 실제 사용자 흔적을 보라고 모였다.
Cohere는 Apache 2.0 기반 2B ASR 모델 Transcribe를 공개하며 음성 인식 경쟁에 정면 진입했다. 14개 언어 지원, Hugging Face 배포, 그리고 5.42 평균 WER 리더보드 기록이 핵심 포인트다.
Comments (0)
No comments yet. Be the first to comment!