#speech-recognition

AI Hacker News Jul 14, 2026 1 min read

Apple SpeechAnalyzer, 온디바이스 음성인식에서 Whisper Small 앞선 벤치마크

Apple이 수치를 공개하지 않았던 SpeechAnalyzer를 같은 장비와 같은 데이터로 재본 결과가 HN에서 관심을 모았다. 핵심은 새 API가 기존 SFSpeechRecognizer뿐 아니라 Whisper Small보다도 낮은 오류율을 냈다는 점이다.

#apple #speech-recognition #whisper

AI Hacker News Apr 1, 2026 1 min read

Cohere, 14개 언어 지원 오픈소스 ASR Transcribe 공개

Cohere는 Apache 2.0 기반 2B ASR 모델 Transcribe를 공개하며 음성 인식 경쟁에 정면 진입했다. 14개 언어 지원, Hugging Face 배포, 그리고 5.42 평균 WER 리더보드 기록이 핵심 포인트다.

#cohere #speech-recognition #asr

AI X/Twitter Mar 28, 2026 1 min read

Cohere, open 2B ASR model Transcribe와 WebGPU 브라우저 demo 전면 배치

Cohere는 2026년 3월 28일 Transcribe가 real-world noise 환경에서 speech recognition accuracy의 새 기준을 세운다고 밝히며 체험 링크를 공유했다. 함께 공개된 Hugging Face 자료는 Transcribe를 Apache 2.0 기반 2B-parameter, 14-language ASR model로 설명하고, 별도 WebGPU demo는 이 모델이 브라우저 로컬 환경에서도 동작함을 보여 준다.

#cohere #transcribe #speech-recognition

AI X/Twitter Mar 27, 2026 1 min read

Cohere, 2B·Apache 2.0 기반 speech recognition 모델 Transcribe 공개

Cohere는 2026년 3월 26일 Transcribe를 open-source speech recognition model로 발표했다. Cohere에 따르면 이 2B Conformer 기반 시스템은 14개 언어를 지원하고, Hugging Face Open ASR Leaderboard에서 평균 WER 5.42로 1위를 기록했으며, Apache 2.0 license로 배포되고, download·API·Model Vault 경로를 모두 제공한다.

#cohere #speech-recognition #asr

AI Reddit Mar 6, 2026 1 min read

LocalLLaMA 게시글: Whisper 무음 hallucination 대응 실전 가이드

r/LocalLLaMA에서 Whisper가 무음 구간에 텍스트를 생성하는 문제와 함께, Silero VAD·prompt history 차단·blocklist를 결합한 운영 대응법이 공유됐다.

#whisper #speech-recognition #vad

AI Hacker News Feb 25, 2026 1 min read

Moonshine 오픈 웨이트 STT, HN에서 주목: Whisper Large v3 비교 지표 공개

Show HN를 통해 Moonshine Voice가 빠르게 확산됐다. 프로젝트는 실시간 음성 제품을 겨냥해 정확도와 지연시간을 함께 개선했다고 주장한다.

#speech-recognition #asr #edge-ai

AI Hacker News Feb 10, 2026 2 min read

순수 C 언어로 구현된 Mistral Voxtral 음성인식 모델, CPU만으로 실시간 처리

Mistral AI의 Voxtral Realtime 4B 음성인식 모델을 순수 C 언어로 구현한 voxtral.c가 공개되었습니다. Python이나 CUDA 없이 C 표준 라이브러리만으로 실행되며, Apple Silicon에서는 실시간보다 2.5배 빠른 속도로 음성을 텍스트로 변환할 수 있습니다. 메모리 맵핑 방식으로 '거의 즉시' 로딩되며, 무제한 길이의 오디오를 1.8GB 메모리로 처리할 수 있습니다.

#speech-recognition #c-programming #mistral