LocalLLaMA가 주목한 SentrySearch... Qwen3-VL로 로컬 video semantic search 구현
Original: Semantic video search using local Qwen3-VL embedding, no API, no transcription View original →
2026년 3월 30일 r/LocalLLaMA에는 Qwen3-VL-Embedding을 이용한 실용적인 local multimodal workflow가 올라왔다. 2026년 3월 31일 기준 이 글은 301 points와 45 comments를 기록했고, 단순 demo보다 실제 tooling에 가까운 사례라는 점에서 반응이 좋았다.
프로젝트는 어떻게 동작하나
Reddit 글에서 작성자는 SentrySearch가 MP4 영상을 겹치는 chunk로 나누고, 각 chunk를 video embedding으로 변환한 뒤 ChromaDB에 저장한다고 설명했다. 검색 시에는 text query도 같은 vector space로 임베딩해 가장 가까운 clip을 찾고, 결과 clip을 자동으로 trim한다. 핵심은 transcription이나 frame captioning 없이 raw video와 text를 직접 비교한다는 점이다.
- 작성자는 local 8B model이 Apple Silicon과 CUDA에서 실제로 쓸 만한 결과를 냈다고 밝혔다.
- 같은 글에서 8B model에는 약 18 GB RAM, 2B model에는 약 6 GB RAM이 필요하다고 적었다.
- README는 24 GB 이상 RAM을 가진 Mac에서는 Qwen 8B를, 더 작은 시스템에서는 Qwen 2B를 자동 선택한다고 설명한다.
README에는 구현 세부도 적지 않다. Video는 embedding 전에 480p와 5 fps로 downscale되고, chunk당 최대 32 frames만 샘플링된다. 또 768-dimensional representation을 유지해 ChromaDB 저장량과 similarity search 비용을 줄인다. backend와 model이 다르면 embedding이 호환되지 않기 때문에 index도 분리한다는 점은 운영 측면에서 중요하다.
왜 커뮤니티가 관심을 보였나
포인트는 단순히 “AI로 video를 검색한다”가 아니다. multimodal model이 raw video와 text query를 직접 비교할 수 있을 만큼 성숙해져, private footage나 offline workflow에도 바로 적용할 수 있다는 점이 핵심이다. LocalLLaMA 관점에서 보면 이 글은 Qwen3-VL을 chat demo가 아니라 실제 infrastructure component로 다루는 사례에 가깝다.
커뮤니티 출처는 Reddit thread, 1차 기술 출처는 SentrySearch repository다.
Related Articles
Show HN 이용자들이 SentrySearch에 주목한 이유는 Gemini Embedding 2의 네이티브 video embedding을 의미 검색과 클립 추출용 실전 CLI로 묶었기 때문이다.
r/LocalLLaMA의 llama.cpp 비교 글은 55 upvotes와 81 comments를 기록했다. RTX 5090, DGX Spark, AMD AI395, single과 dual R9700를 같은 parameter로 비교해 local inference hardware의 현실적인 trade-off를 보여줬다.
LocalLLaMA에서 이 글이 빠르게 올라온 이유는 Intel GPU 뉴스를 실제 local inference 사용자가 보는 지표, 즉 VRAM, bandwidth, software support, cost로 번역해냈기 때문이다.
Comments (0)
No comments yet. Be the first to comment!