LocalLLaMA가 주목한 SentrySearch... Qwen3-VL로 로컬 video semantic search 구현
Original: Semantic video search using local Qwen3-VL embedding, no API, no transcription View original →
2026년 3월 30일 r/LocalLLaMA에는 Qwen3-VL-Embedding을 이용한 실용적인 local multimodal workflow가 올라왔다. 2026년 3월 31일 기준 이 글은 301 points와 45 comments를 기록했고, 단순 demo보다 실제 tooling에 가까운 사례라는 점에서 반응이 좋았다.
프로젝트는 어떻게 동작하나
Reddit 글에서 작성자는 SentrySearch가 MP4 영상을 겹치는 chunk로 나누고, 각 chunk를 video embedding으로 변환한 뒤 ChromaDB에 저장한다고 설명했다. 검색 시에는 text query도 같은 vector space로 임베딩해 가장 가까운 clip을 찾고, 결과 clip을 자동으로 trim한다. 핵심은 transcription이나 frame captioning 없이 raw video와 text를 직접 비교한다는 점이다.
- 작성자는 local 8B model이 Apple Silicon과 CUDA에서 실제로 쓸 만한 결과를 냈다고 밝혔다.
- 같은 글에서 8B model에는 약 18 GB RAM, 2B model에는 약 6 GB RAM이 필요하다고 적었다.
- README는 24 GB 이상 RAM을 가진 Mac에서는 Qwen 8B를, 더 작은 시스템에서는 Qwen 2B를 자동 선택한다고 설명한다.
README에는 구현 세부도 적지 않다. Video는 embedding 전에 480p와 5 fps로 downscale되고, chunk당 최대 32 frames만 샘플링된다. 또 768-dimensional representation을 유지해 ChromaDB 저장량과 similarity search 비용을 줄인다. backend와 model이 다르면 embedding이 호환되지 않기 때문에 index도 분리한다는 점은 운영 측면에서 중요하다.
왜 커뮤니티가 관심을 보였나
포인트는 단순히 “AI로 video를 검색한다”가 아니다. multimodal model이 raw video와 text query를 직접 비교할 수 있을 만큼 성숙해져, private footage나 offline workflow에도 바로 적용할 수 있다는 점이 핵심이다. LocalLLaMA 관점에서 보면 이 글은 Qwen3-VL을 chat demo가 아니라 실제 infrastructure component로 다루는 사례에 가깝다.
커뮤니티 출처는 Reddit thread, 1차 기술 출처는 SentrySearch repository다.
Related Articles
2022년 12월부터 개발된 text-generation-webui가 'TextGen'이라는 이름으로 Windows·Linux·macOS를 지원하는 네이티브 데스크톱 앱으로 출시됐다. Electron 기반의 설치 불필요 앱으로, LM Studio와 동일한 방식이지만 완전 오픈소스다.
단종된 Intel Optane 영구 메모리를 중고 시장에서 구입해 768GB RAM 시스템을 구성하고, Kimi K2.5 1조 파라미터 모델을 로컬에서 초당 4토큰 이상으로 실행한 사례가 공개됐다.
LocalLLaMA에서 Qwen3.6 35B A3B 모델이 업무 워크플로우를 바꿨다는 경험담이 화제입니다. Codex로 작업을 수행하고 과정을 스킬 문서로 기록해 pi 에이전트에 공급하는 방식으로 VPS 관리, PDF 변환 등을 자동화했습니다.