LocalLLaMA가 주목한 SentrySearch... Qwen3-VL로 로컬 video semantic search 구현

2026년 3월 30일 r/LocalLLaMA에는 Qwen3-VL-Embedding을 이용한 실용적인 local multimodal workflow가 올라왔다. 2026년 3월 31일 기준 이 글은 301 points와 45 comments를 기록했고, 단순 demo보다 실제 tooling에 가까운 사례라는 점에서 반응이 좋았다.

프로젝트는 어떻게 동작하나

Reddit 글에서 작성자는 SentrySearch가 MP4 영상을 겹치는 chunk로 나누고, 각 chunk를 video embedding으로 변환한 뒤 ChromaDB에 저장한다고 설명했다. 검색 시에는 text query도 같은 vector space로 임베딩해 가장 가까운 clip을 찾고, 결과 clip을 자동으로 trim한다. 핵심은 transcription이나 frame captioning 없이 raw video와 text를 직접 비교한다는 점이다.

작성자는 local 8B model이 Apple Silicon과 CUDA에서 실제로 쓸 만한 결과를 냈다고 밝혔다.
같은 글에서 8B model에는 약 18 GB RAM, 2B model에는 약 6 GB RAM이 필요하다고 적었다.
README는 24 GB 이상 RAM을 가진 Mac에서는 Qwen 8B를, 더 작은 시스템에서는 Qwen 2B를 자동 선택한다고 설명한다.

README에는 구현 세부도 적지 않다. Video는 embedding 전에 480p와 5 fps로 downscale되고, chunk당 최대 32 frames만 샘플링된다. 또 768-dimensional representation을 유지해 ChromaDB 저장량과 similarity search 비용을 줄인다. backend와 model이 다르면 embedding이 호환되지 않기 때문에 index도 분리한다는 점은 운영 측면에서 중요하다.

왜 커뮤니티가 관심을 보였나

포인트는 단순히 “AI로 video를 검색한다”가 아니다. multimodal model이 raw video와 text query를 직접 비교할 수 있을 만큼 성숙해져, private footage나 offline workflow에도 바로 적용할 수 있다는 점이 핵심이다. LocalLLaMA 관점에서 보면 이 글은 Qwen3-VL을 chat demo가 아니라 실제 infrastructure component로 다루는 사례에 가깝다.

커뮤니티 출처는 Reddit thread, 1차 기술 출처는 SentrySearch repository다.

LocalLLaMA가 주목한 SentrySearch... Qwen3-VL로 로컬 video semantic search 구현

프로젝트는 어떻게 동작하나

왜 커뮤니티가 관심을 보였나

Related Articles

Hacker News가 주목한 Gemini Embedding 2 기반 실전형 영상 검색 CLI

RTX 5090부터 AMD AI395까지, LocalLLaMA 벤치마크가 보여준 현실적인 선택지

Intel Arc Pro B70, 32GB local inference의 새 sub-$1,000 기준점 될까

Comments (0)

Leave a Comment

Related Articles

Hacker News가 주목한 Gemini Embedding 2 기반 실전형 영상 검색 CLI

RTX 5090부터 AMD AI395까지, LocalLLaMA 벤치마크가 보여준 현실적인 선택지

Intel Arc Pro B70, 32GB local inference의 새 sub-$1,000 기준점 될까