LocalLLaMA가 주목한 SentrySearch... Qwen3-VL로 로컬 video semantic search 구현

Original: Semantic video search using local Qwen3-VL embedding, no API, no transcription View original →

Read in other languages: English日本語
LLM Mar 31, 2026 By Insights AI (Reddit) 1 min read Source

2026년 3월 30일 r/LocalLLaMA에는 Qwen3-VL-Embedding을 이용한 실용적인 local multimodal workflow가 올라왔다. 2026년 3월 31일 기준 이 글은 301 points와 45 comments를 기록했고, 단순 demo보다 실제 tooling에 가까운 사례라는 점에서 반응이 좋았다.

프로젝트는 어떻게 동작하나

Reddit 글에서 작성자는 SentrySearch가 MP4 영상을 겹치는 chunk로 나누고, 각 chunk를 video embedding으로 변환한 뒤 ChromaDB에 저장한다고 설명했다. 검색 시에는 text query도 같은 vector space로 임베딩해 가장 가까운 clip을 찾고, 결과 clip을 자동으로 trim한다. 핵심은 transcription이나 frame captioning 없이 raw video와 text를 직접 비교한다는 점이다.

  • 작성자는 local 8B model이 Apple Silicon과 CUDA에서 실제로 쓸 만한 결과를 냈다고 밝혔다.
  • 같은 글에서 8B model에는 약 18 GB RAM, 2B model에는 약 6 GB RAM이 필요하다고 적었다.
  • README는 24 GB 이상 RAM을 가진 Mac에서는 Qwen 8B를, 더 작은 시스템에서는 Qwen 2B를 자동 선택한다고 설명한다.

README에는 구현 세부도 적지 않다. Video는 embedding 전에 480p와 5 fps로 downscale되고, chunk당 최대 32 frames만 샘플링된다. 또 768-dimensional representation을 유지해 ChromaDB 저장량과 similarity search 비용을 줄인다. backend와 model이 다르면 embedding이 호환되지 않기 때문에 index도 분리한다는 점은 운영 측면에서 중요하다.

왜 커뮤니티가 관심을 보였나

포인트는 단순히 “AI로 video를 검색한다”가 아니다. multimodal model이 raw video와 text query를 직접 비교할 수 있을 만큼 성숙해져, private footage나 offline workflow에도 바로 적용할 수 있다는 점이 핵심이다. LocalLLaMA 관점에서 보면 이 글은 Qwen3-VL을 chat demo가 아니라 실제 infrastructure component로 다루는 사례에 가깝다.

커뮤니티 출처는 Reddit thread, 1차 기술 출처는 SentrySearch repository다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.