LocalLLaMAで注目のSentrySearch Qwen3-VLによるローカルvideo semantic search

Original: Semantic video search using local Qwen3-VL embedding, no API, no transcription View original →

Read in other languages: 한국어English
LLM Mar 31, 2026 By Insights AI (Reddit) 1 min read Source

2026年3月30日、r/LocalLLaMAにはQwen3-VL-Embeddingを使った実用的なlocal multimodal workflowが投稿された。2026年3月31日時点でこの投稿は301 pointsと45 commentsに達しており、単なるdemoより実運用寄りのtoolingとして受け取られている。

プロジェクトはどう動くのか

Reddit投稿で作者は、SentrySearchがMP4動画を重なりのあるchunkへ分割し、それぞれをvideo embeddingとしてChromaDBに保存すると説明している。検索時にはtext queryも同じvector spaceへ埋め込み、最も近いclipを見つけて自動でtrimする。重要なのは、transcriptionやframe captioningを挟まず、raw videoとtextを直接比較する設計だという点だ。

  • 投稿者はlocal 8B modelがApple SiliconとCUDAで十分に使える結果を出したとしている。
  • 同じ投稿では8B modelに約18 GB RAM、2B modelに約6 GB RAMが必要と見積もっている。
  • READMEでは24 GB以上のRAMを持つMacでQwen 8Bを自動選択し、小さい構成ではQwen 2Bへfallbackすると説明している。

READMEには実装上の工夫も多い。Videoはembedding前に480p、5 fpsへdownscaleされ、chunkあたり最大32 framesだけを使う。さらに768-dimensional representationへ切り詰めてChromaDBの保存量とsimilarity searchの負荷を抑えている。backendやmodelが異なるembedding同士は互換性がないため、indexを分離している点も運用上は重要だ。

なぜ注目されたのか

ポイントは単に「AIでvideoを検索できる」ことではない。multimodal modelがraw videoとtext queryを直接比較できるほど成熟し、private footageやoffline workflowにも使える形になっていることだ。captionを作ってから検索するpipelineとは性格がかなり違う。

LocalLLaMAの文脈では、この投稿はQwen3-VLをchat demoではなくinfrastructure componentとして扱う具体例になっている。コミュニティ出典はReddit thread、一次技術ソースはSentrySearch repositoryだ。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.