LocalLLaMAで注目のSentrySearch Qwen3-VLによるローカルvideo semantic search
Original: Semantic video search using local Qwen3-VL embedding, no API, no transcription View original →
2026年3月30日、r/LocalLLaMAにはQwen3-VL-Embeddingを使った実用的なlocal multimodal workflowが投稿された。2026年3月31日時点でこの投稿は301 pointsと45 commentsに達しており、単なるdemoより実運用寄りのtoolingとして受け取られている。
プロジェクトはどう動くのか
Reddit投稿で作者は、SentrySearchがMP4動画を重なりのあるchunkへ分割し、それぞれをvideo embeddingとしてChromaDBに保存すると説明している。検索時にはtext queryも同じvector spaceへ埋め込み、最も近いclipを見つけて自動でtrimする。重要なのは、transcriptionやframe captioningを挟まず、raw videoとtextを直接比較する設計だという点だ。
- 投稿者はlocal 8B modelがApple SiliconとCUDAで十分に使える結果を出したとしている。
- 同じ投稿では8B modelに約18 GB RAM、2B modelに約6 GB RAMが必要と見積もっている。
- READMEでは24 GB以上のRAMを持つMacでQwen 8Bを自動選択し、小さい構成ではQwen 2Bへfallbackすると説明している。
READMEには実装上の工夫も多い。Videoはembedding前に480p、5 fpsへdownscaleされ、chunkあたり最大32 framesだけを使う。さらに768-dimensional representationへ切り詰めてChromaDBの保存量とsimilarity searchの負荷を抑えている。backendやmodelが異なるembedding同士は互換性がないため、indexを分離している点も運用上は重要だ。
なぜ注目されたのか
ポイントは単に「AIでvideoを検索できる」ことではない。multimodal modelがraw videoとtext queryを直接比較できるほど成熟し、private footageやoffline workflowにも使える形になっていることだ。captionを作ってから検索するpipelineとは性格がかなり違う。
LocalLLaMAの文脈では、この投稿はQwen3-VLをchat demoではなくinfrastructure componentとして扱う具体例になっている。コミュニティ出典はReddit thread、一次技術ソースはSentrySearch repositoryだ。
Related Articles
text-generation-webuiが「TextGen」に改名し、Windows・Linux・macOS対応のインストール不要なネイティブデスクトップアプリとして生まれ変わった。LM Studioと同様のElectron構成だが、完全オープンソースという点が大きな違い。
r/LocalLLaMAのユーザーが、製造終了したIntel Optane PMem(768GB)を中古市場で安価に入手し、Kimi K2.5(1兆パラメータ)をローカルで毎秒4トークン以上で動作させることに成功した。
オープンモデル競争は順位表だけでなく、長時間エージェントの運用コストへ移っている。NVIDIAはNemotron 3 Ultraについて、5倍高速な推論と最大30%低い複雑タスク費用を示した。