LocalLLaMAで注目のSentrySearch Qwen3-VLによるローカルvideo semantic search

2026年3月30日、r/LocalLLaMAにはQwen3-VL-Embeddingを使った実用的なlocal multimodal workflowが投稿された。2026年3月31日時点でこの投稿は301 pointsと45 commentsに達しており、単なるdemoより実運用寄りのtoolingとして受け取られている。

プロジェクトはどう動くのか

Reddit投稿で作者は、SentrySearchがMP4動画を重なりのあるchunkへ分割し、それぞれをvideo embeddingとしてChromaDBに保存すると説明している。検索時にはtext queryも同じvector spaceへ埋め込み、最も近いclipを見つけて自動でtrimする。重要なのは、transcriptionやframe captioningを挟まず、raw videoとtextを直接比較する設計だという点だ。

投稿者はlocal 8B modelがApple SiliconとCUDAで十分に使える結果を出したとしている。
同じ投稿では8B modelに約18 GB RAM、2B modelに約6 GB RAMが必要と見積もっている。
READMEでは24 GB以上のRAMを持つMacでQwen 8Bを自動選択し、小さい構成ではQwen 2Bへfallbackすると説明している。

READMEには実装上の工夫も多い。Videoはembedding前に480p、5 fpsへdownscaleされ、chunkあたり最大32 framesだけを使う。さらに768-dimensional representationへ切り詰めてChromaDBの保存量とsimilarity searchの負荷を抑えている。backendやmodelが異なるembedding同士は互換性がないため、indexを分離している点も運用上は重要だ。

なぜ注目されたのか

ポイントは単に「AIでvideoを検索できる」ことではない。multimodal modelがraw videoとtext queryを直接比較できるほど成熟し、private footageやoffline workflowにも使える形になっていることだ。captionを作ってから検索するpipelineとは性格がかなり違う。

LocalLLaMAの文脈では、この投稿はQwen3-VLをchat demoではなくinfrastructure componentとして扱う具体例になっている。コミュニティ出典はReddit thread、一次技術ソースはSentrySearch repositoryだ。

LocalLLaMAで注目のSentrySearch Qwen3-VLによるローカルvideo semantic search

プロジェクトはどう動くのか

なぜ注目されたのか

Related Articles

TextGenがネイティブデスクトップアプリに進化——LM Studioのオープンソース対抗馬として再出発

製造終了のIntel OptaneメモリでローカルLLM(1兆パラメータ)を毎秒4トークンで動作

Nemotron 3 Ultra、550B MoEでエージェント推論5倍と30%コスト削減を提示