LocalLLaMAで注目のSentrySearch Qwen3-VLによるローカルvideo semantic search
Original: Semantic video search using local Qwen3-VL embedding, no API, no transcription View original →
2026年3月30日、r/LocalLLaMAにはQwen3-VL-Embeddingを使った実用的なlocal multimodal workflowが投稿された。2026年3月31日時点でこの投稿は301 pointsと45 commentsに達しており、単なるdemoより実運用寄りのtoolingとして受け取られている。
プロジェクトはどう動くのか
Reddit投稿で作者は、SentrySearchがMP4動画を重なりのあるchunkへ分割し、それぞれをvideo embeddingとしてChromaDBに保存すると説明している。検索時にはtext queryも同じvector spaceへ埋め込み、最も近いclipを見つけて自動でtrimする。重要なのは、transcriptionやframe captioningを挟まず、raw videoとtextを直接比較する設計だという点だ。
- 投稿者はlocal 8B modelがApple SiliconとCUDAで十分に使える結果を出したとしている。
- 同じ投稿では8B modelに約18 GB RAM、2B modelに約6 GB RAMが必要と見積もっている。
- READMEでは24 GB以上のRAMを持つMacでQwen 8Bを自動選択し、小さい構成ではQwen 2Bへfallbackすると説明している。
READMEには実装上の工夫も多い。Videoはembedding前に480p、5 fpsへdownscaleされ、chunkあたり最大32 framesだけを使う。さらに768-dimensional representationへ切り詰めてChromaDBの保存量とsimilarity searchの負荷を抑えている。backendやmodelが異なるembedding同士は互換性がないため、indexを分離している点も運用上は重要だ。
なぜ注目されたのか
ポイントは単に「AIでvideoを検索できる」ことではない。multimodal modelがraw videoとtext queryを直接比較できるほど成熟し、private footageやoffline workflowにも使える形になっていることだ。captionを作ってから検索するpipelineとは性格がかなり違う。
LocalLLaMAの文脈では、この投稿はQwen3-VLをchat demoではなくinfrastructure componentとして扱う具体例になっている。コミュニティ出典はReddit thread、一次技術ソースはSentrySearch repositoryだ。
Related Articles
Show HNでSentrySearchが注目されたのは、Gemini Embedding 2のネイティブなvideo embeddingを実用的な意味検索CLIとクリップ抽出に落とし込んだからだ。
r/LocalLLaMAのllama.cpp比較投稿は55 upvotes、81 commentsを集めた。RTX 5090、DGX Spark、AMD AI395、singleとdual R9700を同一条件で比較し、local inference hardwareの現実的なtrade-offを可視化している。
Andros Fenollosaの振り返りがHacker Newsで反応を集めたのは、production RAGをprompt demoではなくdataと運用の問題として描いたからだ。
Comments (0)
No comments yet. Be the first to comment!