Hacker Newsで注目されたGemini Embedding 2活用の実用動画検索CLI
Original: Show HN: Gemini can now natively embed video, so I built sub-second video search View original →
2026年3月24日のShow HNで紹介されたSentrySearchは、multimodal embeddingのかなり具体的な使い方として注目を集めた。ポイントは、映像を先にテキスト化せず、raw videoのまま意味検索できることにある。プロジェクトはその仕組みをdashcamやsecurity video向けのローカルCLIとしてまとめている。
リポジトリとHN投稿によると、このツールは映像を重なりのあるchunkに分割し、Gemini Embedding 2で各chunkをvideoのままembeddingし、そのベクトルをローカルのChromaDBに保存する。検索時にはnatural-language queryを同じembedding spaceで比較し、最も近い結果を元動画から自動でtrimしてclipとして書き出す。
- 検索前にtranscriptionやframe captioningを挟む必要がない。
- 標準設定は30秒chunkとoverlapで、still-frame skippingにより変化の少ない区間はembeddingを省ける。
- プロジェクトは標準設定で動画1時間あたり約2.50ドルのコストを見積もっており、駐車監視のように静止区間が多い映像ではさらに下がる可能性があるとしている。
このアプローチが面白いのは、多くのvideo searchツールが運用面で止まりやすいからだ。hosted productへの依存、重いvision stack、あるいは手作業のラベル付けが必要になることが多い。SentrySearchは代わりにGeminiのvideo embedding endpointを一つのinfrastructure primitiveとして扱い、Pythonとffmpeg、それにAPI keyがあればローカルで回せる形にしている。
もちろん制約も明示されている。chunk boundaryの都合でイベントが複数segmentにまたがると取りこぼしが起きうるし、still-frame detectionはheuristicであり、Gemini Embedding 2自体もpreview段階なので挙動や価格が変わる余地がある。それでもHNで評価されたのは、新しいモデル機能を単なるデモではなく、すぐ使えるworkflowへ落とした点だろう。
一次情報: SentrySearchリポジトリ。コミュニティ出典: Hacker Newsスレッド。
Related Articles
Google AI Studioは2026-03-12のX投稿でGemini Embedding 2を紹介し、Googleの2026-03-10ブログ記事はこのmodelがtext、images、video、audio、documentsを単一のembedding spaceへ写像すると説明している。GoogleはGemini APIとVertex AIでpublic preview提供中で、multimodal retrievalとclassificationを主な用途に挙げている。
Google DeepMindはXで、Gemini Embedding 2をGemini APIとVertex AIでpreview提供すると発表した。Gemini architectureベース初のfully multimodal embedding modelとして、text・image・video・audio・documentsを横断するretrieval基盤を狙う。
Hacker Newsで大きく議論されたGemini 3.1 Pro。GoogleはARC-AGI-2で77.1%を示し、開発者・企業・一般ユーザー向けにPreview展開を同時進行している。