Hacker Newsで注目されたGemini Embedding 2活用の実用動画検索CLI

2026年3月24日のShow HNで紹介されたSentrySearchは、multimodal embeddingのかなり具体的な使い方として注目を集めた。ポイントは、映像を先にテキスト化せず、raw videoのまま意味検索できることにある。プロジェクトはその仕組みをdashcamやsecurity video向けのローカルCLIとしてまとめている。

リポジトリとHN投稿によると、このツールは映像を重なりのあるchunkに分割し、Gemini Embedding 2で各chunkをvideoのままembeddingし、そのベクトルをローカルのChromaDBに保存する。検索時にはnatural-language queryを同じembedding spaceで比較し、最も近い結果を元動画から自動でtrimしてclipとして書き出す。

検索前にtranscriptionやframe captioningを挟む必要がない。
標準設定は30秒chunkとoverlapで、still-frame skippingにより変化の少ない区間はembeddingを省ける。
プロジェクトは標準設定で動画1時間あたり約2.50ドルのコストを見積もっており、駐車監視のように静止区間が多い映像ではさらに下がる可能性があるとしている。

このアプローチが面白いのは、多くのvideo searchツールが運用面で止まりやすいからだ。hosted productへの依存、重いvision stack、あるいは手作業のラベル付けが必要になることが多い。SentrySearchは代わりにGeminiのvideo embedding endpointを一つのinfrastructure primitiveとして扱い、Pythonとffmpeg、それにAPI keyがあればローカルで回せる形にしている。

もちろん制約も明示されている。chunk boundaryの都合でイベントが複数segmentにまたがると取りこぼしが起きうるし、still-frame detectionはheuristicであり、Gemini Embedding 2自体もpreview段階なので挙動や価格が変わる余地がある。それでもHNで評価されたのは、新しいモデル機能を単なるデモではなく、すぐ使えるworkflowへ落とした点だろう。

一次情報: SentrySearchリポジトリ。コミュニティ出典: Hacker Newsスレッド。

Hacker Newsで注目されたGemini Embedding 2活用の実用動画検索CLI

Related Articles

Google AI Studio、multiplayerとpersistent buildsでvibe codingを拡張

Google、Gemini Embedding 2を公開テキスト・画像・音声・動画・文書を単一ベクトル空間へ

OpenAI、Responses APIにcomputer environmentを追加　shell・container・compactionでagent実行を強化

Comments (0)

Leave a Comment

Related Articles

Google AI Studio、multiplayerとpersistent buildsでvibe codingを拡張

Google、Gemini Embedding 2を公開テキスト・画像・音声・動画・文書を単一ベクトル空間へ

OpenAI、Responses APIにcomputer environmentを追加　shell・container・compactionでagent実行を強化