Hacker Newsで注目されたGemini Embedding 2活用の実用動画検索CLI
Original: Show HN: Gemini can now natively embed video, so I built sub-second video search View original →
2026年3月24日のShow HNで紹介されたSentrySearchは、multimodal embeddingのかなり具体的な使い方として注目を集めた。ポイントは、映像を先にテキスト化せず、raw videoのまま意味検索できることにある。プロジェクトはその仕組みをdashcamやsecurity video向けのローカルCLIとしてまとめている。
リポジトリとHN投稿によると、このツールは映像を重なりのあるchunkに分割し、Gemini Embedding 2で各chunkをvideoのままembeddingし、そのベクトルをローカルのChromaDBに保存する。検索時にはnatural-language queryを同じembedding spaceで比較し、最も近い結果を元動画から自動でtrimしてclipとして書き出す。
- 検索前にtranscriptionやframe captioningを挟む必要がない。
- 標準設定は30秒chunkとoverlapで、still-frame skippingにより変化の少ない区間はembeddingを省ける。
- プロジェクトは標準設定で動画1時間あたり約2.50ドルのコストを見積もっており、駐車監視のように静止区間が多い映像ではさらに下がる可能性があるとしている。
このアプローチが面白いのは、多くのvideo searchツールが運用面で止まりやすいからだ。hosted productへの依存、重いvision stack、あるいは手作業のラベル付けが必要になることが多い。SentrySearchは代わりにGeminiのvideo embedding endpointを一つのinfrastructure primitiveとして扱い、Pythonとffmpeg、それにAPI keyがあればローカルで回せる形にしている。
もちろん制約も明示されている。chunk boundaryの都合でイベントが複数segmentにまたがると取りこぼしが起きうるし、still-frame detectionはheuristicであり、Gemini Embedding 2自体もpreview段階なので挙動や価格が変わる余地がある。それでもHNで評価されたのは、新しいモデル機能を単なるデモではなく、すぐ使えるworkflowへ落とした点だろう。
一次情報: SentrySearchリポジトリ。コミュニティ出典: Hacker Newsスレッド。
Related Articles
Google AI Studioは2026-03-19のX投稿で、vibe codingワークフローにmultiplayer協業、live data接続、persistent builds、さらにshadcn、Framer Motion、npm対応を追加したと明らかにした。今回の更新で、AI Studioはprompt中心の試作ツールからbrowserベースのapp-building環境へ一段近づいた。
Google AI Studioは2026-03-12のX投稿でGemini Embedding 2を紹介し、Googleの2026-03-10ブログ記事はこのmodelがtext、images、video、audio、documentsを単一のembedding spaceへ写像すると説明している。GoogleはGemini APIとVertex AIでpublic preview提供中で、multimodal retrievalとclassificationを主な用途に挙げている。
OpenAIは2026年3月11日、Responses APIにshell toolとhosted container workspaceを組み合わせたcomputer environment設計を詳説した。これによりagentはファイル操作、データ処理、network accessをより安全かつ再現性高く扱えるようになると同社は説明している。
Comments (0)
No comments yet. Be the first to comment!