Hacker News가 주목한 Gemini Embedding 2 기반 실전형 영상 검색 CLI

2026년 3월 24일 Show HN에 올라온 SentrySearch는 multimodal embedding의 드문 실전 사례로 관심을 모았다. 핵심은 영상을 먼저 텍스트로 바꾸지 않고도 raw video 자체를 의미적으로 검색할 수 있다는 점이다. 프로젝트는 이 기능을 dashcam과 security video를 위한 로컬 CLI 형태로 제공한다.

저장소 설명과 HN 글에 따르면, 이 도구는 영상을 겹치는 chunk로 나눈 뒤 Gemini Embedding 2로 각 chunk를 video 그대로 embedding하고, 그 벡터를 로컬 ChromaDB 인덱스에 저장한다. 이후 natural-language query를 같은 embedding space에서 비교해 가장 잘 맞는 구간을 찾고, 해당 구간을 자동으로 잘라 clip으로 저장한다.

검색 전에 transcription이나 frame captioning 단계를 거칠 필요가 없다.
기본 설정은 30초 chunk와 overlap이며, still-frame skipping으로 오랫동안 변화가 없는 구간은 embedding을 건너뛸 수 있다.
프로젝트는 기본 설정 기준으로 영상 1시간당 약 2.50달러 비용을 제시하며, 주차 영상처럼 정지 구간이 많으면 실제 비용은 더 내려갈 수 있다고 설명한다.

이 접근이 흥미로운 이유는 많은 video search 프로젝트가 운영 단계에서 막히기 때문이다. hosted product에 의존하거나, 무거운 vision stack이 필요하거나, 사람이 직접 label을 붙여야 하는 경우가 많다. 반면 SentrySearch는 Gemini의 video embedding endpoint를 하나의 인프라 primitive처럼 다루고, Python, ffmpeg, API key만 있으면 로컬에서 실행 가능한 형태로 감쌌다.

물론 한계도 명확하다. chunk boundary 때문에 사건이 여러 segment에 걸치면 놓칠 수 있고, still-frame detection은 heuristic이며, Gemini Embedding 2 자체도 아직 preview라서 동작과 가격이 바뀔 수 있다. 그럼에도 HN에서 반응이 나온 이유는 새로운 모델 기능을 데모 수준이 아니라 바로 써볼 수 있는 workflow로 바꿔냈기 때문이다.

원문: SentrySearch 저장소. 커뮤니티 출처: Hacker News 토론.

Hacker News가 주목한 Gemini Embedding 2 기반 실전형 영상 검색 CLI

Related Articles

Google, 첫 네이티브 멀티모달 embedding 모델 Gemini Embedding 2 preview 공개

Google AI Studio, multiplayer와 persistent builds로 vibe coding 확장

Google DeepMind, Gemini Embedding 2 preview 공개로 multimodal retrieval 확장

Related Articles

Google, 첫 네이티브 멀티모달 embedding 모델 Gemini Embedding 2 preview 공개
LLM Mar 13, 2026 1 min read

Google AI Studio, multiplayer와 persistent builds로 vibe coding 확장
LLM X/Twitter Mar 22, 2026 1 min read

Google DeepMind, Gemini Embedding 2 preview 공개로 multimodal retrieval 확장
LLM X/Twitter Mar 17, 2026 1 min read