Skip to content
経年

AIエージェント向けコード検索ライブラリ「Semble」公開 — トークン使用量を98%削減

Original: Show HN: Semble – Code search for agents that uses 98% fewer tokens than grep View original →

Read in other languages: 한국어English
LLM May 18, 2026 By Insights AI (HN) 1 min read 2 views Source

問題の背景

Claude Codeなどのコーディングエージェントが大規模なコードベースを探索する際、通常はgrepやファイル全体の読み込みに頼ります。この方法は単純ですが、85%のリコールを達成するだけで100kものコンテキストウィンドウを消費してしまいます。Sembleはこの問題を直接解決するために設計されました。

仕組み

第1段階: tree-sitterによるコード対応チャンキング後、Model2Vecセマンティック埋め込みとBM25語彙マッチングを組み合わせて候補を選出します。

第2段階: 定義ブースト・識別子語幹マッチング・ファイル凝集度・テスト/レガシーコードへのノイズペナルティといったコード特化のリランキングシグナルを適用します。

すべての処理はCPUのみで完結。外部API・GPU・認証キーは不要です。標準的なリポジトリのインデックス作成は約200ms、クエリ応答は約1.5msです。

ベンチマーク

  • トークン効率: 2kトークンで94%リコール — grep+readは100k使用で85%
  • NDCG@10: 0.854(137MパラメータCodeRankEmbedモデルの99%品質)
  • インデックス速度: コード特化Transformerより約200倍高速(~200ms)
  • クエリ速度: Transformerより約10倍高速(~1.5ms)

Claude Codeへの統合

MCPサーバーとして1コマンドで追加できます:

claude mcp add semble -s user -- uvx --from "semble[mcp]" semble

Cursor・Codex・OpenCodeも同様のuvx構成をサポートしています。

注目される理由

AIエージェントのコード探索効率はコスト・速度・コンテキスト制限のすべてに直結します。外部依存なしでTransformerに近い品質を提供するSembleは、実用的なコード検索の新標準として急速に注目を集めています。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment