AIエージェント向けコード検索ライブラリ「Semble」公開

問題の背景

Claude Codeなどのコーディングエージェントが大規模なコードベースを探索する際、通常はgrepやファイル全体の読み込みに頼ります。この方法は単純ですが、85%のリコールを達成するだけで100kものコンテキストウィンドウを消費してしまいます。Sembleはこの問題を直接解決するために設計されました。

仕組み

第1段階： tree-sitterによるコード対応チャンキング後、Model2Vecセマンティック埋め込みとBM25語彙マッチングを組み合わせて候補を選出します。

第2段階： 定義ブースト・識別子語幹マッチング・ファイル凝集度・テスト/レガシーコードへのノイズペナルティといったコード特化のリランキングシグナルを適用します。

すべての処理はCPUのみで完結。外部API・GPU・認証キーは不要です。標準的なリポジトリのインデックス作成は約200ms、クエリ応答は約1.5msです。

ベンチマーク

トークン効率： 2kトークンで94%リコール — grep+readは100k使用で85%
NDCG@10： 0.854（137MパラメータCodeRankEmbedモデルの99%品質）
インデックス速度： コード特化Transformerより約200倍高速（~200ms）
クエリ速度： Transformerより約10倍高速（~1.5ms）

Claude Codeへの統合

MCPサーバーとして1コマンドで追加できます：

claude mcp add semble -s user -- uvx --from "semble[mcp]" semble

Cursor・Codex・OpenCodeも同様のuvx構成をサポートしています。

注目される理由

AIエージェントのコード探索効率はコスト・速度・コンテキスト制限のすべてに直結します。外部依存なしでTransformerに近い品質を提供するSembleは、実用的なコード検索の新標準として急速に注目を集めています。

AIエージェント向けコード検索ライブラリ「Semble」公開 — トークン使用量を98%削減

問題の背景

仕組み

ベンチマーク

Claude Codeへの統合

注目される理由

Related Articles

Databricks Omnigent、複数coding agentを1つのworkflowで運用制御

Hacker NewsでOpenCodeに注目、terminal・IDE・desktopを横断する open source AI coding agent

Hacker Newsが注目した Nanocode、約200ドルで Claude Code 風 model を訓練する JAX・TPU blueprint