Perplexity、`pplx-embed`を公開 INT8/Binaryでweb-scale retrievalを最適化
Original: Today we're releasing two embedding model families, pplx-embed-v1 and pplx-embed-context-v1. These SOTA embedding APIs are designed specifically for real-world, web-scale retrieval. https://t.co/fUUasIGhYX View original →
Xでの発表内容
Perplexityは2026-02-26、X投稿で pplx-embed-v1 と pplx-embed-context-v1 の公開を告知した。リンク先の技術記事では、今回のモデル群を汎用embeddingではなく、web-scale retrieval向け基盤として位置づけている。
モデル構成と運用効率
記事によると、両系列は 0.6B と 4B の2サイズ、32K contextを提供する。PerplexityはINT8およびbinary embeddingをネイティブ出力し、FP32比で保存コストをそれぞれ 4x と 32x 削減できると説明している。さらにinstruction prefix不要を打ち出しており、実運用のインデックス・クエリ整合性を取りやすい設計を示した。
性能主張と学習アプローチ
同社主張では、pplx-embed-v1-4B がMTEB Multilingual v2で69.66 nDCG@10、pplx-embed-context-v1-4B がConTEBで81.96 nDCG@10を達成した。内部評価としてPPLXQuery2Query、PPLXQuery2Docの結果も提示している。
学習手法は、diffusion-based continued pretrainingで双方向性を持たせ、段階的contrastive trainingとquantization-aware trainingを組み合わせる構成だ。数値はvendor-reportedだが、訓練方針と圧縮設計を詳細に示した点は検証可能性の観点で重要だ。
実務インパクト
RAGや検索基盤では、品質、速度、ストレージ密度を同時に満たすのが難しい。今回の主張が第三者検証でも再現されれば、大規模retrieval基盤のコスト効率を改善する余地がある。PerplexityはHugging Face(MIT License)とPerplexity APIの両方を提供し、self-hostedとmanagedの導入経路を用意している。
Primary sources: X post, Perplexity technical article, technical report.
Related Articles
Perplexityは自社APIスタックが、agent orchestration、リアルタイムsearch、embeddings、今後のsandboxまで含む単一プラットフォームになったと述べた。複数ベンダーを自前で束ねる負担を、より多くPerplexity側へ寄せる構成だ。
Hacker Newsで注目されたAmine Rajiのlocal ChromaDB実験は、RAGの安全性がpromptそのものよりもsource corpusの汚染とingestion検証に左右される可能性を示している。
Perplexityは2026年3月5日、XでProおよびMax加入者向けにGPT-5.4とGPT-5.4 Thinkingの提供開始を発表した。有料プランのモデル提供競争がさらに加速している。
Comments (0)
No comments yet. Be the first to comment!