Perplexity、Qwen SFT+RLでGPT factualityの検索費用曲線を上回る主張

tweetが示したこと

Perplexityは最新のmodel workをchat styleではなくsearch qualityとして説明した。中心になるquoteは Our SFT + RL pipeline improves search, citation quality, instruction following, and efficiency. With Qwen models, we match or beat GPT models on factuality at a lower cost. だ。

Perplexity accountは、AI searchのproduct release、app update、research noteを投稿する公式チャネルである。このtweetが重要なのは、training recipe、evaluation target、比較対象を同時に示している点だ。supervised fine-tuningとreinforcement learningで調整したQwen modelsが、factualityとcostでGPT modelsと競うという主張である。

なぜ意味があるか

search-augmented assistantの失敗は、一般的なchat benchmarkでは見えにくい。回答は滑らかでもsourceが弱い、新しいdocumentを拾えない、安価で済むqueryに高価なmodelを使う、といった問題が起こる。Perplexityのclaimは、search behavior、citation quality、instruction following、efficiencyというproduction変数を同時に扱っている。

FxTwitter metadataで確認できる範囲では、このtweetにはpublic paper、repo、blog URLは付いておらず、media attachmentだけがある。したがって結果はPerplexityによるcompany-reported benchmarkとして扱うべきで、外部検証まではmethodを断定しない方がよい。それでもsignalは明確だ。Qwen系open modelsが、単なるcheap inference backendではなく、closed GPT-class systemsとfactuality layerで競うtrainable search modelとして位置づけられている。

buildersが次に見るべき点はmethodである。どのfactuality datasetか、citationはhuman reviewかautomatic checkか、改善はretrieval policy由来かanswer-model fine-tuning由来か。costもper query、per token、successful answer、latency targetのどれで測ったかが必要だ。technical write-up、model card、またはreal user trafficへのrouting変更が次の確認材料になる。

Source: X source tweet

Perplexity、Qwen SFT+RLでGPT factualityの検索費用曲線を上回る主張

tweetが示したこと

なぜ意味があるか

Related Articles

Qwen3.6の熱気は、r/LocalLLaMAでGGUF運用チェックリストになった

Qwen3.6-Max-Preview、coding benchmark上位でもcloud-only

Qwen3.6を79 t/sにした投稿で、LocalLLaMAの主役は--n-cpu-moeになった

Comments (0)

Leave a Comment

Related Articles

Qwen3.6の熱気は、r/LocalLLaMAでGGUF運用チェックリストになった

Qwen3.6-Max-Preview、coding benchmark上位でもcloud-only

Qwen3.6を79 t/sにした投稿で、LocalLLaMAの主役は--n-cpu-moeになった
r/LocalLLaMAが反応したのは具体的な数字だ。RTX 5070 Tiで128K context、79 t/s、その鍵がllama.cppのflagに絞られた。