Perplexity、Qwen SFT+RLでGPT factualityの検索費用曲線を上回る主張
Original: Perplexity said SFT and RL post-training let Qwen models match or beat GPT factuality at lower cost View original →
tweetが示したこと
Perplexityは最新のmodel workをchat styleではなくsearch qualityとして説明した。中心になるquoteは Our SFT + RL pipeline improves search, citation quality, instruction following, and efficiency. With Qwen models, we match or beat GPT models on factuality at a lower cost. だ。
Perplexity accountは、AI searchのproduct release、app update、research noteを投稿する公式チャネルである。このtweetが重要なのは、training recipe、evaluation target、比較対象を同時に示している点だ。supervised fine-tuningとreinforcement learningで調整したQwen modelsが、factualityとcostでGPT modelsと競うという主張である。
なぜ意味があるか
search-augmented assistantの失敗は、一般的なchat benchmarkでは見えにくい。回答は滑らかでもsourceが弱い、新しいdocumentを拾えない、安価で済むqueryに高価なmodelを使う、といった問題が起こる。Perplexityのclaimは、search behavior、citation quality、instruction following、efficiencyというproduction変数を同時に扱っている。
FxTwitter metadataで確認できる範囲では、このtweetにはpublic paper、repo、blog URLは付いておらず、media attachmentだけがある。したがって結果はPerplexityによるcompany-reported benchmarkとして扱うべきで、外部検証まではmethodを断定しない方がよい。それでもsignalは明確だ。Qwen系open modelsが、単なるcheap inference backendではなく、closed GPT-class systemsとfactuality layerで競うtrainable search modelとして位置づけられている。
buildersが次に見るべき点はmethodである。どのfactuality datasetか、citationはhuman reviewかautomatic checkか、改善はretrieval policy由来かanswer-model fine-tuning由来か。costもper query、per token、successful answer、latency targetのどれで測ったかが必要だ。technical write-up、model card、またはreal user trafficへのrouting変更が次の確認材料になる。
Source: X source tweet
Related Articles
r/LocalLLaMAが見ていたのは、Qwen3.6のrelease headlineではなく、どのGGUF quantを実機で使うべきかだった。Unslothのbenchmark postは、KLD、disk space、CUDA 13.2のgibberish問題、CUDA 13.1/13.3対応へ議論を引き寄せた。
Alibabaの4月22日のQwen3.6-Max-Preview postは、六つのcoding benchmarkでtop score、Qwen3.6-Plusからの改善を主張する。ただし重要な条件もある。これはopen-weight releaseではなく、hosted proprietary previewだ。
r/LocalLLaMAが反応したのは具体的な数字だ。RTX 5070 Tiで128K context、79 t/s、その鍵がllama.cppのflagに絞られた。
Comments (0)
No comments yet. Be the first to comment!