DeepSeekのvisual primitives、LocalLLaMAが沸いたのは仕組みと削除の速さ
Original: DeepSeek released 'Thinking-with-Visual-Primitives' framework View original →
LocalLLaMAがDeepSeekのThinking with Visual Primitivesに強く反応した理由は二つある。中身の発想がかなり大きく見えたこと、そしてその直後にリポジトリが消えて、軽い保存合戦まで始まったことだ。
Redditの投稿が説明していた核は明快だ。DeepSeekが北京大学、清華大学との協力で出したこの枠組みは、画像推論を自然言語だけに任せない。座標点とバウンディングボックスを推論チェーンの中へ直接差し込み、空間トークンとして扱う。つまりモデルは見えているものを文章で回りくどく説明するだけではなく、考えている最中にどこを指しているかを内部の単位として持てる。マルチモーダル系が崩れやすいのはまさにそこだ。対象の周辺を語るのに、肝心の位置合わせが甘くなる。この手法はそのズレを正面から詰めにいっている。
コメント欄が盛り上がったのもその点だった。いくつかの反応は、こうした仕組み自体は先端研究所の内部では珍しくないかもしれないが、オープンモデル側が具体的な形で覗ける機会は少ないと見ていた。高評価コメントでは、点やボックスが一級の推論単位になることで、モデルは曖昧な文章の足場に頼りすぎず、数え上げ、位置特定、複数対象の比較のような処理をもっと堅くできるのではないか、という読みが出ていた。LocalLLaMAが好むのは派手な宣伝文句ではなく、再現の余地がある構造変更だ。
そこへリポジトリの非公開化が重なった。元投稿には、公開されたリポジトリがすぐ消えたという注意書きがあり、コメント欄ではミラーのリンクが素早く回り始めた。こういう反応は大げさではない。LocalLLaMAのような場所では、消えたリポジトリは単なるレア物演出ではない。整理や見直しの前に、手元に残せるものは残しておこうという合図でもある。
だからこの話題は単なる論文紹介で終わらなかった。コミュニティは、視覚的なgroundingをモデルの推論ループそのものへ押し込む珍しい試みを見たうえで、その窓が半分閉まる場面までリアルタイムで見届けた。
Related Articles
DeepSeekはV4-Pro APIの75%割引を恒久価格に切り替え、LLM APIの価格競争を一段押し下げた。投稿画像では出力単価が100万トークンあたり$3.48から$0.87に下がる。
ローカルmultimodal AIの競争が12B級へ入った。Google GemmaはGemma 4 12BをApache 2.0で公開し、画像・音声・テキストを統合的に扱うencoder-free設計を示した。
MiniMax M3はベンチマーク投稿からオープンウェイト配布へ進んだ。モデルカードは約428Bパラメータ、23B有効パラメータ、1Mトークン文脈を示している。