DeepSeekのvisual primitives、LocalLLaMAが沸いたのは仕組みと削除の速さ
Original: DeepSeek released 'Thinking-with-Visual-Primitives' framework View original →
LocalLLaMAがDeepSeekのThinking with Visual Primitivesに強く反応した理由は二つある。中身の発想がかなり大きく見えたこと、そしてその直後にリポジトリが消えて、軽い保存合戦まで始まったことだ。
Redditの投稿が説明していた核は明快だ。DeepSeekが北京大学、清華大学との協力で出したこの枠組みは、画像推論を自然言語だけに任せない。座標点とバウンディングボックスを推論チェーンの中へ直接差し込み、空間トークンとして扱う。つまりモデルは見えているものを文章で回りくどく説明するだけではなく、考えている最中にどこを指しているかを内部の単位として持てる。マルチモーダル系が崩れやすいのはまさにそこだ。対象の周辺を語るのに、肝心の位置合わせが甘くなる。この手法はそのズレを正面から詰めにいっている。
コメント欄が盛り上がったのもその点だった。いくつかの反応は、こうした仕組み自体は先端研究所の内部では珍しくないかもしれないが、オープンモデル側が具体的な形で覗ける機会は少ないと見ていた。高評価コメントでは、点やボックスが一級の推論単位になることで、モデルは曖昧な文章の足場に頼りすぎず、数え上げ、位置特定、複数対象の比較のような処理をもっと堅くできるのではないか、という読みが出ていた。LocalLLaMAが好むのは派手な宣伝文句ではなく、再現の余地がある構造変更だ。
そこへリポジトリの非公開化が重なった。元投稿には、公開されたリポジトリがすぐ消えたという注意書きがあり、コメント欄ではミラーのリンクが素早く回り始めた。こういう反応は大げさではない。LocalLLaMAのような場所では、消えたリポジトリは単なるレア物演出ではない。整理や見直しの前に、手元に残せるものは残しておこうという合図でもある。
だからこの話題は単なる論文紹介で終わらなかった。コミュニティは、視覚的なgroundingをモデルの推論ループそのものへ押し込む珍しい試みを見たうえで、その窓が半分閉まる場面までリアルタイムで見届けた。
Related Articles
Google DeepMindはGemini 3 researchを基盤にしたopen model familyであるGemma 4を公開した。E2B・E4Bはedge device向け、26B・31Bはconsumer GPU前提のlocal workflow向けで、function calling、multimodal reasoning、140言語対応を前面に出している。
HNがDeepSeek V4に飛びついた理由はきれいな発表ページではなかった。表のリンクがAPI docsで、実際の重みとbaseモデルがすでにHugging Faceに並んでいたことが一気に火を付けた。
LocalLLaMAが盛り上がったのは、単なるベンチマーク更新ではなかった。公式スコアも強いが、本当の熱量はFP8やGGUF、VRAM適合の話がすぐ始まったことにあった。2026年4月25日時点でスレッドは1,688ポイント、603コメントだった。
Comments (0)
No comments yet. Be the first to comment!