DeepSeekのvisual primitives、LocalLLaMAが沸いたのは仕組みと削除の速さ

LocalLLaMAがDeepSeekのThinking with Visual Primitivesに強く反応した理由は二つある。中身の発想がかなり大きく見えたこと、そしてその直後にリポジトリが消えて、軽い保存合戦まで始まったことだ。

Redditの投稿が説明していた核は明快だ。DeepSeekが北京大学、清華大学との協力で出したこの枠組みは、画像推論を自然言語だけに任せない。座標点とバウンディングボックスを推論チェーンの中へ直接差し込み、空間トークンとして扱う。つまりモデルは見えているものを文章で回りくどく説明するだけではなく、考えている最中にどこを指しているかを内部の単位として持てる。マルチモーダル系が崩れやすいのはまさにそこだ。対象の周辺を語るのに、肝心の位置合わせが甘くなる。この手法はそのズレを正面から詰めにいっている。

コメント欄が盛り上がったのもその点だった。いくつかの反応は、こうした仕組み自体は先端研究所の内部では珍しくないかもしれないが、オープンモデル側が具体的な形で覗ける機会は少ないと見ていた。高評価コメントでは、点やボックスが一級の推論単位になることで、モデルは曖昧な文章の足場に頼りすぎず、数え上げ、位置特定、複数対象の比較のような処理をもっと堅くできるのではないか、という読みが出ていた。LocalLLaMAが好むのは派手な宣伝文句ではなく、再現の余地がある構造変更だ。

そこへリポジトリの非公開化が重なった。元投稿には、公開されたリポジトリがすぐ消えたという注意書きがあり、コメント欄ではミラーのリンクが素早く回り始めた。こういう反応は大げさではない。LocalLLaMAのような場所では、消えたリポジトリは単なるレア物演出ではない。整理や見直しの前に、手元に残せるものは残しておこうという合図でもある。

だからこの話題は単なる論文紹介で終わらなかった。コミュニティは、視覚的なgroundingをモデルの推論ループそのものへ押し込む珍しい試みを見たうえで、その窓が半分閉まる場面までリアルタイムで見届けた。

DeepSeekのvisual primitives、LocalLLaMAが沸いたのは仕組みと削除の速さ

Related Articles

Google DeepMind、Gemma 4を公開　agentic workflowとmultimodal local AIを強化

DeepSeek V4でHN騒然、API docsより先に広がった重み公開

Qwen 3.6 27BでLocalLLaMAが沸いた理由、ただの新作ではなくdense復権感

Comments (0)

Leave a Comment

Related Articles

Google DeepMind、Gemma 4を公開　agentic workflowとmultimodal local AIを強化
LLM Hacker News Apr 2, 2026 1 min read

DeepSeek V4でHN騒然、API docsより先に広がった重み公開

Qwen 3.6 27BでLocalLLaMAが沸いた理由、ただの新作ではなくdense復権感
LocalLLaMAが盛り上がったのは、単なるベンチマーク更新ではなかった。公式スコアも強いが、本当の熱量はFP8やGGUF、VRAM適合の話がすぐ始まったことにあった。2026年4月25日時点でスレッドは1,688ポイント、603コメントだった。