DeepSeek 시각 토큰 추론, LocalLLaMA가 더 크게 반응한 건 아이디어와 삭제 타이밍
Original: DeepSeek released 'Thinking-with-Visual-Primitives' framework View original →
LocalLLaMA가 DeepSeek의 Thinking with Visual Primitives 글에 몰린 이유는 두 가지가 겹쳤기 때문이다. 아이디어 자체가 꽤 크다고 느껴졌고, 그다음 저장소가 너무 빨리 사라져 작은 보존 전쟁까지 붙었다.
Reddit 글이 설명한 핵심은 분명하다. DeepSeek가 베이징대와 칭화대 협업으로 내놓은 이 프레임워크는 이미지 추론을 자연어 설명에만 맡기지 않는다. 좌표 점과 바운딩 박스를 추론 사슬 안에 직접 끼워 넣어 공간 토큰으로 다룬다. 모델이 이미지를 보고 말만 길게 하는 게 아니라, 생각하는 중간에 어디를 가리키는지까지 구조화한다는 뜻이다. 멀티모달 모델이 자주 무너지는 지점이 바로 여기다. 사물을 둘러서 설명하다가 정작 필요한 위치를 놓친다. 이 접근은 그 틈을 정면으로 건드린다.
댓글 반응도 그 방향으로 모였다. 여러 사용자는 이런 방식이 최전선 연구실 안에서는 이미 쓰였을 법하지만, 오픈 모델 진영이 실제 구조를 들여다볼 기회는 드물었다고 봤다. 높은 추천을 받은 반응 중 하나는 점과 박스가 1급 추론 단위가 되면, 모델이 장황한 문장에 덜 기대고도 물체 위치, 개수, 관계 비교를 더 단단하게 처리할 수 있다고 짚었다. LocalLLaMA가 좋아하는 포인트도 딱 거기다. 멋진 홍보 문구보다 재현 가능한 구조 변화다.
여기에 저장소 비공개 전환이 기름을 부었다. 원글에는 DeepSeek가 공개 직후 저장소를 내렸다는 메모가 붙었고, 댓글창은 곧바로 미러 링크와 백업 경로를 돌리기 시작했다. 이 반응은 과장이 아니다. LocalLLaMA 같은 곳에서 삭제된 저장소는 단순한 희소성 이벤트가 아니다. 내부 경로 정리든 검수든 이유가 무엇이든, 지금 안 챙기면 자료가 닫힐 수 있다는 신호다.
그래서 이 글은 단순한 멀티모달 논문 소개를 넘었다. 커뮤니티는 시각 grounding을 모델의 실제 추론 고리 안으로 끌어넣는 드문 시도를 봤고, 동시에 그 창이 반쯤 닫히는 장면까지 실시간으로 지켜봤다.
Related Articles
Google DeepMind가 Gemini 3 research를 바탕으로 한 open model family Gemma 4를 공개했다. E2B·E4B는 edge device, 26B·31B는 consumer GPU 기반 local workflow를 겨냥하며 function calling, multimodal reasoning, 140개 언어 지원을 전면에 내세웠다.
HN은 이번 스레드를 단순한 모델 공개로 보지 않았다. API 문서보다 먼저 Hugging Face 가중치와 base 모델이 모습을 드러내자, 커뮤니티의 관심은 홍보보다 실물 검증으로 곧장 옮겨갔다.
LocalLLaMA가 반긴 건 또 하나의 성능표가 아니라, MoE 배관을 실제로 더 빠르게 돌릴 수 있는 공개 인프라였다. 댓글도 DeepSeek가 내부 성과를 묶어두지 않고 통신·커널 작업을 밖으로 내놓는 데 꽂혔다.
Comments (0)
No comments yet. Be the first to comment!