DeepSeek 시각 토큰 추론, LocalLLaMA가 더 크게 반응한 건 아이디어와 삭제 타이밍
Original: DeepSeek released 'Thinking-with-Visual-Primitives' framework View original →
LocalLLaMA가 DeepSeek의 Thinking with Visual Primitives 글에 몰린 이유는 두 가지가 겹쳤기 때문이다. 아이디어 자체가 꽤 크다고 느껴졌고, 그다음 저장소가 너무 빨리 사라져 작은 보존 전쟁까지 붙었다.
Reddit 글이 설명한 핵심은 분명하다. DeepSeek가 베이징대와 칭화대 협업으로 내놓은 이 프레임워크는 이미지 추론을 자연어 설명에만 맡기지 않는다. 좌표 점과 바운딩 박스를 추론 사슬 안에 직접 끼워 넣어 공간 토큰으로 다룬다. 모델이 이미지를 보고 말만 길게 하는 게 아니라, 생각하는 중간에 어디를 가리키는지까지 구조화한다는 뜻이다. 멀티모달 모델이 자주 무너지는 지점이 바로 여기다. 사물을 둘러서 설명하다가 정작 필요한 위치를 놓친다. 이 접근은 그 틈을 정면으로 건드린다.
댓글 반응도 그 방향으로 모였다. 여러 사용자는 이런 방식이 최전선 연구실 안에서는 이미 쓰였을 법하지만, 오픈 모델 진영이 실제 구조를 들여다볼 기회는 드물었다고 봤다. 높은 추천을 받은 반응 중 하나는 점과 박스가 1급 추론 단위가 되면, 모델이 장황한 문장에 덜 기대고도 물체 위치, 개수, 관계 비교를 더 단단하게 처리할 수 있다고 짚었다. LocalLLaMA가 좋아하는 포인트도 딱 거기다. 멋진 홍보 문구보다 재현 가능한 구조 변화다.
여기에 저장소 비공개 전환이 기름을 부었다. 원글에는 DeepSeek가 공개 직후 저장소를 내렸다는 메모가 붙었고, 댓글창은 곧바로 미러 링크와 백업 경로를 돌리기 시작했다. 이 반응은 과장이 아니다. LocalLLaMA 같은 곳에서 삭제된 저장소는 단순한 희소성 이벤트가 아니다. 내부 경로 정리든 검수든 이유가 무엇이든, 지금 안 챙기면 자료가 닫힐 수 있다는 신호다.
그래서 이 글은 단순한 멀티모달 논문 소개를 넘었다. 커뮤니티는 시각 grounding을 모델의 실제 추론 고리 안으로 끌어넣는 드문 시도를 봤고, 동시에 그 창이 반쯤 닫히는 장면까지 실시간으로 지켜봤다.
Related Articles
로컬 멀티모달 모델 경쟁이 12B급으로 좁혀졌다. Google Gemma는 Gemma 4 12B를 Apache 2.0으로 공개하며 이미지·오디오 입력을 별도 인코더 없이 처리한다고 밝혔다.
DeepSeek가 V4-Pro API의 75% 할인 가격을 상시 요금으로 바꾸며 고성능 LLM API의 가격 압박을 키웠다. 이미지 기준 출력 단가는 100만 토큰당 $3.48에서 $0.87로 내려간다.
장문·멀티모달·코딩 성능을 앞세운 MiniMax M3가 오픈 웨이트 배포 단계에 들어갔다. 모델 카드는 약 428B 파라미터와 23B 활성 파라미터, 1M 컨텍스트를 명시한다.