DeepSeek 시각 토큰 추론, LocalLLaMA가 더 크게 반응한 건 아이디어와 삭제 타이밍

Original: DeepSeek released 'Thinking-with-Visual-Primitives' framework View original →

Read in other languages: English日本語
LLM May 1, 2026 By Insights AI (Reddit) 1 min read 1 views Source

LocalLLaMA가 DeepSeek의 Thinking with Visual Primitives 글에 몰린 이유는 두 가지가 겹쳤기 때문이다. 아이디어 자체가 꽤 크다고 느껴졌고, 그다음 저장소가 너무 빨리 사라져 작은 보존 전쟁까지 붙었다.

Reddit 글이 설명한 핵심은 분명하다. DeepSeek가 베이징대와 칭화대 협업으로 내놓은 이 프레임워크는 이미지 추론을 자연어 설명에만 맡기지 않는다. 좌표 점과 바운딩 박스를 추론 사슬 안에 직접 끼워 넣어 공간 토큰으로 다룬다. 모델이 이미지를 보고 말만 길게 하는 게 아니라, 생각하는 중간에 어디를 가리키는지까지 구조화한다는 뜻이다. 멀티모달 모델이 자주 무너지는 지점이 바로 여기다. 사물을 둘러서 설명하다가 정작 필요한 위치를 놓친다. 이 접근은 그 틈을 정면으로 건드린다.

댓글 반응도 그 방향으로 모였다. 여러 사용자는 이런 방식이 최전선 연구실 안에서는 이미 쓰였을 법하지만, 오픈 모델 진영이 실제 구조를 들여다볼 기회는 드물었다고 봤다. 높은 추천을 받은 반응 중 하나는 점과 박스가 1급 추론 단위가 되면, 모델이 장황한 문장에 덜 기대고도 물체 위치, 개수, 관계 비교를 더 단단하게 처리할 수 있다고 짚었다. LocalLLaMA가 좋아하는 포인트도 딱 거기다. 멋진 홍보 문구보다 재현 가능한 구조 변화다.

여기에 저장소 비공개 전환이 기름을 부었다. 원글에는 DeepSeek가 공개 직후 저장소를 내렸다는 메모가 붙었고, 댓글창은 곧바로 미러 링크와 백업 경로를 돌리기 시작했다. 이 반응은 과장이 아니다. LocalLLaMA 같은 곳에서 삭제된 저장소는 단순한 희소성 이벤트가 아니다. 내부 경로 정리든 검수든 이유가 무엇이든, 지금 안 챙기면 자료가 닫힐 수 있다는 신호다.

그래서 이 글은 단순한 멀티모달 논문 소개를 넘었다. 커뮤니티는 시각 grounding을 모델의 실제 추론 고리 안으로 끌어넣는 드문 시도를 봤고, 동시에 그 창이 반쯤 닫히는 장면까지 실시간으로 지켜봤다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment