GenCAD는 이미지 입력으로부터 파라메트릭 CAD 명령 시퀀스를 생성하는 AI 시스템이다. Autoregressive Transformer, 대조 학습, 잠재 확산 모델을 결합해 3D 솔리드 모델과 함께 편집 가능한 CAD 프로그램 전체를 출력한다.
#computer-vision
RSS FeedLocalLLaMA가 크게 반응한 건 DeepSeek가 점과 박스를 추론 단위로 끌어올렸기 때문이다. 저장소가 곧바로 비공개로 바뀌면서 관심은 더 커졌다.
이미지 생성 모델이 시각 이해의 중심으로 들어왔다. DeepMind는 Nano Banana Pro 기반 Vision Banana가 소규모 instruction tuning만으로 Segment Anything, Depth Anything 계열과 겨루며 여러 2D·3D 과제에서 state-of-the-art 성능을 냈다고 소개했다.
Meta는 2026년 3월 27일 SAM 3.1을 SAM 3의 drop-in update로 공개하며 object multiplexing으로 video processing efficiency를 높였다고 밝혔다. 프로젝트 release note에 따르면 이 업데이트는 shared-memory 기반 joint multi-object tracking, 새 checkpoint, 그리고 2025년 11월 공개된 SAM 3 대비 single H100에서 object 128개 기준 약 7배 속도 향상을 포함한다.
Meta는 March 27, 2026 SAM 3.1을 공개하며 object multiplexing으로 single H100에서 medium-object-count video 기준 throughput을 16 FPS에서 32 FPS로 끌어올렸다고 밝혔다. 회사는 이를 SAM 3의 drop-in replacement로 소개했다.
Google DeepMind는 2026년 1월 22일 D4RT를 공개하며 dynamic 4D scene reconstruction and tracking을 하나의 AI model로 통합했다. 회사는 이 모델이 기존 방법 대비 18배에서 300배 빠르고 robotics와 AR 같은 real-time use case에 적합하다고 설명했다.
r/artificial에서 주목받은 이 게시물은 화가 Michael Hafftka가 자신의 catalog raisonne를 Hugging Face 데이터셋으로 공개했다는 내용이다. 데이터셋 카드는 약 3,780개 작품과 구조화 메타데이터, CC-BY-NC-4.0 라이선스를 명시한다.
2026년 3월 16일 Popular Science 기사를 공유한 r/artificial 게시물은 590 points와 62 comments를 기록했다. 기사에 따르면 Niantic Spatial은 300억 장이 넘는 Pokémon Go 이미지를 기반으로 Visual Positioning System을 학습했고, 이제 Coco Robotics와 협력해 GPS가 불안정한 거리에서도 delivery robot가 centimeter-level precision으로 위치를 잡게 하려 한다.
Hacker News에서 주목받은 LoGeR는 Google DeepMind와 UC Berkeley가 공개한 장문맥 3D 재구성 모델로, hybrid memory를 통해 후처리 최적화 없이 매우 긴 비디오를 다룬다고 설명한다.
r/MachineLearning에서 호응을 얻은 VeridisQuo는 spatial signal과 frequency-domain signal을 결합하고, 조작된 비디오 프레임 위에 GradCAM heatmap을 입히는 오픈소스 deepfake detector다. 단순 데모 영상이 아니라 구체적인 architecture와 training details를 공개했다는 점이 눈에 띈다.