#computer-vision

AI Hacker News May 18, 2026 1 min read

이미지 한 장으로 파라메트릭 CAD 모델 생성, GenCAD 공개

GenCAD는 이미지 입력으로부터 파라메트릭 CAD 명령 시퀀스를 생성하는 AI 시스템이다. Autoregressive Transformer, 대조 학습, 잠재 확산 모델을 결합해 3D 솔리드 모델과 함께 편집 가능한 CAD 프로그램 전체를 출력한다.

#gencad #generative-ai #cad

LLM Reddit May 1, 2026 1 min read

DeepSeek 시각 토큰 추론, LocalLLaMA가 더 크게 반응한 건 아이디어와 삭제 타이밍

LocalLLaMA가 크게 반응한 건 DeepSeek가 점과 박스를 추론 단위로 끌어올렸기 때문이다. 저장소가 곧바로 비공개로 바뀌면서 관심은 더 커졌다.

#deepseek #multimodal #visual-reasoning

AI Apr 23, 2026 1 min read

Vision Banana, 이미지 생성기를 범용 시각 모델로 바꾸는 전환점

이미지 생성 모델이 시각 이해의 중심으로 들어왔다. DeepMind는 Nano Banana Pro 기반 Vision Banana가 소규모 instruction tuning만으로 Segment Anything, Depth Anything 계열과 겨루며 여러 2D·3D 과제에서 state-of-the-art 성능을 냈다고 소개했다.

#google-deepmind #computer-vision #vision-banana

AI X/Twitter Mar 31, 2026 2 min read

Meta, object multiplexing을 적용한 SAM 3.1 공개로 multi-object video tracking 가속

Meta는 2026년 3월 27일 SAM 3.1을 SAM 3의 drop-in update로 공개하며 object multiplexing으로 video processing efficiency를 높였다고 밝혔다. 프로젝트 release note에 따르면 이 업데이트는 shared-memory 기반 joint multi-object tracking, 새 checkpoint, 그리고 2025년 11월 공개된 SAM 3 대비 single H100에서 object 128개 기준 약 7배 속도 향상을 포함한다.

#meta #sam3 #computer-vision

AI Mar 28, 2026 1 min read

Meta, SAM 3.1 공개... object multiplexing으로 single H100에서 32 FPS video tracking

Meta는 March 27, 2026 SAM 3.1을 공개하며 object multiplexing으로 single H100에서 medium-object-count video 기준 throughput을 16 FPS에서 32 FPS로 끌어올렸다고 밝혔다. 회사는 이를 SAM 3의 drop-in replacement로 소개했다.

#meta #computer-vision #video

Humanoid Robots Mar 23, 2026 2 min read

Google DeepMind, D4RT 공개… 4D scene reconstruction을 최대 300배 효율화

Google DeepMind는 2026년 1월 22일 D4RT를 공개하며 dynamic 4D scene reconstruction and tracking을 하나의 AI model로 통합했다. 회사는 이 모델이 기존 방법 대비 18배에서 300배 빠르고 robotics와 AR 같은 real-time use case에 적합하다고 설명했다.

#deepmind #robotics #computer-vision

AI Reddit Mar 22, 2026 1 min read

Michael Hafftka, 50년 작업을 Hugging Face 데이터셋으로 공개

r/artificial에서 주목받은 이 게시물은 화가 Michael Hafftka가 자신의 catalog raisonne를 Hugging Face 데이터셋으로 공개했다는 내용이다. 데이터셋 카드는 약 3,780개 작품과 구조화 메타데이터, CC-BY-NC-4.0 라이선스를 명시한다.

#datasets #computer-vision #art

Humanoid Robots Reddit Mar 19, 2026 2 min read

r/artificial: Pokémon Go 이미지 코퍼스가 sidewalk delivery robot localization에 쓰이기 시작했다

2026년 3월 16일 Popular Science 기사를 공유한 r/artificial 게시물은 590 points와 62 comments를 기록했다. 기사에 따르면 Niantic Spatial은 300억 장이 넘는 Pokémon Go 이미지를 기반으로 Visual Positioning System을 학습했고, 이제 Coco Robotics와 협력해 GPS가 불안정한 거리에서도 delivery robot가 centimeter-level precision으로 위치를 잡게 하려 한다.

#robotics #computer-vision #crowdsourcing

AI Hacker News Mar 10, 2026 2 min read

LoGeR, 1만9천 프레임까지 확장한 장문맥 3D 재구성 접근 제시

Hacker News에서 주목받은 LoGeR는 Google DeepMind와 UC Berkeley가 공개한 장문맥 3D 재구성 모델로, hybrid memory를 통해 후처리 최적화 없이 매우 긴 비디오를 다룬다고 설명한다.

#computer-vision #3d-reconstruction #long-context

AI Reddit Mar 7, 2026 1 min read

Reddit 프로젝트 체크: VeridisQuo, EfficientNet·FFT·DCT를 결합한 설명 가능한 deepfake 탐지기

r/MachineLearning에서 호응을 얻은 VeridisQuo는 spatial signal과 frequency-domain signal을 결합하고, 조작된 비디오 프레임 위에 GradCAM heatmap을 입히는 오픈소스 deepfake detector다. 단순 데모 영상이 아니라 구체적인 architecture와 training details를 공개했다는 점이 눈에 띈다.

#deepfake-detection #computer-vision #explainable-ai