#computer-vision

AI Hacker News May 18, 2026 1 min read

画像から編集可能なパラメトリックCADプログラムを生成するAI「GenCAD」公開

GenCADは画像入力からパラメトリックCADコマンドシーケンスを生成するAIシステム。メッシュやボクセルではなくCADプログラム全体を出力するため、設計の完全な編集が可能。Autoregressive Transformer・対照学習・潜在拡散モデルを組み合わせた4コンポーネント構成。

#gencad #generative-ai #cad

LLM Reddit May 1, 2026 1 min read

DeepSeekのvisual primitives、LocalLLaMAが沸いたのは仕組みと削除の速さ

LocalLLaMAが強く反応したのは、DeepSeekが点とボックスを推論単位に持ち上げたからだ。直後にリポジトリが非公開になり、注目はさらに膨らんだ。

#deepseek #multimodal #visual-reasoning

AI Apr 23, 2026 1 min read

Vision Banana、画像生成モデルを汎用ビジョン基盤へ押し上げる

画像生成モデルが視覚理解の中心へ入ってきた。DeepMindはNano Banana ProベースのVision Bananaが、軽量なinstruction tuningだけでSegment Anything系やDepth Anything系と競り合い、複数の2D・3D課題でstate-of-the-artに達したと説明している。

#google-deepmind #computer-vision #vision-banana

AI X/Twitter Mar 31, 2026 1 min read

Meta、object multiplexingを導入したSAM 3.1を公開、multi-object video trackingを高速化

Metaは2026年3月27日、SAM 3.1をSAM 3のdrop-in updateとして公開し、object multiplexingでvideo processing efficiencyを高めたと発表した。projectのrelease noteによれば、この更新はshared-memoryベースのjoint multi-object tracking、新checkpoint、そして2025年11月版SAM 3と比べてsingle H100で128 object時に約7倍の高速化を含む。

#meta #sam3 #computer-vision

AI Mar 28, 2026 1 min read

Meta、SAM 3.1公開　object multiplexingでsingle H100上32 FPSのvideo trackingへ

MetaはMarch 27, 2026にSAM 3.1を公開し、object multiplexingによってsingle H100上でmedium-object-count videoのthroughputを16 FPSから32 FPSへ引き上げたと説明した。MetaはこれをSAM 3のdrop-in replacementとして提供する。

#meta #computer-vision #video

AI Reddit Mar 22, 2026 1 min read

Michael Hafftka、50年分の作品をHugging Faceデータセットとして公開

r/artificialで話題になった投稿は、画家Michael Hafftkaが自身のcatalog raisonneをHugging Faceで公開したというものだ。データセットカードには約3,780作品、構造化metadata、CC-BY-NC-4.0 licenseが記載されている。

#datasets #computer-vision #art

Humanoid Robots Reddit Mar 19, 2026 1 min read

r/artificial: Pokémon Goのimage corpusがsidewalk delivery robotのlocalizationを支え始めた

2026年3月16日、Popular Science記事を共有したr/artificial投稿は590 points、62 commentsに達した。記事によれば、Niantic Spatialは300億枚超のPokémon Go imageでVisual Positioning Systemを訓練し、いまはCoco Roboticsと組んで、GPSが不安定な街路でもdelivery robotがcentimeter-level precisionで自己位置推定できるようにしようとしている。

#robotics #computer-vision #crowdsourcing

AI Hacker News Mar 10, 2026 1 min read

LoGeR、1万9千フレーム級まで伸ばす長文脈3D再構成を提案

Hacker Newsで注目されたLoGeRは、Google DeepMindとUC Berkeleyによる長文脈3D再構成モデルで、hybrid memoryによって後処理最適化なしで非常に長い動画を扱うとする。

#computer-vision #3d-reconstruction #long-context

AI Reddit Mar 7, 2026 1 min read

Redditプロジェクト観測: VeridisQuoがEfficientNet・FFT・DCTを組み合わせた説明可能なdeepfake検出器

r/MachineLearningで支持を集めたVeridisQuoは、spatial signalとfrequency-domain signalを統合し、GradCAM heatmapを改変ビデオ上に重ねるオープンソースdeepfake detectorだ。単なるデモ映像ではなく、具体的なarchitectureとtraining detailsが共有されている点が特徴だ。

#deepfake-detection #computer-vision #explainable-ai

AI Feb 16, 2026 1 min read

Google DeepMind、D4RTを発表: 2D動画から4Dシーン復元・追跡を単一モデルで統合

Google DeepMindはD4RTを公開し、動的シーンの4D reconstructionとtrackingを単一フレームワークに統合した。従来比で最大300xの効率改善を示し、roboticsやARでのリアルタイム活用可能性を示した。

#computer-vision #robotics #transformer