GenCADは画像入力からパラメトリックCADコマンドシーケンスを生成するAIシステム。メッシュやボクセルではなくCADプログラム全体を出力するため、設計の完全な編集が可能。Autoregressive Transformer・対照学習・潜在拡散モデルを組み合わせた4コンポーネント構成。
#computer-vision
RSS FeedLocalLLaMAが強く反応したのは、DeepSeekが点とボックスを推論単位に持ち上げたからだ。直後にリポジトリが非公開になり、注目はさらに膨らんだ。
画像生成モデルが視覚理解の中心へ入ってきた。DeepMindはNano Banana ProベースのVision Bananaが、軽量なinstruction tuningだけでSegment Anything系やDepth Anything系と競り合い、複数の2D・3D課題でstate-of-the-artに達したと説明している。
Metaは2026年3月27日、SAM 3.1をSAM 3のdrop-in updateとして公開し、object multiplexingでvideo processing efficiencyを高めたと発表した。projectのrelease noteによれば、この更新はshared-memoryベースのjoint multi-object tracking、新checkpoint、そして2025年11月版SAM 3と比べてsingle H100で128 object時に約7倍の高速化を含む。
MetaはMarch 27, 2026にSAM 3.1を公開し、object multiplexingによってsingle H100上でmedium-object-count videoのthroughputを16 FPSから32 FPSへ引き上げたと説明した。MetaはこれをSAM 3のdrop-in replacementとして提供する。
r/artificialで話題になった投稿は、画家Michael Hafftkaが自身のcatalog raisonneをHugging Faceで公開したというものだ。データセットカードには約3,780作品、構造化metadata、CC-BY-NC-4.0 licenseが記載されている。
2026年3月16日、Popular Science記事を共有したr/artificial投稿は590 points、62 commentsに達した。記事によれば、Niantic Spatialは300億枚超のPokémon Go imageでVisual Positioning Systemを訓練し、いまはCoco Roboticsと組んで、GPSが不安定な街路でもdelivery robotがcentimeter-level precisionで自己位置推定できるようにしようとしている。
Hacker Newsで注目されたLoGeRは、Google DeepMindとUC Berkeleyによる長文脈3D再構成モデルで、hybrid memoryによって後処理最適化なしで非常に長い動画を扱うとする。
r/MachineLearningで支持を集めたVeridisQuoは、spatial signalとfrequency-domain signalを統合し、GradCAM heatmapを改変ビデオ上に重ねるオープンソースdeepfake detectorだ。単なるデモ映像ではなく、具体的なarchitectureとtraining detailsが共有されている点が特徴だ。
Google DeepMindはD4RTを公開し、動的シーンの4D reconstructionとtrackingを単一フレームワークに統合した。従来比で最大300xの効率改善を示し、roboticsやARでのリアルタイム活用可能性を示した。