Michael Hafftka、50年分の作品をHugging Faceデータセットとして公開
Original: I am a painter with work at MoMA and the Met. I just published 50 years of my work as an open AI dataset. Here is what I learned. View original →
r/artificialの投稿は、クロール時点で173ポイント、46コメントを集めていた。投稿者は画家Michael Hafftka本人とみられ、Metropolitan Museum of Art、MoMA、SFMOMA、British Museumなどに作品が収蔵されていると説明している。今回公開されたのは単なる画像集ではなく、ongoing catalog raisonne datasetとして整理されたHugging Face上のアーカイブだ。
Reddit投稿では、earlier this monthに全カタログを公開し、roughly 3,000 to 4,000 documented worksとfull metadataを含むと述べている。データセットカードはさらに具体的で、train splitに3,780 examples、対象期間は1970sから2025までと記載する。画像だけでなく、title、year、medium、dimensions、collection、copyright holder、license、viewといった項目も含まれており、単なるimage archive以上の検索・分析文脈を与える。
ライセンス条件と配布形態も重要だ。カードによればライセンスはCC-BY-NC-4.0で、attributionが必要かつcommercial useは不可。download sizeは約40.4 GB、dataset sizeは約53.1 GBとされている。Hafftkaは投稿の中で、公開後1週間で2,500 downloads以上があったと書き、AIが自分の仕事の未来に関わる以上、外から起きるのを待つのではなく、自分の条件で関わりたかったと説明している。
このデータセットが珍しいのは、single-artist consistency、長期の時系列、構造化metadataが同時に揃っている点だ。カードではLoRAやstyle modelの学習、image+metadata retrieval、computer vision研究、digital humanities、generative art実験などの用途を挙げている。美術史の側から見れば、一人の画家の変化を数十年スパンで追える。MLの側から見れば、多数の出所が混ざるdatasetよりも、比較的一貫したcorpusとして扱える。
- 規模: train splitで3,780 examples
- 期間: 1970s-2025
- ライセンス: CC-BY-NC-4.0
一方で、カードは限界も明示している。metadata completenessは時期によって差があり、古い作品ほどmediumやdimensionsが欠けることがある。画像品質も、何十年にもわたる異なる記録手法の影響で均一ではない。それでも、creator-led datasetが明示的な条件と豊富なmetadata付きでAIコミュニティに入ってきた事例として注目に値する。Reddit上の反応は、training dataの未来が単なる規模だけでなく、provenance、consent、そして作者の参加の仕方にも左右されることをよく示している。
Related Articles
Codexは開発支援から職種別workflowの表面へ広がっている。OpenAIは新pluginに62アプリと110スキルを束ね、Business・Enterprise向けSites previewも始めた。
Hugging FaceのエンジニアがMetaによる買収後に放置されたPapersWithCodeを復活させるプロジェクトを開始し、paperswithcode.coとして新サイトを立ち上げた。AIエージェントを活用した論文解析と自動リーダーボード生成が特徴だ。
GenCADは画像入力からパラメトリックCADコマンドシーケンスを生成するAIシステム。メッシュやボクセルではなくCADプログラム全体を出力するため、設計の完全な編集が可能。Autoregressive Transformer・対照学習・潜在拡散モデルを組み合わせた4コンポーネント構成。