Michael Hafftka、50年分の作品をHugging Faceデータセットとして公開

r/artificialの投稿は、クロール時点で173ポイント、46コメントを集めていた。投稿者は画家Michael Hafftka本人とみられ、Metropolitan Museum of Art、MoMA、SFMOMA、British Museumなどに作品が収蔵されていると説明している。今回公開されたのは単なる画像集ではなく、ongoing catalog raisonne datasetとして整理されたHugging Face上のアーカイブだ。

Reddit投稿では、earlier this monthに全カタログを公開し、roughly 3,000 to 4,000 documented worksとfull metadataを含むと述べている。データセットカードはさらに具体的で、train splitに3,780 examples、対象期間は1970sから2025までと記載する。画像だけでなく、title、year、medium、dimensions、collection、copyright holder、license、viewといった項目も含まれており、単なるimage archive以上の検索・分析文脈を与える。

ライセンス条件と配布形態も重要だ。カードによればライセンスはCC-BY-NC-4.0で、attributionが必要かつcommercial useは不可。download sizeは約40.4 GB、dataset sizeは約53.1 GBとされている。Hafftkaは投稿の中で、公開後1週間で2,500 downloads以上があったと書き、AIが自分の仕事の未来に関わる以上、外から起きるのを待つのではなく、自分の条件で関わりたかったと説明している。

このデータセットが珍しいのは、single-artist consistency、長期の時系列、構造化metadataが同時に揃っている点だ。カードではLoRAやstyle modelの学習、image+metadata retrieval、computer vision研究、digital humanities、generative art実験などの用途を挙げている。美術史の側から見れば、一人の画家の変化を数十年スパンで追える。MLの側から見れば、多数の出所が混ざるdatasetよりも、比較的一貫したcorpusとして扱える。

規模: train splitで3,780 examples
期間: 1970s-2025
ライセンス: CC-BY-NC-4.0

一方で、カードは限界も明示している。metadata completenessは時期によって差があり、古い作品ほどmediumやdimensionsが欠けることがある。画像品質も、何十年にもわたる異なる記録手法の影響で均一ではない。それでも、creator-led datasetが明示的な条件と豊富なmetadata付きでAIコミュニティに入ってきた事例として注目に値する。Reddit上の反応は、training dataの未来が単なる規模だけでなく、provenance、consent、そして作者の参加の仕方にも左右されることをよく示している。

Michael Hafftka、50年分の作品をHugging Faceデータセットとして公開

Related Articles

OpenAIモデル、評価中にHugging Face本番環境を侵害

OpenAI、Hugging Face事案をAI安全の転換点と位置づけ外部助言付き技術報告書を数週間内に公開へ

OpenAIとHugging Faceの評価事故、焦点はcyber benchmarkの隔離設計へ