Michael Hafftka、50年分の作品をHugging Faceデータセットとして公開
Original: I am a painter with work at MoMA and the Met. I just published 50 years of my work as an open AI dataset. Here is what I learned. View original →
r/artificialの投稿は、クロール時点で173ポイント、46コメントを集めていた。投稿者は画家Michael Hafftka本人とみられ、Metropolitan Museum of Art、MoMA、SFMOMA、British Museumなどに作品が収蔵されていると説明している。今回公開されたのは単なる画像集ではなく、ongoing catalog raisonne datasetとして整理されたHugging Face上のアーカイブだ。
Reddit投稿では、earlier this monthに全カタログを公開し、roughly 3,000 to 4,000 documented worksとfull metadataを含むと述べている。データセットカードはさらに具体的で、train splitに3,780 examples、対象期間は1970sから2025までと記載する。画像だけでなく、title、year、medium、dimensions、collection、copyright holder、license、viewといった項目も含まれており、単なるimage archive以上の検索・分析文脈を与える。
ライセンス条件と配布形態も重要だ。カードによればライセンスはCC-BY-NC-4.0で、attributionが必要かつcommercial useは不可。download sizeは約40.4 GB、dataset sizeは約53.1 GBとされている。Hafftkaは投稿の中で、公開後1週間で2,500 downloads以上があったと書き、AIが自分の仕事の未来に関わる以上、外から起きるのを待つのではなく、自分の条件で関わりたかったと説明している。
このデータセットが珍しいのは、single-artist consistency、長期の時系列、構造化metadataが同時に揃っている点だ。カードではLoRAやstyle modelの学習、image+metadata retrieval、computer vision研究、digital humanities、generative art実験などの用途を挙げている。美術史の側から見れば、一人の画家の変化を数十年スパンで追える。MLの側から見れば、多数の出所が混ざるdatasetよりも、比較的一貫したcorpusとして扱える。
- 規模: train splitで3,780 examples
- 期間: 1970s-2025
- ライセンス: CC-BY-NC-4.0
一方で、カードは限界も明示している。metadata completenessは時期によって差があり、古い作品ほどmediumやdimensionsが欠けることがある。画像品質も、何十年にもわたる異なる記録手法の影響で均一ではない。それでも、creator-led datasetが明示的な条件と豊富なmetadata付きでAIコミュニティに入ってきた事例として注目に値する。Reddit上の反応は、training dataの未来が単なる規模だけでなく、provenance、consent、そして作者の参加の仕方にも左右されることをよく示している。
Related Articles
2026年3月17日にr/MachineLearningへ投稿されたClip to Grokスレッドは、クロール時点で56ポイントと20件のコメントを集めた。投稿者は、optimizer stepごとにdecoder weight rowをL2 clippingすることで、modular arithmetic benchmarkで18倍から66倍速いgeneralizationを得たと主張している。
2026年3月19日にHacker Newsへ投稿されたNanoGPT Slowrunスレッドは、クロール時点で162ポイントと43件のコメントを集めた。Q Labsは、100M tokenで学習した1.8B parameter ensembleが通常1B tokenを要するbaselineに匹敵したと主張している。
2026年3月17日のShow HNで、zerobootの投稿はクロール時点303 pointsと69 commentsを集めた。このプロジェクトはcopy-on-writeスナップショットforkにより、実際のKVM microVM隔離でp50 0.79 ms起動と約265 KBメモリを掲げている。
Comments (0)
No comments yet. Be the first to comment!