Michael Hafftka, 50년 작업을 Hugging Face 데이터셋으로 공개
Original: I am a painter with work at MoMA and the Met. I just published 50 years of my work as an open AI dataset. Here is what I learned. View original →
r/artificial 게시물은 크롤링 시점 기준 173점과 46개 댓글을 기록했다. 글 작성자는 화가 Michael Hafftka 본인으로 보이며, Metropolitan Museum of Art, MoMA, SFMOMA, British Museum 등에 자신의 작품이 소장돼 있다고 소개한다. 그가 이번에 공개한 것은 단순 이미지 묶음이 아니라, 자신의 ongoing catalog raisonne를 기반으로 한 Hugging Face 데이터셋이다.
게시물에서 작성자는 earlier this month 전체 아카이브를 공개했고, roughly 3,000 to 4,000 documented works와 full metadata를 담았다고 설명한다. 데이터셋 카드에는 train split 기준 3,780 examples가 적혀 있으며, 작품 시기는 1970s부터 2025까지 이어진다. 이미지 외에도 title, year, medium, dimensions, collection, copyright_holder, license, view 같은 필드가 제공돼 단순 vision dataset보다 훨씬 풍부한 검색 및 분석 맥락을 준다.
라이선스는 CC-BY-NC-4.0이다. 즉 attribution이 필요하고 non-commercial 용도로 제한된다. 카드에는 download size가 약 40.4 GB, dataset size가 약 53.1 GB로 표시돼 있고, 이미지와 메타데이터를 함께 제공하는 형태다. 작성자는 게시 후 1주 만에 2,500 downloads 이상이 발생했다고 적으며, AI가 자신의 작업의 미래를 좌우할 것이기 때문에 수동적으로 기다리기보다 스스로 조건을 정해 참여하고 싶었다고 설명한다.
이 데이터셋이 흥미로운 이유는 "단일 작가, 장기 시계열, 구조화 메타데이터"라는 조합이 흔치 않기 때문이다. 카드가 제시한 활용 예시는 LoRA 또는 style models 학습, image+metadata retrieval(RAG), computer vision, digital humanities, generative art 실험 등이다. 미술사 관점에서는 수십 년에 걸친 작업 변화 추적이 가능하고, 모델링 관점에서는 동일 작가의 장기적 변주를 학습 자료로 삼을 수 있다.
- 규모: train split 3,780 examples
- 기간: 1970s-2025
- 라이선스: CC-BY-NC-4.0
다만 카드도 분명히 적고 있듯 metadata completeness는 시기별로 다르고, 과거 작품일수록 medium이나 dimensions 같은 정보가 비어 있을 수 있다. 이미지 품질 역시 수십 년간 다른 방식으로 기록된 자료라 균질하지 않다. 그럼에도 artist-led dataset이 AI 커뮤니티와 직접 만나는 방식으로 공개됐다는 점, 그리고 Reddit에서 빠르게 사용 사례를 묻는 대화가 붙었다는 점은 앞으로 creator-owned training data가 어떤 조건으로 공유될지 생각하게 만드는 사례다.
Related Articles
Vercel은 2026년 3월 12일 X에서 Notion Workers가 Vercel Sandbox 위에서 agent-capable code를 실행한다고 강조했다. Vercel 공식 글은 Workers가 third-party sync, automation, AI agent tool call을 담당하고, Sandbox가 isolation, credential management, network control, snapshots, active-CPU billing을 제공한다고 설명한다.
2026년 3월 17일 r/MachineLearning에 올라온 Clip to Grok 글은 크롤링 시점 기준 56점과 20개 댓글을 기록했다. 작성자들은 optimizer step마다 decoder weight row를 L2 clipping하는 방식으로 modular arithmetic benchmark에서 18배에서 66배 빠른 generalization을 얻었다고 주장한다.
2026년 3월 19일 Hacker News에 올라온 NanoGPT Slowrun 글은 크롤링 시점 기준 162점과 43개 댓글을 기록했다. Q Labs는 100M token으로 학습한 1.8B parameter ensemble이 통상 1B token이 필요한 baseline과 맞먹는 성능을 냈다고 주장한다.
Comments (0)
No comments yet. Be the first to comment!