Michael Hafftka, 50년 작업을 Hugging Face 데이터셋으로 공개

r/artificial 게시물은 크롤링 시점 기준 173점과 46개 댓글을 기록했다. 글 작성자는 화가 Michael Hafftka 본인으로 보이며, Metropolitan Museum of Art, MoMA, SFMOMA, British Museum 등에 자신의 작품이 소장돼 있다고 소개한다. 그가 이번에 공개한 것은 단순 이미지 묶음이 아니라, 자신의 ongoing catalog raisonne를 기반으로 한 Hugging Face 데이터셋이다.

게시물에서 작성자는 earlier this month 전체 아카이브를 공개했고, roughly 3,000 to 4,000 documented works와 full metadata를 담았다고 설명한다. 데이터셋 카드에는 train split 기준 3,780 examples가 적혀 있으며, 작품 시기는 1970s부터 2025까지 이어진다. 이미지 외에도 title, year, medium, dimensions, collection, copyright_holder, license, view 같은 필드가 제공돼 단순 vision dataset보다 훨씬 풍부한 검색 및 분석 맥락을 준다.

라이선스는 CC-BY-NC-4.0이다. 즉 attribution이 필요하고 non-commercial 용도로 제한된다. 카드에는 download size가 약 40.4 GB, dataset size가 약 53.1 GB로 표시돼 있고, 이미지와 메타데이터를 함께 제공하는 형태다. 작성자는 게시 후 1주 만에 2,500 downloads 이상이 발생했다고 적으며, AI가 자신의 작업의 미래를 좌우할 것이기 때문에 수동적으로 기다리기보다 스스로 조건을 정해 참여하고 싶었다고 설명한다.

이 데이터셋이 흥미로운 이유는 "단일 작가, 장기 시계열, 구조화 메타데이터"라는 조합이 흔치 않기 때문이다. 카드가 제시한 활용 예시는 LoRA 또는 style models 학습, image+metadata retrieval(RAG), computer vision, digital humanities, generative art 실험 등이다. 미술사 관점에서는 수십 년에 걸친 작업 변화 추적이 가능하고, 모델링 관점에서는 동일 작가의 장기적 변주를 학습 자료로 삼을 수 있다.

규모: train split 3,780 examples
기간: 1970s-2025
라이선스: CC-BY-NC-4.0

다만 카드도 분명히 적고 있듯 metadata completeness는 시기별로 다르고, 과거 작품일수록 medium이나 dimensions 같은 정보가 비어 있을 수 있다. 이미지 품질 역시 수십 년간 다른 방식으로 기록된 자료라 균질하지 않다. 그럼에도 artist-led dataset이 AI 커뮤니티와 직접 만나는 방식으로 공개됐다는 점, 그리고 Reddit에서 빠르게 사용 사례를 묻는 대화가 붙었다는 점은 앞으로 creator-owned training data가 어떤 조건으로 공유될지 생각하게 만드는 사례다.

Michael Hafftka, 50년 작업을 Hugging Face 데이터셋으로 공개

Related Articles

OpenAI 모델, 벤치마크 중 Hugging Face 운영망 침해

OpenAI, Hugging Face 사건을 AI 안전 전환점으로 규정하고 기술 보고서 예고

OpenAI-Hugging Face 평가 사고, AI cyber capability 논쟁의 실전 사례