Hugging Face, Hub에 mutable ML artifact용 Storage Buckets 추가

Hugging Face는 2026년 3월 10일, Git 기반 model·dataset repository보다 더 유연한 저장 계층이 필요한 machine learning 팀을 위해 Storage Buckets를 공개했다. 이 제품이 겨냥하는 대상은 mutable artifact다. checkpoint, optimizer state, processed shard, log, trace처럼 training이나 pipeline 실행 중 계속 덮어쓰이는 중간 산출물이 대표적이다. Hugging Face는 이런 workload를 version control에 억지로 맞추기보다, Hub 안에 그대로 붙어 있는 non-versioned S3-like object storage를 제공하겠다는 방향을 택했다.

설계 목표는 실용성에 가깝다. Bucket은 public 또는 private으로 만들 수 있고, 기존 Hub permission을 그대로 따르며, 웹 페이지에서 내용을 확인할 수 있고, hf://buckets/username/my-training-bucket 같은 handle로 접근할 수 있다. Hugging Face는 많은 관련 파일을 cluster가 병렬로 쓰는 경우, data pipeline이 결과물을 반복적으로 덮어쓰는 경우, agent가 trace·memory·shared knowledge graph를 저장하는 경우에는 Git가 맞지 않는 추상화라고 본다. 즉 Buckets는 ML workflow의 빠르고 mutable한 작업 계층과, 최종 산출물을 올리는 curated versioned 계층을 분리하는 역할을 한다.

기술적으로 더 흥미로운 부분은 Buckets가 Hugging Face의 chunk-based backend인 Xet 위에 구축됐다는 점이다. Xet은 파일을 각각의 blob으로 저장하는 대신, 유사한 파일 사이의 반복 chunk를 deduplicate한다. 이는 successive checkpoint, raw·processed dataset, agent trace처럼 서로 겹치는 내용이 많은 ML artifact에서 특히 유리하다. Hugging Face는 deduplication 덕분에 bandwidth 사용량을 줄이고 transfer를 빠르게 하며, Enterprise 고객은 deduplicated storage 기준으로 과금되므로 billed footprint도 낮출 수 있다고 설명한다. 여기에 hot data를 compute 가까이 가져오는 pre-warming도 추가했으며, 시작 대상은 AWS와 GCP다. 분산 training이나 대규모 pipeline에서 cross-region data movement를 줄이려는 의도가 분명하다.

Hugging Face는 Buckets를 기존 workflow에 쉽게 넣을 수 있도록 인터페이스도 넓게 열어뒀다. hf CLI, Python의 huggingface_hub v1.5.0 이상, JavaScript의 @huggingface/hub v2.10.5 이상, 그리고 pandas·Polars·Dask 같은 fsspec 기반 도구가 접근할 수 있는 HfFileSystem까지 지원한다. 회사는 Buckets가 기존 storage plan 안에 포함된다고 밝혔고, launch partner로 Jasper, Arcee, IBM, PixAI를 언급했다. 종합하면 이번 발표는 Hub를 완성된 artifact를 올리는 publishing endpoint에 머무르게 하지 않고, AI 개발의 가장 복잡한 중간 단계까지 흡수하는 working storage layer로 확장하려는 시도로 읽힌다.

Hugging Face, Hub에 mutable ML artifact용 Storage Buckets 추가

Related Articles

GoodSeed, 로컬 SQLite와 Neptune migration을 앞세운 가벼운 ML experiment tracker를 제안하다

r/MachineLearning: TraceML, PyTorch training에 live step-level 가시성 제공

OpenAI, Promptfoo 인수 추진... Frontier에 agent security testing 통합

Comments (0)

Leave a Comment

Related Articles

GoodSeed, 로컬 SQLite와 Neptune migration을 앞세운 가벼운 ML experiment tracker를 제안하다
AI Reddit Mar 9, 2026 2 min read

r/MachineLearning: TraceML, PyTorch training에 live step-level 가시성 제공
AI Reddit Mar 9, 2026 1 min read

OpenAI, Promptfoo 인수 추진... Frontier에 agent security testing 통합