Hugging Face、Hubにmutable ML artifact向けStorage Bucketsを追加

Original: Introducing Storage Buckets on the Hugging Face Hub View original →

Read in other languages: 한국어English
AI Mar 15, 2026 By Insights AI 1 min read 1 views Source

Hugging Faceは2026年3月10日、Gitベースの model や dataset repository では扱いにくい中間artifactのために Storage Buckets を導入した。対象となるのは、checkpoint、optimizer state、processed shard、log、trace など、training や pipeline 実行中に頻繁に上書きされる mutable artifact だ。Hugging Faceは、こうした workload を version control に無理に合わせるのではなく、Hubにネイティブに存在する non-versioned S3-like object storage として扱うべきだと考えている。

設計思想は非常に実務的だ。Bucket は public または private に設定でき、標準の Hub permission を継承し、ブラウザで内容を確認でき、hf://buckets/username/my-training-bucket のような handle で programmatic に参照できる。Hugging Faceによれば、cluster が多数の関連ファイルを同時に書き込み、data pipeline が出力を何度も上書きし、agent が trace、memory、shared knowledge graph を残していくような production ML では、Git は適切な抽象ではなくなる。Buckets は、こうした高速で mutable な作業層を、最終成果物を公開する versioned repo 層から切り分けるための機能だ。

技術的な要点は、Buckets が Hugging Face の chunk-based backend である Xet の上に構築されていることだ。Xet はファイルを巨大な blob として扱うのではなく、似たファイル間で chunk を deduplicate する。これは successive checkpoint、raw と processed dataset、agent trace のように内容の重複が多い ML artifact では特に効く。Hugging Faceは、これにより bandwidth 使用量が減り、transfer が速くなり、Enterprise では deduplicated storage ベースの課金によって billed footprint も抑えられると説明する。さらに hot data を compute に近づける pre-warming も導入し、まず AWS と GCP から始めるとしている。distributed training や大規模 pipeline の cross-region data movement を減らす狙いが明確だ。

Hugging Faceは導入障壁も低くしようとしている。Buckets は hf CLI、Python の huggingface_hub v1.5.0 以降、JavaScript の @huggingface/hub v2.10.5 以降、そして pandas、Polars、Dask など fsspec 対応ツールから使える HfFileSystem を通じて利用できる。既存の storage plan に含まれ、launch partner として Jasper、Arcee、IBM、PixAI の名前も挙げられた。全体として今回の発表は、Hubを完成品の publishing endpoint にとどめず、AI開発の最も散らかった中間工程まで取り込む working storage layer へ広げる試みと見るのが妥当だ。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.