Hugging Face、HubにStorage Bucketsを導入 Xet基盤のS3型ML artifact保管層

Hugging Faceは2026年3月10日、Hub向けStorage Bucketsを発表した。これはmodel repoやdataset repoのようなversioned artifact配布用の場所ではなく、checkpoint、optimizer state、processed shard、log、traceなど、頻繁に変化するintermediate ML artifactを保存するためのmutableかつnon-versionedなobject storage層である。

なぜ別のstorage層が必要なのか

Hugging Faceは、Gitベースのrepoは最終成果物の公開には向いている一方で、何度も上書きされ複数jobから同時に書き込まれる高変動データには向かないと説明する。Storage Bucketはそのギャップを埋めるS3-like storageで、userまたはorganization namespace配下に置けて、hf://buckets/... 形式でprogrammatic accessもできる。

基盤にはHugging Faceのchunk-based backendであるXetが使われている。Hugging Faceによると、Xetはファイルをchunkに分割して重複部分をdeduplicateするため、似たdatasetやsuccessive checkpointのuploadで既存byteを再送せずに済む。これによりbandwidth削減、転送高速化、storage効率向上が見込めるという。Enterpriseでは課金もdeduplicated storage基準だ。

運用機能とworkflow統合

Storage BucketsはAWSとGCPを対象にpre-warmingも提供する。これはcomputeが動くcloud regionの近くへhot dataを前もって寄せる仕組みで、distributed trainingや大規模pipelineのthroughput改善を狙うものだ。さらにHugging Faceは、この機能をhf CLI、Pythonのhuggingface_hub、JavaScriptの@huggingface/hub、fsspec互換filesystemに接続している。

そのためBucketsは単なる一時保管先ではなく、training、data processing、agent trace保存、最終公開までをHub内でつなぐための基盤と位置づけられる。Hugging Faceは将来的にBucketとversioned repoの直接移動もサポートするとしており、working layerとpublishing layerを一つの流れにしたい考えだ。

なぜ重要か

今回の発表はインフラ寄りだが、Hugging Faceがmodel hostingを超えてML運用のstorage substrateまで広げようとしている点で戦略的な意味がある。特にagent trace、memory、shared knowledge graphを明示的に例示したことから、同社がLLM applicationの運用状態そのものをstorage課題として見ていることが分かる。Hubをすでに使うチームにとって、Bucketsが想定どおり機能すれば、artifactを外部object storageへ分散させる必要は減るかもしれない。

もっとも普及の速度は、大規模transfer性能、pre-warmingの実効性、そしてHub-native workflowが既存のGit repoと外部object storageの組み合わせより本当に単純かどうかに左右される。

Source: Hugging Face

Hugging Face、HubにStorage Bucketsを導入 Xet基盤のS3型ML artifact保管層

なぜ別のstorage層が必要なのか

運用機能とworkflow統合

なぜ重要か

Related Articles

Hugging Face、Hubにmutable ML artifact向けStorage Bucketsを追加

Anthropic、Series Gで$30B調達 post-money valuationは$380B

Michael Hafftka、50年分の作品をHugging Faceデータセットとして公開

Comments (0)

Leave a Comment

Related Articles

Hugging Face、Hubにmutable ML artifact向けStorage Bucketsを追加
AI Mar 15, 2026 1 min read

Anthropic、Series Gで$30B調達 post-money valuationは$380B

Michael Hafftka、50年分の作品をHugging Faceデータセットとして公開
r/artificialで話題になった投稿は、画家Michael Hafftkaが自身のcatalog raisonneをHugging Faceで公開したというものだ。データセットカードには約3,780作品、構造化metadata、CC-BY-NC-4.0 licenseが記載されている。