Meta、in-silico neuroscience向け tri-modal foundation model「TRIBE v2」を公開

2026年3月26日、AI at MetaはXでTRIBE v2を公開し、sight、sound、languageに対するhuman brain responseを予測するfoundation modelだと説明した。併せて案内された paper page と demo を見ると、Metaはこの研究を単なるbenchmark更新ではなく、in-silico neuroscienceのための再利用可能な計算レイヤーとして位置づけている。

規模感も大きい。X postでは、TRIBE v2が500+ hoursのfMRI recordingsと700+ peopleのデータに基づくと説明されている。一方、paper abstractではover 1,000 hours of fMRI across 720 subjectsと記されている。表現には差があるが、方向性は同じだ。個別の実験やtaskごとに別々のmodelを作るのではなく、多様なstimuli、tasks、subjectsをまたいで一般化できるtri-modal foundation modelを構築することが狙いになっている。

demo が説明する構成は3段階だ。まずpretrained audio、video、text embeddingsがstimulusを表現し、次にtransformerがmodalityとtaskを横断するuniversal representationを学習する。最後にsubject layerがその表現をindividual fMRI voxelsへ写像する。Metaは、TRIBE v2がwhole-brainで70,000 voxelsを予測し、TRIBE v1の1,000 cortical predictionsを大きく上回る精度と範囲を持つと説明する。さらにnew subjectsやnew stimuliに対するzero-shot predictionでstandard methods比2-3x improvementを示したとしている。

重要なのはaccuracyだけではない。paperはTRIBE v2が古典的なvisualやneuro-linguistic paradigmをin silicoで再現できると述べ、demoはmonthsかかるlab準備をsecondsのcomputationへ圧縮できる可能性を示している。つまりMetaはTRIBE v2を、experiment planning、hypothesis testing、multisensory brain organizationの探索を加速する研究基盤として提示している。

公開範囲の広さも目立つ。threadでは model weights、code、paper、demoがまとめて案内されている。これによりTRIBE v2は企業のresearch showcaseにとどまらず、外部研究者が検証し、再現し、拡張できるopen research assetになった。foundation modelの考え方がtextやimage generationを超えて、brain activity predictionそのものへ広がっている点で、TRIBE v2は今年のAI-for-scienceを語るうえで見逃しにくい発表だ。

Meta、in-silico neuroscience向け tri-modal foundation model「TRIBE v2」を公開

Related Articles

Meta、TRIBE v2公開　new subjects・languages・tasksへzero-shot generalizationするhigh-resolution fMRI model

AIが脳の言語反応を説明し、fMRIで検証するGCT

Meta Brain2Qwerty v2、手術なし脳信号で文復元61%へ

Related Articles

Meta、TRIBE v2公開 new subjects・languages・tasksへzero-shot generalizationするhigh-resolution fMRI model

AIが脳の言語反応を説明し、fMRIで検証するGCT

Meta Brain2Qwerty v2、手術なし脳信号で文復元61%へ

Meta、TRIBE v2公開　new subjects・languages・tasksへzero-shot generalizationするhigh-resolution fMRI model