Skip to content
腐食中

Meta、in-silico neuroscience向け tri-modal foundation model「TRIBE v2」を公開

Original: Meta introduces TRIBE v2, a tri-modal foundation model for in-silico neuroscience View original →

Read in other languages: 한국어English
Sciences Mar 31, 2026 By Insights AI 1 min read 20 views Source

2026年3月26日、AI at MetaはXでTRIBE v2を公開し、sight、sound、languageに対するhuman brain responseを予測するfoundation modelだと説明した。併せて案内された paper pagedemo を見ると、Metaはこの研究を単なるbenchmark更新ではなく、in-silico neuroscienceのための再利用可能な計算レイヤーとして位置づけている。

規模感も大きい。X postでは、TRIBE v2が500+ hoursのfMRI recordingsと700+ peopleのデータに基づくと説明されている。一方、paper abstractではover 1,000 hours of fMRI across 720 subjectsと記されている。表現には差があるが、方向性は同じだ。個別の実験やtaskごとに別々のmodelを作るのではなく、多様なstimuli、tasks、subjectsをまたいで一般化できるtri-modal foundation modelを構築することが狙いになっている。

demo が説明する構成は3段階だ。まずpretrained audio、video、text embeddingsがstimulusを表現し、次にtransformerがmodalityとtaskを横断するuniversal representationを学習する。最後にsubject layerがその表現をindividual fMRI voxelsへ写像する。Metaは、TRIBE v2がwhole-brainで70,000 voxelsを予測し、TRIBE v1の1,000 cortical predictionsを大きく上回る精度と範囲を持つと説明する。さらにnew subjectsやnew stimuliに対するzero-shot predictionでstandard methods比2-3x improvementを示したとしている。

重要なのはaccuracyだけではない。paperはTRIBE v2が古典的なvisualやneuro-linguistic paradigmをin silicoで再現できると述べ、demoはmonthsかかるlab準備をsecondsのcomputationへ圧縮できる可能性を示している。つまりMetaはTRIBE v2を、experiment planning、hypothesis testing、multisensory brain organizationの探索を加速する研究基盤として提示している。

公開範囲の広さも目立つ。threadでは model weightscode、paper、demoがまとめて案内されている。これによりTRIBE v2は企業のresearch showcaseにとどまらず、外部研究者が検証し、再現し、拡張できるopen research assetになった。foundation modelの考え方がtextやimage generationを超えて、brain activity predictionそのものへ広がっている点で、TRIBE v2は今年のAI-for-scienceを語るうえで見逃しにくい発表だ。

Share: Long

Related Articles