NVIDIA韓国persona dataset、7M synthetic profilesでagentを現地化

NVIDIAの新しい韓国datasetは、agent localizationが英語promptを韓国語に置き換えるだけでは足りないことを示している。4月21日にHugging Faceで公開されたNemotron-Personas-Koreaは、training、evaluation、system-prompt groundingに使えるsynthetic Korean personasを構造化して提供する。

原文は、多くのAI agentsが主にEnglish web dataで学習され、Korean honorifics、地域ごとの職業パターン、local institutional contextを見落としやすいと指摘する。これは高リスクworkflowでは大きな問題だ。Korean public health systemを扱うassistantが米国式の予約手順を前提にしたり、60歳の患者にbanmalを使ったりすれば、単に不自然なだけでは済まない。

dataset tableはtotal personasを7 millionと記載している。1 million recordsに7つのpersona variantsを付けた構造だ。Fieldsは26個で、persona fields、attributes、demographic and geographic context、unique identifierを含む。Coverageは韓国17のprovinceと25 districtsに及ぶ。NVIDIAは約209,000 unique names、118 surnames、約21,400 given names、technology、manufacturing、public sectorなどを反映する2,000超のoccupation categoriesも示している。LicenseはCC BY 4.0だ。

技術的に重要なのは生成方法である。NVIDIAによると、Nemotron-Personas-Koreaはsynthetic data向けのopen-source compound AI systemであるNeMo Data Designerで生成された。Pipelineは、statistical groundingのためのApache-2.0 probabilistic graphical modelと、Korean-language narrative generationのためのGemma-4-31Bを組み合わせる。Population dataはKOSISの2020-2026 releases、name distributionsはSupreme Court of Koreaから来ている。NAVER Cloudは設計段階でseed dataとdomain expertiseを提供した。

Agent buildersにとって、使い道は実務的だ。Developerはoccupation、region、age、life stageでpersonaをfilterし、選んだpersonaをsystem promptへ入れてagent behaviorを調整できる。NVIDIAの例では、Korean public-health personaを使い、formal Koreanで応答し、local public-health policyに沿い、generic clinicではなく보건소を参照するassistantを作っている。

大きなsignalは、sovereign AIがmodel weightsだけでなくdatasetとevaluation scaffoldの問題になってきたことだ。Modelは流暢な韓国語を出しながら、人々がどう暮らし、働き、助けを求めるかを誤解し得る。Synthetic personasだけで解決はしないが、7 million規模のKorean corpusは、buildersがaudit、adaptation、comparisonを始めるための具体的な層になる。出典: NVIDIA on Hugging Face.

NVIDIA韓国persona dataset、7M synthetic profilesでagentを現地化

Related Articles

NVIDIA Vera、agent loop向けCPUでx86比1.8倍のper-core性能

Cosmos 3 Edge、4B世界モデルでphysical AIをedgeへ寄せる

OpenAI Presence、企業の音声・チャット業務に管理型agentを投入