摘要
1) 一句话总结 NTT DATA 通过引入 NVIDIA 的开源合成数据集(Nemotron-Personas-Japan),成功破解了日本 AI 开发中的本土化数据短缺难题,在保障数据隐私的同时实现了模型准确率的大幅提升与训练成本的降低。
2) 核心要点
- 突破数据壁垒: 针对日本 AI 开发中缺乏本土文化和特定任务数据的痛点,NTT DATA 验证了合成数据在实际业务规模中的有效性。
- 关键数据集: 实验使用了 NVIDIA 首个开源合成数据集
Nemotron-Personas-Japan,包含600万个基于日本人口统计、地理和文化特征的画像。 - 性能显著提升: 在法律问答任务中,仅提取450条原始种子样本,便生成了超过13.8万条合成训练数据(扩大300倍)。这使基础模型(tsuzumi 2)的准确率从 15.3% 跃升至 79.3%,并消除了模型“幻觉”。
- 降低计算成本: 实验发现,只要有充足的合成数据用于监督微调(SFT),即可省略耗费大量算力的持续预训练(CPT)环节,从而缩短开发周期并降低成本。
- 隐私增强技术(PET): 合成数据不包含个人身份信息(PII),使企业能够在满足数据最小化和合规审计要求的前提下,安全地利用内部数据模式。
- 推动主权 AI 与数据共享: 该方法有助于构建不偏向欧美语料库、扎根日本本土规范的 AI,并支持企业与政府在“数据空间”中通过联邦学习等加密技术安全共享合成数据。
- 开源与商用许可: 相关工具(NeMo Data Designer)及数据集已开源,其中 Nemotron-Personas-Japan 采用 CC BY 4.0 许可,支持商业应用。
3) 风险与不足
- 数据闲置与合规限制: 超过90%的有价值企业数据因隐私法规(如日本《个人信息保护法》)、安全风险和许可限制而处于闲置状态,无法直接进入训练管道。
- 基础模型幻觉问题: 训练前的基础模型在处理专业领域(如法律分类)时,容易生成看似合理却错误的噪音和幻觉。
- 文化与统计偏差: 缺乏本土化数据的模型在统计上容易偏向欧美的语料库,无法提供基于本土规范和领域限制的可靠智能。
- 传统数据处理成本高昂: 依靠人工从零开始收集、清洗和标注特定任务的新样本不仅耗时且昂贵,难以跟上 AI 的快速迭代步伐。
正文
AI 具备为日本创造超过100万亿日元(约合6500亿美元)经济价值的巨大潜力。然而,要实现这一宏大愿景,取决于许多 AI 项目中普遍缺乏的一个决定性要素:在实际业务中“可用的训练数据”。
对于致力于构建理解日语和日本文化的 AI 系统的开发者来说,这一挑战尤为严峻。与丰富的英语训练数据相比,日本开发者长期面临着慢性数据短缺的问题。从零开始构建高性能模型所需的、针对特定任务且植根于日本文化的数据极度匮乏。收集、清洗和标注新样本不仅耗时且昂贵,难以跟上 AI 快速迭代的步伐。
这最终形成了一道在创新开始前就将其阻断的“数据壁垒”。
突破壁垒的新路径
IT 巨头 NTT DATA 的最新研究证明了合成数据如何打破这一壁垒。通过利用手中极少量的专有数据,企业可以在不损害隐私或模型性能的前提下,生成达到实际应用规模的大型训练数据集。
NTT DATA 使用了 NVIDIA Nemotron-Personas-Japan(这是 NVIDIA 首个开源合成数据集,包含600万个基于日本人口统计、地理和文化特征的画像)。在法律问答任务中,该方法将模型的准确率从 15.3% 飞跃性地提升至 79.3%,并在回答的一致性上取得了同样大幅的改善。这意味着在不将机密数据暴露给训练管道的情况下,实现了超过60个百分点的性能提升。
这里的核心结论是:企业完全可以使用开源基础设施,仅凭极少量的专有数据,就能构建特定业务领域的专业 AI。利用开源的画像数据,可以同时实现更高质量的模型构建与更敏捷的数据运营。
核心实证实验与成果
为了严格验证这一方法,NTT DATA 使用虚构的法律文件进行了对照评估,以确保模型能够真正获取新知识。实验采用了以下配置:
- 基础模型:
tsuzumi 2(NTT 专有 LLM) - 数据增强模型:
GPT-OSS-120b - 种子数据: Nemotron-Personas-Japan
- 评判模型:
GPT-5(采用 LLM-as-a-judge 方法)
通过提取 Nemotron-Personas-Japan 中的500个画像,仅对450条原始种子样本进行增强,就生成了超过13.8万条训练数据(相当于人工同等样本数量的300倍),从而将模型准确率从 15.3% 提升至 79.3%。
这一结果直观地反映了企业如何应对数据短缺的挑战:
| 配置 | 种子数据 | 合成增强 | 准确率 |
|---|---|---|---|
| 基线(未训练) | — | — | 15.3% |
| 使用合成数据进行SFT | 450条 | 138,000条 | 79.3% |
合成数据训练不仅提升了准确率,还消除了困扰基础模型的“幻觉”问题。训练前的模型会生成看似合理却错误的法律分类,而微调后的模型则能够准确提取专业术语,且不产生任何噪音。
对于企业级应用而言,最具价值的发现或许是:NTT DATA 发现,只要能确保充足的微调合成数据,在某些需要补充知识的用例中,“持续预训练(CPT)”将不再是必选项。这意味着开发者可以完全省略消耗大量计算资源的 CPT 环节,转而专注于为监督微调(SFT)生成迭代合成数据,从而打造更具成本效益的训练管道。这种效率的提升直接转化为计算成本的降低和开发周期的缩短。
NTT DATA 技术创新统括本部 AI 技术部部长樋口晋也表示:“通过使用 Nemotron Personas 扩展少量的专有数据集,即使在可用数据有限的情况下,也能有效构建特定任务模型。这种方法在前期调研、客户支持和营销等往往缺乏专有数据的领域,展现出了提升业务成果的巨大潜力。”
原生设计保障隐私安全
准确率的提升固然令人瞩目,但也引出了一个更深层次的问题:那些根本无法进入训练管道的敏感数据该如何处理?
超过90%的有价值企业数据因隐私法规、安全风险和许可限制而处于闲置状态。在日本,《个人信息保护法 (PIPA)》以及《重视创新的 AI 治理指南》等框架都印证了这一现实。在 AI 进步加速的背景下,负责任的数据处理是不可或缺的。
合成数据为解决这一矛盾提供了途径。通过生成不包含个人身份信息(PII)且能准确反映真实数据模式的训练数据,企业可以同时实现数据最小化和模型性能提升。初始阶段仅需极少量的专有数据,随后即可通过合成数据扩展至实际应用规模。
简而言之,合成数据不仅是“优化训练过程的方法”,更是实现数据合规与 AI 性能共存的理想平衡(金发姑娘区)的隐私增强技术(PET)。此外,数据合成管道具备可重复性和可审计性,能够满足治理团队和监管机构日益严格的信任与透明度要求。
构建主权数据空间
对于构建主权 AI 的日本企业而言,数据主权是必要条件。但仅有主权还不够,模型还需要基于本土规范和领域限制的可靠智能,而不是在统计上偏向欧美的语料库。Nemotron-Personas-Japan 正是构建此类扎根现实的 AI 的基础数据。其600万个画像基于日本官方的人口和劳动统计数据,覆盖了1500多种职业分类和地域分布。
这种影响不仅局限于单个组织。NTT DATA 等行业领导者正在积极开发“数据空间(Data Space)”。这是一个协作环境,政府和企业可以在共同的治理和隐私保障下,交换用于 AI 训练的合成数据。联邦学习等端到端加密技术使这种去中心化方法成为可能。合成数据进一步推动了这一进程,使组织无需公开原始机密信息,即可安全地将自身数据模式作为合成数据提供出来。
由此,数据风险管理从防御姿态转向了符合日本“创新主导的 AI 治理”愿景的“协作姿态”。同时,这种方法也打破了“AI 的进化只能依赖少数全球性巨型模型”的固有观念,指向了一个建立在开源、隐私保护基础之上的区域性、可互操作的主权 AI 未来。
立即开始构建
“数据壁垒”确实存在。但正如 NTT DATA 的研究所展示的那样,克服它的工具现在已经开源并触手可及。合成数据不再是“未来的技术”,而是开发者现在就能引入实际业务的现实解决方案,能够在不牺牲隐私或性能的前提下,构建具备数据主权且植根于日本文化的 AI 系统。
您可以利用开源的 NeMo Data Designer 库,或直接访问 Hugging Face 上公开的 Nemotron-Personas-Japan 数据集开始构建。
相关资源链接:
- NeMo Data Designer: https://docs.nvidia.com/nemo/microservices/latest/design-synthetic-data-from-scratch-or-seeds/index.html
- Nemotron-Personas-Japan (Hugging Face): https://huggingface.co/blog/nvidia/nemotron-personas-japan
- NTT DATA 详细技术报告: https://www.nttdata.com/jp/ja/trends/data-insight/2026/0219/
(注:Nemotron-Personas-Japan 基于 CC BY 4.0 许可,支持商用与非商用。)