报名截止时间:2026年8月7日23时30分... 点击查看
行业观点
数据要素 数据治理 数据安全 数据资产评估
考生须知
扫码关注官方微信 预约考试公开课
当前位置: 行业观点> 数据资产评估> 详情
2026年11月大数据会计、数据资产交易师职业能力水平统一考
点击领取“数据要素×”人才发展系列教材
人才缺口在2500万至3000万中国数字人才培育行动方案出炉
加快数字人才培育支撑数字经济发展行动方案

专家解读 | 从“数据资源”迈向“模数联动”——《关于推进行业高质量数据集建设行动的实施方案》解读

来源:国家数据局

  文 | 上海市信息投资股份有限公司副总裁,上海库帕思科技有限公司董事长 山栋明

  2025年8月国务院印发《关于深入实施“人工智能+”行动的意见》以来,人工智能正加速进入产业深水区,人工智能赋能千行百业不断从蓝图走向实践。数据要素因为人工智能的加持,其价值密度、作用机理正在发生根本性变化。从过去“让人看懂业务”,发展到今天“让机器理解世界、执行任务、创造价值”,数据已经成为模型训练、智能体运行、产业智能化升级的基础燃料。全球范围内人工智能从“卷算法”“卷算力”到“卷数据”已经成为行业共识。
  正是在此背景下,国家数据局于日前正式发布《关于推进行业高质量数据集建设行动的实施方案》(以下简称《实施方案》)。《实施方案》围绕行业高质量数据集供给、流通、应用等关键环节,部署强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放等六个专项行动,重塑“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”的数据飞轮。其意义不仅在于行业数据集本身,更重要的是从对象内涵、组织方法、生态打造等三个层面,对人工智能时代的数据生产体系、工程体系和价值体系进行了重构。
  一、从数据资源到模数联动,是一次把数据作为生产力对象的革命性重塑
  《实施方案》首先回答了一个基础性问题:人工智能时代,我们究竟需要什么样的数据。过去谈数据,更多是围绕信息化系统、业务数据库、数据仓库、BI分析平台展开,重点解决“有没有数据、能不能汇聚、能不能统计、能不能展示”的问题。数据的主要使用者是人,典型场景是报表分析、经营看板、业务监测和管理决策。
  《实施方案》提出的行业高质量数据集构建,已经不再是传统意义上的数据资源集合,而是能够直接服务模型训练、指令微调、强化学习、智能体评测和行业应用落地的新型生产资料。换句话说,同样叫“数据”,但从对象内涵上,是两类数据、两个物种。过去的数据是给人看的数据,今天的数据是给模型学、给智能体用、给产业系统调用的数据;过去的数据重在“可管理、可统计、可分析”,今天的数据更强调“可训练、可推理、可执行、可评测”。
  这标志着数据从BI时代向AI时代的跨越。BI时代的数据,更多是对既有业务过程的记录和归纳;AI时代的数据,则要成为模型理解行业知识、掌握专业技能、形成任务能力的底层燃料。特别是随着人工智能从对话问答走向多模态生成、复杂推理、决策执行、具身智能和物理交互,数据集的内涵也从文本、图像、音视频等基础模态,进一步扩展到知识图谱、本体、长程任务轨迹、专家判断链、物理交互数据、仿真合成数据等更高阶形态,知识密度越来越高、维度越来越多、通专结合与场景适配的趋势更加明显。归根到底是要达成数据的AI-Ready,即要使数据在结构完整性、内容多样性、标注准确性、模型适配性、任务可用性等方面达到模型和智能体可直接调用的状态。它既要解决数据“能不能用”的问题,也要解决模型“用得好不好”的问题;既要支撑训练,也要支撑推理;既要服务基础模型能力提升,也要服务行业智能体解决真实问题。
  二、从传统数据治理到AI-Ready工程,是一次高质量数据集建设方式的系统性重构
  《实施方案》回答了第二个关键问题,今天我们需要如何建设高质量行业数据集。传统数据治理更多关注ETL,即数据抽取、转换和加载,重点是打通系统、统一口径、消除重复、提高质量。人工智能时代的数据建设,需要从采集端开始重新设计,形成覆盖采集、清洗、标注、测评、应用的全流程工程体系。也就是说,高质量数据集不是简单“治理出来”的,而是围绕模型应用和智能任务“生产、验证、迭代”出来的。《实施方案》提出强化数据清洗、增强、标注、对齐、质检等关键技术攻关和全过程自动化工具研发应用,正是对这一趋势的系统回应。
  在此模式切换过程中,AI本身也成为建设高质量数据集的重要工具。发挥好AI for Data的优势,比如,通过模型预标注、人工校准、模型检验等方式,可以显著提升标注效率;通过数据智能过滤、知识密度识别、自动质检和应用反馈,可以不断优化数据集质量;通过仿真系统和合成数据,可以补足稀缺场景和高风险场景的数据供给。
  以库帕思的实践来看,高质量数据集建设正在从“人工项目制”走向“平台工程化”。我们紧紧围绕“建用结合、以用促建”,探索建设AI-Ready语料数据自动化流水线,以“对话即启、智能体驱动、算子编排、流水线级联、质检闭环”的方式构建数据加工管线,让行业用户通过自然语言交互就能够规划语料任务、检索需要的原始数据、调度加工算子、开展应用评测,形成可用于模型和智能体的数据集。其核心不是把人工流程简单搬到线上,而是用AI重构数据生产方式,让数据建设本身具备智能化、自适应和闭环迭代能力。
  因此,《实施方案》提出“场景—数据—模型”协同发展的数据飞轮,具有很强的方法论意义。它要求我们从过去“先建库、后找应用”的线性思维,转向“场景牵引、模型验证、数据迭代”的闭环思维;从过去“数据治理部门单独建设”,转向“业务专家、数据工程师、模型团队、应用团队协同共建”;从过去依靠信息化系统的“烟囱式”建设,转向“厚底座、薄应用”。
  三、从单点供给到生态重构,是一次标准、人才、资本和市场体系的全面升级

  《实施方案》回答了第三个重要问题,靠谁来建设高质量数据集?即高质量数据集的建设不再像过去那样依靠单个项目、单个平台,而需要标准规范、专业人才、产业组织、价值释放的生态体系重构。行业高质量数据集不是某一家企业、某一个部门能够独立完成的工作,而是需要政产学研用金多方协同的新型系统性工程。
  首先,标准规范体系需要发生转变。过去数据标准更多关注字段、格式、接口、目录和共享交换,主要服务数据管理和系统互联。面向人工智能的高质量数据集标准,则必须更加贴近模型和应用,围绕数据类型、标注规范、质量测评、模型适配、应用反馈等关键环节展开。这样的标准要突出“快、专、用”:快,就是响应模型和行业应用快速演进,研制周期要短,一般不宜超过3个月;专,就是面向具体行业、具体任务形成“一业一方法、一业一指引”;用,就是坚定不移地在应用闭环中贯标。
  其次,数据标注和人才体系需要从劳动密集型升级为专家型众包体系。高质量数据集不是简单打标签,而是把知识、经验和判断注入训练数据的过程。尤其是在医疗、金融、交通、工业、供应链、城市治理等领域,真正有价值的数据往往来自行业专家、老师傅、一线实践者的判断、操作和决策链条。没有专家深度参与,就很难形成高知识密度、高专业价值的数据集。
  由此,需要对数据标注基地赋予新的组织形态。要从劳动密集型的组织平台,转变为产教融合的示范基地和专业能力与时俱进的进化平台。一方面,要通过高校、职业院校、行业机构、企业平台共同培养具备专业知识的数据标注人才。另一方面,要通过真实项目、真实场景、真实模型反馈,持续提升标注人员和行业专家的数据化表达能力。推动标注基地从“接任务、做标注”向“懂行业、懂模型、懂质量、懂应用”转变。
  此外,由此数据价值释放机制也需要系统创新。《实施方案》提出发展订阅模式、商场模式、定制模式,推动商业模式从基础数据包销售向API调用、模型化解决方案及全栈服务梯次跃升,并探索词元交易、数据集质押融资、作价入股、资产证券化、数据信托、数据保险等多元化路径。这意味着高质量数据集不再只是成本项和项目交付物,而是可以持续运营、持续交易、持续增值的新型资产。
  总体来看,《实施方案》吹响了数据进化的号角,对于行业企业而言,谁能率先把数据转化为模型可学、智能体可用、场景可验证的高质量数据集,谁就能在人工智能时代掌握新的产业主动权。对于数据企业而言,未来的竞争也不再只是数据资源规模和IT集成能力的比拼,更是数据工程能力、行业理解能力、模型适配能力和生态组织能力的综合角逐。



【版权声明】
本文/图片用于同步时事新闻,依据《著作权法》第24条合理使用条款。
来源:(  专家解读 | 从“数据资源”迈向“模数联动”——《关于推进行业高质量数据集建设行动的实施方案》解读-国家数据局   )
发布日期: 2026-6-18
引用内容未替代原作品市场价值,如有侵权请联系删除:deo@deo.org.cn


专家解读 | 从“数据资源”迈向“模数联动”——《关于推进行业高质量数据集建设行动的实施方案》解读