专家解读 | 从“数据资源”迈向“模数联动”——《关于推进行业高质量数据集建设行动的实施方案》解读

考生须知

扫码关注官方微信预约考试公开课

热点推荐

1 2026年11月大数据会计、数据资产交易师职业能力水平统一考试报名公告

2 国家数据局印发2026年数字经济发展工作要点

3 深圳数据交易所正式揭牌

4 全国数据工作会议在京召开明确2026年为“数据要素价值释放年”

5 北京国际大数据交易所发展成果发布

6 2026年3月数据资产入表会计、数据交易师职业能力水平统一考试报名公告

7 专家解读 | 数据产权登记指引重磅出台：解读数据产权的法律内涵、制度创新与实践前景

8 建立和完善数据知识产权制度

9 《全国数据资源调查报告（2025年）》正式发布

10 国家数据局关于印发《关于推进行业高质量数据集建设行动的实施方案》的通知

行业观点

数据要素数据治理数据安全数据资产评估

考生服务

考试报名

成绩查询

证书查询

考试大纲

报考条件

承办机构

考生须知

扫码关注官方微信预约考试公开课

当前位置：行业观点> 数据资产评估> 详情

专家解读 | 从“数据资源”迈向“模数联动”——《关于推进行业高质量数据集建设行动的实施方案》解读

来源：国家数据局

　　文 | 上海市信息投资股份有限公司副总裁，上海库帕思科技有限公司董事长山栋明

　　2025年8月国务院印发《关于深入实施“人工智能+”行动的意见》以来，人工智能正加速进入产业深水区，人工智能赋能千行百业不断从蓝图走向实践。数据要素因为人工智能的加持，其价值密度、作用机理正在发生根本性变化。从过去“让人看懂业务”，发展到今天“让机器理解世界、执行任务、创造价值”，数据已经成为模型训练、智能体运行、产业智能化升级的基础燃料。全球范围内人工智能从“卷算法”“卷算力”到“卷数据”已经成为行业共识。
　　正是在此背景下，国家数据局于日前正式发布《关于推进行业高质量数据集建设行动的实施方案》（以下简称《实施方案》）。《实施方案》围绕行业高质量数据集供给、流通、应用等关键环节，部署强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放等六个专项行动，重塑“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”的数据飞轮。其意义不仅在于行业数据集本身，更重要的是从对象内涵、组织方法、生态打造等三个层面，对人工智能时代的数据生产体系、工程体系和价值体系进行了重构。
　　一、从数据资源到模数联动，是一次把数据作为生产力对象的革命性重塑
　　《实施方案》首先回答了一个基础性问题：人工智能时代，我们究竟需要什么样的数据。过去谈数据，更多是围绕信息化系统、业务数据库、数据仓库、BI分析平台展开，重点解决“有没有数据、能不能汇聚、能不能统计、能不能展示”的问题。数据的主要使用者是人，典型场景是报表分析、经营看板、业务监测和管理决策。
　　《实施方案》提出的行业高质量数据集构建，已经不再是传统意义上的数据资源集合，而是能够直接服务模型训练、指令微调、强化学习、智能体评测和行业应用落地的新型生产资料。换句话说，同样叫“数据”，但从对象内涵上，是两类数据、两个物种。过去的数据是给人看的数据，今天的数据是给模型学、给智能体用、给产业系统调用的数据；过去的数据重在“可管理、可统计、可分析”，今天的数据更强调“可训练、可推理、可执行、可评测”。
　　这标志着数据从BI时代向AI时代的跨越。BI时代的数据，更多是对既有业务过程的记录和归纳；AI时代的数据，则要成为模型理解行业知识、掌握专业技能、形成任务能力的底层燃料。特别是随着人工智能从对话问答走向多模态生成、复杂推理、决策执行、具身智能和物理交互，数据集的内涵也从文本、图像、音视频等基础模态，进一步扩展到知识图谱、本体、长程任务轨迹、专家判断链、物理交互数据、仿真合成数据等更高阶形态，知识密度越来越高、维度越来越多、通专结合与场景适配的趋势更加明显。归根到底是要达成数据的AI-Ready，即要使数据在结构完整性、内容多样性、标注准确性、模型适配性、任务可用性等方面达到模型和智能体可直接调用的状态。它既要解决数据“能不能用”的问题，也要解决模型“用得好不好”的问题；既要支撑训练，也要支撑推理；既要服务基础模型能力提升，也要服务行业智能体解决真实问题。
　　二、从传统数据治理到AI-Ready工程，是一次高质量数据集建设方式的系统性重构
　　《实施方案》回答了第二个关键问题，今天我们需要如何建设高质量行业数据集。传统数据治理更多关注ETL，即数据抽取、转换和加载，重点是打通系统、统一口径、消除重复、提高质量。人工智能时代的数据建设，需要从采集端开始重新设计，形成覆盖采集、清洗、标注、测评、应用的全流程工程体系。也就是说，高质量数据集不是简单“治理出来”的，而是围绕模型应用和智能任务“生产、验证、迭代”出来的。《实施方案》提出强化数据清洗、增强、标注、对齐、质检等关键技术攻关和全过程自动化工具研发应用，正是对这一趋势的系统回应。
　　在此模式切换过程中，AI本身也成为建设高质量数据集的重要工具。发挥好AI for Data的优势，比如，通过模型预标注、人工校准、模型检验等方式，可以显著提升标注效率；通过数据智能过滤、知识密度识别、自动质检和应用反馈，可以不断优化数据集质量；通过仿真系统和合成数据，可以补足稀缺场景和高风险场景的数据供给。
　　以库帕思的实践来看，高质量数据集建设正在从“人工项目制”走向“平台工程化”。我们紧紧围绕“建用结合、以用促建”，探索建设AI-Ready语料数据自动化流水线，以“对话即启、智能体驱动、算子编排、流水线级联、质检闭环”的方式构建数据加工管线，让行业用户通过自然语言交互就能够规划语料任务、检索需要的原始数据、调度加工算子、开展应用评测，形成可用于模型和智能体的数据集。其核心不是把人工流程简单搬到线上，而是用AI重构数据生产方式，让数据建设本身具备智能化、自适应和闭环迭代能力。
　　因此，《实施方案》提出“场景—数据—模型”协同发展的数据飞轮，具有很强的方法论意义。它要求我们从过去“先建库、后找应用”的线性思维，转向“场景牵引、模型验证、数据迭代”的闭环思维；从过去“数据治理部门单独建设”，转向“业务专家、数据工程师、模型团队、应用团队协同共建”；从过去依靠信息化系统的“烟囱式”建设，转向“厚底座、薄应用”。
　　三、从单点供给到生态重构，是一次标准、人才、资本和市场体系的全面升级
　　《实施方案》回答了第三个重要问题，靠谁来建设高质量数据集？即高质量数据集的建设不再像过去那样依靠单个项目、单个平台，而需要标准规范、专业人才、产业组织、价值释放的生态体系重构。行业高质量数据集不是某一家企业、某一个部门能够独立完成的工作，而是需要政产学研用金多方协同的新型系统性工程。
　　首先，标准规范体系需要发生转变。过去数据标准更多关注字段、格式、接口、目录和共享交换，主要服务数据管理和系统互联。面向人工智能的高质量数据集标准，则必须更加贴近模型和应用，围绕数据类型、标注规范、质量测评、模型适配、应用反馈等关键环节展开。这样的标准要突出“快、专、用”：快，就是响应模型和行业应用快速演进，研制周期要短，一般不宜超过3个月；专，就是面向具体行业、具体任务形成“一业一方法、一业一指引”；用，就是坚定不移地在应用闭环中贯标。
　　其次，数据标注和人才体系需要从劳动密集型升级为专家型众包体系。高质量数据集不是简单打标签，而是把知识、经验和判断注入训练数据的过程。尤其是在医疗、金融、交通、工业、供应链、城市治理等领域，真正有价值的数据往往来自行业专家、老师傅、一线实践者的判断、操作和决策链条。没有专家深度参与，就很难形成高知识密度、高专业价值的数据集。
　　由此，需要对数据标注基地赋予新的组织形态。要从劳动密集型的组织平台，转变为产教融合的示范基地和专业能力与时俱进的进化平台。一方面，要通过高校、职业院校、行业机构、企业平台共同培养具备专业知识的数据标注人才。另一方面，要通过真实项目、真实场景、真实模型反馈，持续提升标注人员和行业专家的数据化表达能力。推动标注基地从“接任务、做标注”向“懂行业、懂模型、懂质量、懂应用”转变。
　　此外，由此数据价值释放机制也需要系统创新。《实施方案》提出发展订阅模式、商场模式、定制模式，推动商业模式从基础数据包销售向API调用、模型化解决方案及全栈服务梯次跃升，并探索词元交易、数据集质押融资、作价入股、资产证券化、数据信托、数据保险等多元化路径。这意味着高质量数据集不再只是成本项和项目交付物，而是可以持续运营、持续交易、持续增值的新型资产。
　　总体来看，《实施方案》吹响了数据进化的号角，对于行业企业而言，谁能率先把数据转化为模型可学、智能体可用、场景可验证的高质量数据集，谁就能在人工智能时代掌握新的产业主动权。对于数据企业而言，未来的竞争也不再只是数据资源规模和IT集成能力的比拼，更是数据工程能力、行业理解能力、模型适配能力和生态组织能力的综合角逐。

【版权声明】
本文/图片用于同步时事新闻，依据《著作权法》第24条合理使用条款。
来源：（专家解读 | 从“数据资源”迈向“模数联动”——《关于推进行业高质量数据集建设行动的实施方案》解读-国家数据局）
发布日期： 2026-6-18
引用内容未替代原作品市场价值，如有侵权请联系删除：deo@deo.org.cn

专家解读 | 从“数据资源”迈向“模数联动”——《关于推进行业高质量数据集建设行动的实施方案》解读