报名截止时间:2026年8月7日23时30分... 点击查看
行业观点
数据要素 数据治理 数据安全 数据资产评估
考生须知
扫码关注官方微信 预约考试公开课
当前位置: 行业观点> 数据要素> 详情
2026年11月大数据会计、数据资产交易师职业能力水平统一考
点击领取“数据要素×”人才发展系列教材
人才缺口在2500万至3000万中国数字人才培育行动方案出炉
加快数字人才培育支撑数字经济发展行动方案

专家解读 | 筑基智能时代,释放数据价值

来源:国家数据局

  文 | 中国信息通信研究院副院长 魏亮

  在人工智能大模型技术快速迭代,“人工智能+”行动深入实施的背景下,高质量数据集已成为决定人工智能发展水平和产业落地深度的核心要素。随着大模型从语言理解走向复杂推理、具身交互和世界模拟,人工智能对数据的依赖从简单的规模驱动上升为质量主导、场景牵引和价值对齐。高质量数据集并非普通数据的简单汇集,而是经过深度加工、精准标注、系统治理,能够直接驱动模型训练、支撑场景应用的高密度知识载体。只有掌握高质量的数据供给能力,才能掌握智能时代的发展主动权。我国拥有海量数据资源、丰富应用场景和超大规模市场优势,若能率先构建起规范统一、价值共创、安全可靠的高质量数据集供给体系,推进人工智能纵深发展,就有机会在新一轮科技革命和产业变革中抢占制高点。近日国家数据局印发的《关于推进行业高质量数据集建设行动的实施方案》(下称“《行动方案》”),系统部署了强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六大专项行动,为破解当前我国高质量数据集建设面临的突出问题提供了清晰的路线图和施工图。
  一、当前我国高质量数据集建设面临四大突出问题
  随着“人工智能+”行动的深入实施,以及先行先试单位和链主单位的积极探索,我国高质量数据集建设已取得明显成效,形成了多点开花、龙头带动的良好局面。然而,与人工智能快速发展的需求相比,我国高质量数据集建设仍面临诸多深层次矛盾和问题,成为制约“人工智能+”走深走实的关键瓶颈。
  (一)供给侧结构性矛盾突出
  当前数据领域呈现“总量丰富、结构失衡”的局面。部分领域数据短缺严重,低空经济、具身智能等新兴领域数据积累近乎空白,化工、生物医药等高端制造领域较为依赖国外商业数据库。同时,大量已有数据“不好用”,处于缺乏清洗加工的“原矿”状态,格式不一致、元数据缺失、知识密度低,难以直接支撑模型训练和复杂推理需求。
  (二)数据标注产业转型升级滞后
  传统“人海战术”已无法适应大模型对标注质量和效率的要求。自动化标注在复杂场景、多模态数据和专业领域的应用效果仍不理想,医疗、法律等专业领域标注人才严重短缺,标注质量参差不齐,缺乏统一规范,直接影响了数据集整体品质。
  (三)标准体系不完善
  目前我国尚未形成全国统一的高质量数据集标准体系,各行业、各地区对“高质量”的理解和定义各不相同,导致重复建设、质量参差和互认困难。不同单位的数据集在格式、结构、标注规范上相互割裂,难以实现互联互通和共享复用,加剧了“数据孤岛”现象。
  (四)价值释放机制不健全
  一方面,数据要素市场培育不充分,定价难、变现难、付费共识缺失等问题突出;另一方面,数据产权制度不完善,“三权分置”尚未完全落实,供给方权益难以有效保障。在此情况下,企业习惯于免费获取数据,对高质量数据付费意愿不高,导致数据生产投入难以获得正向激励,无法形成“投入—产出—再投入”的良性循环。
  二、《行动方案》针对性破解发展难题
  (一)强基扩容行动破解供给侧结构性矛盾
  强基扩容行动的部署意图超越单纯追求数据规模的路径,着力构建规模、结构、场景三者平衡的供给体系。《行动方案》提出“链主牵引+公共数据赋能”的双轮驱动机制,一方面发挥行业龙头企业的数据资源优势,支持其以联合体形式整合产业链上下游数据,解决中小企业“数据孤岛”问题;另一方面加大公共数据开发利用力度,推动公共数据与行业数据深度融合,释放公共数据的普惠价值。
  此外,《行动方案》在智能体、具身智能、世界模型等前沿方向上进行数据集建设布局,强调加快物理交互、环境感知、运动控制等真机数据采集,并鼓励运用仿真合成技术弥补稀缺场景数据不足。这一思路有助于缓解我国在人工智能新一轮技术迭代中可能面临的数据“卡脖子”问题。同时,方案提出与全国一体化数据基础设施深度联动,借助隐私计算、可信数据空间等技术,推动数据集从分散持有向集约化、标准化供给方向演进,有望提升数据流通效率。
  (二)标注攻坚行动推动标注产业转型
  标注攻坚行动聚焦数据标注在知识注入环节的作用,试图突破单纯依赖人力的增长模式,转向技术辅助与专家知识结合的产业形态。《行动方案》全面推广人机协同的智能化标注体系,能够推动标注工作重心从重复性的分类、拉框等基础劳动,转向复杂场景判断、逻辑关系梳理、价值对齐校准等高附加值工作。同时,针对专业标注人才短缺的突出问题,一方面,通过支持高校增设相关专业,开展职业技能等级认定,培育规模化专业标注队伍;另一方面,通过建立行业专家认证注册机制,满足垂直领域大模型对高知识密度数据的需求。
  (三)提质增效行动构建统一标准体系
  提质增效行动以标准建设为核心,着力解决标准缺失、质量参差不齐、互认困难等问题,为高质量数据集建设提供“度量衡”。《行动方案》明确提出加快研制高质量数据集国家标准,推动各行业、各地方与国家标准联动,形成覆盖数据全生命周期的标准体系。同时,将标准落地与政策支持、政府采购、招投标相结合,通过刚性约束推动标准落地实施,避免标准成为一纸空文。
  在质量评测方面,“数据质量验证+模型应用反馈”的双轨方法构成从“合格”到“好用”的递进式评估链条。前者验证数据集是否满足静态标准,后者检验其在真实训练场景中的实际表现。“一次测评、全国互认”的制度设计则直击当前供需双方因质量认定标准不一而反复测评、交易成本高的核心问题,以统一标准化解分散博弈,为数据集在全国范围内顺畅流通建立制度性信任基础。
  (四)价值释放行动构建市场化配置新机制
  价值释放行动是激发高质量数据集建设内生动力的关键,旨在破解定价难、变现难、付费共识缺失等难题,打通数据价值变现的“最后一公里”。在供给侧,通过建立健全市场化利益分配机制,确保数据供给、加工、流通、应用各环节主体均能获得合理回报,使数据生产者的投入获得正向激励。在需求侧,明确要求发挥政府部门、国有企业、模型企业等单位的示范引领作用,推动数据采买纳入预算编制,率先开展数据采购实践。当需求方的采购行为制度化、预算化,供给方的生产激励便具备了稳定预期,数据市场的供需双向启动才可能真正实现。
  此外,《行动方案》提出探索词元(Token)交易模式,构建以词元为基础的可量化、可定价数据价值体系,将数据的计量单位从传统的条数或规模转向大模型实际消耗的Token,为数据集的市场化定价提供了技术性锚点,是数据要素价值度量领域的一次重要探索。
  《关于推进行业高质量数据集建设行动的实施方案》的印发,为我国高质量数据集建设明确了任务方向、提供了基础保障。随着六大专项行动的逐步开展,我国将加快构建数据要素与人工智能协同演进的共生生态,形成“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”的数据飞轮,为人工智能产业的长期竞争力提供数据基础支撑。



【版权声明】
本文/图片用于同步时事新闻,依据《著作权法》第24条合理使用条款。
来源:(  专家解读 | 筑基智能时代,释放数据价值-国家数据局   )
发布日期: 2026-5-11
引用内容未替代原作品市场价值,如有侵权请联系删除:deo@deo.org.cn


专家解读 | 筑基智能时代,释放数据价值