来源:国家数据局
当前,人工智能技术处于规模化落地应用的关键阶段,高质量数据集作为驱动大模型开发与训练的“燃料”,其供给规模、质量水平和流通效率直接影响人工智能技术落地的深度和广度。为推动行业高质量数据集有效供给,近日,国家数据局印发了《关于推进行业高质量数据集建设行动的实施方案》(以下简称《方案》)。《方案》紧扣“人工智能+”行动部署,提出围绕行业高质量数据集供给、流通、应用等关键环节,部署强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六大专项行动,对行业高质量数据集从“建”到“用”各环节现实堵点给予系统性政策回应,对加快培育新质生产力、构筑人工智能发展新优势具有重大意义。
一、以重点领域为牵引,提升体系化供给能力
高质量、可持续的行业数据集供给是人工智能赋能实体经济的重要前提。当前高质量数据集供给仍面临规模不足、结构失衡等突出问题,尤其是在科学研究、医疗卫生、具身智能等专业领域,存量数据难以支撑大模型在行业场景中的深度应用。《方案》紧扣“扩大供给规模”这一主线,聚焦传统重点领域以及低空经济、具身智能、智能驾驶等创新领域,以建立数据资源清单和数据集需求清单为抓手,推动产业链上下游协同共建,持续扩大高质量数据集供给规模,体系化推动重点行业数据集建设工作,让人工智能应用“有数可用”。
北京作为国家数据要素综合试验区,在行业高质量数据集建设方面已取得初步成效。目前,97个在京项目入选国家高质量数据集先行先试、典型案例,建设成效领跑全国。北京市发展改革委正式发布《北京人工智能创新高地建设行动计划》,明确提出要实施“高质量数据聚能行动”,面向大模型技术迭代和应用落地需求,强化具身智能数据集、科学智能数据集和各行业高质量数据集供给,2年内实现新增高质量数据100PB的目标。
二、推动数据标注产业转型,强化专业人才支撑
高质量数据集的建设离不开标注过程的知识注入,数据标注是将原始数据“炼化”为高质量数据集的关键环节。当前,我国数据标注产业普遍以劳动密集型为主,“知识密集型、技术创新型”标注产业仍在培育过程中,难以满足科学研究、医疗卫生、教育教学以及具身智能等领域对高知识密度数据标注的需求。《方案》提出实施标注攻坚行动,发展人机协同智能化标注,强化专家型标注服务,梯次布局一批数据标注创新试验区。这将推动数据标注从简单标引向高知识、高价值升级,为行业专识数据集建设提供坚实的技术、人才支撑。
北京在数据标注产业创新发展方面已率先布局。发起数据标注产业伙伴计划,推动海淀区高端数据标注基地、石景山区人形机器人数据训练中心、经开区北京(国际)数据标注基地等协同发展,共同探索高知识、高智能、高价值的行业专识数据标注路径。探索建立医疗健康数据统一标注中心,构建全流程一体化管理平台,依托全国肺结核专业联盟,探索建立跨区域协同标注机制,将标注效率由每周50例提升至1800例,显著提升了医疗数据集建设质效。
三、夯实基础设施支撑,加速数据价值释放
行业高质量数据集不仅是人工智能训练的基础资源,更是具备流通属性、资产属性的生产要素。当前数据集普遍存在价值挖掘不充分、流通交易机制不完善、商业模式单一、资产化路径不清晰等问题,大量优质行业数据沉睡闲置,难以转化为有效生产力。《方案》部署价值释放行动,从应用适配、模式创新、资产化探索、市场培育四个维度发力,全方位释放高质量数据集要素价值。
北京数据流通利用环境持续优化。数据流通利用基础设施、可信数据空间、人工智能应用中试基地等数据基础设施建设有序推进,数据合规流通、可信融合、创新应用支撑能力不断提升。北京国际大数据交易所高质量数据集交付规模达2500TB,高质量数据付费的市场思维逐渐深入人心。
四、多措并举推进行业高质量数据集建设
人工智能技术红利持续释放,高质量数据需求爆发式增长,行业高质量数据集建设进入战略机遇期,为落实《方案》要求,未来需重点从三方面发力:
一是聚焦重点领域,构建行业高质量数据集体系化供给格局。紧扣“强基扩容”要求,充分发挥北京人工智能产业集聚、应用场景丰富、央地协同紧密的综合优势,围绕科学研究、教育教学、医疗卫生等重点领域以及低空经济、具身智能、智能驾驶等创新领域,推动产业链上下游协同共建,打造一批具有全国引领力的高质量数据集建设标杆项目。
二是提升标注水平,差异化发展数据标注产业。紧扣“标注攻坚”要求,汇聚已有数据标注基地、标注企业和人工智能企业能力,联合打造数据标注创新试验区。强化高质量数据集建设工程与可信数据空间、数据流通利用增值协作网络、人工智能应用中试基地等数据基础设施对接。加快培养专家型、复合型数据标注人才,探索人机协同标注模式,全面提升数据标注水平,提高数据集知识密度。依托数据标注产业伙伴计划,探索京津冀数据标注产业协同模式,构建覆盖通识、行业通识和行业专识的数据集建设体系。
三是创新商业模式,探索“词元”经济新赛道。紧扣“管理服务”、“价值释放”要求,支持北京国际大数据交易所进一步提升数据流通交易服务能力,加强重要稀缺数据资源汇聚和供需对接,联合生态提供涵盖数据集建设、流通交易、模型训练、行业应用的一站式服务,规模化供给标准统一、合规安全、质量可靠的数据集。探索以词元为计量单位的数据计价、按量调用和灵活结算新模式,打造适配人工智能发展的数据价值度量体系,同步推进数据集合规确权、价值评估与资产化探索,有效推动“为高质量数据付费”的市场共识建设,形成可持续、可复制的“词元”经济新形态。
【版权声明】
本文/图片用于同步时事新闻,依据《著作权法》第24条合理使用条款。
来源:(
专家解读 | 深耕高质量数据集建设 激活人工智能发展新动能-国家数据局 )
发布日期: 2026-6-15
引用内容未替代原作品市场价值,如有侵权请联系删除:deo@deo.org.cn
