2025-12-12
导语:本文创新提出高质量数据集三维分类矩阵下的分阶段分域分级建设运营能力成熟度模型并结合动态评估机制助力数据要素从无序积累向高质量供给转型为人工智能产业从技术突破向产业化高质量发展转型筑牢关键数据根基
随着《“数据要素×”三年行动计划》《数字中国建设整体布局规划》落地,国家明确提出“‘人工智能+’行动到哪里,高质量数据集的建设和推广就要到哪里”,数据要素已成为培育新质生产力的关键引擎。但我国数据集建设存在三大难题:一是标准不统一导致跨部门、跨行业数据“孤岛效应”,制约规模化供给;二是质量评估缺乏专项标尺,AI训练面临“优质数据稀缺、低效数据冗余”的供需错配,影响大模型性能提升;三是运营与合规脱节,阻碍数据确权定价与资产化进程。
评估体系层面,ISO 8000系列标准聚焦数据质量基础规范,数据管理成熟度模型(CMMI-DMM)侧重组织数据管理,均未覆盖“高质量数据集建设运营全生命周期”专项能力;国内GB/T 36073-2018《数据管理成熟度评估模型(DCMM)》虽构建数据管理成熟度框架,但对数据集采集、标注、运营的专项能力覆盖不足,且未覆盖AI数据“代表性、无偏性”等特殊要求。因此,构建契合人工智能高质量数据集产业需求定位、兼具国内适配性与兼容性的评估体系,成为推进国家数据要素产业高质量发展的关键任务,支撑国家数据要素市场的规范培育与人工智能产业的持续健康发展,助力数字经济与实体经济深度融合,为高质量发展注入长久动能。
1 评估体系基础
1.1 政策依据
严格对标国家三级政策框架,确保与国家导向同频共振:法律层面,将《中华人民共和国数据安全法》分类分级保护、《中华人民共和国个人信息保护法》隐私脱敏要求,转化为“安全合规成熟度”域的核心指标;战略层面,响应《数字中国建设整体布局规划》“数据资源标准化”要求,设置“全周期标准化成熟度”域,规范采集、存储、标注等环节能力要求;指标体系层面,结合国家数据标准体系建设指南,细化高质量数据集分类框架下的实操要求。
1.2 理论依据
评估体系建设以三大理论为支撑:借鉴能力成熟度模型集成(CMMI)“过程分级优化”理念,将数据集建设运营视为“规划-建设-运营”的动态迭代过程,通过五级成熟度引导持续改进;吸收国际数据管理协会(DAMA)发布的数据管理知识手册(DAMADMBOK)“全生命周期管理”思想,覆盖从需求分析到价值转化的完整链路,避免流程盲区;融合ISO/IEC 5259系列(AI中数据质量的国际标准)中“AI数据质量专项要求”,针对AI训练数据集设计“无偏性、场景适配性”等差异化指标,适配大模型发展需求。
2 评估体系的核心架构
体系采用“需求-模态-行业”三维分类下的“分阶段-分域-分级”高质量数据集建设运营能力评估结构,融合编码与动态评估机制,形成闭环框架。
2.1 高质量数据集建设运营能力矩阵
高质量数据集分类边界包括需求层次、行业应用数据类别和模态类别三个维度,各类数据集均对应体系规划、工程建设、运营管理三个阶段,进一步映射到具体的数据集建设运营能力要求,构成高质量数据集建设运营能力矩阵,见图1。

图1 高质量数据集建设运营能力矩阵
2.2 三大能力阶段:覆盖全生命周期
高质量数据集建设阶段呈“体系规划→工程建设→运营管理”的全生命周期递进分布,覆盖数据集从规划到落地再到持续优化的核心环节。体系规划通过知识索引构建、数据资源盘点、标准体系搭建三大环节,实现数据知识化归类,形成数据资源目录地图,建立健全标准体系。工程建设围绕需求管理、设计规划、数据加工到发布监控等全流程环节,确保数据符合合规性、质量要求及模型开发需求。运营管理通过用户需求响应、成本精细化管理、质量安全维护及生态协同发展,推动数据集价值释放,实现持续可信与生态共赢。
2.3 分类边界编码:精准适配场景
高质量数据集分类边界基于需求层次(基础认知、场景理解、行动规划)、模态类别(单模态数据集、多模态数据集)和行业应用数据类别(行业专识数据集、行业通识数据集、通识数据集)三个维度,将各类数据集对应到体系规划、工程建设、运营管理三个阶段(见图2),进而对应到具体的数据集建设运营能力要求。同时参考GB 18030-2022《信息技术中文编码字符集》编码规则,形成18类数据集编码(如“111”代表基础认知-单模态-通识数据集),明确每类数据集的评估重点。

图2 数据集边界分类编码结构图
2.4 能力模型:细化评估颗粒度
模型由成熟度等级、能力阶段和成熟度要求构成,其中,能力阶段由能力域、能力子域构成,如“数据知识化”含知识构建与映射更新;“商业运营”含投入产出、生态运营、产业协同,形成可量化指标(见图3)。

图3 高质量数据集建设运营能力模型
3 评估体系的动态评估机制
3.1 三维动态评估维度
通过建立全生命周期数据一致性约束规则实现数据一致性管控,并引入专业第三方机构开展独立评价,验证数据集对建设运营能力成熟度的满足程度。
同时构建“监测-反馈-整改-验证”闭环机制,定期抽查数据质量与运营合规性,最终形成完整的数据管理保障体系。
3.2 量化评分判定
评分方法采用四级评分制(全部满足1分、大部分满足0.8分、部分满足0.5分、不满足0分),并按“能力域-能力阶段-成熟度等级”分层计算:
C=∑((D×γ) (1)
能力域成熟度等级得分为该域下能力子域指定成熟度等级得分的加权求和,式(1)中:C为能力域指定成熟度等级得分;D为能力子域指定成熟度等级得分;γ为能力子域权重。
B=∑(C×β) (2)
能力阶段得分为该要素下能力域的加权求和,式(2)中:B为能力阶段指定成熟度等级得分;C为能力域指定成熟度等级得分;β为能力域权重。
A=∑(B×α) (3)
成熟度等级得分为该等级下能力阶段得分的加权求和,式(3)中:A为成熟度等级得分;B为能力阶段指定成熟度等级得分;α为能力阶段权重。
3.3 五级成熟度:阶梯式改进路径
成熟度等级规定了高质量数据集建设运营能力在不同阶段应达到的水平。基于3.2的量化评分,成熟度等级划分为自低向高五个阶梯:一级(规划级)初步筹划数据管理;二级(规范级)建立规范化的流程;三级(集成级)实现数据在范围内的集成共享;四级(优化级)形成基于数据的持续优化机制;五级(引领级)则达到行业引领与创新水平。
4 结论与展望
本研究构建“理论-政策-需求”三位一体逻辑,创新推出“分阶段-分域-分级”的高质量数据集建设运营能力成熟度模型,实现通用性与专项性、合规性与价值性、本土性与国际性的统一,可有效引导各类组织提升数据集建设运营能力,推动数据要素向“高质量供给”转型。未来可在制造业、智慧城市等AI应用重点行业、领域开展模型试点评估,优化适配产业需求的指标,形成可复制的产业落地范式,并逐步推广应用范围,为行业级AI场景落地筑牢数据基础,推动数据要素价值在产业端高效释放。
原文刊载于《质量与认证》2025年12月 作者:中国质量认证中心有限公司 王锋 沙若男 张智超 杨婷婷
暂无评论,等你抢沙发