数据治理相关标准解读 ——《信息技术 数据质量评价指标》和《工业数据质量 通用技术规范》

发布于 2021-10-11 16:20


有关数据治理、数据管理、大数据等方面的国际标准和国家标准很多,国际上有ISO/IEC 385XX系列,国内有中国国家标准化管理委员会GB/T国标系列、工业和信息化部发布的大数据相关标准和规范、中国通信标准化协会制定中的大数据能力评估模型等,粗粗算来,已经超过了100多项标准。这些标准大多诘屈聱牙,因此笔者计划选择其中部分标准进行解读,方便读者了解其主要内容。

本次解读的是《GB/T 36344-2018信息技术 数据质量评价指标》、《GB/T 39400-2020工业数据质量 通用技术规范》,这两项标准都是国家市场监督管理总局和中国国家标准化管理委员会联合发布的国家标准,而且都是与数据质量相关,因此放到一起来说一说。




《GB/T 36344-2018信息技术 数据质量评价指标》是有关数据质量评估体系的。对于质量评估体系应该包含哪些维度以及每个维度下的具体内容,是见仁见智的事,笔者不再这里过多讨论。此标准中的质量评价既包含对具体数据质量的评价,也包含对数据管理质量的评价。

《GB/T 39400-2020工业数据质量 通用技术规范》侧重于工业企业数据质量提升的闭环流程。该标准以戴明环(PDCA循环)为理论基础,定义了工业企业数据质量的流程包括:定义质量检核规则体系(定量元素、非定量元素)、数据质量检核的方式方法(如完全检查、抽样检查)、数据质量检核规则运行、数据质量结果报告。

与笔者在其他行业的数据质量检核经验略有参差的主要有两点:

01

质量检核规则体系分为定量元素和非定量元素,其中定量元素主要是对数据的完整性、一致性、准确性等几个方面进行检查;非定量元素则是检查数据目的、数据用途、数据生命周期日志等对数据进行辅助说明的文档是否完善。

02

质量检核的方式方法中提出抽样检查,这主要是由行业特性决定的。例如,对于泛金融行业,在技术条件允许的前提下,尽量对数据应检尽检;而对于工业企业IoT数据或者运营商用户上网数据,数据量大而单条数据价值低,因此可以随机或者按照一定规则进行抽样检查。需要注意的是,在进行抽样检查时,要考虑检查结果的置信区间。

广州石竹计算机软件有限公司,专注数据治理十余年。自主研发了理念创新、功能完善的一系列数据治理产品,拥有金融、通讯、地产、能源等众多领域上百个数据治理项目成功实施经验。在这日新月异的数据时代,石竹愿与各界数据达人携手并进、共同推动数据管理和数据治理领域的蓬勃发展。

本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。

相关素材