洞见︱基于文本内容分析的公共数据开放政策

发布于 2021-09-07 13:38

采写︱阳静 赵扬 张超峰

编辑︱司金瑞

在数据已经正式成为新型生产要素的背景下,公共数据开放问题显得越发重要。通过采用Python编程实现多地公共数据开放政策文本的自动化获取,然后研究发文时间、发文数量和地域分布特点,并进行词频统计及文本相似度计算,进而分析政策总体情况和存在问题。一是研究各地公共数据的定义问题并搭建其表达框架;二是讨论研究开放对象是否面向所有人;三是针对开放安全问题,拓建政府安全政策的工具维度,并发掘该问题演变趋势。

本文从政策文本内容分析的视角,在Python编程环境下,运用网络爬虫、词频统计和文本相似度计算等算法,比较和分析我国现有公共数据开放政策文件的若干基础性问题,为各地的公共数据开放工作提供参考。

  各地政策文本总体情况  

1.政策文本获取情况

在Python3.5和Chrome85.0.4183的环境下,对百度网页进行网络爬取,设置关键词为“公共数据办法”,截至2020年12月17日,爬取10页,共得到101条数据。过滤掉非政策文件或重复文件,最终共筛选出15个省级行政区共34部公共数据政策文本。

2. 政策文本总体情况分析

分析元数据“省级行政区”地域分布和各地发文数量,发现政策文件地域分布呈现带状分布特点,具有明显的地域聚集性,主要来自于我国沿海省市、东北三省、内蒙古自治区、四川省和重庆市,并且沿海省市居多。浙江省作为公共信息资源开放试点之一,在相关政策文件出台时间和数量上都处于领先位置。

图为“精准扶贫”的相关政策文本

3.政策文本存在问题分析

据统计,半数内陆省份暂未制定相关政策,存在缺少国家层面的权威法规和公共数据开放政策数量较少 的问题,可能导致政策效力不足。

  公共数据开放问题研究  

1.公共数据的定义问题

分析元数据“公共数据定义,进行词频统计和分析(见图1)。根据图1(a)公共数据定义词云图,搭建公共数据定义的表达框架,包含涉及单位(如“行政机关”)、管辖范围(如“本市”)、履行职责(如“依法”“公共服务”)、来源过程(如“产生”“记录”)和数据格式(如“视频”)等,且涉及单位的表达术语较多。

 (a)公共数据定义词云图

令政策文本总数为 N = 34,某词语出现次数为 n, 某词语出现频率为 f,则 f = n /N 。根据词频统计结果, 公共数据定义对于涉及单位主要有两大类分歧,如图 1( b) 所示。

第一类是政府相关部门概念的分歧,表达术语包括行政机关(f=0.794)、单位(f=0.382)、公共管理和服务机构(f=0.235)、政务部门(f=0.118)、各部门各单位(f=0.029)、国家机关(f=0.029)、党政机关(f=0.029)。这些概念既有区别又有联系。“国家机关”和“党政机关”概念上有所重叠,前者根据《中华人民共和国宪法(第5版)》,包括国家行政机关、监察机关、审判机关和检察机关;后者根据《党政机关公文处理工作条例》,包含中国共产党机关和国家行政机关。“政务部门”根据《政务信息资源共享管理暂行办法》,指政府部门及法律法规授权具有行政职能的事业单位和社会组织。

政府各部门进行了政务信息资源共享

第二类是包含除政府以外哪些单位的问题,表达术语包括事业单位(f=0.588)、企业(f=0.235)、企事业单位(f=0.235)、社会组织(f=0.206)、社会团体(f=0.059)、产业机构(f=0.029)。可见,政策文本中有八成认为应包含事业单位,不到半数认为应包含企业,不到三成认为应包含企事业单位以外的社会组织等。

从上述分析结果可见,定义描述缺乏统一,尤其是涉及单位的表达术语种类和关键词较多,组合各异,造成各地公共数据定义有别。有的地方公共数据的定义与政务数据难以区分,大部分地方认为公共数据包含政务数据,而有学者则认为公共数据是政务数据的一部分,2020年12月,《广东省公共数据资源开发利用试点实施方案》也将具有公共服务职能的企事业单位纳入省级及试点地市政务大数据中心数据服务范畴。

(b)公共数据定义涉及单位词频图

2.开放对象问题

开放对象问题主要是围绕是否包括所有人。一般认为,自然人和公民的概念是有所区别的。据《中华人民共和国宪法(第5版)》,我国公民是指具有中华人民共和国国籍的人。自然人是指我国境内的一切具有生命形式的人,不仅包括中国公民,还包括外国人和无国籍人。自然人涵盖的主体对象更加广泛。而全社会一般认为是“自然人、法人和其他组织”的统称(即“所有人”)。分析元数据“开放对象”,进行词频统计分析(见图2),可见有64.7%的文本认为应向所有人开放。

图2:公共数据开放对象词频统计分析图

在我国,政府信息或政务数据的开放对象更多偏向于“公民、法人和其他组织”。虽然国家层面暂未明确注明公共数据开放对象,但是《北京市交通出行数据开放管理办法(试行)》规定,无条件开放的数据开放对象是所有自然人、法人和其他组织,依申请开放的数据开放对象则需要满足一定条件。在公共数据的定义、界定范围和权属仍存分歧之时,《北京市交通出行数据开放管理办法(试行)》对开放对象的分类规定是一种可以借鉴的做法。

3.安全政策问题

公共数据开放涉及的关键问题之一是安全问题。将“分类分级”和“分级分类”合并统计到“分级分类”,“个人信息”和“个人数据”合并统计到“个人信息”,得到自定义语料库。分析元数据“安全政策”,其相关文本的关键词云图如图3所示。

图3:公共数据开放对象词频统计分析图

根据图3中的关键词,结合图3和表1,判断各政策相关文本的基本特点是:战术性层面政策工具出现次数最多,操作性层面政策工具种类最多,技术性层面较少且出现次数较低,对于热点专题领域大部分文件缺乏相关规定。

表1: 安全政策工具维度表

  结论与建议  

我国正处于“培育数据要素市场”需求之际,公共数据开放工作是其中重要一环。本文运用Python编程,自动获取并比较研究15个省级行政区共34部公共数据政策文本。

首先从发文时间、发文数量和地域分布3个角度对政策文本进行总体分析,发现公共数据开放相关政策文件存在地域聚集性,且主要集中在沿海省市,浙江省在发文时间和发文数量上都处于领先位置,全国约有一半省市已发文或正在推进相关工作。在缺少国家层面的权威法规和公共数据开放政策数量较少的情况下,可能影响政策效力。

成都市部门开放数据情况,取决于国家层面提供的数据源和开放政策

然后对公共数据定义、开放对象和开放安全的相关全文进行词频统计。为进行词频统计,本文对语料的预处理过程加以改进,包括加载自定义字典、使用jieba.posseg模块进行分词处理和词性标注以及自定义停用词表等。基于公共数据定义词频统计结果,搭建公共数据定义的表达框架,即包含涉及单位、管辖范围、履行职责、来源过程和数据格式等;发现各地对于政府相关部门的概念及包含哪些政府以外单位的表达术语存在差异,造成公共数据与政务数据的定义存在界限不清的问题,待统一和解决。

公共数据的开放对象研究主要集中在是否包括所有人,为保障数据开放安全,建议参照《北京市交通出行数据开放管理办法(试行)》,依据公共数据的开放属性进行分类开放。拓展并搭建政府安全政策工具,且进一步研究发现战术性和操作性层面政策工具出现次数或种类较多,但是技术性层面和专题性层面政策工具较为薄弱。

举办创新应用大赛,攻克公共数据开放的难题

同时以《公共大数据安全管理指南》为基准文本,对开放安全政策文本进行相似度研究,发现相似度大于0.500的大部分在2020年以后发布,这表明各地对于数据开放的安全政策工具正在取得共识,安全政策工具显示出愈发成熟的演变趋势。 

    END   

本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。

相关素材