中国地方政府开放数据指数刚刚发布——贵阳要在全国出名了!

28.05.2017  07:32

 

  就在今天早上,

  复旦大学和提升政府治理能力大数据应用技术国家工程实验室,

  联合举办“中国地方政府开放数据指数发布暨交流论坛”,

  并发布由复旦大学数字与移动治理实验室出品的

  《2017中国地方政府数据开放平台报告》~

  在公布的2017 中国开放数林指数中

   贵阳排名全国第二!

  仅次于上海~

  这项指数在副省级与地级的排名中,

   贵阳位列第一!

  让我们一起来为贵阳的努力和成果点zan吧!

   ~恭喜~

   贵阳市政府数据开放平台

   喜获树开叶茂●大奖

  贵阳市政府数据开放项目负责人、

  贵阳市信息产业发展中心高级工程师黄明峰上台领奖,

  并发表了“贵阳市政府数据开放的探索和实践”的主题演讲……

  如果你还不了解贵阳的这个平台,请戳这里~

  带你认识“贵阳市政府数据开放平台

  接下来,

  数据君将为你揭秘这份刚刚发布的

  《2017中国地方政府数据开放平台报告

  看完你就知道咱们贵阳在全国到底有多牛!

  ▼▼▼

  这份报告由复旦大学数字与移动治理实验室基于多年研究积累和数据监测分析制作完成,由复旦大学数字与移动治理实验室主任郑磊在论坛上发布!~

  基于开放数据的原则与标准,借鉴多家国际性评估报告实践,立足我国政府数据开放的实际情况和发展阶段,报告构建起一个系统科学、多维度、可操作的评估框架,并基于该框架对我国现有的地方政府开放数据平台进行综合评价,制作指数报告,提出优化建议。

  据悉,《中国地方政府数据开放平台报告》将定期发布“开放数林指数”,持续追踪我国地方政府数据开放工作的推进与深入,精心测量“数木”们的粗细、密度、材质与价值,助力中国开放数据生态系统的形成与发展。

  评估范围

  报告根据公开报道,以及使用“数据+开放”、“数据+公开”、 “政务+数据资源”、“政府+数据服务”、“地名+政府数据”、“地名+数据”等关键词进行搜索,发现了截至 2017 年 4 月我国已上线的政府数据开放平台,并将符合以下条件的开放数据平台纳入评估范围:

  (1)平台域名中出现 gov.cn,作为确定其为政府官方认可的数据开放平台的依据。

  (2)平台形式为“统一专有式”或“统一嵌入式”。

  (3)平台所代表的地方政府的行政级别一般为地级市以上。

  (4)平台上确实开放了电子格式的、可通过下载或接口形式获取的、结构化的数据集。

  具体平台名称、所属地方政府和平台域名如下:

  1 北京市政务数据资源网 北京市 省级 www.bjdata.gov.cn

  2 开放广东数据服务网 广东省 省级 http://www.gddata.gov.cn

  3 贵州省政府数据开放平台 贵州省 省级 http://www.gzdata.gov.cn/

  4 上海政府数据服务网 上海市 省级 http://www.datashanghai.gov.cn/

  5 浙江政务服务网 浙江省 省级 http://data.zjzwfw.gov.cn/

  6 广州市政府数据统一开放平台 广东省广州市 副省级 http://www.datagz.gov.cn/

  7 哈尔滨市政府数据开放平台 黑龙江省哈尔滨市 副省级 http://data.harbin.gov.cn

  8 青岛市政府数据开放网 山东省青岛市 副省级 http://data.qingdao.gov.cn

  9 深圳市政府数据开放平台 广东省深圳市 副省级 http://opendata.sz.gov.cn/

  10 武汉市政府公开数据服务网 湖北省武汉市 副省级 http://www.wuhandata.gov.cn

  11 长沙数据开放 湖南省长沙市 地级 http://data.changsha.gov.cn/

  12 数据东莞网 广东省东莞市 地级 http://dataopen.dg.gov.cn/

  13 佛山市数据开放平台 广东省佛山市 地级 http://www.fsdata.gov.cn/

  14 贵阳市政府数据开放平台 贵州省贵阳市 地级 http://www.gyopendata.gov.cn/

  15 梅州市人民政府数据开放平台 广东省梅州市 地级 https://www.meizhou.gov.cn/opendata

  16 无锡市政府数据服务网 江苏省无锡市 地级 http://opendata.wuxi.gov.cn/

  17 肇庆市人民政府“用数据”模块 广东省肇庆市 地级 http://www.zhaoqing.gov.cn/sjkf/

  18 湛江市政府数据服务网 广东省湛江市 地级 http://data.zhanjiang.gov.cn/

  19 数说南海网 广东省佛山市南海区 区级 http://data.nanhai.gov.cn/

  报告的主要观察对象为我国地方政府数据开放平台上可通过直接下载或 API 接口两种方式公开获取的、电子形式的原始数据集及其相关信息;不包括平台上的 APP 应用、数据报告、可视化呈现等数据应用产品。基于开放数据的非歧视和公开获取原则,通过内部授权、协议开放等形式开放的数据也不属于本报告的评估对象。

  评委专家对评估指标相对重要性排序的结果:

  指标框架与权重:

  自 2012 年上半年上海推出我国大陆地区第一个开放数据平台起,截止到 2017 年上半年,我国陆续上线了十多个符合开放政府数据基本特征的地级共有19个。以2015 年 8 月底国务院印发《促进大数据发展行动纲要》为分水岭,在此之前,各地开放数据平台增长较为缓慢,上海和北京最早进行了探索,此后无锡、佛山南海、湛江、武汉等地先后上线;《促进大数据发展行动纲要》出台后各地平台增长速度明显提升,15 年下半年新上线了 4 个平台,16年下半年又增加了 6 个平台,17 年上半年也陆续有新平台推出(贵阳市政府数据开放平台是在今年才上线的)。

  各地政府数据开放平台上线时间:

  开放数据集总量

  数据集,是一种由数据所组成的集合,通常以表格形式出现,“”代表一个特定变量,“”对应于一个样本单位。政府数据开放平台通常以下载或 API 接口的形式开放数

  据集。个别平台上出现的以下三类情况,在报告中将不视作有效的开放数据集:

  (1)数据集名称下不存在可直接下载或通过接口获取的数据集;

  (2)数据集中仅有 0 行或 1 行数据(多为将一个数据集分拆出的单行数据,或未整合成一个数据集的单行数据);

  (3)数据集名称下提供的是网页链接,且链接跳转后出现的是无法通过下载或接口形式获取的文本内容。

  在 19 个开放数据平台中,武汉开放的数据集最多,与上海、贵阳处于第一梯队,都开

  放了超过 1000 个有效数据集或接口;其次是青岛,开放了847 个有效数据集。其后,无锡、深圳、北京开放了 400多个的数据集;佛山、东莞、广州、南海、浙江等地开放了

  300 多个。

  各地平台上开放的数据集数量(包含 API 接口)

  为方便用户获取和利用数据,数据集应以可机读格式开放,该格式能被计算机自动读取与处理,如 XLS、CSV、JSON、XML 等格式。

  各地平台可下载数据集与可机读格式数据集数量:

  总体来看,各地平台上满足可机读格式的数据集比例较高,贵阳、上海、青岛、东莞、佛山、南海、广州、哈尔滨等平台上开放的可下载数据集基本都满足了可机读格式。但也有一些地方平台虽然开放的数据集总量不小,但其中不少数据集为 DOC、PDF、JPG 等不可机读格式。还有部分平台虽然提供了可机读格式的数据集,但内容多为加工归总后的统计数据,并不满足开放完整的、原始的、可再利用的数据集的开放数据原则。

  开放格式

  开放格式是指可下载数据集应以开放的、非专属的格式提供,任何实体不得在格式上排除他人使用数据的权利,以确保数据无需通过某个特定(特别是收费的)应用程序才能

  访问。例如 CSV 是开放格式,而 XLS 则不是。

  各地平台可下载数据集与开放格式数据集数量:

  贵阳平台上开放格式的数据集数量最多,所有的数据集都可通过开放格式下载。东莞、佛山、南海、广州、哈尔滨、长沙等地方平台上提供的数据集也都满足开放格式。北京平台上开放的大多数数据集也达到了开放格式标准。此外,约有一半的地方平台没有提供任何开放格式的数据集,而多以 XLS 格式为主。

  API 接口

  除了数据直接下载以外,有些地方平台还提供了应用 程 序 编 程 接 口(API 接 口 ,Application ProgrammingInterface)。与通过直接下载方式获取数据集相比,接口方式使用户可通过参数实时高效地获取所需数据,尤其适用于开发应用程序的需求。深圳、北京、东莞三个地方平台为每个数据集提供了接口。

  各地平台数据集总量与 API 接口数量:

  其中,深圳开通的接口数量最多。此外,佛山、上海、贵阳等地也提供了一定数量的接口。然而,仍有将近一半的平台没有或很少提供 API 接口,还有个别地方平台上的 API 接口多数处于无法被调用的状态。

  开放授权

  报告发现,在 19 个政府数据开放平台中,共有 12 个平台配有数据开放授权。7 个平台缺少专门的数据开放授权,占评估总体的 36.8%,这其中有 4 个平台的网站声明与政府门户网站共享,并非专门针对开放数据平台制定,也没有专门涉及数据开放授权的内容。

  各地平台开放授权详情:

  开放授权协议的内容应明确授予用户免费获取、不受歧视、自由利用、自由传播与分享“开放数据”的权利。目前没有一个地方平台的授权协议全部明确授予了上述四项权利。上海和贵阳满足了其中三项指标;青岛、广东、广州、佛山南海、佛山、武汉、无锡和北京满足了其中两项;贵州和东莞满足了一项;其余地方在四项指标上未明确提及,或语焉不详。

  免费获取

  免费获取是指平台在开放授权中明确授予用户免费获取和利用“开放数据”的权利。政府数据作为公共资源,原则上应免费向社会开放,除非需要对数据进行额外的增值加工和针对少数人的个性化加工等。目前各地平台上的相应条款分为“免费且未设时限”、“现阶段免费”、“未明确是否免费”三类。

  开放数据免费获取比例:

  其中,贵阳、东莞的条款中明确说明数据免费且未设时限,用户可永久无偿获取数据平台所提供的所有数据资源。其他大部分地方平台则在服务协议中提到“现阶段免费”,但设置有模糊的期限或限制,如“保留收费权利”等表述;其他少数城市未明确表述是否免费。

  非歧视性

  开放授权是指平台明确授予任何用户平等访问、获取、使用和分享“开放数据”的权利。目前各地平台上的相应条款分为“明确保障非歧视性”、“未明确保障非歧视性”两类情况。

  开放数据非歧视性比例:

  多数地方的开放数据平台明确保障了数据开放的非歧视性,对任何用户都予以平等的数据获取和利用权限;但上海、贵阳、贵州、东莞、青岛等地未明确提及是否保障非歧视性。

  自由利用

  开放授权应明确授予用户不受限制地对“开放数据”进行商业和非商业性利用的权利。目前各地平台上相应条款分为“明确允许自由利用”和“未明确提及可自由利用”两类。

  开放数据自由利用比例:

  其中上海、青岛和贵阳明确表明用户可“进行商业或非商业性的开发活动”、“享有增值利用的权利”或“拥有自由利用的权利”,其余 9 个地方均未对用户利用数据的权利做出明确说明。

  自由传播与分享

  开放授权应明确授予用户可自由传播和分享“开放数据”的权利。目前各地平台上的相应条款分为“可自由传播”、“自由传播受限”、“未提及可自由传播”三类情况。

  开放数据自由传播与分享比例:

  贵阳、青岛、上海授予用户享有免费传播现有开放数据的权利;为保障用户免费获取数据的权利,青岛特别说明了用户不得有偿转让获取的数据。其他大部分地方在使用条款中要求“用户不得有偿或无偿转让数据资源”,限制有偿转让数据有利于保障用户免费获取数据的权利,但限制用户无偿传播和分享已开放的数据并不符合开放数据的原则,在实际操作中也很难发现和限制。其他地方未对用户自由传播与分享的权限做出明确说明。

  元数据提供

  政府数据开放平台为开放数据集提供元数据有助于数据利用者清楚地了解和理解数据集的内容与背景,从而更好地获取和利用数据。

  各地平台元数据条目:

  贵阳提供的元数据条目数最多,其次是哈尔滨与广州,也有少数平台只提供了较少的元数据条目。

  基本元数据覆盖率

  综合梳理国际开放数据平台上提供的基本元数据条目以及目前我国半数以上的平台已实际提供的元数据条目,报告确定了以下13个条目作为开放数据集基本的元数据条目,包括数据名称、摘要、关键字、数据主题、下载格式、数据提供方、发布日期、更新日期、更新频率、访问量、数据项(字段)、数据量等。其中数据量是指数据集所含的行数(或行数乘以列数),数据项是指数据集中每一列的具体名称,两者有助于利用者更好地了解数据结构与内容。

  基本元数据条目在各地平台的分布数:

  目前,所有 19 个地方平台都已提供了数据集名称与下载格式,大多数平台已提供数据描述、数据主题、关键字(标签)与数据提供方。然而,目前能提供更新频率、访问量、数据项、数据量条目的地方平台还相对较少。

  各地平台基本元数据条目覆盖数:

  目前还没有一个平台提供了所有的基本元数据,东莞、广州、贵阳、哈尔滨与青岛覆盖了 12 个基础元数据条目,仅缺少一条;其次是北京、上海、广东等地,都缺少两条。

  各地平台基本元数据条目详情列表:

  主题覆盖率

  开放各个主题领域的数据集有利于提高数据开放的广度和覆盖面,有利于数据利用者充分获取和融合来自多种领域的数据,进行深度的挖掘利用。2015 年 8 月国务院印发的《促进大数据发展行动纲要》提出要“优先推动信用、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、资源、农业、环境、安监、金融、质量、统计、气象、海洋、企业登记监管等民生保障服务相关领域的政府数据集向社会开放”。基于行动纲要的要求,结合国内外开放数据平台上实际开放的重点数据集主题,报告将开放数据主题归纳为财税金融、经贸物流、交通出行、机构团体、文化休闲、医疗卫生、教育科技、社会民生、资源环境、城建住房、公共安全、农业农村、社保就业、信用服务共 14 个大类。

  各主题包含的数据集个数:

  上图体现了各地平台在 14 个主题下所开放的数据集个数。其中,经贸物流的数据集开放数量最高,包含了经济建设和企业服务等内容;其次为社会民生、机构团体的数据集,数据开放相对较少的主题为财税金融、农业农村和信用服务等。报告进一步分析了各地方平台开放数据集的主题领域覆盖面。

  各地平台主题覆盖数如下:

  在 14 个主题领域中,不同地区间的主题分布情况差异显著。广州、贵阳、青岛开放的数据集主题覆盖面最高,只有一个未覆盖主题,其次为北京、南海、无锡等地。开放数据集总量较少的企业登记监管等民生保障服务相关领域的政府数据集向社会开放”。基于行动纲要的要求,结合国内外开放数据平台上实际开放的重点数据集主题,报告将开放数据主题归纳为财税金融、经贸物流、交通出行、机构团体、文化休闲、医疗卫生、教育科技、社会民生、资源环境、城建住房、公共安全、农业农村、社保就业、信用服务共 14 个大类。图 17体现了各地平台在 14 个主题下所开放的数据集个数。其中,经贸物流的数据集开放数量最高,包含了经济建设和企业服务等内容;其次为社会民生、机构团体的数据集,数据开放相对较少的主题为财税金融、农业农村和信用服务等。

  部门覆盖率

  开放数据集的部门覆盖率反映了一个地方政府的各个部门对于数据开放工作的参与程度,也体现了数据集的丰富程度。报告首先梳理了超过半数的地方平台开放数据集所覆盖的部门作为“主要数据提供部门”,由于不同地方具有相同职能的部门在名称上存在差异,报告对这些部门的名称做了相应的合并与调整。

  各地平台主要数据提供部门数据集数量分布:

  由图可见,各地平台上来自统计局的数据集数量最多,远高于其后的商委、交通委、卫计委、公安局、教委、经信委等部门,而提供数据集数量相对较少的是财政、气象和档案等部门。图中的不同色条的纵向宽度反映了各地平台上不同数据提供部门的数据集数量,如上海提供最多数据的部门为交通委、卫计委与公安局,统计部门数据所占相对较少。

  统计部门提供的数据多为经过归总加工后的宏观数据,各地还应继续提升各个具体业务部门的开放数据集比例。

  数据提供部门占部门总数的覆盖率:

  同时,报告还分析了各地平台数据提供部门数量占该地方政府职能部门总数(数据来自各地政府门户网站)的比例,以评估该地方的开放数据部门的覆盖面。贵阳的部门覆盖率超过了 9 成,此后是上海与南海,均超过了 7 成,仍有部分地方平台的部门覆盖率不到一半,尚有较大提升空间。

  关键词覆盖率

  报告对各地平台上数据集名称进行了文本分析,发现了一批出现频次较高的关键词,这些关键词反映了各地开放数据的内容及其分布。

  各地开放数据集名称中出现频次最高的 33 个名词:

  各地开放数据集中出现频次最高的关键词是“信息”和“情况”,远远高于其后的“企

  业”、“机构”、“统计”等。这类词汇仍旧体现了政府部门的用词习惯,而不是社会公众更容易理解的词汇。值得注意的是,作为政府数据开放平台,“数据”一词出现的频次却远小于其它名词,也反映了政府部门的惯性思维。

  各地开放数据集名称中出现频次最高的 48 个描述性限定词:

  各地开放数据集名称基本关键词覆盖率:

  各地开放数据集名称基本关键词覆盖详情:

  持续增长

  运维政府数据开放平台是一项常态化工作,平台上线后还应持续新增数据集,以不断满足社会对开放数据日益增长的需求。报告根据各地平台上数据集的创建日期来判断该平台数据集是否持续增长,以半年为时段进行跟踪分析,持续增长分值取决于该平台数据集保持持续增长的时段的数量。

  各地平台上线时间与数据集持续增长:

  上海平台上线时间最早,2012 年上半年上线,至今数据已保持了 9 个时段的持续增长;北京平台于 2012 年下半年上线,持续增长时段为6个。在2014年下半年,佛山南海、湛江和无锡的平台上线,但湛江自上线之后便不再新增数据集。2015 年以后新上线的平台基本都能保持数据集增长。

  动态更新

  报告对各地平台开放的数据集所承诺的更新频率进行了分析,分为不更新、不定期更新、每年更新、每半年更新、每季度更新、每月更新、每周更新、每日更新、实时更新九

  类。其中,报告将更新频率为不更新、不定期更新、每年或每半年的数据集视为相对静态数据,将更新频率为每季度、每月、每周、每日与实时更新的数据集视为相对动态数据。

  数据集承诺更新频率分布:

  按照其承诺,约 77% 的数据集为相对静态数据,这其中又以按年更新为主(占 59%);其次为不定期更新,占 13%。承诺进行动态更新的数据集只占总数据的 23% 左右。

  各地开放数据集承诺的更新频率分布:

  由于部分平台未公布承诺的更新频率,因此未出现在图中。总体上,相对动态数据比例最高的城市为东莞,约半数的数据集承诺按季度或季度以下频率更新,其中又以按月更新为主。承诺按日更新比例最高的地方分别为广州、佛山,其次是浙江、青岛、广州、上海等地,多数平台上的数据仍以承诺按年或者不定期更新为主。

  实际更新情况

  报告从 2017 年 4 月 18 日开始,在之后四周内的四个时间点持续采集数据,采集时间分别为 2017 年 4 月 18 日、2017 年 4 月 24 日、2017 年 4 月 30 日与 2017 年 5 月 7 日,然后通过比对数据集更新时间的变化发现在该时间内实际更新的数据集,未提供数据集更新时间的地方平台未纳入该项评估。

  各地平台数据动态更新情况:

  上海平台上该时段内更新的数据集数量最多,其次为东莞、贵阳和青岛。

  多批次保存

  多批次保存是指平台将历史上不同时间更新的多个批次的数据留存在平台上,允许用户下载,有利于数据利用者按时间获取和利用历史数据。

  实现数据多批次保存的平台分布:

  目前只有东莞、佛山、贵阳、青岛与上海五个平台。

  ……

  以上种种指数表明:

  贵阳市政府数据开放平台起步比较晚,

  但发展速度较快。

  多项指标在全国处于领先地位!

  开放数据,蔚然成林。

  一棵棵开放“数木”的丛然并生、成荫如盖、直至叶茂花开,

  终将成长为一片繁盛多样、平衡稳定、循环持续的“开放数林”。

  而我们贵阳,

  也会更加地努力哟!