数据观专访吴甘沙,提问大数据

13.05.2015  17:25

    吴甘沙:现任英特尔中国研究院首席工程师,主持物联技术及大数据方面的创新工作。

    Q1.国内外大数据领域的发展状况如何,分别是什么时候开始萌芽,现在已经出现了哪些在大数据方面拥有较强实力和话语权的国家、企业或省份?

    答:下面是我的文章的摘抄:如果以世纪之交作为分隔线,上世纪的数据文化、思维和方法论停留在前大数据时代。本世纪初大数据思想破茧而出:META Group分析师道格·兰尼在2001年提出3V(Volume、Variety和Velocity,即大数据“大、杂、快”三大特征);詹姆斯·格雷领衔确立科学研究的第四范式;2008年《自然》正式推出特刊《大数据》;2010年《经济学人》推出特刊《数据,到处是数据》(主创人员中有专栏作家肯尼思·库克耶,与舍恩伯格合著《大数据时代》);2011年《科学》推出特刊《处理数据》,同年,麦肯锡发布报告《大数据:创新、竞争和生产力的下一个前沿》。从谷歌趋势可以看到,“大数据”在2011年声名鹊起。

    这一系列思想大合唱终于在2012年使大数据成为显学,当年达沃斯的《大数据,大影响:全球发展的新可能》和奥巴马政府的《大数据研发计划》共同确立大数据在世界范围的战略位置。对于中国来说,2012年也被称作大数据元年。其中两本书功不可没:前有子沛的《大数据》,从美国政府的数据信仰、政策和实践娓娓道来,让中国政坛和知识精英接受了一次思维洗礼,汪洋副总理离任广东前一系列开风气之先的大数据举措,当属此书之功;年末舍恩伯格和库克耶的《大数据时代》,则是系统论述大数据理念的奠基之作。如果说前者着力于发蒙——大数据可以做什么,后者则注重解惑——大数据该怎么做。

    大数据方面拥有较强实力和话语权的国家:美国和中国

    企业和省份:不便评论

        Q2.您认为“大数据是指数社会的蛋白质”,如何理解这句话?

    答:我的前一句是“摩尔定律是指数社会的基因”,基因决定生命特征,是初始点,而蛋白质是生命的物质基础,是生命活动的主要承担者。或者说,大数据是当前社会生命活动的主要承担者。

      Q3.您此前提到,最近四五年,您本人对大数据的研究有三个方向上的转变:从关注数据与机器的关系到关注数据与人,再到关注数据与数据的关系。这种转变是如何发生的,它们之间有内在的逻辑联系吗?此外,从首席工程师到院长,身份的转换带来的是什么?

    答:最早,主要矛盾是互联网公司或在线数据太多的问题,接着,主要矛盾变成人没有能力从数据中提取价值的问题,最后,主要矛盾是中小公司、传统行业无法获得数据、数据孤岛的问题。

     Q4.此前有专家举例说,对非结构数据的处理能力处于初级阶段等技术上的难题还限制着大数据领域的发展。作为国内乃至全球顶尖的研究机构,Intel中国研究院目前在主攻大数据领域的哪些技术难题?

    答:英特尔中国研究院在大数据方面着力于三个方面:1.对传统产业大数据的挖掘。2.数据的安全共享和交易。3.大规模数据分析平台的软硬件协同设计。

      Q5.对于数据社会来说,数据开放至关重要。在2014年的中国“云上贵州”大数据商业模式大赛中,为了实现募集一批商业模式,激发大数据产业优秀创意等目的,贵州省开放了政府数据目录和部分经过“脱敏”的数据资源。此外,根据相关规划,贵阳市作为贵州省首批政府数据开放平台试点,接下来将主动开放如交通、教育、旅游、医疗等重点民生领域公共数据,建成数据开放平台和数据开放门户网站,实现向社会试点开放和推广。

    您觉得,在数据开放上,哪些内容是可以开放的?政府开放数据可以分几个阶段进行,美国、英国等发达国家的经验是否可以借鉴?开放之后,如何保障数据系统的安全,数据本身的安全和数据使用的安全?当然,还有隐私权如何保障?

    答:不涉及个体的公共数据和科研数据都可以开放。

    涉及个体的数据要明确数据权属、隐私界定,获得拥有者授权,采用技术匿名化,然而再考虑开放。

    英美开放的主要特点是原始数据(而非提炼数据),符合Tim Berners-Lee五星原则。

      Q6.最近中信出版社出了一本书叫《块数据——大数据时代真正到来的标志》。里面提出:到目前为止,人类形成的大数据,更多的是以领域、行业为单位,往往是彼此割裂、互不相通的数据,书中将这些数据定义成“条数据”。相对于条数据的概念,该书提出“块数据”的概念——指一个物理空间或者行政区域内形成的涉及人、事、物的各类数据的总和,它与各行业产生的“条数据”叠加,将使数据间的关联性更大,块数据的出现让数据价值快速提升。

    今年5月份,贵阳将建成全城免费WiFi工程第一期。贵州省委常委、贵阳市委书记陈刚指出,“块数据”正是贵阳发展大数据产业的核心,免费WiFi城市则是推动“块数据”集聚的重要平台。

    对于“块数据”的界定,您怎么看?通过免费WiFi收集数据有什么需要注意?

    答:所谓快数据就是把数据放到不同的上下文语境(context)进行分析。

    Wifi采集数据的优点就是有数据发生所在地点的信息,这是语境的一个重要因素。但是在为用户提交免费Wifi服务时,需要明确获得用户对数据授权。

      Q7.有报道说,您有一个研究方向是“数据货币化”。2015年到2017年间,贵阳市将启动数据交换、交易规则和标准制定。清晰的产权是市场交易的前提,您觉得数据权利应该如何界定?数据在公开市场交易时,可以有哪些定价标准?

    答:请参考 http://mp.weixin.qq.com/s?__biz=MzAxODM1NTAzOA==&mid=204837920&idx=1&sn=7006f24dc09fa09db7c34be8870fd294&scene=1&from=singlemessage

      Q8.李克强总理在《政府工作报告》中提出:“制定‘互联网+’行动计划,推动移动互联网、云计算、大数据、物联网等与现代制造业结合,促进电子商务、工业互联网和互联网金融健康发展。”您之前在一次演讲中提到过,大数据、云计算、移动互联网、物联网是不可分割的,能否详细解释?在互联网与其他领域的融合中,大数据能发挥什么作用?

    答:我在上文中提到了一些案例:

    在这张胶片上列出了一些数据跨行业融合的案例。比如说:金融数据跟电商数据碰撞在一起,就产生了像小微贷款那样的互联网金融;电信数据跟政府数据碰在一起,可以产生人口统计学方面的价值,帮助城市规划人们居住、工作、娱乐的场所;金融数据跟医学数据碰在一起,麦肯锡列举了很多应用,比如说可以发现骗保;物流数据和电商数据凑一块,可以了解各个经济子领域的运行情况;物流数据跟金融数据放在一起,就产生了供应链金融;金融数据跟农业数据也能够发生一些化学作用,Google analytics出来的几个人,利用美国开放气象数据,能够在每一块农田上面建立微气象模型,预测灾害,帮助农民保险和理赔。

      Q9.国内的百度、阿里、腾讯,甚至小米、京东,他们都掌握了大量的用户数据。而且凭借互联网企业的强势,它们都在陆陆续续收购相关公司。在“互联网+”浪潮中,您觉得未来的风口会在哪些方面?制造业、移动医疗、智慧交通、互联网金融还是智能家居等等?这些公司手中掌握的大数据能否指明它们未来的发展方向?

    答:互联网+最容易的风口已经过去了(如商业,媒体和金融),下面的都是需要啃硬骨头的。互联网企业获得传统产业数据会比以前困难,制造业比服务业难,资本是一种方式,数据交易是另一种方式。

     Q10.How to “Think Bold and Different on Big Data”?

    答:我所说的三个阶段,当大多数人在考虑第N个阶段的时候,开始考虑N+1个阶段

      Q11.为守住发展和生态“两条底线”,贵州省、贵阳市选择发展大数据产业作为转型升级、后发赶超的依托。2014年3月1日,贵州·北京大数据产业发展推介会召开,吹响了贵州发展大数据产业的号角。

     今年2月份,工信部批复贵阳·贵安大数据产业发展集聚区作为全国首个国家级大数据发展集聚区。根据规划,到2017年,该集聚区将建成国家级数据存储灾备基地和国家级云计算应用基地,形成大数据产业集群,以大数据产业为主导的信息产业总规模达到3000亿元。

    为了实现这一目标,贵州将实施“7+N”云工程,搭建全省统一技术架构的云计算基础设施平台,到2017年确保80%以上省级政府单位各应用系统、4个以上市州部分重点应用系统迁移“云上贵州”系统平台;贵阳市作为首批政府数据开放平台试点,主动开放如交通、教育、旅游、医疗等重点民生领域公共数据;同时启动数据交换、交易规则和标准制定,探索制定大数据安全、隐私和大数据等管理规范和标准,启动大数据立法,明确数据权属、隐私保护等方面具体规则。

    除了这个省级层面的规划,贵阳市主要是按照“抓两头促中间”的思路,通过抓数据中心和呼叫中心建设,同时搭建全城免费WiFi,开放政府数据等,促成产业链中游的大数据处理分析软件开发、硬件研发、设计与制造、大数据应用新兴服务等企业向贵阳集聚。

    对贵州省、贵阳市发展大数据产业的思路,您有何评价?贵州、贵阳想要在与北京等发达地区发展大数据的竞争中不落伍,您有何建议?

    答:非常棒!

    竞争重要的一环是人才聚集和可持续的供给。

     Q12.最后,能不能要一下您的个人简历和照片(照片麻烦您通过附件发送),它们将是报纸版面的一个重要组成部分。

    再次感谢您接受采访!