财新传媒

何宝宏:大数据须结束数据孤岛

2013年09月04日 15:14 来源于 财新网 | 评论(0

  大数据来了。8月14日下午,甫一走进北京国家会议中心二层会议室大门,“大数据”“云计算”“网络营销”等鲜活名词便闯入耳朵。

  这里正在举办“2013中国大数据发展论坛”。虽然这是大数据第一次亮相颇具影响力的中国互联网大会,却与2000年初谈互联网的场景相仿,容纳数百人的会场座无虚席,台上的演讲者热情高涨,台下的听众豪情万丈。

  几乎所有人都意识到,大数据正在改变着人们的生活,它将带来一场彻头彻尾的革命,包括技术、产品、行业乃至整个经济运作模式。

  政府部门颁布的一纸政策恰到好处地鼓励了人们发展大数据的决心。同一天,国务院发布《关于促进信息消费扩大内需的若干意见》,明确提出到2015年,信息消费规模超过3.2万亿元,年均增长20%以上,带动相关行业新增产出超过1.2万亿元,其中基于互联网的新型信息消费规模达到2.4万亿元,年均增长30%以上。

  面对如此诱人而巨大的蛋糕,无论是传统的IT企业,还是在各种数据里摸爬滚打多年的互联网公司,甚至电信运营商都禁不住怦然心动:IT企业譬如Oracle、IBM坐拥先进的技术,互联网公司譬如百度、阿里巴巴则在广告推送、个性化营销等方面率先践行大数据技术多年,三大运营商亦掌握着其他企业无可媲美的真实且庞大的数据源,各方凭借自身优势竞相涉足大数据,都打定了分一杯羹的主意。

  实际上,大数据的发展态势早就引起了工信部智囊团队——电信经济专家委员会的注意。财新记者获悉,在2012年底的一次内部交流中,几十名来自学界、业界、政府部门的专家集中讨论的话题只有一个——大数据。

  在讨论声中,大数据从理论探讨到实践创新日渐红火,我们有必要关注这一新兴领域从何而来,到底发展到了何种地步,又该如何拓宽大数据的盘子?为此,财新记者专访了工业和信息化部电信研究院互联网中心主任何宝宏博士,在他看来,在技术的推动下,以前不起眼的数据突然就变成了一种资源,而且还是一笔可能创造出巨大价值的资产。只是这笔资产的应用目前还处于初级阶段,也没有相应的政策针对性地去引导这些应用。

大数据一定会成功

  财新记者:现在市场都在热议着大数据,大数据的定义到底是什么?

  何宝宏:坦白说,对于大数据,业内并没有明确的概念。在维基百科或其他网络解释中,将“传统工具无法处理的数据”称为大数据,有的会加一些定语,譬如“在有效的时间里”。

  在我看来,大数据的重点在于如何处理“大”。“大”意味着容量大、内存多、变化快,相对来说,也是指处理这种数据的能力或工具,既然是大数据,就意味着是分析、处理、应用不规则且一直在变化的数据。

  财新记者:目前,大数据发展到了何种程度?

  何宝宏:大数据现在还不是一个行业,它是嵌入在云计算里发展的,规模还很小。它的发展尚处于初级阶段,还没有成长到能够从云计算里独立出来。要从云计算里独立出来,至少还需要三五年的时间。

  相对来说,云计算已经过了概念描述期,正处于一个高速成长的阶段,而现在的大数据,就像三五年前的云计算,还处于培育期,大家都在讨论到底该怎么做产品、怎么样才会有市场。简言之,大数据处于吹泡沫阶段,云计算已经吹完泡沫,务实发展了。不过,虽然大数据是刚刚才开始的技术,可这个技术迎合了社会的需求,一定会成功。

  财新记者:大数据与物联网、云计算的关系是怎样的?

  何宝宏:物联网可以看成是大数据的采集环节,云计算为大数据提供一个通用的处理平台,但仅仅依靠云计算这个平台是不够的,需要在云计算这个平台上专门针对大数据处理做一些工作。

  物联网与大数据的关系要远一层,至于云计算与大数据,就像操作系统与数据库管理系统一样。大数据是基于云计算的基础服务,几乎每一个大数据的处理都要依托云计算平台。

谁是大玩家

  财新记者:大数据这一概念为何会在现在爆发?

  何宝宏:任何技术都不是平白无故出来的。2000年以前,大家都致力于研究传统的数据库,对结构化数据进行处理;2000年以后,以谷歌、亚马逊这几家互联网巨头为代表,开始对非结构化的数据进行处理,并运用数据挖掘的成果去推荐自身产品或投放广告等。

  直到2011年、2012年,经过了十年的实践、研究,互联网巨头们终于通过不断的技术创新,找到了一种廉价的、高效的处理各类不规则数据的方法,并从这种数据处理、应用中获益不菲。在有利可图的情况下,况且这笔利润可能还不小,其他行业自然意欲将互联网企业的做法搬到自己所处的行业中,这样,大数据这一概念就被包装出来了,也就是近两年的事情。

  财新记者:当前,依托大数据,可否有成功的盈利模式?

  何宝宏:现在,大数据应用得最成功的还是一些互联网企业。百度可以通过分析用户语义,了解用户习惯、爱好,以便推送广告,阿里巴巴也能利用数据挖掘进行精准的产品营销,这种根据用户浏览、搜索等行为分析用户需求继而推送广告或产品,是当前最典型的大数据应用模式。

  实际上,等大数据真正发展起来,可能会出现超乎想象的应用,就像谷歌通过分析人们搜索的关键词竟然可以对流行病进行预测那样,很多创新性的应用将随之出现,发展空间之大我们目前还难以预料。

  财新记者:大数据现在最主要的应用在互联网领域,具体案例如何?可否供其他行业借鉴?

  何宝宏:以淘宝为例,这个电子商务平台拥有的商品超过10亿种,交易总额已经突破万亿,每天约有30亿次网页浏览、数千万笔商品交易。如此多的商品数据、用户数据、交易数据、社交数据等,经过分析、挖掘,最终形成的应用流向了交易的全过程,包括用户潜在的购买需求预测、针对性地推送产品、商品满意度调查、商家信誉等,甚至还流向了支付、保险、物流等环节,衍生出极具想象力的应用。

  在互联网企业应用大数据的过程中,一些通用的数据分析方法、数据开发工具可以给其他行业一些参考,但具体要分析哪些数据,挖掘出什么价值,创造出何种新应用,却不能照搬互联网的那套模式,应该按照不同行业、企业的具体要求去做。

  现在,不少企业已经认同了“数据是一种资产”的理念,只是不懂得如何清点清楚这笔资产。它们看到了互联网企业基于大数据获得的巨大收益,也在想着如何盘活自身的大数据,只是还没有寻找到合适的应用,仍在结合自身业务寻找大数据的盈利模式。

  财新记者:在您看来,未来在大数据这个产业链上,谁会是主要的玩家?它的发展趋势如何?

  何宝宏:大数据是从互联网延展开去的,各行各业都将涌入大数据。现在看来,两类企业在大数据领域占据优势,一类是互联网企业,譬如国内的百度、阿里巴巴,既掌握着大数据技术,自身又能够捕捉用户数据、拥有庞大的数据源,必然能做大数据;一类则是专门做大数据分析的公司,它们可能规模不大,自身也没有数据,但是掌握着大数据的相关工具和技术,可以帮一些不具备大数据能力的企业做分析,譬如在钢铁、能源行业。

首要问题是政府数据的开放

  财新记者:如您所说,大数据的发展尚处于初级阶段,那么,在这一发展阶段存在哪些问题?

  何宝宏:大数据归根到底要先有海量的数据,现在关键的问题在数据源上。

  首要问题是数据的开放。实际上,政府是最主要的数据源,如果政府的数据不开放,大数据的市场就会相对狭隘,很多创新的应用也将无法实现。至于企业,尤其是国内传统的大国企,部门与部门之间的数据尚且不能完全透明、开放,要求它们对外开放数据就相当困难。

  所以,在大数据发展的初级阶段,我们看到的大部分是“私有大数据”,譬如交通部门掌握交通数据、银行部门掌握银行数据、电信部门掌握电信数据,等等,彼此之间却不能互通共享,形成一个个“数据孤岛”。

  除了开放数据,数据源的标准化、数据源的质量控制等也面临着困难,业界也在探讨解决之道。

  在讨论数据源的难题之际,随之而来的还有隐私泄露、买卖数据等一系列数据安全问题。国家工信部一再强调保护个人信息安全,前不久也颁布了《电信和互联网用户个人信息保护规定》。但是,如何在大数据时代更大范围地保障信息安全,没有人知道,因为现在的数据大多还不是相互开放的,连都还没有连起来。

  财新记者:针对大数据,我国政府部门出台了哪些政策予以引导?国外是否有相关政策可供参考?

  何宝宏:大数据是新兴事物,至今还没有针对性的政策颁布,但在政府部门的宏观政策譬如“十二五”规划里,已经多次提及海量数据处理问题。

  实际上,开放政府数据无疑是对大数据的最大政策支持,只是这是一个渐进的过程,实现真正的数据开放还需要很长的时间。

  在国外,数据开放也是令人头痛的事情。不过,美国政府走在了前面,美国总统奥巴马已经明确要求政府信息公开,所有不涉密的信息都要以机器可读的形式开放给公众,譬如气象数据、医院收费数据。这样的数据开放已不再止于公布一个结果,即信息公开的层面,而是公布形成这一结果的各种数据演变过程。

  我们应该意识到,基于大数据的国际竞争已经悄然到来。2012年3月22日,奥巴马将大数据称为“未来的新石油”,宣布了2亿美元的大数据投资计划。可以说,美国政府已将大数据从自发的商业行为提升到国家战略的高度。竞争之下,我国政府应该会对大数据做出新的考量。

  财新记者:数据开放的价值在哪里?

  何宝宏:数据不联网,价值就会大打折扣。当然,通过分析单个企业的数据也能实现一些价值,但数据更大的价值在于,不同的数据源能够相互关联起来,就像20年前的计算机,不联网也可单独使用,可一旦联网,产生什么样的应用,当时根本无法预料,惟一确定的是联网之后的价值远胜于从前。

  大数据也是一样,我们可以认为现在的互联网连接的是硬件设备,包括PC、手机、平板,未来互联网则是连接各种各样的数据,形成一张数据网,价值不是更大?

  你可以发挥想象力,当交通部门的路况数据、银行的消费数据、电信运营商的用户位置数据以及互联网厂商的商品⋯⋯这些重叠在一起,什么样的可能性都会出现。

  财新记者:从政策层面,如何保障数据开放之后可能存在的安全问题?

  何宝宏:实际上,技术的进步使得网络匿名变成数学上不可能的事。只要有合理的商业和安全动机,任何形式的匿名和隐私都只是算法上的不可能。你是谁已不再重要,重要的是你身上的标签信息,例如位置、性别、年龄、兴趣、方向以及职业等。

  据有关研究,20年前,可以通过“性别+邮编+出生年月日”,识别出87%的人。而大数据时代,通过分析用户4个曾经到过的位置点,就可以识别出95%的用户。大数据没有原罪,需要反省调整的不是它,而是我们自己。大数据时代需要调整我们对隐私保护的理念。比如,法律和政策不应去不断扩大“个人信息”的保护范畴,而是限制大数据应用的目的。隐私保护需要做的,是将大数据监管重心从收集环节转移到使用环节,而不是相反。

  我相信,没有坏数据,只有对数据的不合理使用。我们需要开放大数据,限制对它的滥用,把人类从数字鸿沟和数字圆形监狱中解放出来,让大数据为我们带来更大的便利性、更好的安全性和更多的创新服务。■