财新传媒

大数据在互联网金融发展中的作用

2013年09月04日 18:02 来源于 财新网 | 评论(0

   随着计算机及互联网通讯技术的兴起和发展,在过去的几十年间,金融行业在不断被改变,有两种互联网金融的表现形式引人注目。

  一种是越来越多的传统金融交易和服务因互联网技术得以升级和替代:从各类大小额不同币种的电子支付系统的逐步使用,发展到电子化证券或货币交易结算系统几乎完全取代了人工场内交易,到现在由互联网提供了几乎全部类型的银行信贷、证券交易、保险理财等服务。

  另一种是以第三方支付为突破口,使互联网企业跻身网络小额信贷等金融领域,比如阿里巴巴利用网络平台和用户数据,为用户提供信贷、支付结算等金融服务,在服务对象和贷款技术等方面取得突破,对传统金融体系形成了挑战,也促使传统金融机构越来越重视互联网的作用。

  人们普遍认识到,互联网金融不是互联网和金融的简单加总。在上述两类现象之外,更深层次的变化是一些基于互联网应用的特有技术、商业模式和产品开始出现,金融体系正随之经历着新的变革。但究竟什么才是互联网金融有别于传统金融的重要特征,还未被理论界和实务界广泛讨论。

  大数据时代

  数据一直是信息时代的象征。2011年5月麦肯锡全球研究院发布了报告《大数据:创新、竞争和生产力的下一个新领域》后,大数据的概念备受关注。金融业是大数据的重要产生者,交易、报价、业绩报告、消费者研究报告、官方统计数据公报、调查、新闻报道无一不是数据来源。金融业也高度依赖信息技术,是典型的数据驱动行业。互联网金融环境中,数据作为金融核心资产,将撼动了传统客户关系、抵质押品在金融业务中的地位。例如,信用卡消费记录中早就包含消费时的位置信息,现在就可以被互联网金融利用。

  在麦肯锡报告中,大数据的“大”通常是指数据量大到超过传统数据处理工具的处理能力,是相对和动态的概念。后来,大数据又被引申为解决问题的方法,即通过收集、分析海量数据获得有价值信息,并通过实验、算法和模型,从而发现规律、收集有价值的见解和帮助形成新的商业模式。

  一般认为,大数据有四个特点(4个“V”——Volume,Variety,Value,Velocity):

  第一,数据体量巨大,目前数据级别已从TB跃升到PB(petabytes = 1024*terabytes, terabytes=1024* gigabytes; gigabyte = 1024 megabytes)。随着底层技术的发展,从各类互联网设备和应用中产生信息的增长速度惊人,大量信息来源于金融交易、客户互动和物联网。

  第二,数据类型繁多。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,都在产生各种类型的数据。移动互联网、各类搜索及社交网络(如Facebook、网络日志、微博)兴起,地理位置、音频、文本、视频、图片等非结构化数据出现,使得人们的思想言论、日常行为和情绪等生活信息的细节化测量和大量收集,这也被称为用户生成内容(UGC,User Generated Content)。企业从合作伙伴、客户、业务部门甚至员工收集信息的能力也越来越强。

  第三,价值密度低,商业价值高。一条数小时的监控视频,可能有用的数据仅有一两秒。但如果能从海量数据中发掘出更符合用户兴趣和习惯的产品和服务,大数据将成为企业竞争力的重要来源。

  第四,处理速度快。这和传统的数据挖掘技术有着本质的不同。

  大数据与金融创新

  大数据已经促进了高频交易、社交情绪分析和信贷风险分析三大金融创新。

  ——高频交易(high-frequency trading)和算法交易(algorithmic trading)。

  以高频交易为例,交易者为获得利润,利用硬件设备和交易程序的优势,快速获取、分析、生成和发送交易指令,在短时间内多次买入卖出,且一般不持有大量未对冲的头寸过夜。来自各方面的统计预测综合显示,2009年以来,无论是美国证券市场、还是期货市场、外汇市场,高频交易所占份额已达40%到80%。随着采取这类策略的高频交易越来越多,其负面效应凸显且利润大幅下降。芝加哥Rosenblatt证券咨询公司的研究显示,2012年高频交易公司的利润比2009年下降了74%。

  现在的高频交易开始采取“战略顺序交易”(strategic sequential trading),即通过分析金融大数据,以识别出特定市场参与者留下的足迹。例如,如果一只共同基金通常在收盘前一分钟的第一秒执行大额订单,能够识别出这一模式的算法将预判出该基金在其余交易时段的动向,并执行相同的交易。该基金继续执行交易时将付出更高的价格,使用算法的交易商可趁机获利。

  ——通过收集、分析社交媒体上的内容进行市场情绪分析。

  伴随Twitter日发消息超过5亿条,Facebook日均用户超过10亿,社交媒体数据应用已经成为互联网商业模式的重要组成部分。研究者在这方面有不少发现:英国布里斯托尔大学的团队研究了从2009年7月到2012年1月,由超过980万英国人创造的4.84亿条twitter消息,发现公众的负面情绪变化与财政紧缩及社会压力高度相关。惠普实验室的社交计算研究主管伯纳多·休伯曼在《网页法则》一书里,把人们发布的微博与现实世界发生的事情之间的关系,称之为“注意力经济学”。他发现可以通过分析人们发布的微博来准确预测票房收入。

  金融市场的投资者试图开始将研究与应用结合起来。大约两年前,对冲基金开始从Twitter、Facebook、聊天室和博客等社交媒体中提取市场情绪信息,开发交易算法。例如一旦从中发现有自然灾害或恐怖袭击等意外信息公布,便立即抛出订单。2008年,精神病专家理查德·彼得森筹集了100万美元在美国加州圣莫尼卡建立了名为MarketPsy Capital的对冲基金,通过追踪聊天室、博客、网站和微博,以确定市场对不同企业的情绪,再据此确定基金的交易策略。到2010年,该基金回报率达40%。巴黎三位拥有行为金融学背景的交易员经营的IIBremans,针对法国CAC40指数提供情绪分析;位于伦敦的小型对冲基金DCM资本从Facebook和Twitter等社交媒体收集信息,将人们对某个金融工具的情绪进行打分,并向零售客户发布预测,辅助投资者作出投资决定。

  ——加强风险的可审性和管理力度,支持精细化管理。

  金融机构希望能够收集和分析大量中小微企业用户日常交易行为的数据,判断其业务范畴、经营状况、信用状况、用户定位、资金需求和行业发展趋势,解决由于小微企业财务制度的不健全,无法真正了解其真实的经营状况的难题。

  阿里小贷首创了从风险审核到放贷的全程线上模式,将贷前、贷中以及贷后三个环节形成有效联结,向通常无法在传统金融渠道获得贷款的弱势群体批量发放“金额小、期限短、随借随还”的小额贷款。

  首先,通过阿里巴巴B2B、淘宝、天猫、支付宝等电子商务平台,收集客户积累的信用数据,利用在线视频全方位定性调查客户资信,再加上交易平台上的客户信息(客户评价度数据、货运数据、口碑评价等),并对后两类信息进行量化处理;同时引入海关、税务、电力等外部数据加以匹配,建立数据库模型。

  其次,通过交叉检验技术辅以第三方验证确认客户信息的真实性,将客户在电子商务网络平台上的行为数据映射为企业和个人的信用评价,通过沙盘推演技术对地区客户进行评级分层,研发评分卡体系、微贷通用规则决策引擎、风险定量化分析等技术。

  第三,在风险监管方面,开发了网络人际爬虫系统,突破地理距离的限制,捕捉和整合相关人际关系信息,并通过逐条规则的设立及其关联性分析得到风险评估结论,结合结论与贷前评级系统进行交叉验证,构成风险控制的双保险。阿里小贷还凭借互联网技术监控贷款的流向:如果该客户是贷款用于扩展经营,阿里小贷将会对其广告投放、店铺装修和销售进行评估和监控。

  大数据正在重构整个金融行业

  与传统金融相比,大数据给互联网金融不仅带来了金融服务和产品创新、以及用户体验的变化,创造了新的业务处理和经营管理模式,对金融服务提供商的组织结构、数据需求与管理、用户特征、产品创新力来源、信用和风险特征等方面产生了重大影响,显著提升了金融体系的多样性,也对金融监管和宏观调控等方面提出了新的课题。

  ——大数据挑战金融机构内部的传统部门划分。

  金融机构中不同部门都在不断积累大量数据:抵押贷款部门储存和处理能充分描述其贷款客户的海量数据;外汇、债券、货币和股票及衍生品交易部门从全球收集能影响资产价格变化的信息,并试图建立前瞻性模型;零售银行部门则在收集和分析客户行为实时信息;研发、客户交易、市场开发或服务运营等各个部门也隐藏了海量数据。由于缺乏大数据分析技术和跨部门沟通战略,各部门难以了解不同金融市场之间的关系,或者对同一客户的看法发生分歧,妨碍了信息的及时利用。

  已经有一些企业正试图打破这样的切割,推动跨职能部门的数据整合,甚至寻求外部供应商和客户的外部信息。例如,美国纽约的Movenbank移动银行通过与传统商业银行合作开拓移动银行新业务,帮助其解决内部机构割裂问题。英国ERN公司计划利用用户的交易历史、消费习惯,参照交易位置和时间数据,向银行和商家提供相关数据服务和咨询。

  ——大数据打破金融机构对客户的信息垄断。

  大数据有助于提升金融市场的透明度。金融客户的信用状况将随着其资产、经营和各类交易状况的变化而变化,传统商业银行利用投入大量人力和财力,建立特有的信息收集、分析和决策体系,以解决信息不对称问题。近年来,互联网金融平台直接收集潜在的金融交易双方信息,形成了新的金融信息来源模式,金融客户信息、交易价格信息和社会经济状况等数据更为精细和透明,使利率形成更为准确和市场化。

  新一代互联网金融企业更可能在价值链中扮演中介角色。例如,一家运输公司在经营过程中意识到自己正在收集全球产品运输的海量信息,已开始专门销售这些信息产品。与之相类似的,第三方支付企业也发现了海量支付信息的巨大商业价值。随着价格信息在网上及线下大量扩散,包括基金销售机构在内的各类企业正在提供自动编辑数百万种商品信息的比价服务,这对消费者创造了巨大价值。

  新兴市场欠缺成熟的征信机构,有些公司利用申请者的社交网络,加以分析后得出信用评分。例如,德国Kreditech贷款评分公司、美国Movenbank移动银行、香港Lenddo网络贷款公司以及Connect.Me、TrustCloud 、Briiefly、Reputate等新型中介机构试图设计打造能反映大数据时代互联网金融信用的平台:说服LinkedIn、facebook或其他社交网络开放资料,结合用户在各网站的活动记录,通过自行开发的软件、算法等,分析客户的同事、好友信息(特别是信用状况),建立归纳与收集信用资料的标准化格式,作为客户获得信用评分的重要依据,将社交网络资料转化成个人互联网信用。Movenbank对客户进行风险评估的核心概念称为CRED,除了参考个人传统信评分数,也纳入eBay等平台的交易评价、网络汇款记录等因素,还会计算Facebook好友人数、LinkedIn人脉对象、Klout影响力分数等社交参与连结程度。

  ——大数据将支撑更迅速、更灵活的决策,带来更贴近客户需求的产品创新。

  互联网金融借助社交网络等新平台产生了海量用户和数据,记录了用户群体的情绪,但大数据库无法自己总结人类行为模式的规律。计算机科学家、统计学家正在开始与社会科学家协作,找到把大数据策略和小数据研究相结合的新途径。利用互联网,金融企业也可以对其客户行为模式进行分析(比如事件关联性分析),这类似于工程上的“对照实验”,即观察、测试不同条件下,机构投资者或普通金融消费者对产品的反应,识别其中的因果关系,提高客户转化率,改善服务水平,实现互联网金融的精准营销。例如,领先的零售企业通过监控客户的店内走动情况及其与商品的互动,与交易记录相结合开展实验,就可以指导选择商品种类、摆放货品、调整售价。再如,Progressive保险公司通过精细化分析客户风险、财富变化、家庭资产价值等数据并不断更新其背景资料,向客户提供量身定制的保单。未来,保险公司还将使用个人位置和汽车运行信息对车险产品定价,向客户提供交通和天气状况、停车事故高发区域和速度限制变化等实时信息,开发有利于安全驾驶的产品。

  金融行业尚不能完全驾驭大数据

  ——大数据对个人信息的大量获取导致了隐私和安全问题。

  随着个人所在或行经位置、购买偏好、健康和财务情况的海量数据被收集,再加上金融交易习惯、持有资产分布、以及信用状况以更细致的方式被储存和分析,机构投资者和金融消费者能获得更低的价格、更符合需要的金融服务,从而提高市场配置金融资源的能力。但同时,金融市场乃至整个社会管理的信息基础设施将变得越来越一体化和外向型,对隐私、数据安全和知识产权构成更大风险。就个人隐私而言,大数据的隐私问题远远超出了常规的身份确认风险的范畴。最近对欧洲150万手机用户的数据进行的研究表明,只需要4项参照因素就可以确认其中95%的个人身份。又如,人们在城市中走过的路径存在惟一性;针对个人研制药物和疗法等个性化医疗是基于对患者基因信息的掌握;RunKeeper和Nike+等应用正在收集大量个人健康数据;等等。

  ——大数据技术不能代替人类价值判断和逻辑思考。

  大数据是人类设计的产物,大数据的工具(如Hadoop软件)并不能使人们摆脱曲解、隔阂和成见,数据之间相关性也不等同于因果关系,大数据还存在选择性覆盖问题。

  例如,社交媒体是大数据分析的重要信息源,但其中年轻人和城市人的比例偏多,还存在大量由程序控制的“机器人”账号或“半机器人”账号。波士顿的Street Bump应用程序为统计城市路面坑洼情况,从驾驶员的智能手机上收集数据,可能少计年老和贫困市民较多区域的情况;“谷歌流感趋势”曾高估了2012年流感发病率。这说明依赖有缺陷的大数据可能给政府决策造成负面影响,还可能加剧社会不公。

  2010年,股票市场情绪从恐惧转向复苏,但MarketPsy Capital基金的分析模型还是以恐惧为基础,没有纳入对趋势变化的考虑,当年该基金亏损8%。美国印第安那大学信息科学及计算技术副教授约翰·博伦提出,即使数据的准确度达到80%,20%差错率就足以造成破产。

  博伦和休伯曼教授都认为,用社交媒体衡量公共情绪,只在整体上有意义。

  ——基于大数据开发的金融产品和交易工具对金融监管提出挑战。

  大数据的使用正在改变金融市场,也需要改变监管市场的方式,以保证市场参与者负责地使用大数据。例如,2010年5月的“闪电暴跌”(flash crash)令道琼斯工业平均指数(Dow Jones Industrial Average)突然大跌,美国监管部门认为是高频交易造成了快速抛售引发的更多抛售。2013年4月23日的“无厘头暴跌”(hash crash)的缘由是美联社的Twitter账号发出巴拉克·奥巴马(Barack Obama)遭遇恐怖袭击的虚假消息:大数据中的一个数据点出错就能导致“无厘头暴跌”。

  监管机构限制大数据技术的使用,或是对其使用进行直接干预,其潜在风险是巨大的,应鼓励业界对更复杂的技术乃至更大数据的利用。

  纽约大学理工学院(NYU-Poly)大数据金融会议上,美国商品期货交易委员会(CFTC)的斯科特·奥马利亚(Scott O’Malia)表示,CFTC曾考虑是否应让监管机构对交易商的算法进行认证,“鲁莽行为”正取代“市场操纵”,成为起诉不当行为的标准;劳伦斯伯克利国家实验室拥有超级计算能力和雄厚的分析技术,足以实时监控威胁稳定的交易行为。传统的停市机制在市场暴跌后停止全部交易,实时监控能够将单个参与者扫地出门,从而向诚信的参与者继续敞开市场。