微软以1.1亿美元的价格购买了大数据公司Farecast,而两年后谷歌则以7亿美元的价格购买了给Farecast提供数据的ITA Software公司。如今,我们正处在大数据时代的早期,思维和技术是最有价值的,但是最终大部分的价值还是必须从数据本身中挖掘。
【大数据先锋】
ITA software与数据授权
VISA&MasterCard与商户推荐
微软研究中心与再入院率分析
埃森哲与无线传感监测系统
FlightCaster的大数据思维
谷歌与亚马逊,三者兼备
数据中间商,交通数据处理公司Inrix
The-Numbers.com与电影票房预测
苹果,挖出“潜伏”的数据价值
2011年,西雅图一家叫Decide.com的科技公司推出了一个雄心勃勃的门户网站,它想为无数顾客预测商品的价格。不过它最初计划的业务范围只限于电子产品,包括手机、平板电视、数码相机等。公司的计算机会收集电子商务网站上所有电子产品的价格数据和产品信息。
网络产品的价格受一系列因素的影响全天都在不断更新,所以公司收集的价格数据必须是即时的。这不仅是一个“大数据”问题,还是一个“大文本”问题,因为系统必须进行数据分析,才会知道一个产品是不是下架了或者是不是有新产品要发布了,这些都是用户想知道的信息而且都会影响产品价格。
经过一年的时间,Decide.com分析了近400万产品的超过250亿条价格信息。它发现了一些过去人们无法意识到的怪异现象,比如在新产品发布的时候,旧一代的产品可能会经历一个短暂的价格上浮。大部分人都习惯性地认为旧产品更便宜,所以会选择买旧产品,其实这取决于你什么时候购买,不然有可能你付出的金钱比购买新产品还要多。因为电子商务网站都开始使用自动定价系统,所以Decide.com能够发现不正常、不合理的价格高峰,然后告知用户何时才是购买电子产品的最佳时机。
大数据的力量
根据公司内部分析显示,它的预测准确率可以达到77%,平均可以帮助每个顾客在购买一个产品时节省100美元。
表面上,Decide.com就像众多前途光明的科技公司一样,在创新地使用数据、赚取利润。但是事实上,让Decide.com异军突起的不是数据,不是技术,而是思维观念。Decide.com使用的数据都来自电子商务网站和互联网,这是公开的数据,每个人都可以利用。技术上,公司也并没有无可替代的技术人才。所以,虽然数据和技术也是不可或缺的,但是真正使得该公司取得成功的是他们拥有大数据的思维观念。它先人一步地挖掘出了数据的潜在价值。Decide.com和Farecast之间似乎有着相通性,如果你知道它们都是华盛顿大学奥伦·埃齐奥尼先生的杰作,你就知道原因了。
上一章中,我们讨论了怎样通过创新用途,挖掘出数据新的价值,主要是指我们所说的潜在价值。如今,我们的重点转移到了使用数据的公司和它们如何融入大数据价值链中。我们将讨论这对公司、个人的事业和生活意味着什么。
根据所提供价值的不同来源,分别出现了三种大数据公司。这三种来源是指:数据本身、技能与思维。
第一种是基于数据本身的公司。这些公司拥有大量数据或者至少可以收集到大量数据,却不一定有从数据中提取价值或者用数据催生创新思想的技能。最好的例子就是Twitter,它拥有海量数据这一点是毫无疑问的,但是它的数据都通过两个独立的公司授权给别人使用。
第二种是基于技能的公司。它们通常是咨询公司、技术供应商或者分析公司。它们掌握了专业技能但并不一定拥有数据或提出数据创新性用途的才能。比方说,沃尔玛和Pop-Tarts这两个零售商就是借助天睿公司(Teradata)的分析来获得营销点子,天睿就是一家大数据分析公司。
第三种是基于思维的公司。皮特·华登(Pete Warden),Jetpac的联合创始人,就是通过想法获得价值的一个例子。Jetpac通过用户分享到网上的旅行照片来为人们推荐下次旅行的目的地。对于某些公司来说,数据和技能并不是成功的关键。让这些公司脱颖而出的是其创始人和员工的创新思维,他们有怎样挖掘数据的新价值的独特想法。
大数据洞察
到目前为止,前两种因素一直备受关注,因为在现今世界,技能依然欠缺,而数据则非常之多。近年来,一种新的职业出现了,那就是“数据科学家”。数据科学家是统计学家、软件程序员、图形设计师与作家的结合体。与通过显微镜发现事物不同,数据科学家通过探寻数据库来得到新的发现。全球知名咨询管理公司麦肯锡,就曾极端地预测数据科学家是当今和未来稀缺的资源。如今的数据科学家们也喜欢用这个预测来提升自己的地位和工资水平。
同时,谷歌的首席经济学家哈尔·范里安(Hal Varian)认为统计学家是世界上最棒的职业,他的这种说法非常著名。“如果你想成功,你不应该成为一个普通的、可被随意替代的人,你应该成为稀缺的、不可替代的那类人,”他还说,“数据非常之多而且具有战略重要性,但是真正缺少的是从数据中提取价值的能力。这也就是为什么统计学家、数据库管理者和掌握机器理论的人是真正了不起的人。”
但是,过分强调技术和技能而忽视数据本身的重要性也是不可取的。随着计算机行业的发展,人力技术的落后会被慢慢地克服,而范里安所赞赏的技能将会变成十分普通的事情。认为当今世界数据非常之多,所以收集数据很简单而且数据价值并不高的想法是绝对错误的——数据才是最核心的部分。要知道原因,就必须考虑到大数据价值链的各个部分,以及它们会如何发展变化。
大数据掌控公司
大数据最值钱的部分就是它自身,所以最先考虑数据拥有者才是明智的。他们可能不是第一手收集数据的人,但是他们能接触到数据、有权使用数据或者将数据授权给渴望挖掘数据价值的人。
大数据先锋
ITA Software与数据授权
四大机票预订系统之一的ITA Software就为Farecast提供预测机票价格所需要的数据,而它自身并不进行这种数据分析。为什么呢?因为商业定位不一样,毕竟出售机票已经很不容易了,所以ITA并不考虑这些数据的额外利用。因此,两家公司的核心竞争力也会不同。当然,还有就是ITA并没有这种创新想法,如果它能像Farecast一样利用数据,那么就需要向奥伦·埃齐奥尼先生购买专利使用权了。
当然,它在大数据价值链上所处的位置也决定了它不会这样去使用数据。“ITA会尽量避免用任何数据来暴露航空公司的利润问题。”ITA的创始人之一也是前CTO卡尔·德马肯(Carl de Marcken)如是说。他还说,“ITA能够得到这些数据而且必须拥有这些数据,因为它们是ITA在提供服务时必须具备的。”但是,ITA有意与这些数据保持一定的距离,所以自己不使用而是授权别人使用。结果不难预见,ITA只从Farecast那里分得了小小的一杯羹。Farecast得到了数据大部分的间接价值,它把其中一部分价值以更便宜的机票的形式转移给了它的用户,而把这种价值带来的利润分给了它的股东以及员工。Farecast通过广告、佣金,当然最后通过出售公司本身获取利润。
有的公司精明地把自己放在了这个信息链的核心,这样它们就能扩大规模、挖掘数据的价值。信用卡行业的情况就符合这一点。多年来,防范信用诈骗的高成本使得许多中小银行都不愿意发行自己的信用卡;而是由大型金融机构发行,因为只有它们才能大规模地投入人力物力发展防范技术。美国第一资本银行和美国银行这样的大型金融机构就承担了这个工作。但是现在小银行后悔了,因为没有自己发行的信用卡,它们就无从得知客户的消费模式,从而不能为客户提供定制化服务。
大数据先锋
VISA&MasterCard与商户推荐
相对地,像VISA和MasterCard这样的信用卡发行商和其他大银行就站在了信息价值链最好的位置上。通过为小银行和商家提供服务,它们能够从自己的服务网获取更多的交易信息和顾客的消费信息。它们的商业模式从单纯的处理支付行为转变成了收集数据。接下来的问题就是,如何使用收集到的数据。
就像ITA一样,MasterCard也可以把这些数据授权给第三方使用,但是它更倾向于自己分析、挖掘数据的价值。一个称为MasterCard Advisors的部门收集和分析了来自210个国家的15亿信用卡用户的650亿条交易记录,用来预测商业发展和客户的消费趋势。然后,它把这些分析结果卖给其他公司。它发现,如果一个人在下午四点左右给汽车加油的话,他很可能在接下来的一个小时内要去购物或者去餐馆吃饭,而这一个小时的花费大概在35~50美元之间。商家可能正需要这样的信息,因为这样它们就能在这个时间段的加油小票背面附上加油站附近商店的优惠券。
处于这个数据链的中心,MasterCard占据了收集数据和挖掘数据价值的黄金位置。我们可以想象,未来的信用卡公司不会再对交易收取佣金,而是免费提供支付服务。作为回报,它们会获得更多的数据,而对这些数据进行复杂的分析之后,它们又可以卖掉分析结果以取得利润。
大数据技术公司
第二种类型就是拥有技术和专业技能的公司。MasterCard选择了自己分析,有的公司选择在两个类型之间游移,但是还有一部分公司会选择发展专业技能。比方说,埃森哲咨询公司就与各行各业的公司合作应用高级无线感应技术来收集数据,然后对这些数据进行分析。
大数据的力量
2005年,在埃森哲与密苏里州圣路易斯市共同合作的一个实验项目中,它给20辆公交车安装了无线传感器来监测车辆引擎的工作情况。这些数据被用来预测公交车什么时候会抛锚以及维修的最佳时机。研究促使车辆更换零件的周期从30万或者40万公里变成了50万公里,仅这一项研究结果就帮助该城市节省了60万美元。在这里,获益的不是埃森哲,而是圣路易斯市。
在医学数据领域,我们可以看到一个关于技术公司如何能提供有效服务的很好的例子。位于华盛顿州的华盛顿中心医院与微软研究中心合作分析了多年来的匿名医疗记录,涉及患者人口统计资料、检查、诊断、治疗资料,等等。这项研究是为了减少感染率和再入院率,因为这两项所耗费的费用是医疗卫生领域最大的一部分,所以任何可以减少哪怕是很小比例的方法都意味着节省巨大的开支。
这项研究发现了很多惊人的相关关系:在一系列情况下,一个出院了的病人会在一个月之内再次入院。有一些情况是众所周知但还没有找到好的解决办法的,比方说,一个患充血性心力衰竭的病人就很有可能再次入院,因为这是非常难医治的病。但是研究也发现了一个出人意料的重要因素,那就是病人的心理状况。如果对病人最初的诊断中有类似“压抑”这种暗示心理疾病的词的话,病人再度入院的可能性大很多。
虽然这种相关关系对于建立特定的因果关系并无帮助,但是这表明,如果病人出院之后的医学干预是以解决病人的心理问题为重心,可能会更有利于他们的身体健康。这样就可以提供更好的健康服务,降低再入院率和医疗成本。这个相关关系是机器从一大堆数据中筛选出来的,也是人类可能永远都发现不了的。微软不控制数据,这些数据只属于医院;微软没有出彩的想法,那并不是这里需要的东西,相反,微软只是提供了分析工具,也就是Amalga系统来帮助发现有价值的信息。
大数据拥有者依靠技术专家来挖掘数据的价值。但是,虽然受到了高度的赞扬,而且同时拥有“数据武士”这样时髦的名字,但技术专家并没有想象中那么耀眼。他们在大数据中淘金,发现了金银珠宝,可是最后却要把这些财富拱手让给大数据拥有者。
大数据思维公司和个人
第三种类型是有着大数据思维的公司和个人。他们的优势在于,他们能先人一步发现机遇,尽管本身并不拥有数据也不具备专业技能。事实上,很可能正因为他们是外行人,不具备这些特点,他们的思维才能不受限制。他们思考的只有可能,而不考虑所谓的可行。
大数据先锋
FlightCaster的大数据思维
布拉德福德·克罗斯(Bradford Cross)用拟人手法解释了什么是有大数据思维。2009年8月,也就是在他20多岁的时候,他和四个朋友一起创办了FlightCaster.com。和FlyOnTime.us类似,这个网站致力于预测航班是否会晚点。它主要基于分析过去十年里每个航班的情况,然后将其与过去和现实的天气情况进行匹配。
有趣的是,数据拥有者就做不到这样的事情。因为数据拥有者没有这样使用数据的动机和强制要求。事实上,如果美国运输统计局、美国联邦航空局和美国天气服务这些数据拥有者敢将航班晚点预测用作商业用途的话,国会可能就会举办听证会并否决这个提议。所以使用数据的任务就落到了一群不羁的数学才子的身上。同样,航空公司不可以这么做,也不会这么做,因为这些数据所表达的信息越隐蔽对它们就越有利。FlightCaster的预测是如此的准确,就连航空公司的职员也开始使用它了。但是需要注意的一点就是,虽然航空公司是信息的源头,但是不到最后一秒它是不会公布航班晚点的,所以它的信息是不及时的。
因为有着大数据思维,克罗斯和他的FlightCaster是第一个行动起来的,但也没比别人快多少。所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。2009年8月,FlightCaster公开发布了。同一个月,FlyOnTime.us的计算机专家们也开始搜刮公开的数据建立他们的网站。最终,FlightCaster的优势慢慢地减弱了。2011年1月,克罗斯和他的同伴把网站卖给了Next Jump,这是一个使用大数据技术进行企业折扣管理的公司。
之后,克罗斯把他的目光转向了另外一个夕阳行业——新闻行业。他发现,这里是一个创新型的外行人可以大有作为的宝地。他的科技创新公司Prismatic收集网上资源并排序,这种排序建立在文本分析、用户喜好、社交网络普及和大数据分析的基础之上。重要的是,这个系统并不介意这是一个青少年的博客、一个企业网站还是《华盛顿邮报》上的一篇报道,只要它的内容相关并且很受欢迎就能排在很靠前的位置。而关于是否受欢迎,是通过它的点击率和分享次数来体现的。
作为一项服务,Prismatic关注的是年青一代与媒体进行交流的新方法,信息的来源并不重要。同时,这也给那些自视过高的主流媒体提了一个醒:公众的力量要远远超过它们,而西装革履的记者们也需要与一群不修边幅的博主进行竞争。也许最令人无法想象的是,Prismatic居然是从新闻领域内部诞生出来的,虽然它确实收集了大量的数据。美国国家记者俱乐部(National Press Club)的常客从来没有想过要再利用网上的媒体资源,阿蒙克、纽约和印度班加罗尔的分析专家们也没有想过要用这种方法来使用数据。克罗斯顶着一头蓬松的头发,说话吞吞吐吐,可就是这样一个不起眼的外行人,想到了也做到了,他使用这些数据来告诉世界什么是比《纽约时报》更有用的信息来源。
大数据思维这个概念以及一个拥有创新思维的人的地位,与20世纪90年代电子商务初期出现的情况是不一样的。电子商务先驱者们的思想没有被传统行业的固有思维和制度缺陷所限制,因此,在对冲基金工作的金融工程师杰夫·贝索斯创建了网上书店亚马逊而不是巴诺书店;软件开发工程师皮埃尔·奥米迪亚(Pierre Omidyar)开发了一个拍卖网站而不是苏富比(Sotheby\'s)。如今,拥有大数据思维的领导者通常自己并不拥有数据资源。但就是因为这样,他们不会受既得利益和金钱欲望这样的因素影响而阻碍自己的想法实践。
就像我们看到的,也有公司集合了大数据的多数特点。埃齐奥尼和克罗斯不仅比别人早一步有了这些决胜的思想,他们也有技术优势。Teradata和埃森哲的员工不仅规规矩矩地打卡上班,还时不时会有些机灵的点子。这些原型都有助于我们认识不同公司所承担的角色。我们在上一章节中提到的手机公司掌握了海量的数据却不知道该如何使用,然而,它们可以把这些数据授权给有能力挖掘出数据价值的人。同样地,Twitter一早就决定把它所掌握的海量数据授权给了两家公司。如今的大数据先驱者们通常都有着交叉学科背景,他们会将这些知识与自己所掌握的数据技术相结合,应用于广泛的领域之中。新一代的天使投资人和企业家正在诞生,他们主要是来自谷歌已经离职的员工和所谓的“Paypal黑手党”。他们与少量的计算机科学家一起充当了当今许多数据科技公司的最大靠山。这种将企业和个人置于大数据价值链中的创新性想法促使我们重新审视公司的存在价值。比方说,Salesforce不再是一个单纯为企业提供应用软件的平台,它还能挖掘这些软件所收集到的数据并且释放出它们的巨大价值。
大数据先锋
谷歌与亚马逊,三者兼备
有些比较幸运的公司就有计划地同时涉足了这三个方面。一个很典型的例子就是谷歌,它收集搜索时拼写错误的数据,它也有利用这些数据创建一个世界上最好的拼写检查程序的好点子,同时它自身也具备挖掘数据价值的技术。谷歌在大数据价值链中同时充当的这三个不同的角色,与谷歌其他项目整合后为谷歌带来了巨大的利润。除此之外,谷歌还通过应用程序接口(APIs)把它掌握的部分数据授权别人使用,这样数据就能重复使用还可以产生附加价值。谷歌地图就是这样,它免费给互联网上的任何人提供服务(尽管访问量很大的网站是需要付费的)。
同样,亚马逊也是数据、技能、思维三者兼备。事实上,该公司的商业模式就是按这个顺序确定的,虽然这与常规不符。刚开始的时候,关于它备受赞誉的推荐系统,亚马逊只有一个初步的想法。它在其1997年的股票市场简介中首先描述了“协同过滤”,这发生在它找到实施这个想法的方法和配备足够的数据资源之前。
虽然谷歌和亚马逊都是三者兼具,但是它们的商业策略并不相同。谷歌在刚开始收集数据的时候,就已经带有多次使用数据的想法。比方说,它的街景采集车收集全球定位系统数据不光是为了创建谷歌地图,也是为了制成全自动汽车。相对地,亚马逊更关注的是数据的基本用途而且也只把数据的二级用途作为额外收益。比方说,它的推荐系统把用户浏览过的网页数据作为线索,但是它并没有利用它预测经济状况和流感爆发。
亚马逊的Kindle电子书阅读器记录了一些读者反复标注和强调过的内容,但是亚马逊并没有把这些数据信息卖给作者或是出版社。书商肯定很乐意知道哪些段落是受读者喜欢的,因为这样他们就能提高销量;作者应该也想知道书籍的哪些地方不受读者欢迎,这样他们就能根据读者的喜好提高作品质量;出版社则可以通过这些数据知道哪些主题的书籍更有可能成为畅销书。但是,亚马逊把这些数据都雪藏了。
一旦得以有效利用,大数据就可以变革公司的赢利模式和传统交流方式。我们举一个典型的例子,通过得到竞争对手所没有的行业信息,欧洲一家汽车制造商重新定位了与它的一个零件供应商的关系。
如今的汽车装满了芯片、传感器和各种软件,一经启动,它们就会及时把汽车状况信息发送到制造商的电脑上。一个典型的中档车大概有60个微型处理器,车上电子仪器的价值占了车辆总价值的三分之一。车载电子仪器之多使汽车成了“漂浮的观景台”,这本是莫里用来形容船舶的。而这些设备监控到的汽车零部件的工作状况,能够在整合之后用来提高汽车的质量,因此,能够掌握这些数据的公司拥有非常大的竞争优势。
汽车制造商通过与行业外的数据分析公司合作发现,德国供货商供应的油箱的蒸汽泄漏检测传感器存在一些问题,它会对好的油箱产生错误报警达16次。汽车制造商可以把这些信息反馈给供货商要求修理。在商业环境更加和谐的情况下,也许会发生上面说到的情况,但是既然汽车制造商已经在这个项目上花费了一大笔钱,它就会利用这个数据挽回一点点损失。
所以,汽车制造商开始考虑到底应该怎么做:卖掉这个数据?它值多少钱呢?如果供货商推卸责任呢?如果是我自己在操作过程中出现了失误呢?而且它知道,一旦公布了信息,和自己用同样零件的竞争对手也会改进他们的车。更明智的选择应该是,这些数据只能让自己受益,自己的汽车能够有所改进。最终,汽车制造商想到了一个好主意。它通过改进软件而改进了这个零件,而且为这次改进申请了专利。然后,它把这项专利卖给了供货商,价格是很长一段时间内进行数据分析的成本的总额。
谁在这个大数据价值链中获益最大呢?现在看来,应该是那些拥有大数据思维或者说创新性思维的人。就像我们所见的一样,自从信息时代以来,这些第一个吃螃蟹的人都发了大财。但是,这种先决优势并不能维持很长的时间。随着大数据时代的推进,别人也会吸收这种思维,然后那些先驱者的优势就会逐渐减弱。
那么,核心价值会不会在技术上?毕竟,一个金矿的价值也只有在它被挖掘出来之后才有意义。但是,计算机的历史却否定了这一想法。如今,在数据库管理、数据科学、数据分析、机器学习算法等类似行业的技能确实很走俏。但是,随着大数据成为人们生活的一部分,而大数据工具变得更容易和更方便使用,越来越多的人会掌握这些技能,所以这些技能的价值就会相对减少,就像20世纪60~80年代之间计算机编程技术变得越来越普遍一样。现在,国外的外包公司使得基础的计算机编程技术越来越廉价,如今它甚至成为了世界贫困人口的致富驱动力,而不再代表着高端技术。当然,这一切并不是要说大数据技能不重要,只是这不是大数据价值的最主要来源。毕竟,技术是外在的力量。
大数据洞察
现今,我们正处在大数据时代的早期,思维和技能是最有价值的,但是最终,大部分的价值还是必须从数据本身中挖掘。因为在未来,我们可以利用数据做更多的事情,而数据拥有者们也会真正意识到他们所拥有的财富。因此,他们可能会把他们手中所拥有的数据抓得更紧,也会以更高的价格将其出售。继续用金矿来打比方:只有金子才是真正值钱的。
然而,如果数据拥有者做长远打算的话,有一个小问题十分值得关注:那就是在有些情况下会出现“数据中间人”,它们会从各种地方搜集数据进行整合,然后再提取有用的信息进行利用。数据拥有者可以让中间人充当这样的角色,因为有些数据的价值只能通过中间人来挖掘。
大数据先锋
数据中间商,交通数据处理公司Inrix
总部位于西雅图的交通数据处理公司Inrix就是一个很好的例子。它汇集了来自美洲和欧洲近1亿辆汽车的实时交通数据。这些数据来自宝马、福特、丰田等私家车,还有一些商用车,比如出租车和货车。私家车主的移动电话也是数据的来源。这也解释了为什么它要建立一个免费的智能手机应用程序,因为一方面它可以为用户提供免费的交通信息,另一方面它自己就得到了同步的数据。Inrix通过把这些数据与历史交通数据进行比对,再考虑进天气和其他诸如当地时事等信息来预测交通状况。数据软件分析出的结果会被同步到汽车卫星导航系统中,政府部门和商用车队都会使用它。
Inrix是典型的独立运作的大数据中间商。它汇聚了来自很多汽车制造商的数据,这些数据能产生的价值要远远超过它们被单独利用时的价值。每个汽车制造商可能都会利用它们的车辆在行驶过程中产生的成千上万条数据来预测交通状况,这种预测不是很准确也并不全面。但是随着数据量的激增,预测结果会越来越准确。同样,这些汽车制造商并不一定掌握了分析数据的技能,它们的强项是造车,而不是分析泊松分布。所以它们都愿意第三方来做这个预测的事情。另外,虽然交通状况分析对驾驶员来说非常重要,但是这几乎不会影响到一个人是否会购车。所以,这些同行业的竞争者们并不介意通过行业外的中间商汇聚它们手里的数据。
当然,很多行业已经有过信息共享了,比较著名的有保险商实验室,还有一些已经联网了的行业,比如银行业、能源和通信行业。在这些行业里,信息交流是避免问题最重要的一环,监管部门也要求它们信息互通。市场研究公司把几十年来的数据都汇集在一起,就像一些专门负责审计报刊发行量的公司一样。这是一些行业联盟组织的主要职责。
如今不同的是,数据开始进入市场了。数据不再是单纯意义上的数据,它被挖掘出了新的价值。比方说,Inrix收集的交通状况数据信息会比表面看上去有用得多,它被用来评测一个地方的经济情况,因为它也可以提供关于失业率、零售额、业余活动的信息。2011年,美国经济复苏开始放缓,虽然政客们强烈否定,但是这个信息还是被交通状况分析给披露了出来。Inrix的分析发现,上下班高峰时期的交通状况变好了,这也就说明失业率增加了,经济状况变差了。同时,Inrix把它收集到的数据卖给了一个投资基金,这个投资基金把交通情况视作一个大型零售商场销量的代表,一旦附近车辆很多,就说明商场的销量会增加。在商场的季度财政报表公布之前,这项基金还利用这些数据分析结果换得了商场的一部分股份。
大数据价值链上还出现了很多这样的中间人。比较早期的一个就是Hitwise,现在它已经被益百利收购了。Hitwise与一些互联网服务公司合作,它支付给这些公司一些费用以使用它们的数据。这些数据只是以一个固定的低价授权给Hitwise,而不是按它所得利润的比例抽成。这样一来,Hitwise作为中间人就得到了大部分的利润。另一个中间人的例子就是Quantcast,它通过帮助网站记录用户的网页浏览历史来测评用户的年龄、收入、喜好等个人信息,然后向用户发送有针对性的定向广告。它提供了一个在线系统,网站通过这个系统就能记录用户的浏览情况,而Quantcast就能得到这些数据来帮助自己提高定向广告的效率。
这些中间人在这个价值链中站在了一个收益丰厚的位置上,但是它们并没有威胁到为他们提供数据的数据拥有者的利润。现在,广告业是一个高利润行业,因为大部分的数据都藏身于此,而社会各行各业都急切地需要通过挖掘这些数据进行定向广告。随着越来越多的事情被数据化,越来越多的行业意识到它们与数据有交流,这些独立的数据中间人也会在别处出现。
有时,这些中间人不一定是商业性质的组织,也可能是非营利性的,比如,2011年由美国几个最大的医疗保险公司联合创立的卫生保健成本协会(Health Care Cost Institute)。它们的数据汇集了来自3300万人的50亿份保单,当然这都是匿名的。数据共享之后,这些公司可以看到在一个较小的独立数据库里看不到的信息。2008年9月,这个超大型数据库就有了第一个重大发现,那就是美国的医疗花费比通货膨胀率的增长速度快3倍之多。但是在各个细微方面的情况就各有不同了:其中急诊室治疗费用上涨了11%,而护理设施的价格实际上是下跌了的。显然,医疗保险公司是不可能把它的价格数据给除非营利性机构之外的任何组织的。这个组织的动机更明确,运行更透明化且更富有责任心。
大数据公司的多样性表明了数据价值的转移。在Decide.com的案例中,产品价格和新产品的发布数据都是由合作的网站提供的,然后合作双方共同分享利润。Decide.com通过人们在这些网站购买产品而赚取佣金,同时提供这些数据的公司也取得了部分利润。相比ITA提供给Farecast的数据不抽取佣金而只是收取基本授权费用的情况,这说明了这个行业的逐渐成熟——如今数据提供者会更占优势。不难想象,埃齐奥尼的下一个科技公司应该就会自己收集数据了,因为数据的价值已经从技术转移到了数据自身和大数据思维上。
随着数据价值转移到数据拥有者手上,传统的商业模式也被颠覆了。上文提到的与供货商进行知识产权交易的欧洲汽车制造商就拥有一个非常专业的数据分析团队,但是还需要一个科技公司来替它挖掘数据的价值。这个科技公司肯定是可以得到报酬的,但是大头还是被这个汽车制造商赚走了。不过,这个科技公司发现了商机,于是它改变了它的商业模式:它为客户承担一定的风险,因为有风险就有回报。而且,它用部分报酬换取了一部分的分析结果,因为这个分析结果是可以循环使用的。比如,对于汽车配件供应商来说,它们未来肯定都想为它们的产品加上测试仪或者把提供产品评估数据写进销售合同的标准条款中,这样它们就能随时改进产品的质量了。
对于中间商来说,公司之间不愿意进行数据共享的问题会让他们感到很头疼。比如Inrix就不再只收集关于地理位置的数据了。2012年,它就关于车辆的自动制动系统何时何地会生效进行了分析,因为有一家汽车制造商用它的遥感勘测系统实时地收集了这些数据。它们认为如果车辆的自动制动系统在某段路上老是启动的话,就说明这段路比较危险,应该考虑更换路径。所以Inrix不仅能够推荐最便捷的路径,而且可以推荐最安全的路径。但是这个制造商并不想和别人分享这些数据,也不愿分享它的全球定位系统收集到的数据。相反,它要求Inrix只能在它生产的车上安装这个系统。在制造商看来,公开这些数据似乎比汇聚众人的数据一起来提高系统的整体精确性更有价值。但即便如此Inrix也相信,到最后,所有的汽车制造商都会意识到数据共享的好处。Inrix有一种强烈的乐观精神:作为一个数据中间商,它的运行完全是依靠多种多样的数据来源。
大数据时代中的公司正在体验着不同的商业模式。作为中间商的Inrix把它的工作重心放在了设计上,这与众多科技创业公司的商业模式不同。微软掌握着技术的核心专利,但是它却认为,一个独立的小公司可能更容易被接受,更有利于汇聚行业内各方的数据并从知识产权中获利最大。还有,微软用来分析病患再入住率的Amalga系统曾经就是华盛顿中心医院自己的内部急症室软件Azyxxi,这是医院在2006年卖给微软公司的,因为考虑到微软更有能力把这个软件做好和挖掘出这些数据的潜在价值。
2010年UPS就把它的UPS Logistics Technologies部门卖给了一家叫Thoma Bravo的私人股本公司。如今,它已经变成了Roadnet Technologies,可以为多家公司进行线路分析。Roadnet从客户手中收集大量数据,同时为UPS和它的竞争者提供行业内广受认可的标杆性服务。Roadnet的首席执行官兰·肯尼迪(Len Kennedy)解释说,“如果是UPS Logistics,那么UPS的竞争对手肯定不会交出它们的数据,因此,只有让它变成一个独立的公司,UPS的竞争对手才会愿意拿出它们的数据。”最终,每个公司都从中受益了,因为数据汇集之后,系统的精确性就更高了。
认为数据自身而不是技术和思维更值钱的想法,在大数据时代的多笔商业交易中都有所体现。2006年,微软以1.1亿美元的价格购买了埃齐奥尼的大数据公司Farecast。而两年后,谷歌以7亿美元的价格购买了为Farecast提供数据的ITA Software公司。
在《点球成金》这部关于奥克兰运动家棒球队如何通过利用统计学和数学建模的方式分析数字,从而取得最终胜利的电影中,有一个有趣的场景,就是灰头发的老球探们坐在一旁评论球员。观众不得不因此感到畏缩,不仅因为它体现了人类做决定时完全不依靠数据的草率,而且因为我们都经历过这种依赖情感而不是科学进行判断的情况。
一个球探说,“他不错,有天赋……而且长得也不错。”
一个满头白发、戴着助听器的老人虚弱地附和道,“他击打动作不错,球一被碰到就一下子弹出去老远。”
另一个球探也附和说,“击打很大声。”
有一个球探打断了对话,说,“他女朋友真丑。”
会议的负责人说,“那是什么意思?”
那个人似乎很肯定地说,“女朋友丑说明没自信呀!”
“很好!”负责人对回答很满意,然后会议继续。
开了一会玩笑之后,一个一直没说话的球探说,“这个人有很大的气场。我的意思是,他还没上场呢,对手就已经提前感受到了他的气势。”
另一个人附和道,“他通过了长相测试,长得不错。他随时都能打球,只是需要点儿上场时间。”
那个常年持不赞同意见的人反复说,“我就是说说,他的女朋友真是长相平平。”
这个场景完全展示了人类判断的误区。一个似乎经过了理智讨论的事情其实是在没有什么实际标准的情况下做出的决定。签约一个几百万美元年薪的球员,也只是看感觉,没有什么客观标准的。是的,这只是电影中的场景,但是生活中这种情况也多得是。这个场景之所以具有讽刺意味,就是因为这是普遍存在的,从曼哈顿的会议室、美国总统办公室到街角咖啡馆,任何地方,这种空泛的推理都到处盛行。
影片《点球成金》改编自迈克尔·刘易斯的《魔球——逆境中制胜的智慧》。讲述的是一个真实的故事,介绍奥克兰运动家棒球队(又称绿帽队或白象队)总经理比利·比恩(Billy Beane)的经营哲学,描写了他抛弃几百年一直依赖的选择球员的传统惯例,采用了一种依靠电脑程序和数学模型分析比赛数据来选择球员的方法。他并没有采用那些像“棒球击球率”这样传统的标准,而是采用了看上去很奇怪的、类似“上垒率”这样的标准。这个方法发现了这项体育赛事的另一面,始终存在却一直被忽略了的一面。一个球员怎样上垒并不要紧,不管是地滚球还是三垒跑,只要他上垒了就够了。当数据表明偷垒不实用的时候,即使这会让比赛更有看头,比利·比恩也不会再关注这种华而不实的技能。
在一片批评与质疑声中,比恩的“赛伯计量学”(Sabermetrics)在奥克兰运动家棒球队的办公室里被铭记了下来,这是以体育新闻记者比尔·詹姆斯(Bill James)在美国高级棒球研究协会(Society for Advanced Baseball Research)中的工作命名的。直到现在,美国高级棒球研究协会一直是一种奇特的亚文化的中心。比恩打破一切常规惯例,就如同伽利略用“太阳中心论”来挑战天主教的权威一样。最终,比恩带领这支备受争议的球队在2002年的美国联盟西部赛中夺得冠军,还取得了20场连胜的战绩。从那以后,统计学家取代球探成为了棒球专家,很多其他球队也开始争相采用“赛伯计量学”来指导球队运作。
同样地,人类从依靠自身判断做决定到依靠数据做决定的转变,也是大数据做出的最大贡献之一。行业专家和技术专家的光芒都会因为统计学家和数据分析家的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音。他们的判断建立在相关关系的基础上,没有受到偏见和成见的影响,这就如同莫里中校不把干瘦的船长在酒吧喝酒时所说的航道信息当真一样。他们的判断完全依赖于汇集起来的数据所显示出的实际信息,所以有着牢靠的根基。莫里所采用的方法并没有解释风向和水流为什么是这样的原因,但是对于想安全航海的航海家来说,“什么”和“哪里”比“为什么”更加重要。
如今,我们正在见证专家在各个领域影响力的减弱。在传媒界,如“赫芬顿邮报”(Huffington Post)和高客网(Gawker)这些网站上传播的新闻通常取决于数据,而不再取决于编辑的新闻敏感度。数据比有经验的记者更能揭示出哪些是符合大众口味的新闻。Coursera,一家网上教育公司,深度地研究它收集的所有数据,比如学生重放过讲座视频的哪个片段,从而找出不明确或者很吸引人的地方,然后反馈给设计课程的团队。这在以前是做不到的,所以老师的教育方法一定会改变。就像我们在前文提到过的,当贝索斯发现算法推荐能促进销量增加的时候,他就不再使用公司的书籍评论员了。
这都意味着,与时俱进才是在职业领域取得成功的必备技能;这样的员工能随时满足公司对他们的期望。安大略的麦格雷戈医生不需要是医院里最好的医生,也不需要是产前护理的世界权威,就能给早产儿提供极好的治疗,因为她采用的治疗方法是电脑在处理了近十年的病患记录数据之后推荐的。事实上,她也有计算机科学专业的博士学位。
正如我们所见,大数据的先锋们通常并不来自于他们做出了极大贡献的领域。他们是数据分析家、人工智能专家、数学家或者统计学家,但是他们把他们所掌握的技能运用到了各个领域。Kaggle的首席执行官安东尼·戈德布鲁姆(Anthony Goldbloom)说,在这个大数据项目竞赛平台上取得胜利的人通常不来自于他们做出成绩的领域。
一个英国物理学家设计了一个算法系统来预测保险索赔和发现二手车的质量问题,这个系统差点就获胜了;还有一个新加坡的精算师在一个预测人体对化合物的生理反应项目中取得了胜利;同时,在谷歌的机器翻译团队中,这些工程师们都不会说他们翻译出的语言;类似的还有,微软机器翻译部门的统计学家们在茶余饭后的谈资就是说每次一有语言学家离开他们团队,翻译的质量就会变好一点。
当然,行业专家是不会真正消亡的,只是他们的主导地位会发生改变。未来,大数据人才会与他们一样身居高位,就像趾高气扬的因果关系必须与卑微的相关关系分享它的光芒一样。这改变了我们怎样看待知识的价值,因为我们往往倾向于把专业人才看得比全才更重要,也就是说深度就是财富。然而,专业技能就像精确性一样,只适用于“小数据”时代,当时人类掌握的数据永远不够多也不够准确,所以需要依赖直觉和经验指导。在那个时代,经验是先决的,因为只有通过这种无法从书本上和别人口中得到的、埋藏在潜意识里的知识的积累,我们才能做出更明智的决定。
但是当你遭遇海量数据的时候,你就能通过挖掘数据而得到更多。所以大数据分析家会把过去看成是迷信和成规,这不是因为他们更聪明,而是因为他们拥有了这个财富之源——数据。同时,作为外行人,他们不会被行业内的争论所限制,因为他们不会被自己所支持一方的观点所影响而产生偏见,这是他们与行业专家不一样的地方。这一切都意味着,一个员工是否对公司有贡献的判断标准改变了。这也就意味着,你要学的东西、你要了解的人,你要为你的职业生涯所做的准备都改变了。
数学和统计学知识,甚至是有少许编程和网络科学的知识将会成为现代工厂的基础,一如百年前的计算能力或者更早之前的文学。人类的价值将不再体现在与思维类似的同行的交际上,而体现在与各行各业的人的交际上,因为这样知识就能广泛而深刻地进行传播。过去,要成为一个优秀的生物学家就需要认识很多生物学家,这并没有完全改变。但是如今,不只是专业技能的深度很重要,大数据的广度也变得很重要。要想解决一个生物难题,或许与天体物理学家或者数据视图设计师联系就可以实现。
在电子游戏领域,大数据的普通人才早已经和高级专家站在了一起,他们正在一同改变这个行业。该行业每年收入近100亿美元,比好莱坞的票房收入还要多。过去,游戏公司会设计一个游戏,发布它,指望它能一炮而红。然后,公司会考虑到销售情况,要么继续推出升级版,要么开始研发新游戏。游戏的速度、人物、情节、物品和事件的设定都是基于设计师的创造力,这些设计师对待工作的认真程度就像米开朗基罗画西斯廷教堂时一样。但是,这是一门艺术而不是科学,艺术讲究的是直觉和情感,就像《点球成金》中球探们所表现的一样,然而那个时代已经过去了。
zynga的FarmVille,FrontierVille,FishVille和其他网络游戏都是交互式游戏。表面上,这些游戏允许zynga收集用户数据以及在这些数据的基础上对游戏进行修改,而事实上,这些游戏远远不止一个版本。因为公司可以收集到游戏中的数据,所以一旦有玩家难以过关或者因为某一关不对劲而不想再玩了的时候,zynga就能通过这些数据发现问题,然后对游戏进行修改;但是更加隐性的是,该公司会针对不同的玩家设计不同的游戏,像FarmVille就有好几百个版本。
这个公司的大数据分析家们通过颜色或者是否有玩家看到他的朋友正在使用这些产品,来研究虚拟产品的销量是否增加了。比方说,当数据显示FishVille的玩家购买透明鱼的数量是其他产品的6倍的时候,zynga就会通过多出售透明鱼而谋取更高利润。在Mafia Wars中,数据则显示玩家更喜欢购买有金边的武器和纯白的宠物老虎。这些都不是一个游戏设计师在工作室里能发现的东西,但是数据就能把这些信息传递出来。zynga的首席分析师肯·鲁丁说道,“我们打着游戏公司的幌子,实际上在做的是分析公司的事。我们的运作都是以数据为基础的。”
这种转变意义非凡。大部分人往往都通过经验、回忆以及猜测做决定,就像W.H.奥登(Wystan Hugh Auden)的名诗中所说的“知识退化成骚乱的主观臆想,那是太阳神经丛的感情引起的营养不足”。坐落于马萨诸塞州的巴布森学院商科教授托马斯·达文波特(Thomas Davenport)是多部数据分析著作的作者,他把这种情感称为“黄金般的直觉”。执行官们信任自己的直觉,所以由着它做决定。但是,随着管理决策越来越受预测性分析和大数据分析的影响和控制,依靠直觉做决定的情况将会被彻底改变。
大数据先锋
The-Numbers.com与电影票房预测
比方说,The-Numbers.com在好莱坞电影上映之前,就能利用海量数据和特定算法预测出一部电影的票房,而这些信息就可以为电影制片人所用。该公司拥有一个包括了过去几十年美国所有商业电影大约3000万条记录的数据库;数据库里有所有关于预算、电影流派、拍摄、阵容、获得奖项和收入等数据。电影的收入是指在北美和全球的票房、海外版权销售收入、影碟销售收入以及租金等。公司创始人兼总裁布鲁斯·纳什(Bruce Nash)说,我们公司开发了一个网络系统,其中有100万条类似“A编剧曾与B导演合作过,C导演曾与D演员合作过”这样的联系信息。
该公司通过找出这样复杂的相关关系来预测电影的收入。借助于这个预测,电影制片人可以向工作室或投资人募资。The-Numbers.com甚至可以告诉客户改变哪些选择可以增收或者降低风险。一次,它的分析发现有一部电影要是启用获得过奥斯卡提名的、身价在500万美元左右的某位一线演员做男一号的话,更有可能票房大卖。还有一次,纳什告诉IMAX工作室,一部航海纪录片需要把预算从1200万美元减少至800万才能赢利。纳什开玩笑地说:“这可乐坏了制片人,但是导演就不高兴了。”
从是否出品一部电影到签下哪个三垒手,公司的决策过程已经有了本质且明显的改变。麻省理工学院商学院教授埃里克·布伦乔尔森(Erik Brynjolfsson)和他的同事一起进行了一项研究,发现决策依赖数据的公司的运营情况比不重视数据的公司出色很多——这些公司的生产率比不使用数据进行决策的公司高6%。这是一个重要的竞争力,虽然随着大数据手段被越来越多的公司采用,这种竞争力会慢慢削弱。
大数据成为许多公司竞争力的来源,从而使整个行业结构都改变了。当然,每个公司的情况各有不同。大公司和小公司最有可能成为赢家,而大部分中等规模的公司则可能无法在这次行业调整中尝到甜头。
虽然像亚马逊和谷歌一样的行业领头羊会一直保持领先地位,但是和工业时代不一样,它们的企业竞争力并不是体现在庞大的生产规模上。已经拥有的技术配备规模固然很重要,但那也不是它们的核心竞争力,毕竟如今已经能够快速而廉价地进行大量的数据存储和处理了。公司可以根据实际需要调整它们的计算机技术力量,这样就把固定投入变成了可变投入,同时也削弱了大公司的技术配备规模的优势。
大数据洞察
规模仍然很重要,但是如今重要的是数据的规模,也就是说要掌握大量的数据而且要有能力轻松地获得更多的数据。所以,随着拥有的数据越来越多,大数据拥有者将大放异彩,因为他们可以把这些数据转化为价值。
大数据向小数据时代的赢家以及那些线下大公司(如沃尔玛、联邦快递、宝洁公司、雀巢公司、波音公司)提出了挑战,后者必须意识到大数据的威力然后有策略地收集和使用数据。同时,科技创业公司和新兴行业中的老牌企业也准备收集大量的数据。
在过去十年里,航空发动机制造商劳斯莱斯通过分析产品使用过程中收集到的数据,实现了商业模式的转型。坐落于英格兰德比郡的劳斯莱斯运营中心一直监控着全球范围内超过3700架飞机的引擎运行情况,为的就是能在故障发生之前发现问题。数据帮助劳斯莱斯把简单的制造转变成了有附加价值的商业行为:劳斯莱斯出售发动机,同时通过按时计费的方式提供有偿监控服务(一旦出现问题,还进一步提供维修和更换服务)。如今,民用航空发动机部门大约70%的年收入都是来自其提供服务所赚得的费用。
大数据先锋
苹果,挖出“潜伏”的数据价值
苹果公司进军移动手机行业就是一个很好的例子。在iPhone推出之前,移动运营商从用户手中收集了大量具有潜在价值的数据,但是没能深入挖掘其价值。相反,苹果公司在与运营商签订的合约中规定运营商要提供给它大部分的有用数据。通过来自多个运营商提供的大量数据,苹果公司所得到的关于用户体验的数据比任何一个运营商都要多。苹果公司的规模效益体现在了数据上,而不是固有资产上。
大数据也为小公司带来了机遇。用埃里克教授的话说就是,聪明而灵活的小公司能享受到非固有资产规模带来的好处。这也就是说,它们可能没有很多的固有资产但是存在感非常强,也可以低成本地传播它们的创新成果。重要的是,因为最好的大数据服务都是以创新思维为基础的,所以它们不一定需要大量的原始资本投入。数据可以授权但是不能被占有,数据分析能在云处理平台上快速而且低成本地进行,而授权费用则应从数据带来的利益中抽取一小部分。
大大小小的公司都能从大数据中获利,这个情况很有可能并不只是适用于使用数据的公司,也适用于掌握数据的公司。大数据拥有者想尽办法想增加它们的数据存储量,因为这样能以极小的成本带来更大的利润。首先,它们已经具备了存储和处理数据的基础。其次,数据库的融合能带来特有的价值。最后,数据使用者如果只需要从一人手中购得数据,那将更加省时省力。不过实际情况要远远复杂得多,可能还会有一群处在另一方的数据拥有者(个人)诞生。因为随着数据价值的显现,很多人会想以数据拥有者的身份大展身手,他们收集的数据往往是和自身相关的,比如他们的购物习惯、观影习惯,也许还有医疗数据等。
这使得消费者拥有了比以前更大的权利。消费者可以自行决定把这些数据中的多少授权给哪些公司。当然,不是每个人都只在乎把他的数据卖个高价,很多人愿意免费提供这些数据来换取更好的服务,比如想得到亚马逊更准确的图书推荐。但是对于很大一部分对数据敏感的消费者来说,营销和出售他们的个人信息就像写博客、发Twitter信息和在维基百科检索一样自然。
然而,这一切的发生不只是消费者意识和喜好的转变所能促成的。现在,无论是消费者授权他们的信息还是公司从个人手中购得信息都还过于昂贵和复杂。这很可能会催生出一些中间商,它们从众多消费者手中购得信息,然后卖给公司。如果成本够低,而消费者又足够信任这样的中间商,那么个人数据市场就很有可能诞生,这样个人就成功地成为了数据拥有者。美国麻省理工学院媒体实验室的个人数据分析专家桑迪·彭特兰与人一起创办的ID3公司已经在致力于让这种模式变为现实。
只有当这些数据中间商诞生并开始运营,而数据使用者也开始使用这些数据的时候,消费者才能真正变成数据掌握者。如今,消费者在等待足够的设备和适当的数据中间商的出现,在这之前,他们希望自己披露的信息越少越好。总之,一旦条件成熟,消费者就能从真正意义上成为数据掌握者了。
不过,大数据对中等规模的公司帮助并不大。波士顿咨询集团的资深技术和商业顾问菲利浦·埃文斯(Philip Evans)说,超大型的公司占据了规模优势,而小公司则具有灵活性。在传统行业中,中等规模的公司比大公司更有灵活性,比小公司更有规模。但是在大数据时代,一个公司没必要非要达到某种规模才能支付它的生产设备所需投入。大数据公司发现它们可以是一个灵活的小公司并且会很成功(或者会被大数据巨头并购)。
大数据洞察
大数据让处于行业两端的公司受益良多,而中等规模的公司要么向两端转换,要么破产。传统行业最终都会转变为大数据行业,无论是金融服务业、医药行业还是制造业。当然,大数据不会让所有行业的中等规模的公司消亡,但是肯定会给可以被大数据分析所取代的中等规模公司带来巨大的威胁。
大数据也会撼动国家竞争力。当制造业已经大幅转向发展中国家,而大家都争相发展创新行业的时候,工业化国家因为掌握了数据以及大数据技术,所以仍然在全球竞争中占据优势。不幸的是,这个优势很难持续。就像互联网和计算机技术一样,随着世界上的其他国家和地区都开始采用这些技术,西方世界在大数据技术上的领先地位将慢慢消失。对于发达国家的大公司来说,好消息就是大数据会加剧优胜劣汰。所以一旦一个公司掌握了大数据,它不但有可能超过它的对手,还有可能遥遥领先。
大数据洞察
竞争正如火如荼地进行。就像谷歌的检索系统需要用户数据才能完好运行,德国的汽车零件供应商需要反馈的数据来提高它的零件质量,所有的公司都能通过巧妙地挖掘数据价值而获得利益。数据能够优化生产和服务,甚至能催生新的行业。
不过,就算有这么多好处,我们依然有担忧的理由。因为随着大数据能够越来越精确地预测世界的事情以及我们所处的位置,我们可能还没有准备好接受它对我们的隐私和决策过程带来的影响。我们的认知和制度都还不习惯这样一个数据充裕的时代,因为它们都建立在数据稀缺的基础之上。下一个章节,我们将探讨大数据所带来的不良影响。