只有量的积累的数据,通常并不能称之为大数据。除了大量性,大数据常常还应该具有多维性和完备性。大数据的多维性,可以理解为针对单一“个体”(人/物/事件等)不同角度的数据。比如之前提到的:收集全国所有人的出生年月,单收集这一项,数据单一缺乏意义;但如果再加入收入、所属地区、受教育程度等等多维的信息,那数据本身就变得鲜活了。我们可以从数据中分析人口的地域分布、经济分布、教育分布等并在此基础上给出宏观的资源调控计划。大数据的完备性,则可以理解为数据的全面性。比如2012年一位名叫内德·斯威尔的年轻人,利用大数据成功预测了美国50+1个州的大选结果。他其实就是在投票前利用互联网尽可能的搜集当年的大选数据(如地方媒体数据、社交网络留言、朋友间评论等),从而近似的知道每个人对大选的态度,并按照州进行分类整理,最终成功预测了当年的大选结果。缺少多维性的“大数据”会让数据承载的信息“片面”,进而导致数据本身的利用价值大大下降;缺乏完备性的数据则会由于缺乏“完备样本”的支撑,也会使得获取的信息“局限性”。大数据最好还应具有“及时性”,但及时性却并不是其必备条件,只是有了“及时性”的大数据,会实现一些过去无法做到的事情。大数据的及时性,可以理解为数据收集的时效性。一方面,要分析当前情况,就要尽可能使用与当前时间点较为接近的数据;另一方面,数据本身就在时刻产生(特别是今天的互联网),新鲜的数据能更快速的反应当前社会的一些情况。比如使用百度地图导航的时候,它能根据数据库中人们当前的(及时的数据)车辆出行地点,和即将要去的地方大概估算出此人的行程规划,并通过众多数据的整合估算出某一路段可能的堵塞情况,进而在导航的时候给出“避免拥堵”的导航建议。
大数据产生价值的链路是:数据驱动决策——决策实践价值。国内企业总是谈数据变现实际是一种对大数据价值的歧义理解。企业面对的TO B或TO C不是个体单维度数据而是海量多维度数据,单一数据不能提供任何决策依据。然而企业决策者往往对大数据的理解不够清晰透彻,片面的认为数据就是价值,花钱就要见效,把重点需求放在了所谓的上文说道的“有效数据上”当然效果在短期是非常显而易见的。而在利益驱动下企业的方向就真的随着“数据”驱动决策了,如同你是正常人却天天吸纯氧,企业想的就不是产品紧贴市场需求、如何有效改进,增强市场竞争优势,而是围绕相应“数据”下进行各种营销。
接下来为大家推荐学习大数据时代的一份书单。
《为数据而生》全书分成四个部分。我给大家写个梗概。:
1.大数据时代,用数据说话:
这一部分是引子。大数据时代,数据无处不在,我们每个人都制造更多数据,也接受更多数据。量变引起质变,大数据实际上已经成为一种新的理念,它已经引起商业模式、决策、生活方式等等的颠覆性变化。
所以作者认为,大数据将会驱动新的工业革命。计算效率的指数级提升,数据的数量、深度和广度的增加,数据分析理论的进步,对于个性化的追求,这四点为我们描绘了工业革命的新图景。
2.大数据1.0:分析
用常规的统计学分析方法结合大数据,能够做到很多以前做不到的事情。数据总会呈现一些特征,当异常情况出现,我们就能从中侦测到有用的信息,正所谓“统计呈现洞见”。事物之间总有关联与因果,通过分析数据中的关联关系,便能使关联创造价值。通过统计和关联发掘特征之后,便能进行预测,指导决策。
3.大数据2.0:外化
外化的意思包括两点——
一方面是寻求外部数据的帮助。作者在电子科技大学采集学生日常行为数据,发现了诸多“在寝室呆的越久,成绩越差”、“进图书馆次数越多,成绩越好”甚至于“打水越多,成绩越好”的关联——而这些关联的可信度,统统是由大数据支持的。可见,为达到某种分析目标,可能需要借用看起来关联度并不高的外部数据。但实际效果却是非常有效的。
另一方面是自身数据的外部价值。Google对自己搜索引擎的搜索数据进行挖掘,结果竟然建立了一个流感传播趋势的预测模型。在此之前,传染病流行是一个非常复杂的统计问题,但基于先进的大数据方法,Google仅用45个变量就将其趋势刻画出来了。
这一部分最后提到的是机器学习,数据外化最神奇的利器。坦白说,这应该是全书最难的一章,但却是不得不读的一章。作者常被问到,什么课程对于理解和应用大数据最有帮助?他永远建议:统计理论和机器学习。真正厉害的大数据应用,绝大部分都和机器学习有关系。作者还很形象地把机器学习模型比喻为程咬金的“三板斧”,包括特征、模型、融合三点。鉴于国内很少有机器学习的入门资料,这一项艰深的技术对于初学者可以说是非常不友好。但至少在这本书里,我们能有一个大概的鸟瞰式了解。