如何使用大数据进行数据分析,数据挖掘,画像和推荐,结合云计算来谈谈自己对于大数据的认识。
研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。那什么是数据或者信息,数据是指事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。在互联网领域,数据就是二进制单元,以0或1来表示。比如我们的用户信息,商品的信息,地图软件导航的路径,这些都是数据,而且这些数据不是大数据的概念,而是互联网应用必备的数据要求。那为什么在数据之前前缀是“大”?
大家都了解大数据的4个特点,海量的数据模型(volume),快速的数据流转(velocity),多样的数据类型(variety)和巨大的数据价值(value)。
海量的数据,大数据的体量为什么在12年后爆发起来,是因为我们有能给力记录巨量的数据,或者中小企业有能力来存储大数据。之前可能只有Google,BAT等企业才有能力记录巨量的数据,随着15年云计算的大批量普及及云计算存储能力的提升,大数据的存储问题得以解决。单单记录用户的业务数据或者关键数据,可能没有数据存储压力,但是如果需要记录所有的用户轨迹,用户的位置信息,用户的其他额外有效信息等多样的数据内容,如何记录多种类型的数据,而且都是巨量数据。在云计算引入之后,我们就可以通过各种方式,通过云存储记录我们需要保存的多类型,海量的数据。
那么有了这么大的数据量,如何计算?如果没有一个强有力的数据计算模型和巨量的计算资源,谈何容易。对于10T以上的非关系型数据信息,怎么来获取其中的我想要的业务逻辑?或者如果是100G以上的关系数据,如何快速的获取其中的关联信息?如果我们通过传统的计算方式,估计几天几夜的计算和资源的调配,才能将100G的数据梳理完成,并且得到结果。如果其中出错,重新计算,那么对比起,可能还需要几天几夜。但是如果我们采用大数据计算,在用mapreduce等等技术,我们可能1小时就能够把需要的数据计算出来,在云计算平台的支持下。
大数据的基础就是海量数据和快速的处理能力,我们需要挖掘数据的价值,从各种数据中进行关联分析,找到我们想要的内容。大数据的本质不是海量的数据,而是我们能够通过各种不同的数据内容,快速的进行验证分析和交叉对比,能够让我们的数据分析和数据挖掘非常的精准和有效,达到定点打击的效果。