— “Big data is like teenage sex, everyone talks about it, nobody reallyknows how to do it, everyone thinks everyone else is doing it, so everyoneclaims they are doing it.”
So now the question is, whatis big data?
何为大数据
过去,大数据指的是那些数量庞大而复杂的数据集,其大小超出了常用软件工具在可容忍的时间内捕获、管理和处理数据的能力。一个更能达成共识的定义就是:大数据代表的信息资产的特点是具有非常庞大的数量,产生的速度非常快以及数据的多样性,这些特点决定了需要特定的技术和分析方法来实现其价值的转化。因此,其实近期“大数据”已经很少用来指数据集的大小了,现在更倾向于指人们使用预测分析、用户行为分析或某些其他高级的数据分析方法,从数据中提取信息创造价值。因为数据本身的价值是无法直接可见的,但是通过各种数据计算和分析,可以将人们无法注意到的信息从数据中提取出来,创造价值。
这也是为什么企业们纷纷想搭建大数据分析平台的原因。每天企业的内部运营支撑系统和外部与客户的交互系统都能产生大量的数据,如何利用这些数据向企业内部和外部企业客户提供具有极大商业价值的信息支撑和智能解决方案已经成为企业的重要的无形资产。根据企业量身定做的大数据分析平台,可为企业提供报表工具、分析工具、结合企业的实际需求进行的解决方案实施服务;企业的管理人员、业务分析人员等也可以通过web、手机或者其他移动设备访问,以便随时了解企业的关键指标和进行深度业务分析。
何为大数据分析平台?
那么大数据分析平台具体是长什么样的呢?大部分数据分析平台都会按照下图的架构去搭建。
首先,最底层的是各种各样的数据源。当今的IT生态系统,需要对各种不同种类来源的数据进行分析。这些来源有可能是系统内部的日志数据,也有可能是来源于其他接口的数据等等。
然后从这些数据源采集各种符合企业需求的数据,经过验证、清洗、并转化为所需格式后,储存到一个合适的持久化储存层中。
下一阶段是数据的处理和分析,包括从数据分析人员从原始数据中分析出来的一些拓展信息,在这一阶段中的一部分干净数据是去规范化的,包括对一些相关数据集的数据进行一些排序,在规定的时间间隔内进行数据结果归集,执行机器学习算法,分析预测等。
最后一层,是可视化和展示各个不同分析算法处理过的结果。这个步骤包括从预先计算汇总的结果中读取和用一种友好界面或者表格的形式展示出来,这样便于企业内部非专业人员对数据分析结果的理解。
大数据分析平台的应用
最基础的大数据分析平台有上述的几层架构,如果是数据量庞大的企业,会需要架构更加复杂的分析平台。
如果我们现在要为一间规模庞大的金融集团构建大数据分析平台,这个金融集团的基本现状为其商城已经建立面向整个零售业务的数据仓库,整合了前台业务运营数据和后台管理数据,建立了面向零售的管理分析应用;并且开展了供应链金融、人人贷和保理等多种业务,积累了一定量的业务数据,同时业务人员也从客户管理、风险评级和经营规模预测等方面,提出了大量分析预测需求。但是该集团仍然存在一些问题,它的商城数据仓库积累的数据没有充分的利用,缺乏面向整个金融集团的统一、完整的数据视图,以及缺乏支撑金融集团日常业务运转的风险评估体系和客户的360度视图,客户行为分析和预测无法实现。
那么,想而知,对于这个集团目前建设基础数据平台和BI应用是未来一段时间的重点。通过数据平台和BI应用建设,他们可以搭建统一的大数据共享和分析平台,对各类业务进行前瞻性预测分析,并为集团各层次用户提供统一的决策分析支持,提升数据共享与流转能力。下图为该集团的大数据分析平台的效果图,可视为最终的建设目标。
所以,这个集团的大数据分析平台该如何构建呢?
首先该集团的数据来源可分为两大块,一是源数据内容:有内部业务系统产生的结构化数据,如供应商信息、客户信息等,还有企业内外部的非结构化数据,包括用户访问日志、用户点评、投诉等;二是源数据增量,主要为商城和金融集团业务系统数据(见下图):
这些数据需要通过数据交换平台传输到上层供处理计算,传输组件需根据数据源存储结构和存储数据库的特点的不同来设计,以追求性能的卓越。在数据存储层之上,是数据计算层。大家看着数据计算层里面的结构比较复杂,具体每一个区是一个什么功能下面为大家讲解一下:
贴源数据区主要用于处理业务系统前日快照数据和一段时间的流水数据,将数据标准化,为后续主题模型、集市和沙盘演练提供数据;
大数据区主要采集并存储企业内外部非结构化、半结构化的数据,将其进行结构化处理,最终得到结构化数据;历史归档数据区适用于存储其他各数据区的历史数据,按数据生命周期规划归档平台过期数据,支撑历史数据的查询;
主题数据区用于处理业务系统例示明细,打破业务条线整合数据,并对主题数据预加工后的处理结果,针对应用需求进行数据预连接、预汇总,为集市提供数据;
再上层的沙盘演练数据区是按照沙盘演练需求,准备明细或汇总业务数据,为数据科学家的挖掘预测操作提供数据服务;
而应用集市数据区是面向企业内部管理分析类应用需求而汇总数据,为客户、运营等管理分析主题和数据增值产品提供数据服务;增值产品区则是根据外部用户数据使用需求数据平台加工计算的结果数据,为了部署在数据平台上的企业内外部增值产品提供数据支持;
实施数据区是面向应用业务系统存储快照数据和一段时间的交易流水,为实时获准实时分析应用提供数据服务。
然后再上层就是企业数据的各种应用了,主要分为企业内部的管理分析应用;数据增
类产品的应用,即数据科学家根据业务需求,设计并运行模型,发掘数据价值,并封装成商业产品;沙盘演练应用,这是业务人员根据业务需求,设计计算模型,准备各类明细或汇总数据,导入模型运算,验证业务结果;历史数据类应用以及高时效性的分析应用。最终用一个用户友好的界面将整个平台封装起来供用户访问。