1.1 华数大数据平台总体架构
大数据应用架构图
基于华数多年来的开发经验,并借鉴行业大数据分析平台的实施、管理和应用方面的成功经验,结合禾丰牧业实际信息化情况,我们将禾丰大数据平台实际为三层架构,其中:
l基础数据源层:目前禾丰牧业所应用的数据主要来源于业务系统(EAS)与平面文本文件(Excel)两种类型,结合未来信息化的发展,音频数据和视频数据等越来越丰富的数据类型也将陆续纳入到我们的大数据平台体系之中,因此为保证我们的大数据平台的先进性,要能支持多种类型的数据源;l大数据处理层:由于数据源类型的多样性,传统关系型数据仓库架构或者分布式存储架构各有优缺点,单独使用都无法很好的满足对结构化和非结构化数据的存储和应用需求,因此我们建议采用传统数据仓库架构与大数据分布式数据仓库架构两者相结合的架构设计,两者紧密配合共同承担大数据处理任务,为大数据应用提供数据接口、数据交换、数据查询、数据分析和数据挖掘提供数据基础;l大数据应用层:随着信息化的发展,对大数据的应用方式也越来越多,大数据分析平台应用层需要满足诸如:固定报表、OLAP分析、KPI分析、指标监控、即席查询(自助式分析)、决策支持、邮件推送、office集成、移动BI、预警预测(数据挖掘)等多种展现方式。
1.1.2禾丰大数据平台技术架构
大数据技术架构图
根据我们实施建设大数据分析平台多年的经验,结合禾丰牧业三层式数分析平台系统构架,通过数据采集(包括数据源)、信息存储与管理(数据仓库和Hadoop)和信息共享三部分技术来实现。 l数据采集:
1)结构化数据采集:禾丰牧业现有的数据主要来自于EAS系统、青软系统、电商平台和文本文件都属于结构化数据,大数据分析平台采用ETL工具-kettle作为采集结构化数据的手段。ETL(Extract, Transform, Load)是建立大数据分析平台的重要组成部分,它将大数据分析平台中所需的数据按数据仓库建立的方法每天或定期从各个业务系统中采集详尽的业务数据,并根据各自的需求进行数据调整,数据迁移过程中需将原始数据进行抽取、清洗、合并和装载。在此过程中必须保证数据的完备性和数据的一致性。当业务数据量过大,未避免Mysql数据仓库压力过大,亦可将业务数据通过kettle迁移到hadoop平台的数据库Hbase中。
2)非结构化数据采集:随着禾丰牧业信息化建设的发展,未来电话会议、视频会议、影音文件、微博实时数据、传感器采集的设备数据、移动端收集的数据以及其他流数据等非结构化数据,我们将通过传感器接口、视频接入设备、网络爬虫工具和流处理程序等方式分别进行采集并存储到HDFS和Hbase中。l大数据存储和管理:
1)结构化数据存储和管理:为方便其管理和满足未来展现的性能要求,我们选择以关系型数据库MySQL和hadoop的HBase数据库共同承担对结构化的数据的存储和管理。以MySQL建立传统数据仓库来实现对用于结构化数据和元数据的集中存储与管理,并根据需求建立面向部门和主题的数据集市,中央数据仓库将被划分为三个逻辑存储区间: ODS(Operational Data Store)、DW(Data Warehourse)、DM(Data Mart):ODS将存放各业务系统的原始数据,包括与原结构相同的业务数据以及经过初步整理后的业务数据;DW区域存放经过整理过的数据,是大数据分析平台真正的数据中心;DM区域存放各个应用系统(web应用、BI、OLAP、Data Mining等)所需的综合数据。与此同时我们在MySQL和HBase数据库之间建立连接,利用Kettle定时进行数据交换,俩种数据仓库共同大数据应用提供数据支撑,从而实现数据共享,分摊压力和数据备份的目的。
2)非结构化数据存储和管理:由于Mysql不支持对非结构化数据的存储,我们利用大数据应用框架Hadoop平台的数据仓库作为传统数据仓库的补充,实现对非结构化数据的存储和管理,并对来自网络的海量数据查询提供支撑。Hadoop平台集中了很多功能组件,其中HDFS是分布式文件系统,用于分布式存储大数据文件;Hbase是可扩展的分布式列存储NoSQL数据库,用于存储结构化和非结构化数据;Hive是基于Hadoop的数据仓库工具,可以存储、查询和分析存储在HBase中的数据;Mapreduce是用于对Hadoop平台大规模数据集进行并行查询的编程模型;Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。l应用与分析:大数据分析平台为满足不同用户的需求,需要提供多种不同的应用与分析方式,大数据分析平台提供三种应用方式。第一种:支持利用java或C等开发语言编写程序实现对Hadoop平台和MySQL数据仓库中数据的应用;第二种:我们选用强大的商务智能软件IBM-Cognos作为信息共享工具。Cognos作为多样化的前端分析展示工具,支持建立DMR和OLAP两种模型,提供了在线报表、OlAP分析、仪表板、记分卡、即席查询、邮件分发、Office集成、移动APP等多种信息共享技术。第三种:我们选用” 统计产品与服务解决方案”软件IBM-SPSS作为数据挖掘工具,SPSS支持以Hadoop平台和MySQL搭建挖掘模型,用于统计学分析运算、数据挖掘、预测分析和决策支持任务,支持描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等多类统计分析和挖掘算法。