据 IDC 预测,全球大数据市场规模有望在 2017 年达 530 亿美元,并在未来几年内依然保持30%以上的年复合增长率。中国市场大数据研究虽然起步较晚,但是近几年来在国家政策指引下,市场需求处于爆发期,发展迅速。
从细分产业来看,各大产业对大数据的呼声越来越高,希望加快传统产业数字化、智能化,做大做强数字经济,为产业转型升级提供新动力。大数据需求旺盛,在金融、电信、政务、医疗、能源等行业已经起步,并逐步向其他行业扩展。
然而,由于大数据相关技术更新速度快、技术门槛高,多数传统产业在这方面积累不足,大数据转型过程中仅依靠自身力量困难重重,并且成本高昂。因此,希望有相关厂商提供成熟的大数据产品和一体化的解决方案。
解决方案介绍:大数据平台架构
由于数据的多源异构、数据量大以及各种业务处理时间的不一致性,给大数据处理带来了巨大挑战,仅靠单一的大数据处理技术无法满足大数据处理需求。大数据平台项目的建设,应采用当前主流的技术架构体系;技术工具自主可控,成熟先进;能支撑三到五年内各类实时、近线、离线数据计算场景;随着业务和数据规模的增加,通过分布式架构可水平扩充计算设备和存储设备,实现资源的水平扩展。
由大数据处理平台总体架构可以看出,其应具备完整的大数据采集、整合、存储、处理、分析、展现和管理能力。
数据集成
平台提供统一的数据总线,在传统ETL基础上增加对非结构化数据、流数据、互联网数据的支撑,通过实时数据预处理或单独的批量数据离线处理脚本,协同完成数据清洗、去重、打标签、索引化、分发等大数据管控和治理体系建设。
对于结构化数据,从技术实现上通过ETL工具进行数据抽取。ETL工具基于业界主流的ETL产品Kettle来实现,支持Oracle、DB2、SqlServer、MySQL等主流关系数据库之间以及到Hadoop的数据抽取。
对于非结构化数据,特别是互联网相关的网页、图片、视音频文件等,主要通过分布式网络爬虫进行获取。该工具可实现数据采集、抽取、预处理、任务优先级、任务监控的灵活定义。通过与后端的智能化语义处理模块协作,可实现高效的互联网数据价值挖掘。
数据存储
在数据存储层面,传统数据存储方式在海量数据场景下,存储容量和读取性能方面都出现了明显的弊端。数据通过不同渠道采集集成到平台之后,平台根据数据的使用方式等采用不同的分布式存储技术进行存储,使得整个数据环境具备高度的伸缩性和扩展性,满足未来快速增长的数据规模,并充分保证数据存储方式的合理性及将来软硬件的扩展能力。除了原来的关系型数据库外,大数据平台还提供如下几种存储方式:
基于HDFS分布式文件系统,将数据的访问和存储分布在大量服务器之中,在可靠的多备份存储的同时还能将访问分布在集群中的各个服务器之上,通过分布式存储实现数据的冗余备份,并提升大数据的访问存取性能,高效低成本地应对海量非结构化数据和不需要关联分析、Ad-hoc查询较少的低价值密度结构化数据的存储和处理工作。
KV列式数据存储,针对结构化数据,采用与传统数据库类似的设计模型,支持数字、字符串、二进制和布尔值等多种数据类型;针对半结构化数据,则允许开发者自定义数据模型,提供多种数据访问方式,助力高性能应用程序的开发。
MPP数据存储,针对海量数据提供无共享的分布式、并行处理架构,应对海量结构化数据的分析挖掘场景。
内存数据存储,基于全部数据都在内存中的体系结构,在数据缓存、快速算法、并行操作方面进行了相应的改进,数据处理速度比传统数据库的数据处理速度提升很多,可以有效解决数据访问延时的问题。
数据计算
集成丰富的计算框架
大规模数据计算与处理的场景复杂,性能要求高,因此需要采用分布式、可扩展的计算和调度架构。
离线计算:需要调度批量任务来操作大规模静态数据,适合实时性要求不高的场景。通过将一个大的任务划分成多个部分,分别交给多个计算节点进行处理,综合得到最终结果。
流式计算:在数据的有效时间内获取其价值,是流式计算系统的首要设计目标。因此,当数据到来后将立即对其进行计算,而不再对其进行缓存等待后续全部数据到来再进行计算。流式计算主要用在搜索、实时监控统计、实时推荐、垃圾邮件处理等场景。
内存计算:面对海量信息,传统的技术架构中需要读取数据,然后再进行运算,性能和效率不尽人如意。而内存计算,将整个数据放入内存,使每个事务在执行过程中没有I/O,相对于磁盘操作,内存的数据读写速度要高出几个数量级。
图计算:分布式图计算通过抽象分布式存储、并行计算等复杂问题,高效处理巨型图的各种操作,从噪音很多的海量数据中抽取有用的信息,可以挖掘人、物和实体之间的潜在、不易观察的行为和联系。
统一的调度管理和标准的开放服务
通过统一的资源调度框架,实现了不同计算框架的共享管理模式。通过这种共享管理模式,可以感知各节点的资源情况和计算压力,自动平衡和调度计算任务,大大提升计算效率和资源有效利用率。
提供标准的开放服务接口,将计算能力以服务接口的方式进行暴露,易理解、易调用。服务接口提供统一认证,接口调用时需提供账号、密码、密钥、租户信息等获取访问凭证,保证服务访问的安全可靠。
数据分析挖掘
智能搜索
智能搜索引擎把相关的结构化和非结构化内容信息抽取出来并进行建模,经过中文分词技术建立起索引,让用户通过搜索快速地访问到这些信息,并能做到根据用户的个性化做出合理的排序结果。
机器学习
机器学习提供方便易用的交互式界面,帮助使用者进行离线批量预测或在线实时预测。预测过程运行在分布式系统中,基于内存进行迭代式计算,可以对海量数据进行预测,具备极强的扩展性,每天可以生成十几亿条预测结果。针对预制值,允许人工调整和修改,以确保数据读取的准确性,从而提升预测命中率。支持成熟、丰富的数据挖掘算法,可以生成分类、聚集、回归模型,适应在多种行业的机器学习场景。
客户收益:Insight将业界主流的新型数据处理技术、架构框架、分析模型、服务理念等内置在产品中,各行业客户可以基于该产品快速搭建起安全可靠、高效智能的大数据平台,快速实现传统产业数字化、智能化,做大做强数字经济,为产业转型升级提供新动力。
快速实现多源数据整合,挖掘数据全新价值
实现内外部信息资源的有效整合,全面提升数据共享和信息联动的运转效率,挖掘数据全新价值,支持决策管理。
大幅减少数据计算时间,提升业务效率
具有并行处理架构、内存计算等多重机制,保证数据加载、计算、访问等各个环节数据处理效率最大化,提升业务效率。
实现在线扩容,提升系统稳定性
支持集群在线扩展,支持数据存储、加载和查询性能线性增长,并具备多层次的容错、自动检测和自动恢复机制,保证系统安全可用,降低业务停顿和运维风险。
提供大数据分析能力,提升业务价值
在海量多源数据的有效整合基础上,结合智能搜索、机器学习等大数据分析手段,实现自动高效的智能检索、推荐预测,全面提升数据共享和信息联动的运转效率,挖掘数据全新业务价值,支持决策管理。