大数据作为一种趋势,正在席卷整个中国,尤其是重庆等地区。
现在,国家确定大数据战略,在十三五期间“实施国家大数据战略,推进数据资源开放共享”,所以在政府和国有大企业都在大数据方面发力,推进政府部门和企业内部大数据整合及创新应用的建设,根据这几年大数据方面建设经验,对大数据建设项目提出以下几条建议。
第一步,建设大数据环境,主要包括基础设施环境建设,平台建设,基础设施主要是硬件方面建设,包括主机、网络、存储的建设,大数据环境要求网络带宽一般至少千兆,数据量大,数据实时性要求高的,至少要求万兆网络,主机根据需要可以采用X86系列的主机,视计算能力和存储要求配置主机台数及CPU和存储容量。平台建设一般指大数据软件环境,包括主机操作系统、大数据运行环境(目前一般是Hadoop体系),常用中间件、数据库等,中间件如tomcat、weblogic、websphere等,数据库需要支持当前主流数据库,如Oracle、Mysql、Gbase等。
第二步,建设数据中心,采集各类用于数据分析、数据统计的数据,包括组织内部数据、组织外部相关数据,及互联网抓取的数据(作为参考)。并根据数据特点应用场景不同,采取不同的存储方式,如结构化数据,TB以下数据可以放在常用关系数据库中,如Oracle数据库,对于数据量巨大的数据可以存放MPP(分布式关系数据库)或大数据环境的Hive、Hbase中,对于有灵活查询需求的大数据,建议存放MPP数据库中,对于静态的,主要用于统计分析的数据,建议存放在Hive或Hbase中,采用Spark架构实现数据的统计分析;对于非结构化数据,建议存放在Hbase或Hdfs上,扩展性和稳定性较好。
最后,基于数据中心,建设创新应用,以前由于数据分散在不同的系统中,不能通过数据碰撞产生新的应用,现在具备数据碰撞的条件了,一批新的创新应用自然就会出现了,如常见的查找套牌车的应用,通过获取多地的车辆卡口数据,可以轻松判定同时出现在相距遥远的车牌同时出现,有一辆即为套牌车。再如民政系统,通过采集房产信息、车辆信息、银行相关信息,利用这些信息来验证低保用户是否为真。房产信息联网,可以为房产政策提供真实的数据,为国家决策提供基础。、