分类和预测是两种大数据分析的方法,它们可用于抽取能够描述重要数据集合或预测未来数据趋势的模型。 分类方法用于预测数据对象的离散类别;而预测则用于预测数据对象的连续取值。许多分类和预测方法已被机器学习、专家系统、统计学和神经生物学等方丽的研究 者提出,其中的大部分算法属于驻留内存算法,通常假定的数据量很小,最初的数据挖掘方法大多都是在这些方法及基于内存基础上所构造的算法。目前数据挖掘方 法都要求,目前的数据挖掘研究已经在这些工作基础之上得到了很大的改进,开发了具有基于外存以处理大规模数据集合能力的分类和预测技术,这些技术结合了并 行和分布处理的思想。
1、数据变小——分类算法
分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类 模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根据 情况向用户推荐关联类的商品,从而增加商铺的销售量。
空间覆盖算法-基于球邻域的空间划分
空间覆盖算法-仿生模式识别
空间覆盖算法-视觉分类方法
VCA把数据看作一幅图像,核心是基于尺度空间理论,选择合适的尺度使得同类样本区域融合在一起。
分类超曲面算法HSC
设训练样本所在空间为一封闭维方体区域,将此区域按照一定细分规则划分成若干小区域,使每个小区域只包含同一类样本点,并用样本点的类别标定该区域,合并相邻同类区域边界,获得若干超平面片封闭组成的分类超曲面。输入新样本点,根据分类判别定理判断样本点所在的类别。
特点:
(1)通过特征区域细化直接解决非线性分类问题,不需要考虑使用何种函数,不需要升维变换。
(2)通用可操作的分类超曲面构造法,基于分类超曲面的方法通过区域合并计算获得分类超曲面对空间进行划分
(3)独特、简便、易行的分类判别方法,基于分类超曲面的方法是基于Jordan定理的分类判断算法,使得基于非凸的超曲面的分类判别变得简便、易行。
2、极小覆盖子集
覆盖型分类算法的极小覆盖子集——对特定的训练样本集,若其子样本集训练后得到的分类模型与与原样本集训练后得到的分类模型相同,则称子样本集是原样本集的一个覆盖。在一个样本集的所有覆盖中,包含样本个数最少的覆盖称为样本集的极小覆盖子集。
(1)计算极小覆盖子集的基本步骤:
用一个方形区域覆盖所有样本点;将该区域划分成一系列小区域 (单元格),直到每个小区域内包含的样本点都属于同一类别;将落在同一小区域内的样本点中选择且仅选择一个样本构成极小覆盖子集。
(2)采样受限于极小覆盖子集
全样本空间必然包含极小覆盖子集,任意一个数据集未必包含完整的极小覆盖子集。大数据环境下,极小覆盖子集中的样本更多地包含在大数据中,较多的数据可以战胜较好的算法、再多的数据亦不会超过极小覆盖子集的代表性、再好的提升手段亦不会超过极小覆盖子集确定的精度。
3、回归大数据分析
回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关 系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中,回归分析可以被应用到各个方面。如通过对本季度销售的回归分析,对下一季度的销售 趋势作出预测并做出针对性的营销改变。
4、 聚类
聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。
5、关联规则
关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出 现。关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术 已经被广泛应用于金融行业企业中用以预测客户的需求,各银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营 销。
6 、神经网络方法
神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非 线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题,它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类:第一 类是以用于分类预测和模式识别的前馈式神经网络模型,其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型,以 Hopfield 的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法,以ART 模型为代表。虽然神经网络有多种模型及算法,但在特定领域 的数据挖掘中使用何种模型及算法并没有统一的规则,而且人们很难理解网络的学习及决策过程。
7、Web数据挖掘
Web数据挖掘是一项综合性技术,指Web 从文档结构和使用的集合C 中发现隐含的模式P,如果将C看做是输入,P 看做是输出,那么Web 挖掘过程就可以看做是从输入到输出的一个映射过程。
大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供依据,从而提高 各个领域的运行效率,大大提高整个社会经济的集约化程度。根据ESM国际电子商情针大数据应用现状和趋势的调查显示:被调查者最关注的大数据技术中,排在 前五位的分别是大数据分析(12.91%)、云数据库(11.82%)、Hadoop(11.73%)、内存数据库(11.64%)以及数据安全 (9.21%)。Hadoop已不再是人们心目中仅有的大数据技术,而大数据分析成为最被关注的技术。从中可以看出,人们对大数据的了解已经逐渐深入,关 注的技术点也越来越多。既然大数据分析是最被关注的技术趋势,那么大数据分析中的哪项功能是最重要的呢?从下图可以看出,排在前三位的功能分别是实时分析 (21.32%)、丰富的挖掘模型(17.97%)和可视化界面(15.91%)。从调查结果可以看出:在未来一两年中有迫切部署大数据的需求,并且已经 从一开始的基础设施建设,逐渐发展为对大数据分析和整体大数据解决方案的需求。
大数据将重点应用于以下几大大领域:商业智能、政府决策、公共服务等。
行业拓展者,打造大数据行业基石
IBM:IBM大数据提供的服务包括数据分析,文本分析,蓝色云杉;业务事件处 理;IBM Mashup Center的计量,监测,和商业化服务(MMMS)。 IBM的大数据产品组合中的最新系列产品的 InfoSphere bigInsights,基于Apache Hadoop。 该产品组合包括:打包的Apache Hadoop的软件和服务,代 号是bigInsights核心,用于开始大数据分析。软件被称为bigsheet,软件目的是帮助从大量数据中轻松、简单、直观的提取、批注相关信息为 金融,风险管理,媒体和娱乐等行业量身定做的行业解决方案 微软:2011年1月与惠普(具体而言是HP数据库综合应用部门) 合作目标是开发了一系列能 够提升生产力和提高决策速度的设备。
EMC:EMC 斩获了纽交所和Nasdaq;大数据解决方案已包括40多个产品。
Oracle:Oracle大数据机与Oracle Exalogic中间件云服务器、Oracle Exadata数据库云服务器以及Oracle Exalytics商务智能云服务器一起组成了甲骨文最广泛、高度集成化系统产品组合。
大数据促进了政府职能变革
重视应用大数据技术,盘活各地云计算中心资产:把原来大规模投资产业园、物联网产业园从政绩工程, 改造成智慧工程;在安防领域,应用大数据技术,提高应急处置能力和安全防范能力;在民生领域,应用大数据技术,提升服务能力和运作效率,以及个性化的服 务,比如医疗、卫生、教育等部门;解决在金融,电信领域等中数据分析的问题:一直得到得极大的重视,但受困于存储能力和计算能力的限制,只局限在交易数型 数据的统计分析。一方面大数据的应用促进了政府职能变革,另一方面政府投入将形成示范效应,大大推动大数据的发展。
打造“智慧城市”
通过收集、处理庞大而复杂的数据信息,从中获得知识和洞见,提升能力,加快科学、工程领域的创新步伐,强化安全意识,转变教育和学习模式。智慧城市是使用智能计算技术使得城市的关键基础设施的组成和服务更智能、互联和有效,随着智慧城市的建设,社会将步入“大数据”时代。
未来,改变一切
未来,企业会依靠洞悉数据中的信息更加了解自己,也更加了解客户。 数据的再利用:由于在信息价值 链中的特殊位置,有些公司可能会收集到大量的数据,但他们并不急需使用也不擅长再次利用这些数据。但当它被一些发布个性化位置广告服务和促销活动的公司再 次利用时,则变得更有价值。