现有的数据中心技术很难满足大数据的需求,需要考虑对整个IT架构进行革命性的重构。而存储能力的增长远远赶不上数据的增长,因此设计最合理的分层存储架构已成为IT系统的关键。数据的移动已成为IT系统最大的开销,目前传送大数据最高效也是最实用的方式是通过飞机或地面交通工具运送磁盘而不是网络通信。在大数据时代,IT系统需要从数据围着处理器转改变为处理能力围着数据转,将计算推送给数据,而不是将数据推送给计算。应对处理大数据的各种技术挑战中,以下几个问题值得重视:
1、大数据对科学规范的挑战
大数据带来了新的科研范式
科研第四范式是思维方式的大变化,已故图灵奖得主吉姆格雷提出的数据密集型科研“第四范式”,将大 数据科研从第三范式中分离出来单独作为一种科研范式,是因为其研究方式不同于基于数据模型的传统研究方式。PB级数据使我们可以做到没有模型和假设就可以 分析数据。将数据丢进巨大的计算机机群中,只要有相关关系的数据,统计分析算法可以发现过去的科学方法发现不了的新模式、新知识甚至新规律。
大数据如何应用于开放的研究
大数据基于对海量数据的分析产生价值,那么如何获得海量数据来让大数据真正落地呢?这其中最不可或 缺的一个环节就是数据开放。现在推进数据开放更为重要的是通过数据的共享来产生更多的价值。数据开放能够提高社会运行效率,积极整合各方公开的数据,建立 基于大数据的城市规划来缓解交通和社会治安问题。 数据开放能够激发巨大的商业价值,数据开放是面向社会大众的开放,任何人只要有能力都可以用它来创造 新的商机。
加强数据开放,为大数据发展打牢基础。在大数据应用日益重要的今天,数据资源的开放共享已经成为在 数据大战中保持优势的关键。促进商业数据和个人数据的开放与共享。商业数据和个人数据的共享应用,不仅能促进相关产业的飞速发展,产生巨大的经济价值,也 能给我们的生活带来巨大的便利。经常网购的人会有这样一种体验。很多电商网站能够在我们买书的时候,推荐我们刚好喜欢的其他书籍,这正是网站根据成千上万 甚至上亿人的个人数据的统计分析而得出的,但是我们也感受到了这样强大的数据分析能力对我们“隐私权”的冲击。因此,完善个人隐私保护等相关立法,对哪些 个人数据可以进行商业化应用、应用范围如何界定、数据滥用应承担哪些责任等具体问题做出规范,从而保证数据开放工作稳步推进,为大数据发展应用打好根基。
重现大数据研究结果
数据量的增大,会带来规律的丧失和严重失真。维克托·迈尔-舍恩伯格在其著作《大数据的时代》中也 指出“数据量的大幅增加会造成结果的不准确,一些错误的数据会混进数据库,”此外,大数据的另外一层定义,多样性,即来源不同的各种信息混杂在一起会加大 数据的混乱程度,统计学者和计算机科学家指出,巨量数据集和细颗粒度的测量会导致出现“错误发现”的风险增加。大数据意味着更多的信息,但同时也意味着更 多的虚假关系信息,海量数据带来显著性检验的问题,将使我们很难找到真正的关联。
我们以一个实际的案例来看一下样本量不断增大之后,会出现的问题:
上表是关于某年网络游戏历程扩散的回归分析,当样本量是5241个的时候,你会发现用一个简单的线 性回归拟合这个数据,年龄、文化程度、收入这三个变量显著,当我们把样本量增加到10482个的时候,发现独生子女和女性开始显著,增加到20964个的 时候,体制外这个变量也开始显著,当样本增加到33万的时候,所有变量都具有显著性,这意味着世间万物都是有联系的。样本大到一定程度的时候,很多结果自 然就会变得显著,会无法进行推论,或者得出虚假的统计学关系。此外,断裂数据、缺失数据(下文将会进行分析)的存在将会使这种虚假关系随着数据量的增长而 增长,我们将很难再接触到真相。
事实上,真实的规律是这样的:
对一个社会现象进行客观深刻准确的分析,对事物的理解需要数据,但更需要分析思维,在大数据时代,理论并非不重要,而是变得更加重要。我们所指的理论也并非僵化一成不变的固守旧有理论,而是在处理问题的过程中意识到海量数据所带来的复杂性,坚持分析方法和理论的不断创新。
大数据研究结果可信与否
《大数据时代》一书的作者维克托·迈尔-舍恩伯格说,大数据的核心就是预测。它通常被视为人工智能 的一部分,或者更确切地说,被视为一种机器学习。他认为,大数据大大解放了人们的分析能力。一是可以分析更多的数据,甚至是相关的所有数据,而不再依赖于 随机抽样;二是研究数据如此之多,以至于我们不再热衷于追求精确度;三是不必拘泥于对因果关系的探究,而可以在相关关系中发现大数据的潜在价值。因此,当 人们可以放弃寻找因果关系的传统偏好,开始挖掘相关关系的好处时,一个用数据预测的时代才会到来。
不可否认,大数据标志着人类在寻求量化和认识世界的道路上前进了一步。这是计算技术的进步,是人类 决策工具的进步。改编自迈克尔·刘易斯的《魔球:逆境中制胜的智慧》的影片《点球成金》,讲述了一个真实的故事,介绍了奥克兰运动家棒球队总经理比利·比 恩的经营哲学,描述了他抛弃几百年延续的选择球员的惯常做法,采用了一种依靠电脑程序和数学模型分析比赛数据来选择球员的方法。比利·比恩的成功称得上是 对球探们经验决策的颠覆,是让数据说话的成功范例。正如维克托·迈尔-舍恩伯格将大数据视为人工智能的一部分,视为机器学习的一种应用一样,数据决策和数 据旁证的博弈其实是人和机器的博弈。即便是有一将难求的数据科学家的协助,大数据决策依然是辅助系统。
在这一阶段,云计算是基础设施,大数据是服务工具,两者将满足特定语境下的、短线的市场需求,更重要的是它们还能发挥其在非特定语境下破解社会难题的价值。换言之,大数据将演绎“信息转化为数据,数据集聚成知识,知识涌现出智慧”的进程。
2、大数据带来的社会问题
在基于社交媒体和数字化记忆的大数据时代,人们不仅担心无处不在的“第三只眼”,而且担心隐私被二 次利用。因为,亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,微博似乎什么都知道,包括我们的社交关系网……可怕的不是这些隐私数据,而是 大数据的全数据分析、模糊计算和重关联却不求因果的特性,让隐私数据与社交网络等关联起来。按照维克托·迈尔-舍恩伯格的说法,危险不再是隐私的泄漏,而 是被预知的可能性——这些能够预测我们可能生病、拖欠还款和犯罪的算法会让我们无法购买保险,无法贷款,甚至实施犯罪前就被预先逮捕。
无论如何,大数据正在推动产权认知和结构的变革,以往IT产业链的主宰者或将在变革中遭遇冲击。大 数据的魅力在于它能够让企业在无边界的数据海洋里遨游,发现社会进步的内在韵律,捕捉社会发展的先行参数。比如从消费者兴趣图谱中萃取研发创新智慧,而不 局限于产品关联性分析;比如对企业内外部利益相关者群体智慧的发掘,开展企业和产业的健康诊断,而不局限于短效的精益管理;比如对地震等自然灾害的预警, 构架社会应急机制……
3、大数据带来的技术挑战
抽样分析+全数据验证的分析思路
增加样本容易,降低算法复杂度难。维克托·迈尔·舍恩伯格在介绍大数据时代的数据分析思维转变时提 到过三个观点,其中之一是:分析所有的数据,而不再仅仅依靠一小部分数据。全数据一时甚嚣尘上,企业、研究者以为大数据就是全数据,以至于再谈抽样都似乎 带有保守主义色彩,这种看法无疑是对大数据和抽样二者都存在偏见和不足,如果认为大数据就是收集所有样本的信息,让数据自己说话,那么在方法论上就是狭隘 的。
这里也涉及了全数据的第二个问题全(暂且假定我们通过人们在谷歌上输入搜索条目就找到了真正意义上 的全:谷歌利用搜索记录而预测到流感爆发的案例被广为引用以说明数据自会说话,当人们开始在网上搜索关于感冒的词汇表明他感染了流感,建立流感与空间、病 毒的关系,能够成功的预测一场流感)数据确实能看到变化,通过变化作出“预测”,但无法解释变化的影响因素,维克托·迈尔·舍恩伯格对此的回答是:我们要 相关性,不要因果关系。这并非是这位作者有选择的选择,而是放弃抽样而直接采用大数据的必然。
《文学文摘》依靠纸媒时代巨大的发行量获得240万民众的数据,而盖洛普仅在严格抽样基础上研究了5000人,是“小数据”的复杂算法超过“大数据”的简单算法的真实案例。
没有抽样的拟合,直接面对大数据,将使我们失去对人的了解,对真实规律的追寻,毕竟不是所有的社会 事实都一场流感一样易于预测,况且即便是谷歌被广为赞誉的流感预测案例也被认为存在问题:在与传统的流感监测数据比较之后,根据互联网流感搜索实时更新的 Google流感趋势被发现明显高估了流感峰值水平。科学家指出基于搜索有太多的噪音影响了它的精确度这表明基于社交网络数据挖掘的流感跟踪将不是替代而 只能补充传统的流行病监测网络。他们正在开发噪音较少的替代跟踪方法,例如基于Twitter的流感跟踪只包含真正病人的帖子,而不是转载的流感新闻报 道。
分析理解大数据——盲人摸象
数据是企业最重要的资产,而且随着数据产业的发展,将会变得更有价值。但封闭的数据环境会阻碍数据 价值的实现,对企业应用和研究发现来讲都是如此,因此我们需要合理的机制在保护数据安全的情况下开放数据,使数据得到充分利用。有效的解决办法之一是公正 的第三方数据分析公司、研究机构作为中间商收集数据、分析数据,在数据层面打破现实世界的界限,进行多家公司的数据共享而不是一家公司盲人摸象,这才能实 现真正意义上的大数据,赋予数据更广阔全面的分析空间,才会对产业结构和数据分析本身产生思维转变和有意义的变革。
4、大数据管理的挑战
每一种非结构化数据均可被视为大数据。这包括在社交网站上的数据、在线金融交易数据、公司记录、气 象监测数据、卫星数据和其他监控、研究和开发数据。大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复 杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系 统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术,异构数据的数据融 合技术,数据组织技术,研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。
通过隔离管理大数据存储
如果有多个存储箱,那么将数据库、线交易处理(OLTP)和微软Exchange应用到特定的存储系统是个不错的选择。其它存储系统则用于大数据应用如门户网站,在线流媒体应用等。
如果没有存储系统,将特定的前端存储端口到数据库,OLTP等等;致力于大数据应用到其他端口。背 后的基本原理是使用专用端口,而大数据流量是以千字节或兆字节衡量,OLTP应用流量是以每秒的输入/输出操作(IOPS)衡量,因为数据块的大小是比大 数据更大而比OLTP应用程序更小。OLTP应用程序是CPU密集型的,而大数据应用程序更多的使用前端端口。因此,更多的端口可以专注于大数据应用。
专业的大数据存储管理
兼容数据管理的存储系统。如EMCIsilon的集群存储系统对于大数据存储管理是一个更好的选择,因为在一个单一的文件系统中大数据能增长到多字节的数据。
大数据分析
除了存储,大数据管理的另一项大的挑战是数据分析。一般的数据分析应用程序无法很好的处理大数据, 毕竟涉及到大量的数据。采用专门针对大数据的管理和分析的工具,这些应用程序运行在集群存储系统上,缓解大数据的管理。管理大数据的另一个需要重点考虑的 是未来的数据增长。你的大数据存储管理系统应该是可扩展的,足以满足未来的存储需求。
大数据的存储管理和云计算
目前正在寻找云计算服务来进行存储和管理海量数据。而选择云服务来大型数据存储管理,可以确保数据的所有权。有权选择将数据移入或移出云服务,而不被供应商锁定。
面临的挑战
(1)大数据集的挑战
如下图为数据到知识的演化过程示意图:
缺少大数据复杂度冗余度的度量方法
缺少确保近似算法精度分析方法
缺少根据分布知识对大数据进行抽样的方法
(2)数据复杂性挑战
挖掘将会很大程度地提高数据分析的性能和灵活性。源于数据仓库的数 据立方体计算技术和OLAP(在线分析处理)技术极大地提高了大型数据库多维分析的性能。除了传统的数据立方体技术,近期的研究致力于构建回归立方体、预 测立方体以及其他的面向统计的复杂数据立方体。这样的多维或高维分析工具对分层多维数据的有效分析提供了保证。
(3)数据动态增长的挑战
研究内容
(1)研究分布式并行计算环境下的大数据大数据分析的基本策略
I.与数据分布相联系的分治策略
II.与算法机理相结合的并行策略
(2)研究复杂度降精度可控的新的大数据分析算法
I.大数据分类、聚类、关联分析、异常发现等
(3)大数据分析平台研发