随着科技的高速发展,数据在人们生活和决策中所占的比重越来越大,大数据的热浪已然覆盖了整个时代。数据显示,到2020年,中国大数据产业规模或达13626亿元。大数据一直在积极赋能众多产业,包括金融、医疗、农业、教育等,如何在各个行业中深度挖掘大数据价值,让决策者的选择有据可依,这就需要专业的大数据解决方案来实现。
一 有利的大数据支持政策
作为互联网发展的产物,大数据的发展应用与互联网息息相关,但一个产业的发展往往离不开政府的扶持,完善的政策是当前大数据产业发展和应用的重要保障。
国家的政策支持:近年来,国家对大数据制定一系列战略政策,并对其提供诸多有利的政策支持。早在2012年就明确提出过支持数据行业的发展。2015年9月,经李克强总理签批,国务院印发了《促进大数据发展行动纲要》,系统部署了我国大数据发展工作,至此,大数据成为国家级的发展战略。
各省及地区的政策支持:全国共有二十多个地区出台大数据相关政策,很多地区都设立专门的大数据管理机构,比如上海的“大数据局”和贵州的“云上贵州”,同时长江三角洲以及京津冀地都在大数据领域具有较好的发展。
在各个细分领域的政策支持:除了提供政策支持和构建大数据机构,国家同时非常重视重点行业的大数据应用。2018年,大数据产业相关的政策内容已经从全面、总体的指导规划逐渐向各大行业、细分领域延伸,将大数据作为推动产业和经济发展的利器。
比如:在制造业落实工业互联网、云计算、大数据在传统制造企业的全流程的综合集成应用,提高制造业企业的发展能力,深化工业云、大数据等技术的集成应用。对电子商务、“互联网+政务服务”等也提出要推动大数据在电子商务、车务创新方面的应用。
目前大数据已经在政务、金融、交通、保险、通讯、媒体娱乐业、教育、制造业、自然资源开采、零售和批发贸易以及能源和公用事业等行业均有应用。
二 大数据为理性决策提供更充分依据
无论是在政务领域还是商业领域,依赖于大数据技术的数据分析总是为行业提供决策支持。由于大数据是从量变到质变的过程,加之数据被广泛挖掘,决策依据的信息完整性越来越高,依据信息的理性决策要高于以往拍脑袋的盲目决策。
宏观层面中,大数据使得经济决策部门可以更加敏锐的把握经济走向,并制定实施科学的经济决策;在微观层面中,大数据可以提高企业经营决策水平和效率,推动创新,给企业以及所处的行业领域带来价值。
例如:某消费领域的鞋子厂商,以搜索采集等技术,挖掘用户对鞋子舒适度、美观度、以及价格等维度的关注度数据,再通过精准的大数据分析算出消费者最为关注的领域,进而根据消费者的需求对产品进行改良,最终在销售终端成为消费者青睐的品牌。
三 领先的大数据处理技术以及完善的基础平台建设
想要多方位推进大数据的发展和应用,且能够落地实施从而带来效益最大化,就需要加强数据平台的建设,这是大数据发展和应用的基础。在大数据应用的整个过程中,hugedata 不仅有着领先的大数据处理技术,同时还具有非常完善的大数据基础平台建设能力,目前已经有成功案例应用于政务、医疗、交通等行业。
在大数据处理技术中,数据处理的每个阶段在业界均具领先水平:
数据采集
• 数据共享交换汇聚• 多源异构数据转换• 分布式互联网数据采集• 结构化数据抽取• 字段式精准采集数据存储
• 支持绝大部分关系型数据库• 支持内存/闪存/硬盘混合存储• 支持结构化/半结构化/非结构化等• 多种类型数据• 数据容量支持PB级以上热扩容• 高并发低延时,线性扩容计算速度数据清洗
• 数据脱敏,文本挖掘• 信息抽取、自动分类• 智能过滤、自动聚类• 主题检索、统计分析数据分析
• 支持批处理统计分析• 交互式SQL分析、在线数据检索• R语言数据挖掘、支持机器学习• 实时流处理、全文检索和图计算• 丰富的基础模型算法库Hugedata建有完善的大数据基础平台:
大数据共享交换平台
大数据共享交换平台提供各子系统接入的接口,实现数据交换平台和各信息系统的有机结合,以统一的接口规范实现数据自动提取、数据转换、数据发送、数据校验、数据审核、数据脱敏等,同时支持数据同步、历史数据迁移等。实现“统一标准、统一交换”的构想。它是一个为不同数据库、不同数据格式之间,进行数据交换而提供服务的平台。具有数据安全、异构整合、灵活、易维护、系统安全和高性能等特点。
互联网数据采集平台
互联网数据采集平台是利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取,并按照一定规则和筛选标准进行数据归类,并形成数据库文件的一个过程。利用垂直搜索引擎技术的网络蜘蛛、分词系统、任务与索引系统等技术进行综合运用而完成;随着互联网技术的发展和网络海量信息的增长,对信息的获取与分拣成为一种越来越大的需求。
大数据管理分析平台
自研国内领先的hugedata系列大数据存储、管理和分析平台,拥有自主知识产权。
语言分析文字检测识别平台
语义分析文字检测识别平台是基于并行计算系统和分布式爬虫平台,结合独特的语义分析技术,一站式满足用户NLP。转码、抽取、全网数据抓取等中文语义分析需求的开放平台,用户能够基于平台对外提供的API实现搜索、推荐、舆情、挖掘等语义分析应用,也能够通过与我们深入合作定制产品特色的语义分析解决方案。
四 大数据解决方案 解决多行业痛点
在强大的基础设施和技术能力的基础上,诸多行业内已经形成具有自身优势的解决方案:
• 在社会治理解决方案中,将基础建设标准化、社区矛盾联动化解,社区进行综合服务,进而提高社区服务效率、改善政民关系。
• 在商业领域的消费者洞察方案中,数据采集来源丰富:涵盖电商平台、知道问答等覆盖全网的6大数据源;功能多样灵活可配:设计数据源站点可灵活配置;分析维度涉及产品、属性、属性可配,提及点可配;支持竞品对比分析,同时还能采用大数据建模,智能识别过滤水平评论。
• 交通大数据解决方案,通过公路大数据采集、数据共享交换、视频图像数据对接,实现各类信息资源的集中存储、业务可视化。同时在道路视频巡检、道路养护等方面进行数据分析、智能预警,在道路安全方面利用大数据分析为公路处提供更加科学准确的决策依据。为“创建和谐公路、服务百姓出行服务”提供业务支撑。
• 医保大数据解决方案,通过大数据反欺诈引擎可以解决医学规则无法识别的欺诈骗保行为,挖掘更多基金不合格的使用问题;完善基金的控费监管手段,对医疗机构达到更加强大的监管效果,促使医疗机构规范自身医疗行为。
Hugedata 作为江苏省未来网络创新研究院对外提供网络大数据服务的经营实体,是国际上大数据平台产品线最齐全的企业之一。江苏省未来网络创新研究院成立于2011年,是由南京市政府、北京邮电大学、中国科学院计算技术研究所、清华大学、中国电子科技集团公司电子科学研究院等作为理事单位组建的事业法人单位。
Hugedata 在研究院的带领下,拥有顶级的高端人才和技术团队支撑,为政府、医疗、环保、公安、交通、旅游、安全、金融、教育、企业等10多个领域提供高效的大数据整体应用解决方案,是国内少数掌握大数据核心技术,从事大数据平台、工具及应用系统开发的高科技公司。
我大概讲一下行业背景,包括阿里云所做的ET工业大脑,可能会讲的比较仓促一些。最早的工业时代,也就是那个蒸汽时代,一开始都是手工作业。 蒸汽时代之后呢,到后面伴随着我们的信息化、机械化的快速发展,我们迅速迈入“自动化工业时代” 以及后来的“信息工业时代”。现如今,随时大数据的在工业应用中的普及,是否能带我们发现新的工业之美,步入崭新的工业4.0“数据智能工业时代”?
因为我们在做阿里云的时候,很多时候都需要去各地考察现场环境,所以对这块感触很深。在很多年以前,部分发达国家基本已经有了无人化工厂,信息化系统 ,这些在世界上都是非常领先的。除此之外,他们还有很多机器化设备数据,也就是说,可能在数据层面,我们会发现一些新的思路,可以从数据上面真正的改变一下工艺,我们之后会讲到这个。那个时候我们就发现了,工业大数据化是大势所趋。当时公司就意识到了这一点,同时中国也发布了“中国制造2025”计划,强调制造业数字化、网络化、智能化,在“工业4.0”实现“弯道超车”。
那么为什么想到做大数据,是因为我大学在工厂里边,有非常多的数据可以做参考,比如说像生产机床的转速,能耗,包括火力发电的燃烧和燃煤消耗等,都是在生产过程中的数据。
问题背后的情况是什么样子。我要讲一个问题,我们可以从数据上面来判断你这个问题是否存在。站在数据层面,这个感触就比较深。在很多年以前,国外就有一些无人化工厂,只有几十个人的样子,有很多信息化系统,有很多机器设备的数据。工业数据按照特点大致可以进行一下划分:时间维度不断的延长,经过多年的生产经营,积累了历年的生产设备数据,质量数据,原材料数据。数据的范围在不断的扩大,除了积累的常见数据(如企业财务,CRM等,随着互联网的发展,越来越多的外部数据也被搜集回来,包括市场数据,社交以及企业舆情)。数据一统化趋势,减少人工巡检。数据类别增加了,非结构化数据在各个角落出现,而且不断增加。
一般来说,大数据有数据量大,数据种类多,商业价值高,处理速度快等特点。在此基础上还有两大优势:准去率高:应用场景一般是预测;实时性强:实时监控,故障预警。
数据化是大势所趋,那我们也必须积极加入。同时近年来国家号召,在工厂里边在生产过程中有非常多的数据可以改善。而改善方式是来自于我从数据方面的判断,我们阿里云是站在数据层方面,看我们是否能帮助你提高,像产能这些关键指标。工业数据的维度,一个是在目前的生产链上面,一个是时间不断增长之后,生产设备数据包括原材料数据, 数据的范围仍在不断扩大。
目前很多工业企业都不可避免的遇到下面这些业务痛点:加工流程长,设备参数多,造成工艺人员不能有效的利用信息,定位不良原因,影响工艺人员调整参数的效率。目前工艺参数的设定,主要依赖于工艺技术部专家的经验及单变量实验测试的结果表现。因为我们结合工艺技术部专家要求,工艺参数设定信息,工艺参数实际表现及批次分选结果,进行多变量综合分析,建模,推荐一组最佳的工艺参数,从而达到成本最低化效率最大化。
很多人会问,阿里云ET工业大脑,是什么?下面我结合自己的理解,给大家解释一下,阿里云ET工业大脑,是面向工业企业,利用企业生产过程数据,以云计算为基础,结合阿里云首创的面向不同业务场景的算法模型,将互联网技术应用于生产控制之中,以数据驱动产业升级,提高产能,降低成本,释放工业设备数据潜能。
下面我们来分享一些案例,大家可以百度搜一下:协鑫光伏这个企业,这是很经典的一个案例。他们企业当时有一个问题:协鑫光伏太阳能电池硅片生产过程的切片次品率过高,导致生产效率降低,生产成本升高。我们给出的方案是,將阿里云ET工业大脑应用于太阳能电池硅片生产制造领域,监控切片生产参数曲线,推荐最优参数,提升良品率。这样的结果是,通过对太阳能电池切片制造流程进行最优参数推荐,提升了1%的切片良品率,从而大大减少太阳能电池硅片产品次品率。
下面我们来看第二家公司,这个项目因为我参加过,我就看出来他们的问题在于过于依赖人工识别组件瑕疵,这样不仅工序繁琐,而且不确定性很强。我们就建议他们將阿里云ET工业大脑中的图像识别附能于工厂,也取得了很好的效果,问题也得到了很大的改善。
我们对盾安集团也进行过深度的分析,他们面对一个很大的风险就是风力发电机可能出现问题,传统风力发电机维护故障发生后“亡羊补牢”,事后发现维修复杂,维修周期长,停产损失大、维修费高昂。我们通过分析海量风机历史运行数据,构建风电机组异常智能监控预警以及风电机机组故障预测模型,可以提前发现微小故障并进行预警。这样方案的结果就是,通过高频谐波的占比预测风机故障趋势,提前2个月进行发电机故障预警,每台风机维护费用从30-50万减少至2万元。