2017年3月18日,在由中国研究型医院学会医疗信息化分会医疗和临床科研大数据专业委员会主办、HIT专家网承办的“医疗大数据应用与实践研讨会”上,国家卫生计生委统计信息中心原副主任、中国医院协会信息管理专业委员会(CHIMA)主任委员王才有阐述了当前对医疗大数据概念的再认识,及其所面临的机遇与挑战。
医疗大数据
第一象限:大数据采集 在数据采集阶段,医院通常会使用关系型大数据库(例如Oracle,DB2,MySQL……),其核心诉求是要保障大数据的完整性和一致性,确保数据不会因为软硬件故障而遭到损失。此外,随着互联网流量的引入,大数据的联机处理量级和效率也成为一个重要的考量。一些医院为提升联机事务的处理效率,引入分布式大数据库以满足互联网流量下高并发访问的需求。
第二象限:大数据整理 每个医院有很多不同的业务系统,这些系统会采用相对独立的大数据库来存储和处理不同的业务数据。通常系统使用的关系型数据设计容量有限,需要定期把历史数据清理到中心大数据仓库,从而确保联机交易处理的快速高效。中心大数据仓库是为了存储各个独立系统的历史全量数据,同时汇集各个系统的数据,因而在设计上会采用分布式可扩展的技术架构,通过例如Hadoop, Spark等技术保证可以用低廉的成本,对整个集群容量和处理能力进行无缝扩展。
第三象限:大数据分析 用户需要利用大数据资产创造价值。首先,来自各个分立系统的历史全量大数据可以进行关联查询,通过批量处理构建不同维度的大数据分析表,驱动BI和报表展示。然后,基于全量大数据的探索式分析,可以对各个系统的大数据执行相关性分析,依赖先进的机器学习算法发掘新的商业规则,并利用大数据规律影响指导决策。
第四象限:大数据决策 在第三象限通过批量大数据处理构建的数据立方体、维度表和层级表,需要传递到关系型数据库,从而驱动报表展示,生成决策视图。进行 决策支持的数据立方体、维表数据库又称为大数据集市,BI应用和大数据驱动的应用可以直接从大数据集市获取数据进行业务分析,也可以在维表基础上进行二次大数据汇集,形成更高层次的业务聚合。 医疗大数据的四大挑战
医疗大数据面临四大挑战
第一,大数据来源的挑战。大数据的来源是多元的,质量是不受控制的,有些大数据是拿来也不可用的,比如:不可及的碎片化大数据,可及但又是错误的大数据,可及、正确但是残缺、无法修补的大数据。
第二,大数据治理的挑战。没有新的大数据治理方式,解决不了大数据共享问题。现在是社会化的大数据采集、分享方式。原有的自给自足的大数据治理方式,必须采用新的大数据治理方式。
第三,大数据分析能力的挑战。最近几年,算法进步,并行计算能力进步很快。信息中心更多是学计算机的人,缺少统计分析、流行病学、医学的人。
第四,组织能力的挑战。大数据应用需要团队协同,除去技术、大数据来源,最重要的还是组织问题。要挖掘大数据的价值,需要掌握不同的技术、学科、专业的人。需要不同专业的人去去学习,特别是各种学科边界上的接口人才、组织管理人才,包括数据科学家、业务专家、决策者、IT工程师等。