中国医院需要什么样的数据中台?
中国互联网的今天,市值总和接近10万亿人民币,头部阿里巴巴、腾讯各有4000多亿美元市值。一方面市值熠熠,一方面互联网成为数据应用技术的发源地,数据中台也在其中萌芽。腾讯汤道生说,“中台能力以前就有,只不过它们大多服务于内部业务,在产业互联网时代才开始逐渐对外开放这些技术积累。”京东黎科峰也坦言“公司在一轮又一轮组织架构调整之后,将数据中台提升到了重视的新高度。”这一切只是聚光灯下数据中台的冰山一角,数据中台作为从业务视角而非技术视角的技术,应用已经慢慢地向传统领域渗透。
2019年7月,佛山市妇幼保健院马丽明主任在演讲《中国医疗机构新一代数据中台建设的探索》中讲述了在数据战略时代,医疗信息化工不易的摸索之路,也表达了医院场景对于人工智能技术的真实需求。
医院信息化的基础设施好比是地基。而现实是,地基之上的建筑物并不能等到基础设施完全到位了才开始起步。中国医院的信息化步伐与人工智能技术的落地都在同一片工地里热火朝天的开工。
(一)数据中台的需求背景
众所周知,新医改的核心就是“腾空间、调结构、保衔接”。腾空间,就是腾出地方,让出空间,包括取消药品加成和采用两票制集中采购压缩药品中间环节的利润,同时规范医疗服务行为。通过调整医疗价格、服务价格来调整医疗现在的结构,药品大型检验、检查的价格往下调,能够体现医务人员技术劳动价值往上升。
结构性的调整对医院机制带来很大影响。新机制必须要跟社保和财政补偿衔接好。公立医院的院长在这关键时期面临挑战。确保医疗质量的前提下,减少过度医疗,提高服务质量是工作的重中之重。但是,如何提升才是关键。在这个情况下,数据分析有了新的历史使命,新医改为信息化赋能临床提供了加速度。
1999年,中国医疗机构信息化开始。
2010年,一个十年的数据积累期。
2019年,一个十年的数据汇通期。
预计在2021年后,迈向数据应用期。
产业实现从医疗数字化,到医疗智能化需要跨越两个门槛。
第一个,以技术为核心,向以数据为驱动转变,需要医疗机构信息中心有非常多的数据专家。美国很多医院的信息中心几百甚至几千的人才规模,其中大部分是数据专家。但是,现在国内医疗机构的数据专家很少。
第二个,“全科一体化”向“专科定制化”转变,医疗信息化工需要更加熟悉临床业务和流程。
不仅如此,医疗信息化工还面临以下几个挑战,
挑战一,如何利用数据赋能业务?简单来讲,读懂数据。首先要实现数据的互联互通,集成标准化和结构化。通过优质数据,定位临床质量和效率问题,从而分析问题背后的原因。根据发现的问题,使用辅助决策系统改善医疗质量,解决临床问题,提升临床效能。同时,能提供指标参数,进入下一轮的管理,怎么去更好地做控制和调整。
挑战二,专科发展速度非常迅猛,很多的专科系统面临着井喷,可以看到胸痛、静脉血栓栓塞症(TE)、房颤、卒中和脓毒症,这么多的专科系统都有特定的专科知识,专有的诊疗规范,特定的服务环节、专有指控和数据分析指标。这给医院信息中心带来了很大的困扰。需要面对很多的厂家,一个病、每一个系统都可能是不同厂家提供的产品,需要大量的协调。每个系统都有自己的硬件要求,都需要硬件的投入。每个系统都要去做接口,支持集成平台的方式,造成了大量的重复工作。都有自己的标准,最终没了标准。
更关键的一点是,各个系统之间是交叉的。可能某个疾病的知识体系改变了,会影响相关系统的使用。比如静脉血栓栓塞症的知识改变了,会影响抗凝药物的使用推荐。
信息化必须解决五大核心问题,
第一,数据集成,数据的汇集结构化、标准化。
第二,数据洞察,形成模型。
第三,平台化,兼容多应用的开放式平台支持各种应用。
第四、解决数据决策,形成各种临床的应用产品。
第五、业务重塑。场景化人机协同,同时还要结合的业务进行改进和提升。
数据驱动下的新架构集成平台应该在中间,再加上的业务中台、数据中台,两大中台作为支撑。
在今天的环境下,医院对数据中台的需求是呼之欲出的。
(二)数据中台的构成
虽然对业界对数据中台的定义还没有达成共识,厂家和专家对数据中台的标准和意见都有所不同。但是,现实工作已经实践出了主要结构。数据中台至少应该是要包括五个主要部分,
第一,数据的标准化和结构化。
第二,数据的聚类和转化,形成业务所需要的信息。
第三,数据指控和监控,保证的数据质量。
第四,构建指标体系。
第五,统一对外的服务。向下发展提高性能,保障数据的应用能力。向上拓展能够提高数据应用的价值和赋能业务。
数据中台可以比喻为建房子,如果所有的建筑组件都是以一块一块砖头为单位去建,速度很慢,建房子的又不止一个人,又有很多的系统。应用落地的速度受限。因此,可以把一些重复性的、反复使用的做成标准部件。例如一体化的洗手间、门窗,这些是数据中台要管理的东西,通过标准化的部件统一提供服务。
数据中台主要分成两大部分,第一,数据处理,第二,对外服务的中台。先把这些跟企业业务有较强相关性的部分抽取出来,把经常反复使用的抽取出来。数据中台要满足这种快速迭代、快速应用的需求,同时又要兼前顾后。
(三)数据中台的能力与业务流程
数据中台具备统一的能力,统一的数据存储能力,数据计算能力和数据的应用能力。数据中台必须要能够完成各种数据模型,包括基础模型和融合模型,标签和算法,还有质量控制管理和数据的安全管理。
马丽明主任谈到,现在服务中台已经比较成熟了,而各个医院建立了数据中台的并不多,都还在起步探索阶段。医院的服务中台,应用层不包括复杂的业务逻辑,只做呈现和转换,但是服务层已经实现了服务的微小化管理,每个业务单独的服务分级管理。因为服务性、可用性的要求不一样,像挂号,可就采取N加1的部署,像信誉度管理、检验检查,这些实时性要求不高,或者是患者用得不多的,这部分的业务需求标准可以适当降低。
所以,分级管理把数据变成一个个细颗粒度的资源,资源通过统一的API的方式给业务逻辑层即可。
流程改变,业务逻辑改变,只需要修改业务逻辑层。能够同时提供给多方使用,只需要改一个地方,所有的都是用统一服务的方式,需求导向结果。所以,数据中台是非常有必要的,主要要做几件事情:
第一,构建统一的测速与以及映射体系,这是一切标准化和结构化的基础。
第二,在术语制定的时候,可以参考国内外的权威临床数据集。
第三,结合国内临床数据使用的习惯和本土的表达,从而形成能够满足用户查阅的中文标准的术语体系。
术语的范围包括这几部分,
第一个,疾病、症状、实验室的检查、手术操作、病理的症状体征等临床诊疗信息。
第二个,通过自然语言处理(NLP)和本体映射的方式,实现数据标准化和结构化。
第三个,构建统一疾病数据模型,形成数据资产目录。
数据资产化的本质是要有足够的颗粒度和维度,直接用于业务场景。比如说患者画像、医院画像、设备画像。通过业务反推的方式和基于患者信息聚合衍生的方式,构建随取随用的数据。数据里面保存的不仅仅是患者的信息,还包括了很多的标签。
重构流程的关键是,只有深入到临床路径,才能发现更深层次的信息。首先是要匹配业务需求,然后根据需求对流程进行优化。梳理的过程包括,首先收集指南,再把指南按照疾病的主流程进行拆解,从而形成决策树。罗列疾病核心变量,变量可能不够,需要结合业务需求直接反馈信息,临床研究表单收集内容,补充疾病变量。把两者整合在一起,从而形成疾病数据模型和运营模型。
除了数据分类存放有利于数据有效利用,数据资产目录也很重要。举个例子,静脉血栓栓塞症(TE)需要管理的指标非常多,包括诊疗过程的指标,诊断类指标以及诊疗结局指标。例如,诊疗过程指标,包括静脉血栓栓塞症(TE)风险评估比率、出血风险评估比率。诊疗结局指标,包括医院相关性静脉血栓栓塞症(TE)发生比率,静脉血栓栓塞症(TE)相关病死率。这些防控指标并不是直接就能收集到,往往在收集到静脉血栓栓塞症(TE)风险评估之后的数据,才能计算出来。只有这样,才能更好地辅助各类业务的应用。
谈到构建统一的疾病为核心的知识库,至少要包括这三部分,
第一,通用的知识,包括常见的药品知识检验、检查知识。
第二,模块化疾病知识,包括了筛查诊断手术和操作指引和知识。
第三、疾病知识,包括疾病指南和专家共识。
在知识库基础上,还要构建指标标准管理体系,至少要包括五部分,
第一、流行病学数据。
第二、临床路径和指南。
第三、医院和科室的质量标准。
第四、国家对重大疾病的要求。
第五、国家管理相关的机构设定的医院运营的指标(DRGs)。基于数据资产和指标标准,才能定准确的定位,发现问题,定位临床问题。更好地判断是过度医疗,还是检查不足。
构建统一的数据质量和监控体系是质控体系重中之重。在指控当中有至少是有三个事情是必须。
第一、一致性。
第二、标准化,
第三、合理性。
如果有条件,最好是能够把内容质控也加进去,最好能在使用前进行监控,对于能够及时发现医疗质量问题和风险有非常大的帮助。
另外,开放的APIs,统一数据中台支撑多种的业务数据的应用,做开放式的接口服务数据中台。
开放接口服务有几个好处,第一是简化管理。对接会变得很简单,然后很快速,排错也容易,能够减少数据治理工作量。如果每个系统接入,都要去做数据治理,都要去做对标还是蛮痛苦的。第二、数据安全。不需要全部开放数据给某一个应用,只需要提供业务所需的最小级,可以减少不必要的数据暴露,还可以做统一的脱敏转化,从而更好地保护患者隐私和医院的数据资产。
这方面国外已经有很好的应用案例,像斯坦福大学用于慢性疼痛患者管理的健康信息注册网络,是开源、开放标准的,高度灵活的系统平台。基于临床的知识决策的推荐,为临床的医生提供最佳的实践路径,并提供临床结果追踪的决策支持。
人工智能辅助临床诊疗决策的需求是非常巨大的,也是真实的。在此处,马丽明主任谈到一个性命攸关的案例,一个小朋友两三天前在医院看病时还好好的,突然间,急重症肺炎转到重症加强护理病房,短短几天,从活蹦乱跳到性命垂危。重症肺炎在国内存在很大的问题,其中一个问题是部分低年资医生没有办法对重症肺炎进行百分百的准确识别。虽然国家已经有很明确的诊断标准。但问题的难点在于潜在的重症患儿早期症状不明显,而病情恶化快,可能两三天前根本就没有什么太特别的症状,突然间就要进重症加强护理病房了。临床识别非常困难。起病急,病情重变化又快。如果能够在早期识别病情,提早采取措施,会大大降低重症肺炎的病型病死率。
国外已有可以参考的案例,美国杜克医疗(Duke Health)基于人工智能技术,针对脓毒症的不同症状表现进行预警的建模,对及时发现脓毒症起了很大的帮助。再比如败血症,平时表现和很多急性感染的表现是一样的。也就是说,败血症本身并无特殊临床表现,败血病的临床表现也可见于其他急性感染。人工智能建模预警在第一次抗生素给药前17个小时就已经检测到败血症。所以,非常期待国内有的人工智能公司能够给医务人员带来的帮助。
马丽明主任深刻的回顾了数据中台在医院的应用与发展,也讲述了医疗前线的真实需求。在数字化浪潮赋能百业千行的时代背景下,数据中台等基础建筑拔地而起,人工智能技术努力深入场景,双轮同轨。在文章的最后,简单地提一下国内的人工智能企业在医院场景下取得的进展。
据悉,长春市某知名妇产医院在新生儿体重场景使用第四范式AutoML技术取得很好的效果。因为体重是衡量儿童生长发育的重要标志,预测新生儿体重对知晓新生儿的健康状况,指导孕妇分娩的方式都有意义。可惜目前教科书上的办法还停留在用腹围、双顶径、股骨长几个指标用简单公式计算。临床实践表示,旧的计算方法非常不准,几乎已没有指导意义。因此,医院希望尝试用人工智能的方式去解决。而AutoML技术应用在这个场景下,模型预测的绝对误差仅为百克。如果该技术能够在全国范围内应用,预测全国各个地区新生儿体重数据,将有可能从的新生儿体重数据中挖掘出更大意义与价值。