12.4基于语义技术的电子病历
12.4.1电子病历概述
电子病历(electronic medical record, EMR)是以电子化方式管理的个人医疗保健信息,涉及保健和临床信息的采集、存储、传输、处理和利用。它可在医疗卫生服务中作为主要的信息源,取代纸张病历,满足所有的医疗、管理和法律的需求(美国国立医院研究所的定义)。电子病历系统(electronic medical record system, EMR-S)是:“指记录、检索、处理电子健康信息的系统。”(2003年ISO/TC215的定义)
回顾电子病历的发展,经历了电子化的病历文档(包括手工录入、语音录入,计算机扫描等方式)、表格式的电子病历,到结构化的电子病历。
阐明电子病历的本质是研究的核心和关键问题。早在1997年美国Richard S.Dick就作了明确阐述: 电子病历决不只是利用计算机将纸质病历移植为电子载体,而是将纸质病历中文字的、图表的信息变为计算机能识别和理解的格式化数据予以输入、存储、处理、查询。为了研制出“计算机能识别和理解的”的电子病历,目前有两条途径:结构化的电子病历和基于语义技术的电子病历。
12.4.2结构化电子病历的优势与问题
1)结构化电子病历概念与优势
基于结构化的电子病历主要由结构化的模型与结构化的数据组成。结构化模型为分层次结构,它的前三层表达了病历规范的格式,后几层表达了疾病的临床医学知识和诊断治疗的规律(如图12-1所示)。结构化数据是指能够用数字或统一的数据模型加以描述的数据,具有严格的长度和格式。这些数据必须根据其内在概念的序化或原理的序化已被准确地分类和编码,并归属于某一医学分类系统中。通常采用开放式结构化录入(SDE)方法录入电子病历中(如图12-2所示)。它的最大优势就是病历的部分内容能被计算机识别和理解,从而可以处理、应用。
1
图12-1 结构化电子病历模型的多层结构示意图
图 12-2 结构化录入的用户界面
2)结构化电子病历的问题
完全结构化的电子病历是一个理想的目标,但要实现它存在下列一些难以解决的问题。 (1)组合性:病历内容都是由多个词汇组合的,的为了表达病历中海量的医学知识的含义,结构化通过切分这些知识,直到基本的词或术语(常是自定义的,或非标准的),而它们并不能表达精确的、独一无二的语义。而这种人工的切分既耗时费力,又缺乏标准。
(2)关联性:电子病历海量信息之间的复杂的逻辑关系如何表示?复杂多变、又严谨规范的临床医学知识如何推理?例如“急性单纯性阑尾炎”,若用结构化划分:“急性”指疾病的分期;“单纯性”指疾病的分型,不含其它合并症;“阑尾”指解剖部位;“炎症”指病理改变。因此人为设置这些变化多端的相互关联是非常困难的。
(3)知识驱动性:临床医学是是一个庞大深奥的领域,数百年理论研究和经验积累已形成一个规范化的体系。例如“冠心病”诊断依据必须具有特征性的心绞痛症状、典型心电图表现和特定的心肌酶变化。利用结构化数据人为设置所有医学知识的逻辑推理也是难以解决的,即无法根据临床医学的驱动进行正确推理。
(4)全面性:电子病历除了医学知识,还也包含大量的日常用语信息也需要语义识别,例如现病史、病程记录中描述性的自然语言,例如“酒驾”、“交通事故”等远超出医学术语范畴。
(5)歧义性:自然语言文本各个层次存在歧义性或多义性,特别是方块形汉语单词切
2
分的难题,即“字—词—词组—句子—段”的判断,而消除歧义现象需要大量的知识和推理。例如:
一只 手提 除颤器
一只手提除颤器 (数量词 形容词 名词) (词组)
一只 手 提 除颤器
(修饰词)(主语)(谓语)(宾语) (句子) 5、方便性:要求医生放弃传统的、习惯的文本录入方式,采用完全结构化录入是一件既耗费时间、又类似机械性的操作,必然受到他们的反感乃至抵制。
6、局限性:医学本身有许多未知领域,每一个患者有其独特的临床表现,严格的结构化录入难以涵盖复杂多变的临床表现,会限制医生的创造性思维,阻碍对医学未知领域的发现和思考。例如,2003年前谁会设计一个“非典型肺炎”的结构化病历呢?
12.4.3 基于语义技术的电子病历的设计原理
结构化电子病历的上述问题促使我们去寻找另一条途径,这就是基于语义技术的电子病历。有关设计原理如下;
(1) 医学本体知识在电子病历中的应用
我们已经介绍了语义技术是采用国际统一标准的基于语义的数据表达语言,如元数据RDF/RDFs和OWL本体语言的表达方式,OWL是RDF/RDFs的进一步扩充,主要增加了逻辑运算描述能力等许多特征。针对特定知识领域又开发了各种本体Ontology,表达了某一领域概念的标准化。因此,医生可以用自由文本的方式书写电子病历,由语义技术将病历中的医学信息逐步拆分到基本的颗粒——医学元数据或医学本体。它们在电子病历中的作用有如下特点:
① 由于医学本体精确定义了医学知识概念和概念间的关系,就可以使电子病历系统正确识别和理解自由文本中的信息,消除信息的歧义、多义和同义,而依据本体概念间的关系有利于进行正确的逻辑推导。
② 由于电子病历必须与许多异构的医学信息系统(如实验室系统、影像系统、区域卫生系统等)实现信息的互操作,医学本体对知识唯一、精确的描述有利于信息在语义层次的共享、交互、检索和重用。
③ 本体主要是由计算机可应用的数学方式来表达的,因此电子病历中的医学知识以本体表达后就可以用EMR-S进行处理。
(2)电子病历中知识的标识
3
电子病历中的医学概念和日常用语概念在转化为RDF或OWL后都被赋予唯一的语义,并被分配到一个唯一的标识符,即统一的资源定位URL,这就为电子病历对医学知识、数据资源的快速准确访问、识别和交互奠定了基础。
(3)电子病历医学概念的标准化
医学概念的标准化是电子病历的基础。医学本体就是对医学概念的标准化表达,但这种概念是分散的,概念间的关系是多向的,并不适用于电子病历对临床诊断、治疗的专业要求。
医学术语在本质上就是医学概念的语言符号,医学分类系统是将相关的自然语言列入分类范畴,是一种按医学概念或原理序化整理的逻辑系统,是一种聚合的术语。UMLS就是一个接近上层本体的分类系统。最适用于电子病历的有SNOMED(系统化临床医学术语集)、ICD(国际疾病分类)、LOINC(检验报告逻辑命名与编码系统)等。以SNOMED为例,它涵盖了医疗卫生领域的311,000个概念都具有唯一的语义含义,并归纳到19个层级结构中,还有1,360,000种语义关联。这些为语义电子病历提供了标准化的基础。
图 12-3 SNOMED 的概念分类与语义关联
(请俞老师删除公司标记和PPT模板)
4
(4)电子病历中的语义共识
不同厂商开发的电子病历都是异构系统,如何使其中的自由文本语言做到语义上的共识,只有靠本体映射的方法来实现。本体映射的基本原理是发现两个异构本体内实体之间是否存在相关性,即进行相关度匹配,如果高度匹配,则表示电子病历中某一实体与所映射的本体的某一数据(或术语)具有一致的语义。本体映射的关键有两点:一是对病历内容分解的粒度能独立匹配;二是特定的语境,包括医学领域、上下文提示、语言习惯等。
图12-4是一位患者两天的病程记录,出现了5个完全一样的“心绞痛”医学词汇,但是第1组三个“心绞痛”表示症状,第2组的二个“心绞痛”表示诊断,语义截然不同。通过上下文的语境和概念的关联,进行本体映射,就可以得到正确的语义解释。
2008-02-16 16:00 患者***,今日仍诉有 心绞痛 发作,体格检查:HR 86次/分,节律 齐,心电图提示S-T段下移,王主任医师查房,认为心绞痛诊断成立。
(1)识别出三处心绞痛症状含义
2008-02-20 08:00 患者***,今日无诉有 心绞痛 发作,服用抗心绞痛药物已经4天, 体格检查:HR 84次/分,节律齐,听诊心脏无杂音。张主任医师 查房意见:患者经4治疗后 心绞痛 症状缓解,治疗方案有效,同
意劳力性心绞痛 诊断。 (2)识别出两处心绞痛诊断含义
图 12-4 利用本体映射达到医学知识语义共识
2005年我们与荷兰鹿特丹鹿特丹Erasmus大学进行了一项关于本体映射的研究,将中国100多份心脏科病历译成英文,将其用结构化数据录入,然后采用Collexis 元素搜索引擎向SNOMED映射,进行机械配对,以探讨电子病历内容被SNOMED术语匹配表覆盖比例。经多次试验,可接近75%的匹配度。证明本体映射的可信度。该论文发表在美国2006年医学信息方法杂志。
(5)电子病历中医学知识的推理
临床决策支持(CDSS)是电子病历的重要功能,其关键就是能够依据临床医学原理,对患者的病历数据进行知识推理。应用语义技术进行知识推理有三个层次:首先是遵循三元组之间的关系,在RDF层的推理;第二是本体层推理;最后是医学知识驱动性的逻辑层推理。如图12-5所示。
5