电子病历实体识别
目录
一、课题背景3
二、中文电子病历命名实体和实体关系标注体系建立5
2.1命名实体分类6
2.1.1疾病(Disease)6
.1.2疾病诊断分类(DiseaseType)6
2.1.3症状(Symptom)7
2.1.4检查(Test)7
2.1.5治疗(Treatment)7
2.2.1疾病和症状的修饰8
2.2.2治疗的修饰9
三、实体标注细节9
3.1疾病DIS,DISEASE9
3.2症状10
3.2.1患者向医生陈述得不适感觉(症状)SYM,SYMPTOM10
3.2.2医生观察到地(体征)ST10
3.3检查TES,TEST10
3.4治疗10
3.4.1药品DRU,DRUG11
3.4.2手术SUR,SURGERY11
3.4.3措施(非手术,非药品的治疗)PRE,precaution11
3.5实体修饰词标注11
3.5.1否认词(AT,,absent)标注:11
3.5.2条件词(CL,conditional)标注:11
3.5.3既往信息词(PT,past)11
3.5.4时间标注统一标为TE12
3.5.5!!可能性词12
3.5.6程度词标注12
3.5.7解剖位置12
3.5.8频率词(FW,FrequencyWord)12
四、难点13
通过分析电子病历,医生针对患者的诊疗活动可以概括为:通过检查手段(做什么检查)发现疾病的表现(什么症状),给出诊断结论(什么疾病),并基于诊断结论,给出治疗措施(如何治疗)。从这个过程可以看出,医疗活动主要涉及四类重要信息:检查、症状、疾病和治疗。这四类信息在UMLS中也具有明确对应的语义类型定义。中文病历中对患者症状和检查结果的描述占有相当大的比重,因此在中文电子病历命名实体识别研究中,有必要把疾病和症状分开,并且定义疾病和症状的之间关系。
中文电子病历命名实体识别主要研究以下几类实体的识别:第一类实体是疾病,泛指导致患者处于非健康状态的原因(不包括不良生活习惯),或者医生根据患者的身体状况做出的诊断。疾病是可以治愈或改善的。第二类实体是疾病诊断分类,一般紧跟一个具体的疾病,是疾病的一个具体分类,比如“高血压,极高危组”中的“极高危组”。第三类实体是疾病的表现,在本研究中称为症状,泛指疾病导致的不适或异常感觉和显示表达的异常检查结果。