作者:王佑华, 陆金根, 柳涛, 季光, 周端, 郑培永
历代中医医案对中医理论的不断进步起着要紧用途,而大量的医案数据远远超出了人的理解能力。从信息科学角度来看,中医医案数据是混乱而又复杂的经验数据。这致使了医案研究的困难,亟需新技术和新办法的引进,常识发现技术办法可能就是一种要紧而好办法。本文简要介绍了中医医案中的常识发现技术办法,并提出具体研究思路,以期能够帮助达成医案研究技术革新。
中医; 医案; 常识; 技术; 数据
中医医案是中医临床医师推行辨证论治过程的文字记录,是保存、查核、考评乃至研究具体诊疗活动的档案资料[1]。在中医药学范围中,自古到今天,从散在于各种史料中记录的医案雏形,到医案专著,医案一直随着着中医药学的进步。伴随医案记录的不断涌现,医案剖析研究也层出不穷,在中医理论的形成进步传承过程中一直充满活力,是中医理论不断进步的摇篮。伴随新技术、新办法不断引入中医药研究范围,应用现代科技办法对中医医案进行研究已经提上日程。
1 中医医案的特点与新技术新办法的引进
中医医案是中医理、法、方、药综合运用的具体反映形式,它不止是医疗活动的真实记述,而且还反映了医家的临床经验及思维活动。因为医家所处年代不同,个人历程、学识、喜好和修养等各异,因此历代医案的数目、形式、体裁、风格和内容等亦在不断变化中。国内早在2 000多年前,名医淳于意就第一注意医案(诊籍)的记载。但秦汉以降,医家崇尚方书,此后直至隋唐五代,医案才渐渐散见于医籍和文史书中,数目少且内容简;宋金元时期医案专著开始出现,医籍附案渐渐增多,医家立案蔚然成风,医案风格异彩纷呈。医案进步至明代,开始有名医医案的专著出版,如江灌的《名医类案》。此期在医案数目增加的同时,水平也有了明显提升,主要表现为内容完整、客观;格式多样、规范;说理透彻、详明;文笔秀美、流畅[2]。明末清初医家喻嘉言在《含义草》中撰“与门人定议病式”,在韩懋和吴昆等人的基础上,对写作医案的内容与格式提出了更高的需要,即态度应严肃认真,内容应详尽,理法方药应齐备。而张山雷在写作风格上,或继承明清两代的特征,或对传统医案加以变革,使用中西汇通的看法叙述医案。伴随年代的不断进步,医案的数目也呈“爆炸式”增长。如隋唐五代前千百年的医案,数目少且内容简;而仅在清代,医家写作的医案专著就达200余种,而且门类齐全,风格多样,既有个人医案、医案类书、医案丛书,又有专科医案、专题医案、会诊医案、医案评注及宫廷医案等;近十年公开出版的名老中医医案有近百种之多,每种网站收录医案数百则到千余则不等。古今医案内容也发生了非常大变化[3],向应用中医基本理论研究现代医学疾病的方向进步,重视记载现代医学已诊断明确的病名。容易见到的记载方法为中西医诊断并列,以利互参。医案记载实验室等客观检查的内容逐日增多,针对检查结果的辨治内容如“微观辨证”等随之出现。现代医案中处方用药的内容变化也较明显,医者不只依据中医药理论选方用药,而且依据现代医学病理生理和中药药理进展来选方用药,医案中适用西药的现象愈加多。即使现代医案也存在着记载缺杂混乱、现代医学成分过多、文词晦涩、夸张不实等很多问题[4]。从以上剖析可知,从信息科学角度来看,中医医案数据将是混乱又复杂的经验数据。这类致使了中医医案研究的困难。伴随科技的高速发展,医学范围分工日益细化,跨专业的交流变得愈加困难,而某个专业范围的信息,可能对有关专业范围是有价值的,它们之间存在着某种隐含的有价值的关联,而以常规方法一般检索不到这种关联性。中医医案不只涉及到临床内、外、妇、儿各科,还包括了中医学中的哲学基础、中医对正常人体和疾病的认识,与中医食疗、养生和诊疗疾病的原则等很多方面,怎么样对其中隐含的常识进行分析与发现,势必是以后研究的热门与难题。而且中医药学科内仍然有很多的问题,甚至是一些基本性的问题得不到适当的、科学的讲解,研究的空白比比皆是,这类都可能通过中医医案研究得到解决或启示。但以个人之力实难发现其中蕴含的有价值信息,而且以人工逐字研读名老中医医案,容易产生遗漏,来回翻页又非常繁琐。要完成普通人不可以完成的任务,这就需要有新技术新办法的引进,常识发现技术办法可能就是如此一种要紧而好办法。
2 常识发现办法及其在中医医案研究中的应用
常识发现是指从数据集中辨别出有效的、新颖的、潜在有用的,与最后可被理解的模式的非普通的过程[5, 6]。常识发现是多学科交叉的新兴边缘学科。近年来,伴随数据获得和数据存储技术的飞速发展,各种数据库、数据集和数据仓库中存储的数据量快速增长。怎么样从这类大量数据中提取出有用的常识呢?数据库中的常识发现(knowledge pscovery in database, KDD)的出现为大家提供了一条解决这种“数据丰富而常识贫乏”困境的有效渠道。目前国际上,常识发现的研究主如果以常识发现的任务描述、常识评价与常识表示为主线,以有效的常识发现算法为中心。常识发现过程一般由三个主要的阶段组成:数据筹备、数据挖掘、结果表达和讲解。常识的发现可以描述为这三个阶段的反复过程。中医医案中的常识发现也不例外。
2.1 数据筹备 要有效地借助KDD进行中医医案常识发现,第一需要进行数据筹备工作。现在,在“中文科技期刊数据库(引文版)”、“中国期刊全文数据库”等数据库中,以发表论文的形式达成了部分现代医案的数据筹备工作。除此之外仅少数专题性质的数据库网站收录了一些古今医案。再加上散见于古今医籍和文史书中的医案,中医医案的数据筹备工作将是一个庞大的系统工程。中医医案的数据筹备中具体要解决的是:设定并明确中医医案常识发现的目的;对中医医案数据加以充分理解;对有关的中医医案数据进行必要的预处置,使其符合KDD算法的需要;使用适合的KDD办法进行数据建模。其中中医医案中的常识发现的目的,可以从指导中医临床应用角度,对医案内容加以剖析总结研究,如对医者临证思维的阐释,对各医家、流派学术思想的探讨,各专科、专病、专症理法方药运用特征的总结,以供临证学习参照,并可打造智能诊疗系统。也可以就其中蕴含的中医医理、药理进行研究,寻求中医药基础理论的新突破、中药新药的勘探等。
2.2 中医医案中的常识发现可能运用的主要技术
2.2.1 统计办法 从历史上看,统计工作主要集中在测试预先的假说与使模型合适于数据等。研究上,统计办法一般依靠于一个明确的潜在概率模型。除此之外,大家假定这类办法是由统计学家来用的;为了生成候选假说和模型,人的干涉是必要的。现在已有中医医案论文中用了频数统计的这种最粗浅的医学统计办法来进行研究,通过这种计量的研究使得结论更有说服力。如姜良铎[7]在董建华的指导下,运用统计学原理对古今700多医家10 009则温病医案进行剖析,从而总结出温病诊断指标及证治方药规律。
2.2.2 聚类剖析 又称集群剖析,是指借助物以类聚的原理,把很多无序的数据分成数类,能够帮助对很多数据中的规则予以认识,它是一种数理统计办法,可将一些察看对象依据某些特点加以归类,在生物学和医学分类问题中有着广泛的应用。在中医医案研究中,聚类剖析能较好地防止分类过程中掺杂的主观原因,能客观地准确地反映研究对象,并从中可能发现其内在的客观规律[8]。如周德生[9]统计了明清时期26部现存医案中的津液亏损病案573例,使用R型系统聚类剖析办法,得出津液亏损中每一个亚型的几个主要用药,并揭示了明清时期津液理论的某些特点。
2.2.3 人工神经互联网 人工神经互联网是指模拟人脑工作机制的一种计算模型,它是由非处置单元组成的非线性大规模自适应系统,以像人脑神经互联网的并行处置结构进行信息的高级处置。因为它具备自适应性、并行处置能力和非线性处置的优点,所以在医学范围被广泛应用[10]。现在已有学者借助人工神经互联网原理达成对病案的剖析,用病症分类神经互联网来讲明常识自动获得办法的达成。它应用人工神经互联网的反向传播算法(back propagation algorithm, BP),通过研究中医医案,形成专家常识,对BP互联网进行练习,从而使互联网获得肯定的学习力,将练习所“学习”而来的“常识”运用到新的病症判断中,从而达成对新常识的获得[11]。其虽然只不过举了一个例子,但引进了医案剖析的新办法。
2.2.4 决策树 该树的每一个非终端点均表示被考察数据项目的一个测试或决策,依据测试结果选择某个分支。为了分类一个特定数据项目,从报结点开始,一直向下断定,直到到达一个终端结点(或叶子)时为止。当到达一个终端结点时,一个决策便形成了。决策树也可讲解成一种特殊形式的规则集,其特点是规则的层次组织关系。前已述及,中医医案数据是混乱又复杂的经验数据。而处置很多混乱而复杂的经验数据的一个非常不错的办法是决策树分类技术。借助常识发现中的决策树办法来对这类数据剖析,可以为大夫提供极具价值的常识,从而对临床医疗策略进行优化。现在已有研究者从医院病案室保存的冠状动脉粥样硬化性心脏病(简称冠心病)病案中选取了一些数据作为挖掘的原始数据集,进行了基于决策树的医疗数据剖析,得到了好的成效[12]。同样,大家也可以进行基于决策树的中医医案数据剖析,从而优化传统的中医医疗策略。
2.2.5 模糊集与粗糙集 模糊集是一种表达和处置不确定性的要紧办法。不确定性以多种形式发生在今天的数据库模型中,如不精准、不完全、不典型、不同、含糊,等等。模糊集借助不确定性使系统的复杂性变得可处置。当精准输入不可能或太昂贵时,模糊系统就是一种强有力的模型办法。粗糙集合理论中的模糊性就是一种基于边界的定义,即一个不精准的定义具备模糊的不可被明确划分的边界。粗糙集用一个集合的上下界来概念,下界中的每一个成员都是这个集合的成员,而上界的每一个非成员也肯定是这个集合的非成员。粗糙集中的上界是下界和边界地区的并集。边界地区的成员可能(但不可以一定)是这个集合中的成员。因此,粗糙集可以被看成是一个有三级成员函数(是,否,可能)的模糊集。象模糊集那样,粗糙集是处置数据不确定性的一种数学定义。与模糊集类似,粗糙集极少单独用,而一般是与规则推导、分类、聚类等其他办法一块组合用。已有学者基于奇异粗集及其元素迁移,研究其在中医药辨证诊治过程和中药方加减中的应用,设计一个基于双向S?粗集的中医药辨证诊治常识支持系统,为AI技术在中医药诊治范围中的应用开辟了一个新的思路[13]。大家也可以使用类似办法研究中医医案中蕴含的各医家辨证诊治思维过程,从而把中医药研究引向深入。
2.3 结果表述和讲解 是指依据最后用户的决策目的,对提取的信息进行剖析,把最有价值的信息区别出来,并且通过决策支持工具交给决策者。在中医医案研究中,依据设定的中医医案常识发现的目的,比如关于疾病的诊断治法遣方用药的剖析,对有关信息进行相应剖析处置,由特定常识发现工具来达成。但结果仍需终端用户来断定是不是符合中医药基本理论或者通过临床科研实践来进行验证。
3 非有关文献常识发现法及其在中医医案研究中的应用
3.1 非有关文献常识发现法概述 伴随科技的高度进步,学科的分化愈加细,学科间交流愈加困难,常识总量与人类吸收能力之间的矛盾日益突出。一个专业范围的信息可能对另一个专业范围是有价值的,跨学科间肯定存在着潜在的未被发现的关联。这就是所谓“常识分裂理论”[14]。在很多分裂的常识或科学文献之间存在着千丝万缕的联系,这类联系既包含大家通过常规组配检索可得到的显性的联系(或常识),也包含那些常规检索得不到的隐性的联系(或常识)。
1985年Swanson偶然发现,两篇医学文献放在一块会揭示出某一个问题的答案,而这个答案是从单独一篇文献得不到的。这预示着在医学文献中存在着很多的未被发现的隐含的关联。Swanson觉得,将两类非直接有关的文献结合在一块剖析,会形成一种新的常识,而这种新的常识是通过单独剖析两类文献中的任何一类而得不到的。这就是他的非有关文献的常识发现思想[15, 16]。在很多的文献中,一些文献可能相互引用,文献间存在着大家可借助数据库检索到的显性联系;有的文献互不引用或极少被一同引用,则称这两类文献是相互独立的,也就是非有关的。一些非有关文献通过各自提出的看法联系在一块,形成逻辑关联。这种联系通过常规的数据库检索是检不到的,是未被发现的隐密的联系,是新常识的源泉,可能对科研的进步具备重大意义[17]。常规的联机医学文献剖析检索系统(MEDLINE)检索方法是通过给定的题目检索已发表的文献。为了扩展MEDLINE检索功能,克服其局限性,Swanson设计了一个人机交互的软件系统,并拟定了相应的数据库检索方案,称为Arrowsmith,用于剖析研究非有关的互补文献,愈加易于在两组生物医学文献间发现互补性结构[18]。在Swanson的研究办法的基础上,不少研究职员对基于非有关文献的常识发现办法进行了改进。Gordon和Lindsay改进了Swanson的基于单词的词频统计办法,借助基于短语的词频统计办法,引入了四个参数来获得短语的最后词频,验证了雷诺病(Raynaud),鱼油(fish oil)之间的关联[19, 20]。Weeber等[21]借助一体化医学语言系统(Unified Mepcal Language System, UMLS)的语义种类达成了自然语言与UMLS定义的映射。这种语义筛选的机制可以产生定义的聚类,特别是中间集合的定义的聚类。Srinivasan[22]将Weeber的语义剖析办法和Gordon的词频统计办法结合起来提出基于定义的词频统计办法,将自然语言通过医学主题词表(mepcal subject heapngs, MeSH)与UMLS的语义种类联系起来,并借助Gordon的统计参数,计算定义之间的有关性。
[1][2]下一页