1 资料与方法
1. 1 文献来源 计算机检索中文期刊全文数据库 (CNKI)、 万 方、 维 普、 中 国 生 物 医 学 文 献 数 据 库 (CBM), 运用其数据库中的专业检索功能, 运用以下 检索式依次进行检索。检索式一为:主题 :(‘冠心病’ +‘胸痹’+‘心痛’+‘胸痹心痛’ )AND (‘数据挖掘’ +‘关联分析’+‘聚类分析’+‘因子分析’+‘频数 分析’ )。
1. 2 纳入标准 ①有关中医冠心病的各类数据挖掘 研究文献, 其中包括频数分析、 关联分析、 聚类分析、 因 子分析等数据挖掘方法;②文献中所提 “胸痹 ” “心痛” “胸痹心痛” 等须归为现代医学中的 “冠心病” 。
1. 3 排除标准 ①文献综述;②重复发表的文献, 只 取一篇;③虽中医病名为“胸痹心痛” 等, 但现代疾病 非 “冠心病” 者。
1. 4 名称规范 参照全国中医药行业高等教育“十 二五” 规划教材 《中医药统计学与软件应用》 [9 ] 对统计 方法等进行规范。如频数挖掘、 频数分析、 频数统计等 统称为频数分析。
1. 5 数据库建立及数据核对 将上述所纳入文献数 据中作者、 文章名称、 出处、 出版日期、 文献类型、 软件、 数理统计方法、 资料来源、 挖掘方面等各种信息依次录 入 Microsoft Excel 中, 建立 Excel 数据库。在上述数据 录入之后, 由双人共同审核数据以确保数据的准确性 及可靠性。
1. 6 数据分析 采用频数、 频率等分析, 通过对作者、 文章名称、 出处、 出版日期、 文献类型、 软件、 数理统计 方法、 资料来源、 挖掘方面等的频率和频率统计, 进而 分析利用数据挖掘技术对冠心病中医研究的研究进 展, 为进一步利用数据挖掘技术对研究冠心病提供借 鉴和依据。
2 结果
2. 1 文献概况 按照检索策略进行文献检索, 通过阅 读摘要得到 137 篇文献, 再经过阅读全文, 结合纳入标 准、 排除标准, 最终得出文献 50 篇关于冠心病数据挖 掘类文献。
2. 2 文献类别分析 通过对文献类别进行数据整理 发现, 共分为三大类:学术期刊、 硕博学位毕业论文和 会议论文。频数分析其中学术期刊有 25 篇, 占总文献 的 50% ;硕博学位毕业论文, 占总文献的 44% , 会议论 文最少, 仅有 3 篇。具体分布见表 1。
表 1 冠心病相关数据挖掘文献类别频数频率分析
文献类别 频数 频率(%)
学术期刊 25 50
硕博士学位论文 22 44
会议论文 3 6
2. 3 文献发表时间分析 通过对文献发表时间进行 频数分析, 可以发现冠心病相关数据挖掘的文献最早 发表于 2003 年, 到 2008 年呈现一个小高峰, 至 2013 年又呈现一个高峰, 但总体来看, 基本的趋势是呈逐年 递增的。具体分布见表 2、 图 1。
2. 4 冠心病相关数据挖掘软件应用分析 在进行数据 挖掘过程中, 必不可少的便是各种统计软件的应用。其 一是构建数据库的过程中所需的软件, 其二便是各种数 理统计所需要的挖掘软件。通过对所纳入的 50 篇文献 进行分析发现, Microsoft office excel 成为构建数据库的 主要软件, 占 19. 61%;而对于分析软件而言, 共出现 64 种统计分析软件, 其中 SPSS 系列(SPSS 和 SPSS Clem- ent)实用率最高。具体分布见表 3 ~ 表 4。
表 2 冠心病相关数据挖掘文献发表时间频数频率分析
出版日期 发表时间频数 频率(%)
2003 1 2
2005 1 2
2006 1 2
2008 4 8
2009 1 2
2010 2 4
2011 2 4
2012 6 12
2013 13 26
2014 5 10
2015 8 16
2016 6 12
表 3 冠心病相关数据挖掘所用数据库软件频数频率分析
数据库软件 频数 频率(%)
Microsoft office excel 10 19. 61
中医传承辅助平台 9 17. 65
未提及 7 13. 73
Access 5 9. 80
Epidata 2 3. 92
临床科研信息共享系统冠心病科研病历数据库 2 3. 92
Delphi 1 1. 96
My Server 1 1. 96
Note Express 1 1. 96
SPSS 1 1. 96
SQL Server 1 1. 96
方剂分析系统 1 1. 96
冠心病临床科研一体化平台收集 1 1. 96
冠心病中医临床信息采集系统 1 1. 96
科研结构化电子病历 1 1. 96
验案分析系统 1 1. 96
中国中医科学院广安门医院门诊病历系统 1 1. 96
中国中医科学院西苑医院心血管诊疗
中心数据库管理系统 1 1. 96
中医临床科研信息一体化技术平台 1 1. 96
中医临床数据采集系统 1 1. 96
中医门诊电子病历系统 1 1. 96
中医医案信息采集系统 1 1. 96
但是我们在分析上述所需软件发现, 中医传承辅 助平台 [10 ] 、 中医验方分析系统、 方剂分析系统、 方剂智 能分析软件、 针灸处方分析软件、 针灸数据挖掘系统和 中医验案分析系统等值得关注, 其均是为中医药的研 究所自主研发的数据分析系统, 具有专门针对中医中 药以及针灸等的特点, 是传承和发展中医药的一个创 新 [11 -12 ] 。
表 4 冠心病相关数据挖掘所用分析软件频数频率分析
分析软件 频数 频率(%)
SPSS 14 21. 88
中医传承辅助系统软件 9 14. 06
未提及 6 9. 38
SAS 5 7. 81
SQL Server 工具 5 7. 81
SPSS Clementine 4 6. 25
WEKA 3 4. 69
Cytoscape 软件 2 3. 13
Microsoft office excel 2 3. 13
PLSQ 数据库 2 3. 13
ORACLE 2 3. 13
中医验方分析系统 1 1. 56
ETL 工具 1 1. 56
liquorice 软件 1 1. 56
Pajek 软件 1 1. 56
R 统计软件 1 1. 56
方剂分析系统 1 1. 56
方剂智能分析软件 1 1. 56
针灸处方分析软件 1 1. 56
针灸数据挖掘系统 1 1. 56
中医验案分析系统 1 1. 56
图 1 冠心病相关数据挖掘文献发表时间频数分析柱状图
2. 5 冠心病相关数据挖掘方法的分析 通过对发表 文献中, 所采用的数据挖掘方法进行频数频率统计, 发 现频数频率分析以 36. 21% 的使用率占据第一位, 说 明应用频数频率分析中医药防治冠心病占重要地位; 其次, 聚类分析和关联分析也占重要地位, 至于其他的 因子分析、 相关分析、 复杂网络分析等则相对应用的较 少。见表 5。
2. 6 冠心病相关数据挖掘资料来源的分析 所纳入 的 50 篇文献有不同的来源。通过对上述纳入文献中 资料来源进行分析整理发现, 文献来源主要分为临床 病案记录(门诊及病房)、 现代期刊硕博文献、 中医文 献(古籍、 方书、 医经)和调查问卷等。具体的分布情 况见表 6。
表 5 冠心病相关数据挖掘方法频数频率分析
统计方法 频数 频率(%)
频数频次分析 42 36. 21
聚类分析 21 18. 10
关联分析 20 17. 24
相关分析 7 6. 03
复杂网络分析 5 4. 31
多因子降维法 4 3. 45
互信息分析 4 3. 45
回归分析 3 2. 59
决策树 3 2. 59
定向文本挖掘 1 0. 86
多维数据分析 1 0. 86
概率转移矩阵 1 0. 86
神经网络 1 0. 86
数据分层算法 1 0. 86
无尺度网络方法 1 0. 86
主成分分析 1 0. 86
表 6 冠心病相关数据挖掘的资料来源频数频率分析
资料来源 频数 频率(%)
临床病案记录(门诊及病房) 35 70
现代期刊硕博文献 9 18
中医文献(古籍、 医经、 方书) 5 10
调查问卷 1 2
表 7 冠心病相关数据挖掘方面频数频率分析
挖掘方面 频数 频率(%)
选方用药规律 29 25. 44
证型 20 17. 54
症状 18 15. 79
证候要素 10 8. 77
治法 10 8. 77
证素 5 4. 39
选穴规律 4 3. 51
病因 3 2. 63
证 - 药 3 2. 63
药 - 证 - 症 2 1. 75
证候要素 - 黏附因子 2 1. 75
病机 1 0. 88
病机 - 治法 1 0. 88
关键词 1 0. 88
养生方法 1 0. 88
证候要素 - 理化指标 1 0. 88
证型 - 生化指标 1 0. 88
症 - 证 1 0. 88
中医诊断标准 1 0. 88
2. 7 冠心病相关数据挖掘方面的分析 中医药关于 冠心病的方面很多, 包括病因、 病机、 证型、 用药规律以 及症状、 证 - 药(表示证与药物之间的关系) 等等方 面。通过对上述纳入文献来看, 有关冠心病数据挖掘 的方面主要集中于选方用药规律方面, 关于证型及症 状等方面也较多。同时, 在关于证 - 药、 药 - 证 - 症、 证候要素 - 黏附因子等两者或者三者之间关系的文献 也为数不少。见表 7。
3 讨论与展望
从所纳入的中医药防治冠心病相关数据挖掘文献 情况来看, 虽然早在 90 年代数据挖掘技术就已经诞 生, 但是将其应用于中医药防治冠心病领域则是 20 世 纪以后的事情 [13 -14 ] , 近 5 年内才呈现快速增长趋势。 统计发现, 中医药数据挖掘研究及应用已经由导入及 尝试阶段到发展成熟的跨越 [15 ] 。相较于中医药数据 挖掘研究整体情况而言, 中医药防治冠心病的研究则 起步较晚, 研究深度及广度不足, 只有进一步加大研究 力度病充分利用数据挖掘的优势, 才能有效推动中医 药防治冠心病的研究。研究不够深入, 在未来的有很 大的研究前景, 期待数据挖掘技术能在未来的冠心病 的研究中大放光彩 [16 ] 。
来源:辽宁中医杂志 作者:滑振 张哲 杨关林
免责声明:文章来源于网络或书刊,仅用于学习与交流。文中涉及的药物(疗法),仅提供一些思路,请在专业医生指导下进行治疗,切勿擅自使用。