数据挖掘在中药四性分析中的应用研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
本文针对目前中药四性研究所面临的“药性与化学成分、药理效应之间严重脱节”的瓶颈问题,提出了以中医药所含高频单一化合物成分为出发点,将数据挖掘技术应用到中药四性分析研究中的新方法。同时以本文提出的“实验探索的三个问题”为脉络和主线贯穿全文。实验从众多中医药历史文献中采集数据,对“中药四性”与中医药所含单一高频化合物的客观规则进行挖掘。通过关联规则分析的方法挖掘化合物成分与中药寒热性的关联性,提取“高频单一化合物成分-寒热性”关联规则,搭建中药寒热性与化学成分之间的桥梁。同时,本文通过对决策树方法、贝叶斯方法和集成学习方法的研究分析,分别用J48、NaiveBayes和AODE算法建立分类预测模型,并分别对它们进行的Bagging、 Adaboost、Stacking集成和组合实验。经实验对比得到准确率最优的J48+Adaboost分类方案,从而提出了预测未知中医药的寒热属性的有效方法。
This paper presents my works on applying data mining techniques to research ontraditional Chinese medicines. More specifically, it aims to break the bottleneck problem inmodern traditional Chinese medicine study by unveiling the underlying associations betweenchemical ingredients of traditional Chinese medicines and their pharmic qualities which are ofvital importance in both research and practice.
     Various data mining techniques are applied to the informations collected from vasttraditional Chinese medicine literature. They include J48, Naive Bayes and AODE algorithmsprovided by Weka, a widely-used data mining software package. Then, some predictivemodels are enhanced by the use of Bagging, Adaboost and Stacking techniques, among whichwe find J48+Adaboost the best for practice.
     Our results can help guide future researches on traditional Chinese medicines,particularly in the development of new medicines.
引文
[1]杨柳,彭柳芬,冯博华.基于数据挖掘的中药成分分析——聚类分析在HPLC测定林下山参人参皂苷含量中的应用[J].软件导刊,2009(8):171-174.
    [2]王鹏.中药四性理论构建及其现代研究方法学探讨[D].山东:山东中医药大学,2008.
    [3]许利平,孙建宁,张冰.中药寒热药性现代研究手段[J].中国中医基础医学杂志,2010,16(1):61-62.
    [4]苟薇,管冬元,方肇勤.中药四性研究的现状与展望[J].四川中医,2010,28(4):36-39.
    [5]吴斌,杨丽萍,张天娥,等.热药治疗寒的基因表达谱研究[J].中国中药杂志,2006,31(11):914-915.
    [6]欧阳兵,王振国,王鹏.中药四性物质基础研究的方法学思考.中医药通报,2006(1):34-36.
    [7]朱荣林,杨秋秀.寒热中药微量元素的比较与分析[J].中国中药杂志,2008,41(2):311-313.
    [8]李兴森,石勇,张玲玲.从信息爆炸到智能知识管理[M].北京:科学出版社,2010:4-6.
    [9]王树鹏,刘书宇.数据挖掘技术在中医药领域中的应用研究[J].中华中医药学刊,2011,29(1):36-38.
    [10]童元元,霍刚.数据挖掘技术在中药研究中的应用进展[J].中华中医药学刊,2010,28(5):1067-1069.
    [11]李凌艳,李认书,孙鹤,等.数据挖掘技术在中药研究中的应用[J].中草药,2010,41(5):附16-附18.
    [12]陆爱军,刘冰,刘海波,等.中药化学数据库关联规则的挖掘[J].计算机与应用化学,2005,22(2):108-112.
    [13] Han JW, Kamber M. Data mining: concepts and techniques [M].2nd ed. San Francisco:Morgan Kaufmann,2006.
    [14]郭萌,王玉.数据挖掘与数据库知识发现综述[J].模式识别与人工智能,1998,11(3):292-299.
    [15]耿晓中,张冬梅.数据挖掘综述[J].长春师范学院学报(自然科学版),2006,25(3):24-27.
    [16]孟小峰译.数据挖掘:概念与技术[M].北京:机械工业出版社,2001:1-322.
    [17]邓松,李文敬,刘海涛.数据挖掘原理与SPSS Clementine应用宝典[M].北京:电子工业出版社,2009:16-54.
    [18]杨杰,姚丽秀.数据挖掘技术及其应用[M].上海:上海交通大学出版社,2011:4-6.
    [19] Like a firefly.AUC的计算方法总结[EB/OL]. http://hi.baidu.com/wenjiejia/blog/item/2c678d3560c9eb1b90ef3940.html,2009-09-15/2012-01-04.
    [20] Ian H.Witten,Eibe Frank.数据挖掘:实用机器学习技术(第二版)[M].北京:机械工业出版社,2006:241-264.
    [21]谢龙汉,尚涛.SPSS统计分析与数据挖掘[M].北京:电子工业出版社,2012:2-35.
    [22]周建吉.数据挖掘工具的评判[EB/OL].http://wenku.baidu.com/view/f0b340651ed9ad51f01df28c.html,2011-8-18/2012-03-01.]
    [23]潘华,项同德.数据仓库与数据挖掘原理、工具及应用[M].北京:中国电力出版社,2007:1-56.
    [24] Zheng, Z.,&Webb, G. I.(2000). Lazy learning of Bayesian Rules. Machine Learning,41(1),53–84.
    [25] Keogh, E.,&Pazzani, M.(1999). Learning augmented Bayesian classifiers: Acomparison of distribution-based and classification-based approaches. In Proceedings ofthe International Workshop on Artificial Intelligence and Statistics, pp.225–230.
    [26] Abraham R, Simha JB, IyengarS.A comparative analysis ofdiscretiza-tion methods formedical datamining with Naive Bayesian classifier[C]//Proc.9th Con.f InformationTechnology,2007:235-236.
    [27] Gstettner S,Kuhn H.Analysis of Production Control Systems Kanban andCONWIP[J].International Journal of Production Research(S0020-7543),1996,34(11):3253-3273.
    [28] Ian H.W.,Eibe F.著.董琳,邱泉,于晓峰等译.数据挖掘:实用机器学习技术.北京:机械工业出版社,2006.241-284.
    [29]Xia Wu,Shun Long,Wei-heng Zhu,The Use of Data Mining in Pharmic Quality Analysisof Traditional Chinese Medicines,Proc. of The2012International Conference on ComputerScience and Service System (CSSS-2012),08/2012.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700