数据挖掘技术在中药水提液膜分离中的应用研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
膜分离是一种新兴的分离方式,在中药制药工业中发展前景广阔。然而在中药水提液的膜分离过程中,被滤液体中的一些微粒、胶体离子或溶质分子与膜会存在物理化学反应从而使膜孔径堵塞,不利于进一步的分离过程,所以了解膜污染的机理模型在膜分离工艺中是一个急需解决的问题,但是中药水提液复杂体系中的数据间存在大量非线性、高噪声、多因子的复杂关系,建立膜污染机理的模型需借助数据挖掘技术来解决。
     数据挖掘是揭示数据间关系的学科,是统计学的扩展。因为医药数据集具有异构性、主观性、大量性等特点,所以数据挖掘在医药领域的应用需要快速、鲁棒和可靠的数据挖掘算法。
     在研究了数据挖掘的过程和常用模式后,确立了主要模式为预测模式。但在预测建模前需进行数据特征描述、缺失值处理、基于距离的离群点分析、变量变换、属性筛选等处理手段,这些辅助工作是较繁琐但是很重要的过程,主要目的是构造干净整齐的数据集,以提高预测模型的准确度。预测模式是一种被频繁使用的数据挖掘模式,它通过分析研究历史数据来对未来的趋势或者可能的结果做推测和估计。本文研究了多元线性回归模型、多元二项式回归模型、误差反向传播神经网络模型、径向基神经网络模型与支持向量机模型,在此基础上进行了一定的优化处理以适应具体问题的解决,并对不同模型的建模效果和预测效果进行了对比。
     在理论研究的基础上,选用了Matlab工具实现了具体的算法,并设计实现了相应的界面,以便系统使用的专业化、友好化与便捷化。
Membrane separation is a new separation method, it have broad prospects in the development of Chinese pharmaceutical industry. But some particles or solute molecules or colloidalion of the filtered liquid, will have physical and chemical reaction with membrane in the aqueous extract of traditional Chinese medicine during the membrane separation process so the membrane pore will be blocked, and it'll obstruct the further separation process, then understanding the mechanism of membrane fouling in membrane separation process is an urgent problem to be solved, however, there are a large number of non-linear data sets between the complex system of Chinese herb extractions complex, and the data sets are high-noise, multi-factor relations, so establishing the mechanism of membrane fouling model requires the data mining(DM) technology.
     Data Mining is a subject that revealed the relationship between the data set, and it's a expansion of statistics. It requires a fast, robust and reiable data mining algorithms in the field of medicine because the dataset is isomerism, subjective and large.
     Confirm the main model is prediction model after the research on the process and common model in data mining field. Data feature descriptions,deal with missing values, the distance-based outlier analysis,variable transformation and attribute slection are supported job.Although it's complicated,it's important.Because it'll create a clean dataset,so that the predictive model will have a higher accuracy. The forecast model is a frequently used data mining model to the trend of the future or possible outcome through the analysis of historical data to speculate and estimates. The Multiple linear regression model, the Multivariate binomial regression model,the BP Artificial Neural Network model, RBF Artificial Neural Network model and SVM model are involved.And some optimization are introduced in.Compared the effects of different model.
     Choose Matlab tool for the solution to the problem and design the interface to the system after the basic theory learning.The interface design is professional,friendly and convenient.
引文
[1]郭立玮,付廷明,李玲娟.面向中药复杂体系的陶瓷膜污染机理研究思路与方法[J].膜科学与技术.2009,29(1):1-7
    [2]岳志新.膜分离技术的应用及发展趋势.[J].云南地理环境研究.2006,18(5):52-57
    [3]潘永兰.中药水提液无机陶瓷膜膜污染基础数据库的建立及数据的关联分析[D].2009:1-8
    [4]郭立玮.中药膜分离技术进展及关键技术问题探讨[R].第4届全国医药行业膜分离技术应用研讨会.2007
    [5]郭立玮,李玲娟,董洁.基于计算机化学方法的中药膜过程研究[J].膜科学与技术.2011,31(3):196-204
    [6]李玲娟,洪弘,郭立玮等.计算机化学及其在中药分离技术研究领域应用进展[J].中国中药杂志,2011,36(24):3389-3396
    [7]郭立玮.关于复杂体系理论和方法应用于中医药研究领域的思考与实践[R].2007年中华中医药学会
    中成药学术研讨会[8]洪弘,李玲娟.医疗数据挖掘的特点、过程及方法.价值工程[J].2011,256(30):166-167.
    [9]蒋盛益,李霞等.数据挖掘原理与实践[M].电子工业出版社.2011,3-20
    [10]王希辰.分布对象技术与软件复用[J].计算机系统应用.2001,48-51
    [11]杨峰.基于决策树学习和规则提取的热轧数据分析[D].武汉科技大学.2009,10-15
    [12]胡可云,田凤占,鞠时光等.数据挖掘理论与应用[M].清华大学出版社.2008,183-210
    [13]薛安荣,姚林等.离群点挖掘方法综述[J].计算机科学.2008,35(11),13-27
    [14]梁斌梅.基于层次聚类的孤立点检测方法[J].计算机工程与应用.2009,45(3),117-119
    [15]MATLAB中文论坛MATLAB神经网络30个案例分析[M].北京航空航天大学出版社.2010,]83-188
    [16]廖晓威.结合属性筛选的决策树分析及其在中医诊断中的应用[D].上海交通大学,2008,13-17
    [17]jiawei Han,Micheline Kamber.Data Mining Concepts and Techniques,Second Edition[M].China Machine Press.2010,231-240
    [18]陈燕.数据挖掘技术与应用[M].清华大学出版社,2011,72-76
    [19]吴明山.回归模型的估计方法及在林业中的应用研究[D].西南林学院,2008,38-44
    [20]张良均,曹晶等.神经网络实用教程[M].机械工业出版社.2008,1-8
    [21]从爽.面向MATLAB工具箱的神经网络理论与应用[M].中国科学技术出版社,2003.1-15.
    [22]李春宇.基于径向基函数神经网络的中医脉象信号检测研究[D].重庆大学硕士学位论文,2006:20-30
    [23]葛哲学.神经网络理论与MATLAB R2007电子工业出版社[M].2007.5-120
    [24]周开利等.神经网络模型及其MATLAB仿真程序设计[M].清华大学出版社,2005.1(26)69-106174-255
    [25]王鑫.加权支持向量机在可靠性预测中的应用[D].电子科技大学.2008.6-15
    [26]Trevor Hastie,Robert Tisbshirani,Jerome Friedman.The elements of Statiscal Learning[M].Springer.2001.347-369
    [27]刘斌.支持向量机及其在信号处理中的应用[D].大庆石油学院.2006.31-35
    [28]徐红敏.支持向量机回归算法及其应用[J].北京石油化工学院学报.2010,18(1)
    [29]Nello Cristianini John Shawe-Taylor.An Introduction to Support Vector Machines and Other Kernel-based Learning Methods[M].Publishing House of Electronics Industry.2004
    [30]汀峰,杜军威,眭跃飞等.基于边界和距离的离群点检测[J].电子学报.2010,38(3):700-704
    [31]熊平.数据挖掘算法与Clementine实践[M].清华大学出版社.2011,12-14
    [32]姚志勇.SAS编程与数据挖掘商业案例[M].机械工业出版社.2010,8-13
    [33]Ian H.Witten,Eibe Frank.Data mining:practical machine learning tools and techniques with java implementations[M]. China Machine Press.2005
    [34]王斌会.多元统计分析及R语言建模[M].臀南大学出版社.2010,8-10
    [35]王正林.刘明.精通MATLAB (升级版).电子工业出版社.2011,2-20

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700