基于决策树的数据挖掘算法在空气质量评估中的应用
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
空气质量评估是人类保护自然资源、兼顾环境与效益、合理控制污染排放及预防严重污染事件发生的重要评估手段。其中空气质量评估算法则是空气质量评估中的关键。
     目前常用的空气质量评估算法有空气污染指数法、模糊综合评价法、欧几里得贴近度法等。但这些算法中存在单因子评价、指数范围的人为因素、指数值界限过于清晰等缺点,在日常使用中还是存在评估的误差。本课题综合分析国内外研究现状,在探讨空气质量评估常用方法的基础上提出结合决策树算法的评估方法。它基于ID3算法多值偏向的特点和属性相似度的决策树具有少值偏向的特点,并将两者结合起来,在选择测试属性时采用属性相似度作为校正系数的信息增益计算方法对空气质量进行评估。
     本文结合某市空气质量的具体数据进行仿真实验,分析实验结果表明改进的算法对于决策树的建立和规则的生成,在分类的效率和正确性上都有显著的提高。基于决策树的空气质量评估算法,不仅能指导研究人员正确地分析和掌握空气中污染物的迁移变化规律,而且具有良好的社会经济效益与应用前景。
Air quality assessment is an important assessment tools of human protection of natural resources, taking into account the environment and benefits, reasonable control of pollution emissions and prevent serious pollution incident. Air quality assessment algorithm is the key to air quality assessment.
     Now commonly used in air quality assessment algorithm for air-pollution index method, fuzzy comprehensive evaluation method, Euclid close to the degree method. But there are some shortcoming in single-factor evaluation, the index range of human factors, the index value limit is too clear .The Project comprehensive analysis of the present study of the status at home and abroad, to explore the air quality assessment methods commonly used decision tree algorithm based on the combination of assessment methods. It is based on ID3 algorithm for multi-valued bias of the characteristics and properties of similarity of the decision tree has a few characteristics of the value of bias, and combination of the two, the choice of test properties attribute similarity used as a correction factor of information gain calculation.
     In this project, a city of specific air quality simulation data analysis results show that the algorithm improved the establishment and rules for decision tree generation, the efficiency and correctness of the classification on both a significant increase. The air quality assessment based on decision tree algorithm, not only to guide us to correctly analyze and control the migration of pollutants in the air changes in the law, but also has a good social and economic benefits and application prospects.
引文
[1]黄定轩,武振业.一类加权连续属性的多变量决策树构造方法[J].系统工程理论方法应用,2005,14(1):80-83.
    [2]汪风娣.环境质量综合评价方法的改进[J].中国环境监测,1992,(2):54-55.
    [3]潘繁.环境空气质量综合评价方法的改进及应用[J].环境监测管理与技术,2001,13(1):43-44.
    [4]袁东,付大友.聚类分析在水环境质量评价中的应用进展[J].四川轻化工学院学报2003,16(3):50-55.
    [5]杨伦标.模糊数学原理及应用[M].广州:华南理工大学出版社,1993
    [6]汪明君,袁琪朗.大气监测布点的优化应用[J].环境监测管理与技术,1991,1(3):32-34.
    [7]杨光正,魏娟,吴秋珍.荆洲城区大气监测优化布点[J].江汉石油学院学报,1998,20(3):98-101.
    [8]侯喜福,曹曼玲,朱延胜,等.城市大气采样点的模糊聚类优选方法[J].干旱环境监测.,1993,7(3):141-146.
    [9]王郁平,候亚明,晁红霞,等.模糊聚类分析在大气环境质量评价中的应用[J].2003,21(3):354-356.
    [10]袁静,施介宽,麻永尧.模糊聚类理论在大气环境质量评价中的应用[J].东北大学学报,2001,27(1):95-97.
    [11]张辉军,邓新民.一种改进的模糊聚类方法在大气环境质量评价中的应用[J].四川环境,1991,10(3):34-40.
    [12]邓新民.灰色聚类法在大气环境质量评价中的应用[J].南京气象学院学报,1989,12(4):396-404.
    [13]付利华,朱百鸣.用灰色聚类法评价大气环境质量[J].环境与开发,1994,9(4):358-361.
    [14]乔敬萍.几种环境质量评价方法的应用[J].山西大学学报,2004,27(1):76-79.
    [15]王顺久,张欣玉,侯玉,等,投影寻踪聚类分析在环境质量综合评价中的应用[J].重庆环境科学,2002,24(3):74-76.
    [16]洪家荣,丁明峰等.一种新的决策树归纳学习方法[J].计算机学报,1995,18(6):471-474.
    [17]丁军,高学东.一种信息系统的快速属性约简算法[J].计算机工程与应用,2007,43(14):173-176
    [18]陈淑珍.基于粗集的几种属性约简算法分析[J].武汉工业学院学报,2005,24(3):118-120.
    [19]桂现才.决策表化简及其属性约简方法[J].计算机工程与设计,2007,4:1765-1767.
    [20]刘洋,冯博琴,周江卫.基于差别矩阵的增量式属性约简算法[J].西安交通大学学报,2007,41(2):158-161.
    [21]石玉强,陈琼.基于Rough集的属性约简的算法分析[J].琼州大学学报,2007,4:48-50.
    [22]杨明.一种基于改进差别矩阵的属性约简增量式更新算法[J].计算机学报,2007,30(5):815-821.
    [23]钱晓东.数据挖掘中分类方法综述[J].图书情报工作,2007(3).
    [24]宋旭东,朱伟红,宁涛.基于属性值重要性的Rough集值约简算法[J].计算机技术与发展,2007,17(6):77-79.
    [25]崔广才,尹巧珍.一种基于遗传算法的属性约简算法[J].长春理工大学学报,2003,9:4-6.
    [26]刘洋,冯博琴,周江卫.一种改进的基于差别矩阵的属性约简算法[J].微电子学与计算机,2007,24(5):133-135.
    [27]纪霞,李龙澎.冗余数据约简的研究与设计[J].计算机工程,2007,33(5):62-64.
    [28]仇国芳,张文修.模糊信息系统属性重要性度量[J].模糊系统与数学,2006,20(1):123-127.
    [29]李仲生,李仁发,刘钰峰.计算约简的差别矩阵简化算法[J].科学技术与工程,2007:1468-1471.
    [30]刘清.Rough集及Rough推理[M].北京:科学出版社,2001.
    [31]穆振东,刘财辉,易锋等.基于Rough集的信息约简方法[J].人工智能与识别技术,2007:811-812,818.
    [32]王国胤,于宏,杨大春.基于条件信息熵的决策表约简[J].计算机学报,2002,25(7):759-766.
    [33]陶志,许宝栋,汪定伟.一种基于分明矩阵的启发式知识约简方法[J].系统工程与电子技术,2005,27(4):734-736.
    [34]庞彦军,刘开第.计算约简的差别矩阵简化算法不成立[J].系统工程理论与实践,2004,2:142-144.
    [35]韩秋明,赵轶群.Rough Set中基于聚类的连续属性离散化方法[J].计算机工程,2003,29(4):81-83.
    [36]谢宏,程浩忠,牛东晓.基于信息熵的Rough集连续属性离散化算法[J].计算机学报,2005,28(9):1570-1574.
    [37]张文宇.数据挖掘过程中连续属性离散化新方法研究[J].数学实践与认识,2007,37(10):90-96.
    [38]杨平先,孙兴波,干树川.一种改进的连续属性离散化方法[J].自动化与仪器仪表,2005(4):4-6.
    [39]陈东升.保持不可分辨关系的路上方法[J].郑州轻工业学院学报,2007,22(1):87-91.
    [40]陶志,许宝栋,汪定伟等.一种基于Rough集理论的连续属性离散化方法[J].东北大学学报,2003,24(8):747-750.
    [41]刘伟.基于粗集的连续属性离散化方法[J].吉林师范大学学报,2006,11(4):25-26,33.
    [42]尹旭日.基于Rough集的连续属性离散化方法[J].计算机工程与设计,2006,27(11):2038-2040.
    [43]鄂旭,高学东,谢霖铨等.Rough集中一种连续属性预处理方法[J].辽宁工程技术大学学报,2005,24(3):400-403.
    [44]王成江,黄道.基于属性重要性的离散化方法[J].第二十三届中国控制会议论文集:1349-1353.
    [45]豆风雷,蔡永泉.互联网web信息内容过滤系统[J].北京工业大学学报,2004:463-466.
    [46]陈彩云,李治国.一种基于SVD和Rough集的信息过滤方法[J].计算机工程与应用,2004,34:99-101.
    [47]尹旭日.一种基于Rough集理论的数据过滤方法[J].计算机研究与发展,2000,37(9).
    [48]吴慧玲,耿西伟,沈建京等.一种不良信息过滤的文本预处理方法研究[J].微计算机信息,2006,22:58-60.
    [49]施伟,战守义,盛思源.基于Rough Set的数据预处理[J].计算机工程与应用2003,22:190-191,201.
    [50]黄志强,贾宇波.Web访问挖掘中数据预处理的改进[J].广西师范大学学报,2007,25(2):69-73.
    [51]于海雯,刘斓,娄芳.基于Rough集的Web页面信息的提取模型及页面近似度比较[J].南昌大学学报,2006,30(4):390-393.
    [52]陈红叶.粗集理论在Web信息提取中的应用[J].安徽工业大学学报,2005,22(4):379-382.
    [53]刘纪芹.变异粗集与它的过滤特性[J].山东大学学报(工学版),2006,36(2):75-80.
    [54]许亚梅.Rough集理论及其在数据挖掘中的应用[J].应用技术,2006,3:21-24.
    [55]李侃.Rough集文本过滤系统研究及硬件实现[J].信息安全与通信保密,2006,3:44-48.
    [56]张晓冬.关于信息过滤模型的探讨[J].计算机工程与应用,2002:99-100.
    [57]刘柏嵩.信息过滤研究[J].现代图书情报技术,2003(6):23-26.
    [58]谌章俊.基于信息过滤的Web知识挖掘[J].现代情报,2005(6):60-61.
    [59]白丽君.基于内容和协作的信息过滤方法研究[J].情报学报,2005,24(3):304-308.
    [60]吴瑞,周学广.网上不良信息过滤系统研究[J].信息安全与通讯保密,2005,8:104-106.
    [61]孙强,李建华,李生红.基于一类分类法的不良信息过滤模型[J].上海交通大学学报,2005,39(12):1993-1996.
    [62]林建,张帆.网络不良信息过滤研究[J].信息系统,2007,30(4):534-539.
    [63]Chen lian etc.The Decision Rules of Rough Set and Its Application in Aquaculture.The Proceedings International Forum on Theory fo GrC from Rough Set Perspective.Journal of NanChang Institute of Technology 25(2006).
    [64]DEGANG CHEN etc.The Parameterization Reduction of Soft Sets and its Applications.Computers and Mathematics with Applications 49(2005) 757-763.
    [65]Malcolm J.Beynon.Stability of continuous value discretisation:an application within rough set theory.International Journal of Approximate Reasoning 35(2004) 29-53.
    [66]Salvatore Greco etc. Can Bayesian confirmation measures be useful for rough set decision rules? Engineering Applications of Artificial Intelligence 17 (2004) 345-361.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700