用户名: 密码: 验证码:
粗糙集中基于NBC聚类的连续属性离散化方法研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
连续属性的离散化一般是做为机器学习、数据挖掘的一项重要的预处理步骤,针对离散化问题,研究者们提出了诸多方法,例如早期的等宽等频算法及后来的利用遗传算法进行离散化等。根据离散化过程中是否应用了类别信息,把离散化算法分为监督的离散化算法和非监督的离散化算法。
     本文首先介绍了连续属性离散化的评价标准、几种经典的离散化方法及粗糙集的相关知识;其次着重介绍了NBC聚类算法的算法思想及及基本概念,并结合粗糙集理论,提出了一种基于NBC的离散化算法ADBNBC(Algorithm for Discretization of Continuous Attributes Based on NBC Clustering)。最后本文对不同的离散化方法进行实验比较和分析,通过比较实验说明了该算法的有效性。
Discretization of continuous attributes is an important preprocessing in machine leaning and data mining, researchers propose many algorithms about the discretization problem, for example, equal-width-intervals algorithm and equal-frequency-intervals algorithm In early time and discretization algorithm based on GA and so on in present. Discretization algorithms can be classified into supervised and unsupervised algorithms according to whether considering class information in discretization process.
     In this paper, firstly, evaluation criteria of discretization, several classical discretization algorithms and RS is introduced; Secondly, the algorithm thought and basic concept about NBC (Neighborhood-Based Clustering) is introduced, a new algorithm ADBNBC (Algorithm for discretization of Continuous Attributes Based on NBC Clustering) is proposed and apply it into Rough Set theory; At last, comparison experiments have been done about different discretization algorithms in the end of the paper, the result of the experiments shows the algorithm is effective.
引文
[1]聂红梅,周家庆.粗糙集理论中一种连续属性离散化算法.现代电子技术.2007。
    [2]任永功,王杨,闫德勤.基于遗传算法的粗糙集属性约简算法.小型微型计算机系统.2006。
    [3]张静,王建民,何华灿.基于DBSCAN聚类的连续属性离散化算法.计算机工程与应用.2006。
    [4]李国和.基于对象分布的连续属性离散化方法.计算机应用研究.2006。
    [5]S. Zhou, Y. Zhao, J. Guan, J. Huang. A Neighborhood-Based Clustering Algorithm. PAKDD.2005。
    [6]谢宏,程浩忠,牛东晓.基于信息熵的粗糙集连续属性离散化算法.计算机学报.2005。
    [7]孟祥萍,鞠传香,王贤勇,任纪川.粗糙集理论中基于属性重要性的离散化方法.东北电力学院学报.2005。
    [8]于锟,刘知贵,黄正良.粗糙集理论应用中的离散化方法综述.西南科技大学学报.2005。
    [9]项新建,Stolle.M.一种基于聚类的粗糙集连续属性的离散化算法.浙江科技学院学报.2003。
    [10]马帅,王腾蛟,唐世渭等.一种基于参考点和密度的快速聚类算法.软件学报.2003。
    [11]赵卫东,戴伟辉,蔡斌.遗传算法在决策表连续属性离散化中的应用研究.系统工程理论与实践.2003。
    [12]代建华,李原香,刘群.遗传算法在决策系统离散化中的应用.微电子学与计算机.2003。
    [13]赵军,王国撤,吴中福等.基于粗集理论的数据离散化新算法.重庆大学学报(自然科学版).2002。
    [14]Liu H, Hussain F, Tan C L et al. Discretization:An Enabling Technique.Data Mining and Knowledge Discovery.2002。
    [15]李龙澍,程慧霞,卢冰原.基于凸rough集的数据约简和规则发现研究.东南大学学报(自然科学版).2002。
    [16]Han JW, Kambr M. Data Mining Concepts and Techniques. SanFrancisco, CA:Morgan Kaufmann Publishers, Inc,2001。
    [17]王国胤.Rough集理论与知识获取.西安交通大学出版社.2001。
    [18]刘清.rough集及rough推理.科学出版社.2001。
    [19]侯利娟,王国胤,聂能.粗糙集理论中的离散化问题.计算机科学.2000。
    [20]Nguyen H S, Skowron A. Quantization of Real-valued Attributes, RoughSet and Boolean Reasoning Approaches. In:Proc of the second JointAnnual Conference on Information Sciences, Wrightsville Beach, NorthCarolina.1995。
    [21]Banfield J D, Raftery AE. Model Based Gaussian and No-Gaussian clustering. Bi-ometric.1993。
    [22]Catlett J. On Changing Continuous Attributes into Ordered Discrete Attributes. Proc of European Working Session on Learning(EWSL91).1991.
    [23]Chiu D K Y, Cheng B, Wang A K C. Information Synthesis Based on Hierarchical Entropy Discretization. Journal of Experimental and Theoretical Artificial Intelligence.1990.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700