网页过滤技术的比较研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
随着互联网的飞速发展,合法和非法的信息充斥其中,基于内容的网页过滤成为了安全领域的新焦点。网页内容过滤系统的技术很多,包括URL数据库名单过滤技术、关键词过滤、模式过滤技术等,尽管这些过滤技术在国外已经发展了几十年,并有了相当成熟的产品,但是由于汉语语言的特殊性,现有的网页内容过滤系统是否能够适合中文网页内容的过滤;何种网页过滤技术最适应当前飞速发展的互联网应用,都是我们希望进一步研究的课题。
     本文前两章介绍了目前网页过滤技术发展的背景,阐述了为什么网页过滤技术成为了目前安全领域的新焦点以及研究比较的必要性;我们并针对各种目前主流的网页过滤技术的工作原理、关键技术进行了详细讨论。在第三章和第四章,我们依据前面阐述的网页过滤技术的特点,构建了各种网页过滤技术比较研究的测试平台,对拟定的问题进行比较验证,并最终得出分析比较的结果。我们通过比较分析各种实际实验数据,总结出:1)最适合中国的网页过滤技术应该是以中文网页过滤技术为基础,并融合国外成熟的基于名单的过滤技术、关键词过滤技术的综合技术;2)网页过滤技术的应用并不是统一模式的,在不同的用户市场会有不同的需求,最佳的部署方式也会不同,我们在结论中还列举了网页过滤技术在不同应用环境中实现的最佳实践方式。最后,我们把在此次课题的调查研究中发现的一些新涌现的需求、问题列举出来,例如:对于网页病毒和其他网页威胁的应对需求、反过滤技术的出现,来为后人提供网页过滤技术研究的新方向,展望未来网页过滤系统的概貌。
With the rapid development of Internet, in which is full of a great amount of legal and illegal information, the Web Filtering has already been a new focus in security field. There are a lot of Web Filtering techniques, including URL lists filtering, keyword filtering and multi keyword filtering etc. Although these filtering technology had several decades development history, and mature products are available, regard to unique specialty of Chinese language, can it support to filter Chinese web pages smoothly with particularity of Chinese language; can it adapt to the rapid development of various Internet applications, it is puzzles we want to make it clear.
     The first two chapters in this thesis introduced the background of web filtering technique, why web filtering become the new focus of network security field, and why we need to pay more attention to it; we also analyzed the functions and key points of various popular web filtering techniques in detail. In Chapter 2 and 3, we implemented different testing environments to test and verify the puzzles we mentioned early. We conclude: 1) the best web filtering technique in china is a sophisticated technique based on Chinese web content filtering technique, combined mature URL list filtering, keyword filtering techniques. 2) No uniform deployment methodology for web filtering, different market has different need, different environment need different implement method. We list the best practice in different market and different environment in this thesis. Finally, we illustrate new requirements and questions in our investigation, such as requirements for filtering malicious webpage, anti-filtering challenge. We prospect for the future of development of web filtering.
引文
[1] 中国互联网络信息中心,中国互联网络发展状况统计第 18 次报告,2006 年 7月;
    [2] 赛迪顾问股份有限公司,2005-2006 年中国内容安全网关市场调研,2006 年 6月;
    [3] 刘宗仁,《网上内容过滤技术的现状及面临的问题》,山东理工大学, 2005 年3 月;
    [4] 张颖江,陈 驰,《WEB 内容过滤方法的研究与应用》,《武 汉 科 技 学 院 学 报》,2005 年,第 18 期;
    [5] 方春晖,《“内容过滤”的客观需求及其实现》,中国电信股份有限公司研究院;
    [6] 曹天杰,《WWW 的信息监控研究》,《通讯和计算机》,2005 年,第 2 期;
    [7] 沈岳,喻飞,《一种基于图像内容过滤的有线电视网络信息审计系统》,《中国安全科学学报》,2005 年,第 15 卷,第 5 期;
    [8] 万国根,秦志光,《面向信息内容安全的文本过滤和分类系统研究与实现》,《计算机科学》,2005 年,第 32 卷,第 7 期;
    [9] 董开坤,胡铭曾,方滨兴,《基于图像内容过滤的防火墙技术综述》,《通信学报》,2003 年,第 24 卷,第 1 期;
    [10] 张东艳 ,殷丽华 ,云晓春,《面向内容安全的多模精确匹配算法性能分析》,《通信学报》, 2005 年 7 月;
    [11] 张博,《基于内容安全的中文网页过滤系统》,西安电子科技大学,2006 年 1月;
    [12] 陈阳贵 ,袁卫忠 ,谢俊元,《基于自然语言处理的 Web 内容过滤模型》,南京大学计算机科学与技术系, 2005 年 3 月;
    [13] 刘开瑛,郭炳炎,《自然语言处理》,北京,科学出版社,1991;
    [14] 黄曾阳,HNC(概念层次网络)理论,北京,清华大学出版社,1998;
    [15] http://www.yeeyan.com/articles/view/thunder/152 2006 年互联网技术发展趋势;
    [16] 郭军,《基于分布式人工智能的知识组织》,情报杂志, 2004;
    [17] 鹏越 SecuGate 内容安全网关技术白皮书, 2005;
    [18] 罗成平 ,龚沛曾,图像匹配技术,《微型电脑应用》,2000,16(3):26·28;
    [19] 高永英,章 晋,基于多级描述模型的渐进式图像内容理解,《电子学报》,2001,29(10):1376-1380;
    [20] 闵大洪,《互联网信息内容安全 观察与思考》,《网络信息安全》, 2006 年7 月;
    [21] 韩近强,赵静,杨冬青,《基于领域知识的网页筛选系统》,北京大学计算机科学与技术系, 2006 年 7 月;
    [22] 徐欣欣,《基于内容的图像过滤技术的研究》,华南理工大学信息网络工程研究中心, 2006 年 11 月;
    [23] 李佩帆,马恒,《以神经网路为基础建立全球资讯网客户端内容即时过滤系统》,中华大学科技管理研究所, 2003 年 6 月;
    [24] Willian B. Frakes, Ricardo Baeza-Yates. Information Retrieval Data Structures & Algorithms. Prentice Hall PTR, New Jersey, 1992
    [25] David D. Lewis. Feature Selection and Feature Extraction for Text Categorization. In speech and Natural Language Workshop,1992
    [26] Ricardo Baeza-Yates Berthier Ribeiro-Neto. Modern Information Retrieval. ACM Press, New York, 1999
    [27] A. Luotonen, K. Altis, World-wide Web Proxies, Proceedings of the First International Conference on the WWW, 1994;
    [28] http://www.anonymizer.com;
    [29] Gartner,Market Share: URL Filtering, Worldwide, 2005;
    [30] A.T.Aranrpatzis,Information retrieval Engine Based on Natural Language Analysis[R],1996;
    [31] LEI Ming et al. Improved Relevance Ranking in Web Gather.J. Comput.Sci. & Technol. 2001, 16(5);
    [32] Content. National Research Council White Paper, URL. Tools and Strategies for Protecting Kids from Pornography and Their Applicablility to other Inappropriate Internet. http://www7.nationalacademies.org/itas, 2004.11;
    [33] Yang Z, Kuo. A Semantic Classification and Composite Indexing Approach to Robust Image Retrieval, 1999;
    [34] Ke Wang, Niels Provos , The Ghost In The Browser Analysis of Web-based Malware,2005;
    [35] Alexander Moshchuk, Tanya Bragin, Steven D. Gribble, and Henry M. Levy. A Crawler-based Study of Spyware on the Web. In Proceedings of the 2006 Network and Distributed System Security Symposium, 2006.2

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700