用于Web文档聚类的基于相似度的软聚类算法

姜亚莉; 关泽群

0
0
浏览
下载

摘要
关键词
基金信息
论文图表
同行评议
相关论文
评论

用于Web文档聚类的基于相似度的软聚类算法

首发时间：2004-09-07

姜亚莉 ¹ 关泽群 ²

1、武汉大学遥感信息工程学院
2、武汉大学遥感信息工程学院

摘要：Internet的发展为人们提供了大量的信息资源，Web文本挖掘是从非结构化的文本中发现潜在的有价值的知识的一种有效技术，Web文本聚类能帮助用户获取最新的、来自世界范围的和自己所感兴趣的Web信息。本文提出了一种基于相似度的软聚类算法用于文本聚类，这是一种基于相似性度量的有效的软聚类算法，实验表明通过比较SISC和诸如K-means的硬聚类算法，SISC的聚类速度快，效率高。本文最后展望了文本挖掘在信息技术中的发展前景。

关键词： Web文本挖掘文本聚类软聚类相似度 SISC

For information in English, please click here

A Similarity-based Soft Clustering Algorithm for Web Documents

Jiangyali ¹ Guanzequn ¹

1、School of Remote Sensing Information Engineering，Wuhan University

Abstract：The booming growth of the Internet provides us a great deal of information resource. Web document mining is an efficient technique，which discovery valuable and potential knowledge from those unstructured documents. Web document clustering enables the user to have a good overall view of the information contained in the documents that it has. In this paper，We propose SISC(Similarity-based Soft Clustering)，an efficient soft clustering algorithm based on a given similarity measure used in document clustering. Comparison with existing hard clustering algorithms like K-means，the experiment indicates the SISC is both efficient and effective，and this algorithm is available for document clustering. In the end，it highlights the upcoming challenges of document mining and the opportunities it offers.

Keywords： Web document mining document clustering soft clustering Similarity SISC

基金：

1. 教育部博士点基金（20030486045）

论文图表：

引用

导出参考文献

.txt

.ris

.doc

姜亚莉，关泽群. 用于Web文档聚类的基于相似度的软聚类算法[EB/OL]. 北京：中国科技论文在线 [2004-09-07]. https://www.paper.edu.cn/releasepaper/content/200409-23.

No.1027474110945197****

同行评议

共计0人参与

全部评论

0/1000

论文编号	200409-23
论文题目	用于Web文档聚类的基于相似度的软聚类算法
文献类型
收录期刊	上传封面中文期刊英文期刊期刊名称（中文）期刊名称（英文）年，卷（）上传封面中文专著英文专著书名（中文）书名（英文）出版地出版社出版年上传封面中文译著英文译著书名（中文）书名（英文）出版地出版社出版年上传封面中文论文集英文论文集编者.论文集名称（中文） [c]. 出版地出版社出版年， - 编者.论文集名称（英文） [c]. 出版地出版社出版年，- 上传封面中文文献英文文献期刊名称（中文）期刊名称（英文）日期-- 在线地址http:// 上传封面中文文献英文文献文题（中文）文题（英文）出版地出版社,出版日期-- 上传封面中文文献英文文献文题（中文）文题（英文）出版地出版社,出版日期--
英文作者写法：中外文作者均姓前名后，姓大写，名的第一个字母大写，姓全称写出，名可只写第一个字母，其后不加实心圆点“.”, 作者之间用逗号“，”分隔，最后为实心圆点“.”, 示例1：原姓名写法：Albert Einstein,编入参考文献时写法：Einstein A. 示例2：原姓名写法：李时珍；编入参考文献时写法：LI S Z. 示例3：YELLAND R L,JONES S C,EASTON K S,et al.