基于站点的网络爬虫系统的设计及实现

王瑞霞; 吴岳辛

0
0
浏览
下载

摘要
关键词
基金信息
论文图表
同行评议
相关论文
评论

基于站点的网络爬虫系统的设计及实现

首发时间：2008-09-11

王瑞霞 ¹ 吴岳辛 ¹

1、北京邮电大学

摘要：随着互联网的发展以及网上信息的日益丰富，传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时，常常要将分布在互联网各处的Web页面下载到本地供进一步处理。这便是所讨论的Web页面搜集工具——网络爬虫系统的核心功能。本文介绍了一种基于站点的网络爬虫系统，即该系统采用一个站点对应一个网络爬虫线程，多网络爬虫并行工作的方式搜集网页。由于该系统采用了一个网络爬虫线程爬取一个站点的方式，所以使其能够根据用户的要求爬取他们关心的站点，从而使网络爬虫更加人性化；同时由于采用多线程并发工作方式，提高了爬取效率。文中该给出了爬虫的具体工作流程、URL库结构以及相关算法。

关键词：搜索引擎网页搜集网络爬虫

For information in English, please click here

Design And Implementation Of Website-Based Spider System

Wang Ruixia ¹ Wu Yuexin ¹

1、Beijing University Of Posts And Telecommunications

Abstract：With the growth pf Internet and the fact that information on Web are becoming abundant, Internet has become the new stage of traditional information processing. Before processing these web information, people often download the distributed web information to local storage for additional processing, which is the core function of the information-gathering system(spider system) described in this paper. This paper introduced a website-based spider system, which adopted a spider thread for a website, multi-threaded parallel work mode to retrieve web pages. And provided the detail design and implementation of the system.

Keywords： Search Engine Information Retrieval Spider

基金：

论文图表：

引用

导出参考文献

.txt

.ris

.doc

王瑞霞，吴岳辛. 基于站点的网络爬虫系统的设计及实现[EB/OL]. 北京：中国科技论文在线 [2008-09-11]. https://www.paper.edu.cn/releasepaper/content/200809-317.

No.2395431091412211****

同行评议

共计0人参与

全部评论

0/1000

论文编号	200809-317
论文题目	基于站点的网络爬虫系统的设计及实现
文献类型
收录期刊	上传封面中文期刊英文期刊期刊名称（中文）期刊名称（英文）年，卷（）上传封面中文专著英文专著书名（中文）书名（英文）出版地出版社出版年上传封面中文译著英文译著书名（中文）书名（英文）出版地出版社出版年上传封面中文论文集英文论文集编者.论文集名称（中文） [c]. 出版地出版社出版年， - 编者.论文集名称（英文） [c]. 出版地出版社出版年，- 上传封面中文文献英文文献期刊名称（中文）期刊名称（英文）日期-- 在线地址http:// 上传封面中文文献英文文献文题（中文）文题（英文）出版地出版社,出版日期-- 上传封面中文文献英文文献文题（中文）文题（英文）出版地出版社,出版日期--
英文作者写法：中外文作者均姓前名后，姓大写，名的第一个字母大写，姓全称写出，名可只写第一个字母，其后不加实心圆点“.”, 作者之间用逗号“，”分隔，最后为实心圆点“.”, 示例1：原姓名写法：Albert Einstein,编入参考文献时写法：Einstein A. 示例2：原姓名写法：李时珍；编入参考文献时写法：LI S Z. 示例3：YELLAND R L,JONES S C,EASTON K S,et al.