您当前所在位置: 首页
筛选条件

时间

领域

全部

计算机科学技术(32)

信息科学与系统科学(1)

力学(1) 显示更多>>

机械工程(1) 中医学与中药学(0) 临床医学(0) 交通运输工程(0) 体育科学(0) 农学(0) 冶金工程技术(0) 动力与电气工程(0) 化学(0) 化学工程(0) 图书馆、情报与文献学(0) 土木建筑工程(0) 地球科学(0) 基础医学(0) 天文学(0) 安全科学技术(0) 工程与技术科学基础学科(0) 心理学(0) 教育学(0) 数学(0) 材料科学(0) 林学(0) 核科学技术(0) 水产学(0) 水利工程(0) 测绘科学技术(0) 物理学(0) 环境科学技术(0) 生物学(0) 电子、通信与自动控制技术(0) 畜牧科学、动物医学(0) 矿山工程技术(0) 管理学(0) 纺织科学技术(0) 经济学(0) 能源科学技术(0) 航空航天科学技术(0) 药学(0) 预防医学与卫生学(0) 食品科学技术(0)

学术评议

实时热搜榜

我的筛选 >
2003-2017 全部
为您找到包含“Web crawler”的内容共35

贾潇雨,罗守山

2017-09-13

SQL注入是当今危害比较大的威胁之一,被攻击者利用的手段也是层出不穷。针对这种情况,如何准确迅速的检测SQL注入就成为大家研究的热点。本文首先介绍了Web crawler和SQL注入的技术原理,然后

School of Cyberspace Security,Beijing University of Posts and Telecommunications, Beijing 100876,School of Cyberspace Security,Beijing University of Posts and Telecommunications, Beijing 100876

#计算机科学技术#

0评论(0 分享(0)

吴峰

2008-11-19

本文从对比通用网络爬虫与主题网络爬虫的需求与实现机制出发,研究多中网络爬虫网页抓取策略的不同性能,并从中讨论较为适合主题网络爬虫的网络抓取策略与算法,其中主要为Fish-Search算法和Shark-Search算法。并且通过研究网络爬虫的实现过程、技术方法以及不同网页抓取方案的效率,提出一套主题网络爬虫的实现结构与方法,并对如何使用C#实现此网络爬虫进行介绍。此网络爬虫可用于多进程或者多机器配合抓取网页,在考虑网络服务器的负载问题和robots.txt的同时,也具有较高的网页抓取效率。此网络爬虫可用于多种数据信息系统,包括垂直搜索引擎、主题信息数据抓取收集系统等。

北京邮电大学通信工程学院

#计算机科学技术#

0评论(0 分享(0)

范先爽,刘东飞

2010-12-03

本文首先对搜索引擎中的网络爬虫进行了介绍,详细分析了开源网络爬虫Heritrix的系统结构。在此基础上,提出了设计特定的解析器,解析特定网站网页实现定制抓取的目的。然后通过消除robots.txt文件对个别处理器的影响,以及引入ELFHash算法实现了高效、多线程抓取Web资源的目的。最后通过对改进前后的爬虫抓取网页的速度对比,以及在同等时间的情况下抓取网页个数分析,验证了改进后的爬虫性能有了较明显的提高。

武汉理工大学计算机科学与技术学院,武汉理工大学计算机科学与技术学院

#计算机科学技术#

0评论(0 分享(0)

王洪威,罗守山

2012-11-09

随着互联网技术的迅猛发展,浩瀚的网络信息与人们获取真正所需信息能力之间的矛盾越来越突出,这就需要搜索引擎技术的支持。于是主题网络爬虫作为新兴的第四代搜索引擎应运而生,本文也是主要集中讨论关系主题网络爬虫的核心算法包括搜索策略的研究以及相关度的计算等等,同时受制于互联网本身的特性和爬虫的搜索策略,在主题爬虫领域普遍存在隧道现象本文也将进行相关的阐述并且提出了相应的改进算法。

北京邮电大学计算机学院,北京 100876,北京邮电大学计算机学院

#计算机科学技术#

0评论(0 分享(0)

张建宇,王洪波

2014-11-03

随着垂直搜索引擎搜索范围的扩大,如何自动化高效地完成数据爬取任务成了一个重要的问题。目前大多数的网络爬虫使用人工定义规则来完成对数据的抽取工作,效率低下。本文首先对自动化信息抽取网络爬虫进行了框架设计和优化,然后针对爬虫抓取问题详分析了开源网络爬虫框架Scrapy并且给出了优化方案;针对信息自动化抽取问题分析了自动模板生成算法RoadRunner算法并且给出了优化方案;针对爬取Ajax网页问题分析了Ajax爬取工具Scrapyjs。最后对基于自动化信息抽取技术的网络爬虫从爬取效率和抽取准确率两个方面进行了测试,给出了测试结果和分析。

北京邮电大学网络与交换技术国家重点实验室,北京 1000876,北京邮电大学网络与交换技术国家重点实验室,北京 1000876

#计算机科学技术#

1评论(0 分享(0)

申洪健,李祺,魏国斌

2015-12-23

随着移动互联网的快速发展,移动应用安全检测需求不断增多,对移动应用商店主题爬虫采集能力的要求不断提升。网络爬虫抓取策略是影响主题网络爬虫抓取效率的重要因素。目前针对移动应用商店主题爬虫策略的研究较少,为了提高移动应用商店网络爬虫的采集效率,本文提出了针对主题网站进行结构转换的分层抓取策略,并通过Scrapy网络爬虫框架将该抓取策略实现后证明了该抓取策略的可行性与有效性。

国家自然科学基金:物联网感知层入侵检测方法研究(61302087

北京邮电大学计算机学院,北京 100876,北京邮电大学计算机学院,北京 100876,北京邮电大学计算机学院,北京 100876

#计算机科学技术#

0评论(0 分享(0)

李俊君,傅佳杰,黄桢洢,金豪宇,诸葛斌

2017-01-22

随着移动互联网时代的到来,微信渐渐地成为了人们生活中的一部分。然而在部分高校教务信息查询领域还是停留在PC机阶段,另外教务信息属于私人信息,高校不会向普通用户提供查询接口。为此本文提出了一种基于微信和网络爬虫的教务信息查询系统的设计方法,即运用网络爬虫技术抓取网页,正则表达式匹配出目标信息,最后通过微信公众平台返回用户。

浙江省大学生科技创新活动基金(2016R408

教育部大学生创新创业训练计划基金(201610353027

浙江工商大学信息与电子工程学院,杭州 310018,浙江工商大学信息与电子工程学院,杭州 310018,浙江工商大学信息与电子工程学院,杭州 310018,浙江工商大学信息与电子工程学院,杭州 310018,浙江工商大学信息与电子工程学院,杭州 310018

#计算机科学技术#

0评论(0 分享(0)

刘炜,张红云,熊前兴

2008-11-06

针对传统通用网络信息采集系统自身固有的缺陷,根据本体的相关理论,本文提出了基于语义本体的网络爬虫的相关模型,该模型以本体构建相关领域模型,并构建该领域的所有知识概念集合,并对其进行关键字切割与划分,生成能表达主题的主题关键词集合。结合中国《知网》的相关理论与技术,对传统抓取的网页在语义的角度进行分析,对已抓取的网页页面内容及其中链接的扩展元数据等相关信息进行分词及语法语义等相关处理,获取网页内容关键词集合及超链接的关键词集合,然后分别对获取的网页内容关键词与链接关键词进行与先前由本体生成的主体关键词集合采用语义分析算法进行语义相关性的判定,保存需要的网页,并预测及提取与主题相关的URL,从而提高网络资源信息采集相关率。

武汉理工大学余家头校区,计算机科学与技术学院,武汉理工大学计算机科学与技术系,武汉理工大学计算机科学与技术系

#计算机科学技术#

0评论(0 分享(0)

董巧,郭燕慧

2016-11-28

随着移动互联网的飞速发展,移动应用安全检测需求不断增多,对移动应用商店主题爬虫采集能力的要求不断提升。网络爬虫爬行策略是影响主题网络爬虫抓取效率的重要因素。目前针对移动应用商店主题爬虫爬行策略的研究比较少,而普通的爬行策略又无法充分利用移动应用商店网站良好的层次结构进行高效爬取。基于此,本文针对移动应用商店的网站结构特点,提出了一种基于URL分类的爬行策略,并通过将该爬行策略实现后证明了其可行性与有效性。

北京邮电大学网络空间安全学院,北京 100876,北京邮电大学网络空间安全学院,北京 100876

#计算机科学技术#

0评论(0 分享(0)

马栋,崔晶晶,王龙江,王悦平

2009-09-07

搜索引擎一直专注于提升用户的体验度,其用户体验度则反映在三个方面:准、全、快。用专业术语讲是:查准率、查全率和搜索速度(即搜索耗时)。其中最易达到的是搜索速度,因为对于搜索耗时在1秒以下的系统来说,访问者很难辨别其快慢了,所以不做讨论。对于中文搜索引擎的“准”,救市要保证搜索结果前几十项就要给出用户想要的信息,这个涉及到“网页排序”也不在本文的讨论范围;对于中文搜索引擎的“全”则需保证不遗漏某些重要的结果,而且能找到最新的网页,这需要搜索引擎有一个强大的网页收集器,一般称为“网络爬虫”,或是“网络蜘蛛”。本文给出了一种站内网络爬虫设计实现方法,是以一定的策略实现从互联网上爬取各种各样的网络资源,并将爬取得到网页进行正确的解析从而将网页保存到本地的网页库中以便检索,这种爬虫为实现基于主题的第四代搜索引擎奠定了资源基础。

中国矿业大学计算机科学与技术学院,中国矿业大学计算机科学与技术学院,中国矿业大学计算机科学与技术学院,中国矿业大学计算机科学与技术学院

#计算机科学技术#

0评论(0 分享(0)