您当前所在位置: 首页

论文收录信息

论文编号 201707-87
论文题目 基于类别关键词搜索的移动应用商店DEEP WEB采集方法
文献类型
收录期刊

上传封面

中文期刊 英文期刊

期刊名称(中文)

期刊名称(英文)

年, 卷(

上传封面

中文专著 英文专著

书名(中文)

书名(英文)

出版地

出版社

出版年

上传封面

中文译著 英文译著

书名(中文)

书名(英文)

出版地

出版社

出版年

上传封面

中文论文集 英文论文集

编者 . 论文集名称(中文) [c].

出版地 出版社 出版年-

编者 . 论文集名称(英文) [c].

出版地 出版社 出版年-

上传封面

中文文献 英文文献

期刊名称(中文)

期刊名称(英文)

日期--

在线地址http://

上传封面

中文文献 英文文献

文题(中文)

文题(英文)

出版地

出版社, 出版日期--

上传封面

中文文献 英文文献

文题(中文)

文题(英文)

出版地

出版社, 出版日期--

后印本*

(请提交PDF文档)

基于类别关键词搜索的移动应用商店DEEP WEB采集方法

引用

复制文本

导出参考文献

.txt .ris .doc

汪鹭

汪鹭(1993-08-02),女,信息安全

胡阳雨

徐国爱

徐国爱北京邮电大学网络空间安全学院教授,硕士生导师

发送私信

发送给

北京邮电大学网络空间安全学院

摘要:随着移动互联网的快速发展,移动互联网进入大数据时代,移动应用数据分析需求愈加明显,从而对移动应用信息采集提出了更高的要求。目前,由于应用数量过于庞大,移动应用商店只将部分应用信息展示在以超链接可以到达的静态网页中,而将大量信息隐藏在查询表单后的Deep Web中,导致已有的爬虫策略采集的应用信息完整率较低。基于上面的挑战,本文提出一种基于应用类别关键词搜索的采集方法,通过增量式爬取策略提高移动应用商店信息采集的完整率和补全效率。首先,基于垂直型爬虫获取可以跳转到的各类别应用界面的应用信息,然后利用TF-IDF算法从应用名称和描述信息中提取代表各类别应用的关键词,最后,使用基于关键词查询的采集方法进行增量式爬取。本文通过对10个覆盖10多种类别的移动应用商店进行实验分析,发现本方法具有很高的应用信息采集完整率和采集效率。

关键词: Deep Web TF-IDF算法 增量爬取

同行评议

评论

评论一下

全部评论
评论