网络爬虫对网站捉取的速度与文中内容有关

焦点Web爬虫"的工作流程比较复杂,因此需要根据特定的"网页分析算法"过滤与主题无关的链接,保留有用的链接,并将其放入等待爬行的URL(统一资源定位符)队列中,然后根据一定的搜索策略从队列中选择下一个页面URL(统一资源定位符),并重复上述过程直到满足系统的特定条件。

网络爬虫

此外,爬虫所爬行的所有网页将由系统存储、分析、过滤和索引,以供后续查询和检索。对于"焦点Web爬虫",此过程的分析结果也可对今后的抓取过程提供反馈和指导。

与一般的网络爬虫相比,专注于网络爬虫还需要解决三个主要问题:

1.目标的描述或定义;

2.分析和过滤网页或数据;

3.URL(统一资源定位符)的搜索策略。

网络爬虫遇到的问题:

早在2007年底,互联网上就有超过160亿页,研究表明,有近30%的页面被复制。动态页面的存在以及客户端和服务器端脚本语言的应用使得指向同一Web信息的URL(统一资源定位符)的数量呈指数增长。

上述特点使网络爬虫面临着一些困难,主要体现在网络信息的巨大容量上,使得爬虫只能在给定的时间内下载少量的网页。研究表明,没有一个搜索引擎能够索引超过16%的互联网网页,即使它能够提取所有网页,也没有足够的空间存储它们。

为了提高爬行效率,爬虫需要在单位时间内获得尽可能多的高质量页面,这是它面临的困难之一。

目前,表示网页质量的方法有五种:1,页面与爬行主题的相似性;2,网页在Web图中的输入程度;3,指向网页的所有页面的平均权重之和;4,网页在Web图中的输出;5,页面的信息位置。

为了提高爬行速度,Web爬虫通常以"并行爬行"的方式工作,这也带来了新的问题:

1.可重复性(并行运行的爬虫或爬行线程同时运行时,增加了重复页面);

2.质量问题(并行运行时,每个爬虫或爬行线程只能获取部分页面,导致页面质量下降);

3.通信带宽的成本(并行运行时,各个爬虫或爬行线程之间不可避免要进行一些通信,需要耗费一定的带宽资源)。

 

您可能还会对下面的文章感兴趣:

COPYRIGHT © 2010-2018 东莞云悫计算机系统有限公司 All Rights Reserved.

粤ICP备16096532号
客服中心 customer service center

大客户经理咨询 (投诉建议QQ:1635789366 电话:183-0000-3210)

售后服务 (网维技术QQ:404634181 值班电话:18929-444-536)

工作时间: 周一至周五 9:30至17:30 周六13:30至17:30,其它日期按国家法定节假日休假,如果有不便之请敬请谅解! 售后技术支持:多部门7*24小时机制。

客户投诉留言

电话和QQ,以便我们为您提供优质服务! *为必填项