搜索引擎的爬虫蜘蛛对网站权重是否有要求
1.来自不同领域、职业和背景的用户通常有不同的检索目的和要求。一般搜索引擎返回的结果包括大量用户不关心的网页,或独立于用户搜索结果的网页。
2.通用搜索引擎的目标是实现尽可能多的网络覆盖,将进一步加深有限的搜索引擎服务器资源与无限网络数据资源之间的矛盾。
3.随着万维网数据形式的丰富和网络技术的不断发展,大量不同的数据出现,如图片、数据库、音频、视频多媒体等,一般搜索引擎往往无法找到和获取具有一定结构的信息内容和数据。
4.一般搜索引擎,其中大多数提供基于"关键字"的检索,很难支持基于语义信息的查询。
为了解决上述问题,抓取相关Web资源的"聚焦网络爬虫"应运而生,聚焦于Web爬虫是一种自动下载网页的程序,它根据既定的抓取目标选择性地访问万维网上的网页及相关链接,以获取所需的信息。
与"一般web爬虫"不同,Focus网络爬虫不追求大范围的覆盖,而是设置了抓取与特定主题内容相关的网页的目标",以便为面向主题的用户查询准备数据资源。