专业的网络营销网站-济南网络营销
A-A+

深度解析搜索引擎中网络爬虫的搜索策略

2015年12月18日 SEO学习 暂无评论 阅读 1,592 次
专业的网络营销网站-济南网络营销

网站seo优化其实就是针对于搜索引擎的优化,古语曰,知己知彼百战不殆,下面济南网络营销的小编就带你解开搜索引擎网络爬虫的真面目。我们平常所说的“蜘蛛”其实就是指搜索引擎中的网络爬虫,其本质是一段程序,用来抓取我们的网页,下面看下网络爬虫的具体工作原理和搜索策略吧。

spider

1 网络爬虫的工作原理

网络爬虫出自Sp ider 的意译,具有相同词义的词语还有Crawler、robots、bots、wanderer等等。网络爬虫定义有广义和狭义之分,狭义上的定义为利用标准 的http协议根据超链和Web文档检索的方法遍历万维网信息空间的软件程序;而广义则是所有能利用http协议检索Web文档的软件都称之为网络爬虫。

网络爬虫是一个功能很强的自动提取网页的程序, 它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。 它通过请求站点上的HTML 文档访问某一站点。它遍历Web 空间,不断从一个站点移动到另一个站点,自动建立索引并加入到网页数据库中。网络爬虫进入某个超级文本时, 它利用HTML语言的标记结构来搜索信息及获取指向其他超级文本的URL 地址,可以完全不依赖用户干预实现网络上的自动“爬行”和搜索。 网络爬虫在搜索时往往采用一定的搜索策略。

2 宽度或深度优先搜索策略

搜索引擎所用的第一代网络爬虫主要是基于传统的图算法,如宽度优先或深度优先算法来索引整个Web,一个核心的URL 集被用来作为一个种子集合,这种算法递归的跟踪超链接到其它页面,而通常不管页面的内容,因为最终的目标是这种跟踪能覆盖整个Web。这种策略通常用在通 用搜索引擎中,因为通用搜索引擎获得的网页越多越好,没有特定的要求. 如图1 所示:

2. 1 宽度优先搜索算法

宽度优先搜索算法(又称广度优先搜索) 是最简便的图的搜索算法之一, 这一算法也是很多重要的图的算法的原型. Dijktra 单源最短路径算法和Prim 最小生成树算法都采用了和宽度优先搜索类似的思想.宽度优先搜索算法是沿着树的宽度遍历树的节点,如果发现目标则算法中止。该算法的设计和实现相对简单属 于盲目搜索。 在目前为覆盖尽可能多的网页,一般使用宽度优先搜索方法。也有很多研究将宽度优先搜索策略应用于聚焦爬虫中。其基本思想是认为与初始U RL 在一定链接距离内的网页具有主题相关性的概率很大。 另外一种方法是将宽度优先搜索与网页过滤技术结合使用, 先用广度优先策略抓取网页,再将其中无关的网页过滤掉. 这些方法的缺点在于, 随着抓取网页的增多大量的无关网页将被下载并过滤,算法的效率将变低。

2. 2 深度优先搜索

深度优先搜索所遵循的搜索策略是尽可能“深”地搜索图。在深度优先搜索中,对于最新发现的顶点,如果它还有以此为起点而未探测到的边 就沿此边继续汉下去。当结点v 的所有边都己被探寻过,搜索将回溯到发现结点v 有那条边的始结点。这一过程一直进行到已发现从源结点可达的所有结点为止。如果还存在未被发现的结点,则选择其中一个作为源结点并重复以上过程,整个进程 反复进行直到所有结点都被发现为止. 深度优先在很多情况下会导致爬虫的陷入( t rapped) 问题, 所以它既不是完备的,也不是最优的。

专业的网络营销网站-济南网络营销

给我留言

Copyright © 济南SEO网络营销 保留所有权利.   Theme  Ality 京ICP备15011582号-2

用户登录