SEO日常工作内容中,很多都是围绕吸引搜索引擎蜘蛛抓取,从而提升网站收录,进而提升网站整体排名获得流量。但对百度搜索引擎蜘蛛是如何工作的,却很少有人知道,对于从事网站优化的SEOer来说,了解搜索引擎蜘蛛的工作原理还是很有必要的。
一般来说,搜索引擎主要有4个工作流程:抓取建库、检索排序、外部投票加分、排名结果展现。其中抓取建库与我们常说的百度蜘蛛有直接的关系,本文重点聊一下什么是搜索引擎蜘蛛,工作原理是什么?
百度搜索引擎蜘蛛是什么?
互联网可以理解成一张巨大的“蜘蛛网”,搜索引擎蜘蛛是类似实质的“机器人”。蜘蛛的主要任务就是在巨大的蜘蛛网(互联网)中浏览信息,然后把这些信息都抓取到搜索引擎的服务器上,然后建立索引库。就好比机器人浏览我们的网站,然后把内容保存到自己的电脑上。根据种子样本获取方式可分为:
1、预先给定的初始抓取种子样本;
2、预先给定的网页分类目录和与分类目录对应的种子样本,如Yahoo!分类结构等;
3、通过用户行为确定的抓取目标样例,分为:
①用户浏览过程中显示标注的抓取样本;
②通过用户日志挖掘得到访问模式及相关样本。
其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征等等。
搜索引擎蜘蛛抓取原理
一、抓取网页
每家独立的搜索引擎都会有自己的网页抓取程序爬虫。爬虫蜘蛛顺着网页中的超链接分析连续访问抓去更多网页。被抓取的网页被称之为网页快照。毋庸置疑,搜索引擎蜘蛛抓取网页是有一定规律的。如下:
1、权重优先:先参照链接的权重,再综合深度优先和宽度优先策略抓取。打个比方,如果这条链接的权重还不错,就采用深度优先;如果权重很低,则采用宽度优先。
2、重访抓取:这个就可以直接字面上理解。因为搜索引擎使用单个重访与全部重访结合的居多。所以我们做网站内容要记得定期维护日常更新,让蜘蛛多来访多抓取才能收录快。
二、处理网页
搜索引擎抓取到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、超链接分析、计算网页的重要度/丰富度等。
处理网页分为以下几个部分:
1、网页结构化:HTML代码全部删除掉,提取出内容。
2、消噪:留下网页的主题内容。
3、查重:查找删除重复的网页与内容。
4、分词:提取出正文的内容后,分成若干个词语,然后排列存入索引库。同时计算这个词在这个页面出现了多少次。有必要指出,关键词堆砌就是借用这个原理对网站进行优化。这种做法属于作弊。
5、链接分析:搜索引擎会查询分析这个页面的反向链接有多少,导出链接有多少内链,然后判定这个页面多少权重。
三、提供检索服务
用户输入关键词进行检索,搜索引擎从索引库中找到匹配该关键词的网页。为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
所以想做好搜索引擎让蜘蛛抓取你的网站,成都SEO小编根据搜索引擎的特点,做出如下总结:
1、网站发布信息后多做分享或者多发外链。可以帮你的网站尽可能快的带来搜索引擎蜘蛛的访问。也可以通过内链的方式,增加百度搜索引擎蜘蛛在网站停留的时间,以获取更好的排名。
2、定期最好是每天发布新的信息或者更新网站内容,这样百度蜘蛛才能多访问你的信息进行抓取。
3、发布优质的信息,让用户体验时间停留长,这样有利于搜索引擎蜘蛛判断你的网站价值高。
4、不要想着走捷径,一定要坚持遵循搜索引擎法则,做好内容,做好用户体验才能做好网站。
百度爬虫的一些常见问题
1、如何提高百度抓取频率,抓取频率暴涨是什么原因
早期由于收录相对困难,大家非常重视百度抓取频率,但随着百度战略方向的调整,从目前来看,我们并不需要刻意追求抓取频率的提升,当然影响抓取频次的因素主要包括:网站速度、安全性、内容质量、社会影响力等内容。
如果你发现站点抓取频率突然暴涨,可能是因为:存在链接陷阱,蜘蛛不能很好抓取页面,或者内容质量过低,需要从新抓取,也可能是网站不稳定,遭遇负面SEO攻击。
2、如何判断,百度蜘蛛是否正常抓取
很多站长新站上线,总是百度不收录内容页面,于是担心百度爬虫是否可以正常抓取,这里官方提供两个简单的工具:
百度抓取诊断:https://ziyuan.baidu.com/crawltools/index
百度Robots.txt检测:https://ziyuan.baidu.com/robots/index
你可以根据这两个页面,检测网页的连通性,以及是否屏蔽了百度蜘蛛抓取。
3、百度爬虫持续抓取,为什么快照不更新
快照长时间不更新并没有代表任何问题,你只需要关注是否网站流量突然下降,如果各方面指标都正常,蜘蛛频繁来访,只能代表你的页面质量较高,外部链接非常理想。
4、网站防止侵权,禁止右键,百度蜘蛛是否可以识别内容
如果你在查看网页源代码的时候,可以很好的看到页面内容,理论上百度蜘蛛就是可以正常抓取页面的,这个你可以利用百度站长工具中的抓取诊断去解析一下看看。
5、百度蜘蛛,真的有降权蜘蛛吗?
早期,很多SEO人员喜欢分析百度蜘蛛IP段,实际上官方已经明确表示,并没有说明哪些蜘蛛的爬行代表降权,所以这个问题不攻自破。
搜索引擎蜘蛛工作过程是一个非常复杂的系统,以上只是关于百度搜索引擎蜘蛛工作原理的简单讲解,希望可以让大家对搜索引擎蜘蛛有个清晰的概念,更好的做好网站排名优化工作。