网站优化中每天分析爬虫访问日志,怎样判别真假爬虫?
南通网站优化中每天分析爬虫访问日志,怎样判别真假爬虫?
在查看网站日志,分析搜索引擎蜘蛛抓取过程中,经常会遇到一些莫名其妙的IP,这些怪异的行为也让很多站长出现困惑。比如你还没有发布网站信息,但日志中就显示在发布之前已经抓取访问过,再比如一些IP是无法查询到准确来路等等。
而出现这种情况,首先需要了解什么是真假蜘蛛。搜索引擎蜘蛛的真伪,是相对来说,通常来自搜索引擎的蜘蛛,是站长优化网站的依据,然而很多采集程序,站长工具的抓取是模仿蜘蛛的抓取。那如何判断网站搜索引擎蜘蛛的真假呢?
一招解决问题,那就是微软的命令,nslookup查看ip地址:
运行——CMD——输入nslookup IP(例如nslookup 111.206.221.22)然后按一下enter键
附录:
百度蜘蛛的IP地址大全,帮你分析网站的SEO
123.125.68.*:这个蜘蛛每每来,另外来的少,示意网站大概要进入沙盒了,或被者降权。
220.181.68.*:每天这个IP段只增不减很有大概进沙盒或K站。
220.181.7.*:代表百度蜘蛛IP拜访,预备抓取你工具。
123.125.66.*:代表百度蜘蛛IP拜访,预备抓取你工具。
121.14.89.*:这个ip段作为渡过新站调查期。
203.208.60.*:这个ip段会出现在新站及站点有不正常征象后。
210.72.225.:这个ip段不连续巡查各站。
125.90.88.*:广东茂名市电信也属于百度蜘蛛IP重要形成身分,是新上线站较多,另有运用过站长东西,或SEO综合检测形成的。
220.181.108.95:这个是百度抓取首页的公用IP,如是220.181.108段的话,根本来说你的网站会每天隔夜快照,相对错不了的,我包管。
220.181.108.92:同上98%抓取首页,大概还会抓取其他(不是指内页)220.181段属于权重IP段此段爬过的文章或首页根本24小时放出来。
123.125.71.106:抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是首创或收罗文章。
220.181.108.91:属于综合的,重要抓取首页和内页或其他,属于权重IP段,爬过的文章或首页根本24小时放出来。
220.181.108.75:重点抓取更新文章的内页到达90%,8%抓取首页,2%其他。权重IP段,爬过的文章或首页根本24小时放出来。
220.181.108.86:公用抓取首页IP权重段,普通前往代码是30400代表未更新。
123.125.71.95:抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是首创或收罗文章。
123.125.71.97:抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是首创或收罗文章。
220.181.108.89:公用抓取首页IP权重段,普通前往代码是30400代表未更新。
220.181.108.94:公用抓取首页IP权重段,普通前往代码是30400代表未更新。
220.181.108.97:公用抓取首页IP权重段,普通前往代码是30400代表未更新。
220.181.108.80:公用抓取首页IP权重段,普通前往代码是30400代表未更新。
220.181.108.77:公用抓首页IP权重段,普通前往代码是30400代表未更新。
123.125.71.117:抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是首创或收罗文章。
220.181.108.83:公用抓取首页IP权重段,普通前往代码是30400代表未更新。
南通安速网站建设,致力于为客户提供南通网站建设,南通网站优化,小程序以及微信开发。服务范围,覆盖南通六县一市。