原创

Linux 系统 Nginx 查看(百度)蜘蛛爬虫操作详解

网站SEO优化首先让百度蜘蛛经常爬去网站信息,才能提高权重以及收录,下面为大家讲述一下Linux 系统 Nginx 查看百度蜘蛛爬虫。本文针对nginx web 服务器进行分析的,具体日志存放目录:/usr/local/nginx/logs/access.log,注意:文件不能过大否则命令十分的消耗CPU导致用户访问网站速度缓慢。

百度蜘蛛,是百度搜索引擎的一个自动程序。它的作用是访问收集整理互联网上的网页、图片、视频等内容,然后分门别类建立索引数据库, 使用户能在百度搜索引擎中搜索到您网站的网页、图片、视频等内容。

1. 百度蜘蛛爬行的次数,具体命令如下:

cat access.log | grep Baiduspider | wc

2. 百度蜘蛛的详细记录(Ctrl C可以终止),具体命令如下:

cat access.log | grep Baiduspider

或者

cat access.log | grep Baiduspider | tail -n 10
cat access.log | grep Baiduspider | head -n 10

上述命令只看最前10条或最后10条.

3. 百度蜘蛛抓取首页的详细记录,具体命令如下:

cat access.log | grep Baiduspider | grep “GET / HTTP”

注意:百度蜘蛛对首页比较敏感,而谷歌和雅虎蜘蛛更热衷于内页

4. 百度蜘蛛派性记录时间点分布,具体命令如下:

cat access.log | grep “Baiduspider ” | awk ‘{print $4}'

5. 百度蜘蛛爬行页面按次数降序列表,具体命令如下:

cat access.log | grep “Baiduspider ” | awk ‘{print $7}' | sort | uniq -c | sort -r

注:文中的Baiduspider 改成Googlebot都可以查看谷歌的数据,鉴于大陆的特殊性,大家应该对百度的log更为关注。

附:(Mediapartners-Google)Google adsense蜘蛛的详细爬行记录

cat access.log | grep Mediapartners

Googlebot指的是Google的机器人,或蜘蛛。一般Google会让不同的Googlebot来对你的网页内容进行处理,其中包括:

1.抓取文字内容,获取内容来保存于Google网页搜索和新闻搜索的数据库。

2.Googlebot-mobile:它的功能是抓取网页中的文字内容来让手机用户搜索。

3.Googlebot-Image:抓取网页内的图片内容,保存入Google 图片搜索数据库。

4.Mediapartners-Google:抓取网页中的文字内容,用于Google Adsense 分析关键词。只有投放了Google Adsense 的网页才会被 Mediapartners-Google 探测器爬取。

5.Adsbot-Google:抓取网页中的文字内容,用于为Google AdWords 提供参考。只有Google AdWords 的目标网页才会被 Adsbot-Google 探测器爬取。

~阅读全文-人机检测~

微信公众号“Java精选”(w_z90110),专注Java技术干货分享!让你从此路人变大神!回复关键词领取资料:如Mysql、Hadoop、Dubbo、Spring Boot等,免费领取视频教程、资料文档和项目源码。微信搜索小程序“Java精选面试题”,内涵3000+道Java面试题!

涵盖:互联网那些事、算法与数据结构、SpringMVC、Spring boot、Spring Cloud、ElasticSearch、Linux、Mysql、Oracle等

评论

分享:

支付宝

微信