原创

Linux 系统 Nginx 查看(百度)蜘蛛爬虫操作详解

网站SEO优化首先让百度蜘蛛经常爬去网站信息,才能提高权重以及收录,下面为大家讲述一下Linux 系统 Nginx 查看百度蜘蛛爬虫。本文针对nginx web 服务器进行分析的,具体日志存放目录:/usr/local/nginx/logs/access.log,注意:文件不能过大否则命令十分的消耗CPU导致用户访问网站速度缓慢。


百度蜘蛛,是百度搜索引擎的一个自动程序。它的作用是访问收集整理互联网上的网页、图片、视频等内容,然后分门别类建立索引数据库, 使用户能在百度搜索引擎中搜索到您网站的网页、图片、视频等内容。


1. 百度蜘蛛爬行的次数,具体命令如下:

cat access.log | grep Baiduspider | wc


2. 百度蜘蛛的详细记录(Ctrl C可以终止),具体命令如下:

cat access.log | grep Baiduspider

或者

cat access.log | grep Baiduspider | tail -n 10
cat access.log | grep Baiduspider | head -n 10

上述命令只看最前10条或最后10条.


3. 百度蜘蛛抓取首页的详细记录,具体命令如下:

cat access.log | grep Baiduspider | grep “GET / HTTP”

注意:百度蜘蛛对首页比较敏感,而谷歌和雅虎蜘蛛更热衷于内页


4. 百度蜘蛛派性记录时间点分布,具体命令如下:

cat access.log | grep “Baiduspider ” | awk ‘{print $4}'


5. 百度蜘蛛爬行页面按次数降序列表,具体命令如下:

cat access.log | grep “Baiduspider ” | awk ‘{print $7}' | sort | uniq -c | sort -r

注:文中的Baiduspider 改成Googlebot都可以查看谷歌的数据,鉴于大陆的特殊性,大家应该对百度的log更为关注。


附:(Mediapartners-Google)Google adsense蜘蛛的详细爬行记录

cat access.log | grep Mediapartners

Googlebot指的是Google的机器人,或蜘蛛。一般Google会让不同的Googlebot来对你的网页内容进行处理,其中包括:

1.抓取文字内容,获取内容来保存于Google网页搜索和新闻搜索的数据库。

2.Googlebot-mobile:它的功能是抓取网页中的文字内容来让手机用户搜索。

3.Googlebot-Image:抓取网页内的图片内容,保存入Google 图片搜索数据库。

4.Mediapartners-Google:抓取网页中的文字内容,用于Google Adsense 分析关键词。只有投放了Google Adsense 的网页才会被 Mediapartners-Google 探测器爬取。

5.Adsbot-Google:抓取网页中的文字内容,用于为Google AdWords 提供参考。只有Google AdWords 的目标网页才会被 Adsbot-Google 探测器爬取。

关注下方微信公众号“Java精选”(w_z90110),回复关键字领取资料:如HadoopDubboCAS源码等等,免费领取资料视频和项目。 

涵盖:程序人生、搞笑视频、算法与数据结构、黑客技术与网络安全、前端开发、Java、Python、Redis缓存、Spring源码、各大主流框架、Web开发、大数据技术、Storm、Hadoop、MapReduce、Spark、elasticsearch、单点登录统一认证、分布式框架、集群、安卓开发、iOS开发、C/C++、.NET、Linux、Mysql、Oracle、NoSQL非关系型数据库、运维等。

评论

分享:

支付宝

微信