百度蜘蛛是笨蛋 看我怎么活捉蜘蛛

发布日期  发布: 2009-6-17 | 发布人  发布者: glwolf | 来源  来源: 江西广告网


  最新发现,百度蜘蛛(Baiduspider)是笨蛋!最近发现网站百度收录的很慢,基本上是过几天重新快照下首页,其它页面基本上不收录!郁闷!实在郁闷!打开网站IIS log,查了下百度蜘蛛,大惊!有重大发现:百度蜘蛛真是个笨蛋!   一、先看看百度蜘蛛是怎么笨死的。以下是百度蜘蛛在我网站上的活动记录。   1、2009-06-03 21:26:05 W3SVC962713505 218.60.130.19 GET /robots.txt - 80 - 123.125.64.15 Baiduspider ( http://www.baidu.com/search/spider.htm) 404 0 64 (注:404表明未找到robots.txt)   2、2009-06-03 21:26:49 W3SVC962713505 218.60.130.19 GET /index.asp - 80 - 123.125.64.15 Baiduspider ( http://www.baidu.com/search/spider.htm) 200 0 64 (注:200表明找到首页文件index.asp)   由此可以看出,百度蜘蛛的活动,先到网站找robots.txt 这个文件,如果没有则找到网站首页index.asp,和百度目前收录的首页对比后发现和原来没变化,然后走了。和广大站长一样,谁不想自己被百度收录的页面时不时的快照更新下?看来只有先完善robots.txt ,牵着百度蜘蛛到我站上到处跑了。   二、书写robots.txt ,带百度到你站上四处逛逛。   robots.txt 这个文件必须写。具体怎么写大家都懂吧?不会的话我再重复下   例1. 禁止所有搜索引擎访问网站的任何部分   User-agent: *   Disallow: /   例2. 允许所有的robot访问   (或者也可以建一个空文件 "/robots.txt")   User-agent: *   Disallow:   或者   User-agent: *   Allow: /   (桌子注:这个必须的,不要建空文件,那是百度在放烟。最好写下面一句。)   例3. 仅禁止Baiduspider访问您的网站   User-agent: Baiduspider   Disallow: /   例4. 仅允许Baiduspider访问您的网站   User-agent: Baiduspider   Disallow:   User-agent: *   Disallow: /   例5. 禁止spider访问特定目录   在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写成 "Disallow: /cgi-bin/ /tmp/"。   User-agent: *   Disallow: /cgi-bin/   Disallow: /tmp/   Disallow: /"joe/   例6. 允许访问特定目录中的部分url   User-agent: *   Allow: /cgi-bin/see   Allow: /tmp/hi   Allow: /"joe/look   Disallow: /cgi-bin/   Disallow: /tmp/   Disallow: /"joe/   例7. 使用"*"限制访问url   禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。   User-agent: *   Disallow: /cgi-bin/*.htm   例8. 使用"$"限制访问url   仅允许访问以".htm"为后缀的URL。   User-agent: *   Allow: .htm$   Disallow: /   例9. 禁止访问网站中所有的动态页面   User-agent: *   Disallow: /*?*   例10. 禁止Baiduspider抓取网站上所有图片   仅允许抓取网页,禁止抓取任何图片。   User-agent: Baiduspider   Disallow: .jpg$   Disallow: .jpeg$   Disallow: .gif$   Disallow: .png$   Disallow: .bmp$   例11. 仅允许Baiduspider抓取网页和.gif格式图片   允许抓取网页和gif格式图片,不允许抓取其他格式图片   User-agent: Baiduspider   Allow: .gif$   Disallow: .jpg$   Disallow: .jpeg$   Disallow: .png$   Disallow: .bmp$   例12. 仅禁止Baiduspider抓取.jpg格式图片   User-agent: Baiduspider   Disallow: .jpg$   看看桌子自己写的robots.txt,大家参考   复制代码   User-agent: *   Disallow: /admin/   Disallow: /Soft/   Allow: /images/   Allow: /html/   Allow: .htm$   Allow: .php$   Allow: .asp$   Allow: .gif$   Allow: .jpg$   Allow: .jpeg$   Allow: .png$   Allow: .bmp$   Allow: /   解释:   1、允许各种搜索引擎索引   2、禁止索引/admin目录,这里是网站的后台,当然禁止了   3、禁止/soft等重要安全目录   4、允许访问/images目录   5、允许访问/html目录   6、允许访问所有htm,php,asp,html文件   7、允许抓取gif,jpg,jpeg,png,bmp格式的图片   8、允许抓取网站根目录下的文件。   好了,把你的 robots.txt传到网站跟目录下等着百度蜘蛛再来吧。到时候有这个好向导会带着那个笨蛋到你站上到处走走的。本文作者桌子,由MOFHOT外贸服装批发网www.mofhot.com 搜集发布,请A5留个连接谢谢"发个文章也不容易的。
本站文章部分内容来自互联网,供读者交流和学习,如有涉及作者版权问题请及时与我们联系,以便更正或删除。感谢所有提供信息的网站,并欢迎各类媒体与我们进行信息共享合作。
关闭本窗口 | 打印 | 收藏此页 |  推荐给好友 | 举报

版块排行

  • SEO搜索                                    5984
  • Web软件                                    3334
  • 交互设计                                    3279
  • 平面软件                                    2575
  • 设计欣赏                                    2501
  • 游戏世界                                    1244
  • 程序开发                                    830
  • 前沿视觉                                    560
  • 电脑网络                                    514
  • 摄影赏析                                    291