登录 | 地图 欢迎访问【UZ导航】
当前位置:网站首页 > 推荐 > 正文

robots.txt文件的作用及写法

admin 2019-09-18 392 浏览 0 评论

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

1.jpg

Robots.txt文件的重要性

robots.txt是搜索引擎蜘蛛访问网站时要查看的第一个文件,并且会根据robots.txt文件的内容来爬行网站。在某种意义上说,它的一个任务就是指导蜘蛛爬行,减少搜索引擎蜘蛛的工作量。

当搜索引擎蜘蛛访问网站时,它会首先检查该站点根目录下是否存在robots.txt文件,如果该文件存在,搜索引擎蜘蛛就会按照该文件中的内容来确定爬行的范围;如果该文件不存在,则所有的搜索引擎蜘蛛将能够访问网站上所有没有被口令保护的页面。

通常搜索引擎对网站派出的蜘蛛是有配额的,多大规模的网站放出多少蜘蛛。如果我们不配置robots文件,那么蜘蛛来到网站以后会无目的的爬行,造成的一个结果就是,需要它爬行的目录,没有爬行到,不需要爬行的,也就是我们不想被收录的内容却被爬行并放出快照。所以robots文件对于我们做网站优化来说具有很重要的影响。

网站没有Robots.txt文件的弊端

如果网站中没有robots.txt文件,则网站中的程序脚本、样式表等一些和网站内容无关的文件或目录即使被搜索引擎蜘蛛爬行,也不会增加网站的收录率和权重,只会浪费服务器资源;

搜索引擎派出的蜘蛛资源也是有限的,我们要做的应该是尽量让蜘蛛爬行网站重点文件、目录,最大限度的节约蜘蛛资源。

Robots.txt文件的存放位置

网站根目录下,通过“域名/robots.txt”能正常访问即可,如http://域名/robots.txt

2.jpg

Robots.txt文件的写法

User-agent: * *代表所有搜索引擎,也可指定搜索引擎,如指定百度,User-agent: BaiduspiderDisallow: /a/ 这里定义是禁止抓取a目录下面的所有内容Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。Allow: /cgi-bin/a/ 这里定义是允许爬寻cgi-bin目录下面的a目录Allow: /tmp 这里定义是允许爬寻tmp的整个目录Allow: .htm$ 允许访问以”.htm”为后缀的URL。Allow: .gif$ 允许抓取网页和gif格式图片Sitemap: 网站地图,告诉爬虫这个页面是网站地图

迪思网站托管建议的robots文件书写方式

User-agent: *

Disallow: /i*/

Disallow: /a*d/

Disallow: /*.php

Disallow: /*/*.php

Disallow: /*/list*.html

Allow: /img/

Sitemap: https://域名/sitemap.xml

迪思网站托管Robots.txt文件的说明

User-agent: *

(注释:这里的*代表所有的搜索引擎种类,*是一个通配符;当然你也可以针对某个搜索引擎,如User-agent: Baiduspider、User-Agent: 360Spider、User-Agent: Sogouspider。)

Disallow: /i*/

(注释:Disallow为禁止爬行,如果需要禁止蜘蛛爬行images目录,可以写为Disallow: /images/ ;推荐本站采用的写法,Disallow: /i*/,可以在一定程度上提高网站的安全性,如果写成Disallow: /images/可能会暴露网站后台文件路径,特别是管理路径。采用通配符的写法需要注意一点,i*代表所有以w开头的目录。)

Disallow: /a*d/

(注释:禁止爬行所有以字母a开始、以字母d结束的目录,如/abd/、/acd/、/abcd/,这种写法也是出于安全考虑。)

Disallow: /*.php

(注释:禁止爬行根目录下的所有以.php结尾的文件,实际情况可以根据你所使用的网站程序来决定。)

Disallow: /*/*.php

(注释:禁止爬行所有目录下的所有以.php结尾的文件。)

Disallow: /*/list*.html

(注释:网站栏目文章多的时候会有分页,如第1页、第2页……,如果需要禁止爬行分页,假设分页URL为www.xxx.com/news/list_1_32.html,我们可以采取Disallow: /*/list*.html这种写法来禁止爬行所有目录下的所有分页。)

Allow: /img/

(注释:Allow代表允许爬行。Disallow: /i*/为禁止爬行所有以i开头的目录,但是我们需要让蜘蛛爬行img这个目录,可以采用Allow: /img/这种写法。)



相关推荐

亚马逊的直播带货,还差点什么
亚马逊的直播带货,还差点什么

5月22日,阿里巴巴发布了2020财年全年及第四季度业绩,阿里2020财年(2019年4月到2020年3月)的消费型商业业务交易额突破1万亿美元,成为全球首家交...

14小时前 admin

为什么平时点外卖用的美团,离两个马爸爸越来越近了?
  • 为什么平时点外卖用的美团,离两个马爸爸越来越近了?
  • 为什么平时点外卖用的美团,离两个马爸爸越来越近了?
  • 为什么平时点外卖用的美团,离两个马爸爸越来越近了?
  • 为什么平时点外卖用的美团,离两个马爸爸越来越近了?
3月共有5亿海外用户涌入速卖通,App下载量已超过亚马逊
3月共有5亿海外用户涌入速卖通,App下载量已超过亚马逊

5月23日消息英国金融债券媒体LearnBonds近日发布报告称,受疫情影响,网购在海外迅速普及开来,全球手机购物用户激增。阿里巴巴旗下中国最大的跨境电商...

4天前 admin

拳王泰森放话:我欢迎任何人的挑战,愿意和任何人开战
  • 拳王泰森放话:我欢迎任何人的挑战,愿意和任何人开战
  • 拳王泰森放话:我欢迎任何人的挑战,愿意和任何人开战
  • 拳王泰森放话:我欢迎任何人的挑战,愿意和任何人开战
  • 拳王泰森放话:我欢迎任何人的挑战,愿意和任何人开战
受疫情影响 2020纽约车展正式宣布取消
受疫情影响 2020纽约车展正式宣布取消

当地时间5月22日,纽约车展组委会宣布受新冠肺炎疫情的影响,2020年纽约车展正式取消,下一届纽约车展将于2021年3月31日-4月11日期间举行,其中3月31...

5天前 admin

京东正式上线“自营房产”
京东正式上线“自营房产”

5月22日,京东房产与中骏集团在京签署战略协议,中骏集团成为首个在京东开设自营旗舰店的房产开发商,这也标志着京东正式上线“自营房产”业务。据京东方面介绍,通过此...

5天前 admin

重量级第一人泰森-富里:我很丑还秃顶,但没有人能战胜我
重量级第一人泰森-富里:我很丑还秃顶,但没有人能战胜我

近日,现WBC/《拳坛》杂志重量级拳王英国“吉普赛皇帝”泰森-富里(30-0-1,21KO)在接受媒体采访时表示,他现在是引领拳坛的超级巨星,而且是战无不胜的。...

6天前 admin

我国开通5G基站超20万个 运营商详解如何推进5G融合应用
我国开通5G基站超20万个 运营商详解如何推进5G融合应用

央广网北京5月17日消息(记者吕红桥)据中央广播电视总台经济之声《天下财经》报道,5月17日是世界电信日,工信部、几大运营商在世界电信日大会上重点聚焦5G,介绍...

2周前 (05-18) admin

加入了太多微信群,该怎么管理
  • 加入了太多微信群,该怎么管理
  • 加入了太多微信群,该怎么管理
  • 加入了太多微信群,该怎么管理
  • 加入了太多微信群,该怎么管理
一个美团成功的背后,是上千家类似企业的倒闭
一个美团成功的背后,是上千家类似企业的倒闭

2010年3月4日,是美团第一次上线的日子,当时美团的噱头是,一周只卖七件商品。和所有被指抄袭的公司一样,美团的模仿对象,是明星创业公司Groupon。在这种团...

2周前 (05-16) admin

百度正式上线快速收录功能
百度正式上线快速收录功能

百度熊掌天级收录正式下线,新上线快速收录功能,接替天级收录保持熊掌ID权益不变。以下是百度快速收录上线公告原文:1.工具说明快速收录可用于提交站点新增的时效性...

2周前 (05-16) admin

欢迎 发表评论: