登录 | 地图 欢迎访问【UZ导航】
当前位置:网站首页 > 推荐 > 正文

robots.txt文件的作用及写法

admin 2019-09-18 123 浏览 0 评论

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

1.jpg

Robots.txt文件的重要性

robots.txt是搜索引擎蜘蛛访问网站时要查看的第一个文件,并且会根据robots.txt文件的内容来爬行网站。在某种意义上说,它的一个任务就是指导蜘蛛爬行,减少搜索引擎蜘蛛的工作量。

当搜索引擎蜘蛛访问网站时,它会首先检查该站点根目录下是否存在robots.txt文件,如果该文件存在,搜索引擎蜘蛛就会按照该文件中的内容来确定爬行的范围;如果该文件不存在,则所有的搜索引擎蜘蛛将能够访问网站上所有没有被口令保护的页面。

通常搜索引擎对网站派出的蜘蛛是有配额的,多大规模的网站放出多少蜘蛛。如果我们不配置robots文件,那么蜘蛛来到网站以后会无目的的爬行,造成的一个结果就是,需要它爬行的目录,没有爬行到,不需要爬行的,也就是我们不想被收录的内容却被爬行并放出快照。所以robots文件对于我们做网站优化来说具有很重要的影响。

网站没有Robots.txt文件的弊端

如果网站中没有robots.txt文件,则网站中的程序脚本、样式表等一些和网站内容无关的文件或目录即使被搜索引擎蜘蛛爬行,也不会增加网站的收录率和权重,只会浪费服务器资源;

搜索引擎派出的蜘蛛资源也是有限的,我们要做的应该是尽量让蜘蛛爬行网站重点文件、目录,最大限度的节约蜘蛛资源。

Robots.txt文件的存放位置

网站根目录下,通过“域名/robots.txt”能正常访问即可,如http://域名/robots.txt

2.jpg

Robots.txt文件的写法

User-agent: * *代表所有搜索引擎,也可指定搜索引擎,如指定百度,User-agent: BaiduspiderDisallow: /a/ 这里定义是禁止抓取a目录下面的所有内容Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。Allow: /cgi-bin/a/ 这里定义是允许爬寻cgi-bin目录下面的a目录Allow: /tmp 这里定义是允许爬寻tmp的整个目录Allow: .htm$ 允许访问以”.htm”为后缀的URL。Allow: .gif$ 允许抓取网页和gif格式图片Sitemap: 网站地图,告诉爬虫这个页面是网站地图

迪思网站托管建议的robots文件书写方式

User-agent: *

Disallow: /i*/

Disallow: /a*d/

Disallow: /*.php

Disallow: /*/*.php

Disallow: /*/list*.html

Allow: /img/

Sitemap: https://域名/sitemap.xml

迪思网站托管Robots.txt文件的说明

User-agent: *

(注释:这里的*代表所有的搜索引擎种类,*是一个通配符;当然你也可以针对某个搜索引擎,如User-agent: Baiduspider、User-Agent: 360Spider、User-Agent: Sogouspider。)

Disallow: /i*/

(注释:Disallow为禁止爬行,如果需要禁止蜘蛛爬行images目录,可以写为Disallow: /images/ ;推荐本站采用的写法,Disallow: /i*/,可以在一定程度上提高网站的安全性,如果写成Disallow: /images/可能会暴露网站后台文件路径,特别是管理路径。采用通配符的写法需要注意一点,i*代表所有以w开头的目录。)

Disallow: /a*d/

(注释:禁止爬行所有以字母a开始、以字母d结束的目录,如/abd/、/acd/、/abcd/,这种写法也是出于安全考虑。)

Disallow: /*.php

(注释:禁止爬行根目录下的所有以.php结尾的文件,实际情况可以根据你所使用的网站程序来决定。)

Disallow: /*/*.php

(注释:禁止爬行所有目录下的所有以.php结尾的文件。)

Disallow: /*/list*.html

(注释:网站栏目文章多的时候会有分页,如第1页、第2页……,如果需要禁止爬行分页,假设分页URL为www.xxx.com/news/list_1_32.html,我们可以采取Disallow: /*/list*.html这种写法来禁止爬行所有目录下的所有分页。)

Allow: /img/

(注释:Allow代表允许爬行。Disallow: /i*/为禁止爬行所有以i开头的目录,但是我们需要让蜘蛛爬行img这个目录,可以采用Allow: /img/这种写法。)



相关推荐

“黑色星期五”首进日本,亚马逊推促销活动
“黑色星期五”首进日本,亚马逊推促销活动

11月和12月都是美国和中国的购物旺季。不同的是,中国是集中在双十一,美国则是因为“黑色星期五”。所谓黑色星期五,便是在感恩节的第二天。感恩节为11月第四个星期...

1小时前 admin

5G终端上新 中国移动发布2020年终端产品规划
5G终端上新 中国移动发布2020年终端产品规划

11月15日,在中国移动召开的5G泛智能终端渠道生态合作峰会上,中国移动发布2020年终端产品规划及5G产品白皮书。此外,中国移动“5G终端先行者产业联盟”发布...

2小时前 admin

字节跳动或推出音乐流媒体服务
字节跳动或推出音乐流媒体服务

字节跳动的抖音捧红众多神曲后,或将正式进入音乐流媒体行业。11月18日,据英国金融时报报道,今日头条、抖音、TikTok母公司字节跳动计划推出与Spotify和...

2小时前 admin

快手与央视达成2020春晚独家互动合作
快手与央视达成2020春晚独家互动合作

《晚点LatePost》获悉,快手已经竞标拿下2020年央视春晚独家互动合作伙伴,竞标方有阿里、拼多多、字节跳动。这意味着,快手不仅将独家参与从春晚预热、晚会当...

2小时前 admin

春节还有2个月,为什么今年提早返乡?
春节还有2个月,为什么今年提早返乡?

最近几年返乡潮确实一直是人们经常提起的话题,返乡潮的定义是指一些劳务输出大省出现农民工成批返乡的现象,同时在返乡潮的基础上,最近部分地区还出现了“提前返乡”的现...

3小时前 admin

马云:每晚有1700万人逛淘宝但什么都不买
马云:每晚有1700万人逛淘宝但什么都不买

 11月16日消息,日前,马云一天跑三个非洲国家,接连出现在非洲的尼日利亚、多哥和加纳,成为了三个国家“年轻人鼓励师”。  马云说:“我想来非洲,当我来到非洲的...

11小时前 admin

因业务调整,三星音乐暂停购买付费VIP
因业务调整,三星音乐暂停购买付费VIP

11月17日消息据网友反馈,三星音乐因服务模式即将调整,暂停VIP会员购买业务。  这一幕似曾相识。早在今年8月份,三星视频就发出通知,称因业务调整,三星视频...

11小时前 admin

马云一天跑三个非洲国家
  • 马云一天跑三个非洲国家
  • 马云一天跑三个非洲国家
  • 马云一天跑三个非洲国家
  • 马云一天跑三个非洲国家
驾照记满12分怎么办?原来可以这样清零!
驾照记满12分怎么办?原来可以这样清零!

驾照记满12分了,怎么办?超过24分,几本驾照都不能清完又怎么办?群众A:先扣一个12分,从考一个在扣?群众A:那扣了60分,不是要考5次。小编:这2个清零方法...

13小时前 admin

双11过后,域名tm.com以125万美元成交
双11过后,域名tm.com以125万美元成交

阿里又搞大事情?双11过后,域名tm.com以125万美元价格成交,难道买家是天猫?据前方最新消息,极品两字母域名tm.com已于北京时间11月15日上午完成交...

1天前 admin

查询百度、360搜索、搜狗三大搜索引擎的网站数据指标
查询百度、360搜索、搜狗三大搜索引擎的网站数据指标

导语:不会用工具的SEOer都不是好SEOer,要做好SEO我们就要会使用工具。现在就跟大家聊聊我们经常会用到的几款工具,可能大部分的站长都在用,所以想说说小编...

2天前 admin

免费收录网站的网址导航站长SEO必备
免费收录网站的网址导航站长SEO必备

做网站优化和关键词排名需要很多外链支撑,站长网志之前推出了一批网址导航站受到了大家的欢迎。本期,站长网志继续精选了一批不错的免费收录网站的网址导航,赶紧收藏,去...

2天前 admin

屏内指纹2020初上市,屏下指纹还能走多远?
屏内指纹2020初上市,屏下指纹还能走多远?

原本因3D人脸识别红外线方案有精准度问题、雷射方案又有伤人体疑虑,屏下指纹(In-DisplayFingerprint)识别技术被视为智能手机等移动装置较理想...

2天前 admin

今日头条重兵布局搜索,2020年继续扶持创作者变现
今日头条重兵布局搜索,2020年继续扶持创作者变现

(今日头条CEO朱文佳)华夏时报(chinatimes.net.cn)记者郑婷婷黄兴利北京报道“做全网搜索的初心,一个是用户得不到想要信息,这是用户体验上的...

2天前 admin

阿里云击败亚马逊AWS,澳洲知名特效公司Animal Logic迁移上云
阿里云击败亚马逊AWS,澳洲知名特效公司Animal Logic迁移上云

拥有近30年历史的澳洲知名视觉特效制作公司AnimalLogic日前首次将海量数据从本地迁移到云上,通过阿里云提供的技术,不但保证了数据安全,还大大提升了特效...

2天前 admin

优酷起诉百度过滤视频广告,法院判赔30万
优酷起诉百度过滤视频广告,法院判赔30万

11月15日消息据北京海淀区人民法院官网消息,日前,海淀法院审结了原告优酷信息技术(北京)有限公司诉被告百度(中国)有限公司等不正当竞争纠纷一案,判令百度中国...

3天前 admin

腾讯:微信读书网页版上线
  • 腾讯:微信读书网页版上线
  • 腾讯:微信读书网页版上线
  • 腾讯:微信读书网页版上线
  • 腾讯:微信读书网页版上线
天天快报更名看点快报(腾讯看点)
天天快报更名看点快报(腾讯看点)

天天快报更名为看点快报,红色为主色调,主打热点、快讯,搭配推出看点视频。火锅视频的前身是yoo视频,后者是腾讯2018年10月上线的短视频App,当时在腾讯内部...

3天前 admin

联想推出全球首款 5G 电脑
联想推出全球首款 5G 电脑

据新浪科技报道,11月15日下午,联想集团在2019创新科技大会上宣布,推出全球首款5G电脑。据悉,这款全球5G电脑包括三项核心技术:双制式全...

3天前 admin

搜狗输入法10.0版发布,AI让输入更快更准
搜狗输入法10.0版发布,AI让输入更快更准

近日,搜狗输入法迎来重大产品更新,正式发布10.0版本。作为面世13年的国民输入品牌,10.0版本的推出,对搜狗输入法具有里程碑式的意义。新版本中,搜狗输入法充...

3天前 admin

欢迎 发表评论: