robots.txt写法大全和robots.txt语法的作用(超详细)
去百度文库,查看完整内容>
内容来自用户:weizhiali
robots.txt写法大全和robots.txt语法的作用
1如果允许所有搜索引擎访问网站的所有部分的话我们可以建立一个空白的文本文档,命名为robots.txt放在网站的根目录下即可。
robots.txt写法如下:
User-agent:*
Disallow:
User-agent:*
Allow:/
2如果我们禁止所有搜索引擎访问网站的所有部分的话
robots.txt写法如下:
User-agent:*
Disallow:/
3如果我们需要某一个搜索引擎的抓取的话,比如百度,禁止百度索引我们的网站的话
robots.txt写法如下:
User-agent:Baiduspider
Disallow:/
4如果我们禁止Google索引我们的网站的话,其实跟示例3一样,就是User-agent:头文件的蜘蛛名字改成谷歌的Googlebot
robots.txt写法如下:
User-agent:Googlebot
Disallow:/
5如果我们禁止除Google外的一切搜索引擎索引我们的网站话
robots.txt写法如下:
User-agent:Googlebot
Disallow:
User-agent:*
Disallow:/
6如果我们禁止除百度外的一切搜索引擎索引我们的网站的话
robots.txt写法如下:
User-agent:Baiduspider
Disallow:
User-agent:*
Disallow:/
7如果我们需要禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引的话
robots.txt写法如下:
User-agent:*
Disallow:/css/
Disallow:/admin/
Disallow:/images/
8如果我们允许蜘蛛访问我们网站的某个目录中的某些特定网址的话
robots.txt写法如下:
User-agent:*
Allow:/css/my
Allow:/admin/html
Allow:/ima
robots.txt的写法
robots.txt的写法是做seo的人员必须知道的(什么是robots.txt),但该如何写,禁止哪些、允许哪些,这就要我们自己设定了。
百度蜘蛛是一机器,它只认识数字、字母和汉字,而其中robots.txt就是最重要也是最开始和百度“对话”的内容。
当我们的网站在没有建好的时候,我们不希望百度来抓取我们的网站,往往有人会禁止百度来抓取。但是,这种做法是非常不好的,这样会让百度蜘蛛很难再来到你的网站了。所以,我们必须现在本地搭建网站,等一切都搞好以后,再去买域名、空间,要不,一个网站的反复修改,会对你的网站有一定的不利影响。
我们的网站起初的robots.txt写法如下:
User-agent:*
Disallow:/wp-admin/
Disallow:/wp-includes/
User-agent:*的意思是,允许所以引擎抓取。
而Disallow:/wp-admin/和Disallow:/wp-includes/,则是禁止百度抓取我们的隐私,包括用户密码、数据库等。这样的写法既保护了我们的隐私,也让百度蜘蛛的抓取最大化。
如果,你想禁止百度蜘蛛抓取某一个页面,比如123.html,那就加一句代码“Disallow:/123.html/”即可。
robots.txt写好后,只需要上传到网站的根目录下即可。
本回答由网友推荐
robots.txt的写法、使用方法
User-agent: * Disallow:/admin Disallow:/php
robots.txt只写allow的区别问题
robots
.txt文件Disallow和Allow设置顺序的不同会产生不一样的效果。
拿个robots .txt语法的例子
(1)搜索引擎可以访问/www/seo的文件夹或者URL
User-agent: *
Allow
: /www/seo
Disallow
: /www/
(2)顺序改变后
User-agent: *
Disallow
: /www/
Allow
: /www/seo
这样遵守robots规则的搜索引擎就访问不到/www/seo这个路径了。
robots .txt几个语法
1> User-agent: *【定义搜索引擎。一般情况下,网站里面都是:User-agent: *,这里*的意思是所有,表示定义所有的搜索引擎。比如,我想定义百度,那么就是User-agent: Baiduspider;定义google,User-agent: Googlebot】
2> Disallow 【禁止爬取】
3> Allow 【允许】
4> $ 结束符【Disallow: .aspx$ 这句话就是屏蔽所有的以.aspx结尾的文件,不管它前面是什么样子】
5> * 【0或多个任意字符。Disallow: *?* 这个是屏蔽所有带“?”的文件,可以这样屏蔽所有的动态路径】
总结来说就是robots.txt
这个文件里语法的顺序是从上到下匹配
,先允许后禁止。另外注意:User-agent,Allow,Disallow的“:”后面有一个字符的空格。没有区别,因为“allow:”就是允许抓取全部页面了,然而”allow: /”是允许抓取服务器根目录下面所有文件,所以加不加/没区别
原创文章,作者:墨搜网络,如若转载,请注明出处:https://www.moyuseo.com/feyu/670.html