网站里的“robots”文件是什么意思?
搜索引擎爬去我们页面的工具叫做搜索引擎机器人,也生动的叫做“蜘蛛”
蜘蛛在爬去网站页面之前,会先去访问网站根目录下面的一个文件,就是robots.txt。这个文件其实就是给“蜘蛛”的规则,如果没有这个文件,蜘蛛会认为你的网站同意全部抓取网页。
Robots.txr文件是一个纯文本文件,可以告诉蜘蛛哪些页面可以爬取(收录),哪些页面不能爬取。
举个例子:建立一个名为robots.txt的文本文件,然后输入
User-agent:*星号说明允许所有搜索引擎收录
Disallow:index.php?表示不允许收录以index.php?前缀的链接,比如index.php?=865
Disallow:/tmp/表示不允许收录根目录下的tmp目录,包括目录下的文件,比如tmp/232.html
robots 文件是什么
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(RobotsExclusionProtocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
robots.txt文件是一个文本文件,使用任何一个常见的文本编辑器,比如Windows系统自带的Notepad,就可以创建和编辑它。robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
本回答由提问者推荐
什么是Robots协议?
而我们通常提到的主要是Robots协议,这也是搜索引擎的国际默认公约
Robots是什么意思?Robots是什么意思-?
Robots是一个英文单词,对英语比较懂的朋友相信都知道,Robots的中文意思是机器人
robots是什么以及如何正确建立robots文件
robots是什么?
robots是一个协议,是建立在网站根目录下的一个以(robots.txt)结尾的文本文件,对搜索引擎蜘蛛的一种限制指令。是蜘蛛程序爬行网站第一个要访问抓取的页面,网站可以通过robots协议来告诉搜索引擎蜘蛛程序哪些页面可以抓取,哪些页面不可以抓取。
robots协议用来告诉搜索引擎哪些页面能被抓取,哪些页面是不能被抓取的,我们通常用 robots来屏蔽网站的一些垃圾页面、重复页面、死链接通、动态和静态多路径的同一页面。这么做的好处是可以节省一部分的服务器带宽,同时也方便蜘蛛程序更好的来抓取网站内容。其实robots就像一个指路标一样,引导着蜘蛛程序爬取网站页面。
robots符号介绍
首先我们先来认识一下书写robots时常用到的几个字符
User-agent:写义搜索引擎类型,这里的首字母要大写U,结尾冒号:后要加一个空格键,如 User-agent:* 不带空格,User-agent: * 带空格的。
* 这里的星号是一个通配符,匹配0或多个任意字符
$ 是一个结束符
Disallow:表示不希望被访问的目录或URL
Allow:表示希望被访问的目录或URL
robots的确定写法
写法一:禁止所有搜索引擎来抓取网站任何页面
User-agent: *(此处*号也可以写成禁止某个蜘蛛抓取,例如百度的 User-agent: Baiduspider)
Disallow: /
写法二:允许所有搜索引擎抓取网站任何页面
User-agent: *
Allow: /
当然如果允许的话也可以写个空的robots.txt放网站根目录
其它写法举例:
User-agent: * 代表所有搜索引擎
Disallow: /abc/ 表示禁止抓取abc目录下的目录
Disallow: /abc/*.html 表示禁止抓取此目录下所有以 .html为后缀的URL包含子目录
Disallow: /*?*禁止抓取所有带?问号的URL
Disallow: /*jpg$ 禁止所有以.jpg结尾格式的图片
Disallow: /ab禁止抓取所有以ab 开头的文件
Disallow: /ab/a.html 禁止抓取ab文件夹下面的a.html 文件
Allow: /ABC/ 表示允许抓取abc目录下的目录
百度robots的写法
淘宝robots的写法
最后附上我自己网站robots的写法
好了就先举例这些,最后让提醒各位站长,慎重写robots协议,确保网站上线之前解决所有问题后,建立robots.txt文本到根目录。
85、Mr宋 94-80 作业他写的是蜘蛛,但是你不确定他到底是否为真的蜘蛛, 只是你后台这么写罢了. 总之情况很多.首先确定你robots有没有写错的地方. 然后就是,是否为别人的恶意攻击.他既然来了,应该有他的记录,你把他的ip在百度搜索下不就知道是什么东西了.如果查不到相关信息什么的,直接屏蔽就好了.
网站robots文件的作用是什么?
Robots.txt文件的作用:
1、屏蔽网站内的死链接。
2、屏蔽搜索引擎蜘蛛抓取站点内重复内容和页面。
3、阻止搜索引擎索引网站隐私性的内容。
因此建立robots.txt文件是很有必要的,网站中重复的内容、页面或者404信息过多,搜索引擎蜘蛛就会认为该网站价值较低,从而降低对该网站的“印象分”,这就是我们经常听到的“降低权重”,这样网站的排名就不好了。
robots.txt文件需要注意的最大问题是:必须放置在一个站点的根目录下,而且文件名必须全部小写。
robots.txt文件的基本语法只有两条,第一条是:User-agent,即搜索引擎蜘蛛的名称;第二条是:Disallow,即要拦截的部分。
下面我们看一下撰写基本的robots.txt文件所需要知道的一些语法和作用。
(1),允许所有的搜索引擎访问网站的所有部分或者建立一个空白的文本文档,命名为robots.txt。
User-agent:*Disallow:或者User-agent:*Allow:/
(2),禁止所有搜索引擎访问网站的所有部分。
User-agent:*Disallow:/
(3),禁止百度索引你的网站。
User-agent:BaiduspiderDisallow:/
(4),禁止Google索引你的网站。
User-agent:GooglebotDisallow:/
(5),禁止除百度以外的一切搜索引擎索引你的网站。
User-agent:BaiduspiderDisallow:User-agent:*Disallow:/
(6),禁止除Google以外的一切搜索引擎索引你的网站。
User-agent:GooglebotDisallow:User-agent:*Disallow:/
(7),禁止和允许搜索引擎访问某个目录,如:禁止访问admin目录;允许访问images目录。
User-agent:*Disallow:/admin/Allow:/images/
(8),禁止和允许搜索引擎访问某个后缀,如:禁止访问admin目录下所有php文件;允许访问asp文件。
User-agent:*Disallow:/admin/*.php$Allow:/admin/*.asp$
(9),禁止索引网站中所有的动态页面(这里限制的是有“?”的域名,如:index.php?id=8)。
User-agent:*Disallow:/*?*spider(蜘蛛)在访问一个网站时,会首先会检查该网站目录是否有一个文件叫做robots.txt的纯文本文件,这个文件用于指定spider(蜘蛛)在你网站是的抓取的范围.比如SEO研究中心的robots.txt文件
下面是robots视频教程通过该文件,搜索引擎就可以知道在你的网站中哪些文件是可以被索引的,哪些文件是被拒绝索引的啊网站加了Robots文件后,可以阻挡搜索引擎对相关链接的搜索。
原创文章,作者:墨搜网络,如若转载,请注明出处:https://www.moyuseo.com/feyu/687.html