robots协议(爬虫robots协议)

robots协议的产生

robots.txt并不是某一个公司制定的,而是早在20世纪93、94年就早已出现,当时还没有Google。真实Robots协议的起源,是在互联网从业人员的公开邮件组里面讨论并且诞生的。即便是今天,互联网领域的相关问题也仍然是在一些专门的邮件组中讨论,并产生(主要是在美国)。1994年6月30日,在经过搜索引擎人员以及被搜索引擎抓取的网站站长共同讨论后,正式发布了一份行业规范,即robots.txt协议。在此之前,相关人员一直在起草这份文档,并在世界互联网技术邮件组发布后,这一协议被几乎所有的搜索引擎采用,包括最早的altavista,infoseek,后来的google,bing,以及中国的百度,搜搜,搜狗等公司也相继采用并严格遵循。Robot,又称Spider,是搜索引擎自动获取网页信息的电脑程序的通称。Robots协议的核心思想就是要求Robot程序不要去检索那些站长们不希望被直接搜索到的内容。将约束Robot程序的具体方法规范成格式代码,就成了Robots协议。一般来说,网站是通过Robots.txt文件来实现Robots协议。自有搜索引擎之日起,Robots协议已是一种目前为止最有效的方式,用自律维持着网站与搜索引擎之间的平衡,让两者之间的利益不致过度倾斜。它就像一个钟摆,让互联网上的搜索与被搜索和谐相处。

robots协议

robots协议是什么?

Robots是一个英文单词,对英语比较懂的朋友相信都知道,Robots的中文意思是机器人。而我们通常提到的主要是Robots协议,Robots.txt被称之为机器人或Robots协议(也称为爬虫协议、机器人协议等)它的全称是“网络爬虫排除标准”

英文“RobotsExclusionProtocol”这也是搜索引擎的国际默认公约。我们网站可以通过Robots协议从而告诉搜索引擎的蜘蛛哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式,是用来指引搜索引擎更好地抓取网站里的内容。

比如说,一个搜索蜘蛛访问一个网站时,它第一个首先检查的文件就是该网站的根目录里有没有robots.txt文件。

如果有,蜘蛛就会按照该文件中的条件代码来确定能访问什么页面或内容;如果没有协议文件的不存在,所有的搜索蜘蛛将能够访问网站上所有没有被协议限制的内容页面。

而百度官方上的建议是:仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件进行屏蔽。而如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

Robots协议是什?Robots协议是什么

Robots协议用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。

robots协议

什么是Robots协议?360违反Robots协议会导致网民隐私?

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),Robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,而不是作为搜索引擎之间互相限制和不正当竞争的工具。

如果黑客做搜索引擎,不遵守robots协议,那世界不是完了?

robots协议就好比你到一个景点旅游,在这个景点有一部分写着此景点暂停开放,这样游客就不能进这样的景点了。类比过来,这个暂停开放的标志就是robots协议,这个游客就是指搜索引擎。

如果有小偷或者坏蛋,或者不遵守规则的人,无视暂停开放的警告,硬闯暂停开放的景点,这也是可以进去的。要是黑客做搜索引擎,不遵守robots协议是很正常的。,但世界不会完蛋。

Robots协议就是对搜索引擎的警告,不允许搜索引擎进去,但是普通的用户打开一个网站是可以看到不允许搜索引擎看的内容的,比如淘宝全站robots,但是普通用户都可以自由进入淘宝,还可以在淘宝买自己喜欢的东西,但是搜索引擎是一点也看不到的。

Robots协议是是对搜索引擎的禁止,有人说robots可以保护私人秘密,这完全扯淡,你既然把你的东西放在网站上,就是想要有人看,有人浏览,除非你如淘宝一样,不需要搜索引擎带来的流量,靠“淘宝”这个品牌效应就可以做到最大。如果说网站的用户信息怕泄露给搜索引擎,这也是扯淡,别把搜索引擎当作神,它只是个小孩而已。搜索引擎是以网页的形式抓取,除非你把用户信息做成网页放到网站上,否则不会的。

百度说360违反了robots协议,就是因为360抓取了百度的网页内容,百度robots掉了360,不允许360抓取百度的内容,但是360还是抓取了,我想这就是全部的内容,所谓的用户体验、安全之类的全都是废话和借口,是找不到话说时的什么话都敢说。

robots就是一个协议,可以遵守也可以不遵守,就像暂停开放一样,当来了个政府大员想进去还能暂停开放吗?就像在公交车给老人让座一样,你可以让座,也可以不让座,让座是一种美德,你可以要,也可以不要,这跟你是好是坏没有关系。但是社会压力和政府强迫你让座,那他们是违反你自己的意愿,他们都是无耻的,他们比道德败坏者还要道德败坏。照你这么说社会道德也就没用了呗?干点什么事情都得签合同,用法律来限制,买包方便面都得走程序。这样一来就不用所谓的协议了。没这么NB的!这些事本身就是在相互抵毁对方,当然什么事都可能出来,!!!用户的隐私并不是直接放在网页上的,都是存放在服务器对应的数据库里面,想要获取相应的数据除非是破了服务器,不过服务器不是这么容易就能破的,还有能获取用户隐私的一般都是在浏览器上的cookies、痕迹,360有没有把这些上传到它服务器就不知道了,两家利益的事,不过360你好好做你的防毒不就好了,硬要插只脚进搜索这块Robots协议是什么?在百科网站里的定义,robot协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

当搜索蜘蛛访问站点时,它会首先检查网站根目录下是否存在Robots.txt。如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

Robot协议对于小白用户并不重要,之前也并不广为人知。最近和Robots相关的新闻都发生在电子商务网站,之前有两个:一个是京东屏蔽一淘的蜘蛛,另一个是淘宝屏蔽百度的蜘蛛。现在,3B大战闹得很凶,很多人把Robot协议拿出来说事儿。

而在我看来,Robot充其量是互联网江湖规矩、“潜规则”而已。

Robot协议不是行业标准,只是“搜索引擎的家规”。没那么夸张,道高一尺,魔高一丈.到一定的时候一定会出现代替robots协议的东西的

robots协议

robots是什么意思?

robots “机器人”,

网站优化领域即搜索引擎机器人,搜索引擎是根据自定的算法自动抓取网站、网页的,而负责这个任务的就是这个各个搜索引擎的robots。eg:Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为BaiDuSpider, Yahoo网络蜘蛛的标识为Inktomi Slurp机器人协议。robots是一个英文单词,对英语比较懂的朋友相信都知道,robots的中文意思是机器人。而我们通常提到的主要是robots协议,这也是搜索引擎的国际默认公约。

robots协议通常被称为是爬虫协议、机器人协议,主要是在搜素引擎中会见到,其本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,而不是作为搜索引擎之间互相限制和不正当竞争的工具。

百度为什么称360违反robots协议呢?主要是因为百度认为360搜素对自身产生了竞争,百度不希望自己旗下的贴吧,文库,知道,百科等网站产品,被360搜素收录,并且在robots协议中标注屏蔽360搜素,而360直接绕过了robots协议继续采集百度旗下产品网站的信息,因此被百度起诉。

简单的说,任何网站只要在其robots协议中加入禁止某搜索引擎访问,那么该搜索引擎就无权收录该网站的内容。而robots的重要性在于,一个网站有权利可以存在于互联网中,但又不被指定的搜索引擎索引放到搜索结果中,因为搜索引擎在互联网上就像国王,网站就是每个人的小家,而robots协议则是对抗国王的最后利器,正所谓“风能进雨能进国王不能进”。

在网站中,robots协议是一个记事本文件,我们只要将robots.txt文件放置在网站跟目录,里边可以标注,哪些网站目录不希望被搜索引擎抓取即可,其格式如下图所示:

英文中“机器人”的复数形式

原创文章,作者:墨搜网络,如若转载,请注明出处:https://www.moyuseo.com/feyu/680.html

(0)
墨搜网络墨搜网络
上一篇 2021年12月5日 下午3:28
下一篇 2021年12月5日 下午3:28

相关推荐

分享本页
返回顶部
欢迎来到互联网运营人学习交流技术网站!