当前位置:首页 » 手机修图 » 禁止搜索引擎抓取页面图片
扩展阅读
女生和渣男搞笑图片 2023-08-31 22:07:09
嘻嘻长什么样图片 2023-08-31 22:06:10

禁止搜索引擎抓取页面图片

发布时间: 2023-02-02 17:55:03

㈠ 如何屏蔽搜索引擎

我们在做网站时,有些目录或者文件不希望搜索引擎蜘蛛搜索到,比如后台,重要页面或文件。那么我们这时该怎么办呢?最简单的方法是修改robots.txt文件和网页中的robots Meta标签。
robots.txt文件是做什么的,robots文件又称robots协议(也称为爬虫协议、爬虫规则、机器人协议等)robots协议是告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。robots协议不是命令,它只是一个网站国际互联网界通行的道德规范,知名的引擎蜘蛛都会遵守这个协议,只有一些缺乏职业道德的搜索引擎会绕开它。所以修改这个协议也不是万能保险的。
robots.txt文件是一个放置在网站根目录下的记事本文件,当搜索蜘蛛访问网站时,它会先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。网络官方建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
robots文件屏蔽的写法
下面是一个网站的robots文件的代码样式。
===================================================================================
User-agent: *
Disallow: /plus/ad_js.php
Disallow: /plus/advancedsearch.php
Disallow: /plus/car.php
Disallow: /plus/carbuyaction.php
Disallow: /plus/shops_buyaction.php
Disallow: /plus/erraddsave.php
Disallow: /plus/posttocar.php
Disallow: /plus/disdls.php
Disallow: /plus/feedback_js.php
Disallow: /plus/mytag_js.php
Disallow: /plus/rss.php
Disallow: /plus/search.php
Disallow: /plus/recommend.php
Disallow: /plus/stow.php
Disallow: /plus/count.php
Disallow: /include
Disallow: /templets
===================================================================================

我们来看一下它的意思。
robots文件中应同时包含2个域,“User-agent:”和“Disallow:”,其中User-agent:代表允许、 Disallow: 代表禁止。每条指令独立一行。并且User-agent必须出现在第一行(有意义的行,注释除外),首先声明用户代理。
User-agent:
User-agent:指定允许哪些蜘蛛抓取,如果给出参数,则只有指定的蜘蛛能够抓取;如值为通配符“*”号,代表允许所有蜘蛛抓取。如:
User-agent: Googlebot
只允许Google的蜘蛛抓取。
User-agent: spider
只允许网络的蜘蛛抓取。
User-agent: *
这个是指允许所有蜘蛛抓取,*为通配符,代表所有。
Disallow:
这个是表示禁止蜘蛛抓取的,以上面的robots文件为例。
Disallow: /plus/ad_js.php
这个是指禁止引擎蜘蛛抓取网站中plus目录中的ad_js.php文件
Disallow: /include
这个是指禁止引擎蜘蛛抓取网站中include整个目录,它和Disallow: /include/不是等同的。
Disallow: /include/
这个是指禁止引擎蜘蛛抓取网站中include目录下面的目录,但include目录中的文件蜘蛛仍然可以抓取。
Disallow: /cgi-bin/*.htm
禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?*
禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$
禁止抓取网页所有的.jpg格式的图片
Allow:
这是允许的意思。
Allow: /include/
这里是允许爬寻include目录下面的目录
Allow: /include
这里是允许爬寻include整个目录
Allow: .htm$
仅允许访问以".htm"为后缀的URL。
Allow: .gif$
允许抓取网页和gif格式图片
Sitemap:
网站地图 告诉爬虫这个页面是网站地图
robot文件的常见用法
例1. 禁止所有搜索引擎访问整个网站。
User-agent: *
Disallow: /
例2.禁止网络蜘蛛访问整个网站。
User-agent: spider
Disallow: /
例3.允许所有搜索引擎访问(也可以建立一个空robots.txt文件或者不建立robots文件)
User-agent: *
Allow:/
User-agent:后的*具有特殊的含义,代表“any robot”,所以在该文件中不能有“Disallow: /tmp/*” or “Disallow:*.gif”这样的记录出现。
robots Meta标签屏蔽法
robots.txt是放在网站中,文件级的网络蜘蛛授权;而robots Meta标签是放在网页中,一般用于部分网页需要单独设置的情况下。两者的功能是一样的。
Meta robots标签必须放在<head>和</head>之间,格式:
<meta name=”robots” content=”index,follow” />
content中的值决定允许抓取的类型,必须同时包含两个值:是否允许索引(index)和是否跟踪链接(follow,也可以理解为是否允许沿着网页中的超级链接继续抓取)。共有4个参数可选,组成4个组合:
index,follow:允许抓取本页,允许跟踪链接。
index,nofollow:允许抓取本页,但禁止跟踪链接。
noindex,follow:禁止抓取本页,但允许跟踪链接。
noindex,nofllow:禁止抓取本页,同时禁止跟踪本页中的链接。
以上1和4还有另一种写法:
index,follow可以写成all,如:
<meta name=”robots” content=”all” />
noindex,nofollow可以写成none,如:
<meta name=”robots” content=”none” />
需要注意的是,robots Meta标签很多搜索引擎是不支持的,只有少数搜索引擎能够识别并按给定的值抓取。所以,尽可能的使用robots.txt文件来限制抓取。

㈡ 如何屏蔽搜索蜘蛛抓取我网站上的电话号

图片的方法是可以的。
尽量不要设置robot 设置robots可以禁止搜索引擎收录你的联系我们页面,这样就无法收录里面电话号码信息了,但影响网站收录总是不好的,图片的方法就可以。

㈢ 网站robots.txt有这句话什么意思

您好,

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符,意思是针对所有搜索引擎都生效

比如这个

User-agent:Baispider

这个表示User-agent: Baispide这句以下的规则只针对网络蜘蛛,对其他搜索引擎无效

Disallow: /search.html表示禁止收录/search.html这个页面

一般情况下,搜索页面都没必要让蜘蛛收录的,出于对搜索引擎的友好,一般会禁止搜索引擎抓取


比如我博客的robots是这样的

User-agent: *
sitemap: http://www.itbyc.com/sitemap.xml
sitemap: http://www.itbyc.com/sitemap.txt
Disallow: /plus/
Disallow: /t
User-agent: Baispider
Disallow: /ap

User-agent: MJ12bot
Disallow: /
User-agent: Googlebot
Disallow: /-*/


此外

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。

Allow: /cgi-bin/这里定义是允许爬寻cgi-bin目录下面的目录

Allow: /tmp 这里定义是允许爬寻tmp的整个目录

Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片

Sitemap: 网站地图 告诉爬虫这个页面是网站地图


㈣ 搜索引擎对图片的抓取

搜索引擎对图片的抓取

不能。

搜索引擎抓取图片的原理是什么?

你可以去安可培训官网看看,他们可以教会你大量的知识 搜安可培训

如何搜索引擎自动抓取网站图片

搜索引擎是指网络谷歌之类的?那是不能抓取网站图片的吧!用迅雷的下载所有链接可以下载网站上的图片。还有一些其他的可以分析网站的软件可以抓取。

搜索引擎对图片的关注度有哪些?

每个连接都是经过搜索引擎的一套算法得出的顺序,根据流量 连接速度之类的因素组成

专门搜索图片的搜索引擎

:pic./
全球最专业的原创图片搜索引擎
:cphoto./
中国搜图网

如何屏蔽搜索引擎抓取

第一种、robots.txt方法
搜索引擎默认的遵守robots.txt协议,创建robots.txt文本文件放至网站根目录下,编辑代码如下:
User-agent:*
Disallow:
通过代码,即可告诉搜索引擎不要抓取采取收录本网站。
第二种、网页代码
在网站首页代码<head>与</head>之间,加入<metaname="robots"content="noarchive">代码,此标记禁止搜索引擎抓取网站并显示网页快照。
如何禁止网络搜索引擎收录抓取网页
1、编辑robots.txt文件,设计标记为:
User-agent:Baispider
Disallow:/
2、在网站首页代码<head>与</head>之间,加入<metaname="Baispider"content="noarchive">即可禁止网络搜索引擎抓取网站并显示网页快照。
3、联系网络管理人员,用网站联系人信箱发电邮,如实说明删除网页快照的情况,经网络核实后,网页停止收录抓取。
4、登陆网络自己的“网络快照”帖吧和“网络投诉”帖吧,发个帖子,表明删除网页收录网站快照的原因,当网络管理人员,看到会给予处理。
如何禁止Google搜索引擎收录抓取网页
1、编辑robots.txt文件,设计标记为:
User-agent:googlebot
Disallow:/
2、在网站首页代码<head>与</head>之间,加入<metaname="googlebot"content="noarchive">即可禁止网络搜索引擎抓取网站并显示网页快照。

韩国可以搜索图片的搜索引擎?

:search.naver./search.naver?where=nexearch&query=%C7%D1%B0%E6& *** =tab_hty

提高网页被搜索引擎抓取?

讲一个被很多SEO们误解的重要概念。很久以前,搜索引擎的爬虫(机器人)大部分时间都会递归地抓取某个网站(通过你提交的网站首页网址,然后通过网页上发现的链接抓取这些链接所指向的网页,周而复始)。但现在不是那么回事了,就像下面的图一样,搜索引擎的爬虫抓取时会有多个进入点,并且每个进入点都同样重要,然后再从这些进入点向外扩散,进行抓取。
那我们看看有什么方能提高网页被搜索引擎抓取、索引和排名的方法:

站点不向任何搜索引擎提交,搜索引擎会来抓取吗?

网络会收取的··网络不定期的会进行这一工作,不过不会那么简单。
当然天下没免费的午餐,通常想推广自己的网站都要到知名的名站上“放血”打广告链接。

搜索引擎到底会不会抓取图片,js,fhash内容

网页组成内容无非就是文字,图片,js,动画flash,视频元素,早在几年前,在搜索引擎发展初级阶段的时候,搜索引擎的抓取内容方式是及其原始和简陋的,而且只能抓取网页的title等页头部分。
当时站长群也很少,而且做一个关键词也非常容易,主要随便修改一下网页的标题就可以达到很好的排名,随着搜索引擎数据发掘技术的发展,搜索引擎慢慢会尝试去抓取更多的东西,比如网页的其他文字内容,并且不再将网页标题作为唯一的排名标准,并且加入了很多其他的算法来给一个网站在搜索引擎上综合的排名。
目前来说,网络能够很好的识别和把握中文内容,不然也不会对外号称自己是全球第一大中文搜索引擎,对图片能够有一定程度的识别,而对flas *** 和视频抓取技术还比不上google;谷歌虽然不主张站长使用动画来作为网站主要展示内容的方式,但是经过大家试验,一些简单的flas *** 内的问题google能够很好的识别,并将该元素内抓取的内容作为网站综合排名的依据,而网络似乎还是停留在文字和图片基础上。
谷歌对于一些单色背景图片能够很好的识别,比如黑色背景上打上白色的字,谷歌的识别几乎达到了100%。

㈤ robots里要禁止搜索引擎抓取css js 和图片吗

一般都是禁止的吧。

㈥ 在网站优化中,出现文章不收录或者收录慢的原因有哪些呢

网络不收录怎么办

一、搜索引擎不收录文章到底是什么原因导致的?

1、网站是新站

如果网站是新站,那么网站是在审核期,搜索引擎对网站的信任度还很低,文章收录率比较低这是正常现象,原因是网站并没有在搜索引擎获得足够的综合页面评分数,所以大部分新站只是收录了首页,或一两个内页链接。一般搜索引擎在新站停留时间不会很久的!

解决方法:

①、建议把网站首页和内页进行发布一下外链,诱惑蜘蛛来爬取,进而增加spider在网站的停留时间!

②、到网络站长平台提交链接,为spider提供爬取通道入口

2、网站的文章大部分是采集复制过来的

网站的文章大部分是采集复制过来的,导致网站文章不收录或者收录率极低,该怎么增加网站的收录呢?这种情况目前在互联网上情况最多的,情况基本出于你网站没有得到搜索引擎的信任,没有新鲜内容的支撑。反之,有些网站即使伪原创也可以达到秒收,那也是该网站已经得到搜索引擎很高的信任度了。面对大部分网站是采集或者伪原创,而相对都比较渴望得到解决方法,而往往都没有真正的被解决!下面这几种方法会为你解决这个问题!

解决方法:

①、通过网络站点工具主动推送和外链发布引诱spider来网站抓取文章,如果过了一两天都还没收录,可以通过网站日记查看spider是否有在抓取这条连接,如果有在抓取连接,但是就是不收录,那么就要进行下一步计划了!

②、修改标题以及内容正文的开头部分,没错,进行修改一下这篇文章的标题以及内容,spider有在抓取这条页面连接但是就是不收录,说明这篇文章重复率相似度很高,搜索引擎索引库已经存有大量同样/相似的文章,没有必要再去收录了。通过修改文章标题以及内容这是很有效的办法,如果还不收录再继续修改一下正文的内容,这样收录将有很大的提升。

③、在各种不同的平台,多发布几次外链,并在底部填写该页面的链接,对该页面也有一定增加收录的。

④、重新更新制作一个sitemap文件,把网站的链接全部提交网络站长平台的链接提交选项进行提交。老虎sitemap生成器可以实行效果,这种情况使用最好是一个网站大量文章是采集得来的,对此这种方法还是有一定的帮助的。

3、更新文章的都是过时过期的文章,老生常谈之内容。

有些网站更新的文章都是一些过期过时的、老生常谈的内容,搜索引擎都不知道过滤N遍了,居然在你网站又出来,然后结果肯定是悄悄地来,轻轻地走。所以即使采集也要采集一些新鲜内容,这样收录率才会有所提升。到了这里,可能有些SEOER会问我,SEO文章不就是那几篇文章写来写去吗?那你告诉我什么是新鲜内容。我只想说,你不去创新,永远都是采集来的文章,那为什么别人又可以创作新鲜的内容呢?

解决方法:

①、多去一些问答平台,交流论坛去走动,看看他们交流的一些核心问题还有什么是没有解决的?然后你通过各种资源、人脉、网络整理出一个新颖的文章。

②、给网站写一些独特软文、故事式软文,增加网站的新鲜血液,提升网站的原创性对网站的收录率有很大的提升。

4、内容出现敏感词,spider排斥

写文章尽量使用一些规范的语句来描述,不要弄一些用户无法看懂,spider无法识别繁字体,特别是一些网络和论坛都屏蔽的语句,也许是文章内容存有敏感词而导致文章不收录索引呢!虽然这种情况存在几率较小,但是还是有一定的几率存在的。

解决办法:

①、在不收录的页面自行检查是否存在敏感词,也可以在网络搜索敏感词在线检测工具进行检测,把一些存有敏感词的语句去掉。

5、文章更新的是原创文章,但还是不收录或者收录较慢

像这种情况,是因为网站在搜索引擎的索引库页面综合评分不是高,搜索引擎对网站的青睐度是很低的。

解决办法:

①、更新一些新鲜内容,不要更新的一些文章是二次制作,过时过期、老生常谈的文章内容。

②、为网站多制作一些链接爬取通道,比如多交换几条友链,各平台外链的发布,诱引蜘蛛来网站抓取链接。

③、对网站进行整站优化,提升网站的综合评分,spider不来收录,有很大的因素是因为网站的综合评分不高,这时候要把网站综合评分提高,比如把一些不参与排名的页面链接用nofollow标签掉,并更新一些高质量的文章,吸引更多用户来网站浏览,把控好页面的跳出率,尽量原创最好。但是低质量的原创文章还是不要更新,什么是低质量的文章?写的文章网络观点千篇一律,只是稍微换种说法,二次创作罢了,网络搜索切词技术还是挺强大,还是能够检测出来的。

6、频繁修改标题和网站结构以及网站标签也会影响收录

网站如果经常修改标题和网站结构及标签,会被搜索引擎重新拉入观察室,重新对网站进行考察以及排名排序,不仅降低搜索引擎对网站信任度,甚至还有可能引发降权的迹象,而且对网站的收录也有一定阻碍,网络快照日期也不会更新。

解决办法:

①、到网络服务中心/快照更新投诉到网络中心审核,进行网络快照申诉更新,可以加快快照的更新速度。

②、多更新几篇高质量原创内容进行恢复排名,网络快照和排名会有所恢复。

文章不收录原因全解附带解决办法

二、导致网络搜索引擎不收录文章的其他因素

7、robots文件禁止搜索引擎抓取

是否在最近有动过robots文件设置,不小心把文章html的链接都禁止爬取了,到网络站长平台进行检查一番,如果存在有异常,直接到后台修改回来即可!

8、网站存在大量404、503没有进行处理,影响页面索引

如果网站存有大量404、503错误页面,会导致搜索引擎很难抓取页面的,对于搜索引擎来说,你网站的内容价值和链接数量决定搜索引擎在你网站的停留时长,而且存于大量死链对网站的综合评分也会有所降低的,所以一定要及时地去处理好死链。

解决办法:可以利用一些死链检测工具来为网站检测,比如:xenu、爱站工具等去检测死链,然而把死链连接放在txt格式文件,上传到网站根目录,最后到网络站长平台死链提交选项,把死链文件提交上去等待即可!

9、网站优化过度,网站降权引起的网络不收录

网站无论优化过度还是出现降权了,都是导致spider不收录页面的,这时候需要自己分析最近几天对网站做了什么,是否不小心导致优化过度了,或者做了一些令搜索引擎排斥的事情,思考分析一下,找出原因并修改回来即可!

10、频繁在主动推送提交未收录页面

文章编辑发布后,一般人都会去网络站长平台提交链接或者主动推送链接,这本来是好事,但是你看着文章提交链接好几天了还不收录,于是你每天都去提交一篇这条链接,甚至有些还是提交几次来着,咬着牙说,看你还不收录。但是往往你越是这样,网站对收索引擎信任度越低。我们知道网站内容页收录,涉及到搜索引擎最基本的原理,那就是爬行,抓取,建立索引,收录等过程,这原本是搜索引擎来网站抓取主动行为啊,你要明白,网络提供提交链接入口,主要原因是维护原创的利益,让SEO优化的人员编辑文章发布后,第一时间提交链接为搜索引擎提供爬取入口来网站抓取,防止被其他人抄袭。但是站长们完全搞混了当初网络建立主动推送的真正意义。

解决办法:原创文章编辑发布后,使用主动推送入口最后,更快能让搜索引擎来抓取网站文章链接,但是你提交链接后就不要再提交了,可以通过日记分析搜索引擎有没有来网站抓取该链接,如果抓取了,但还是没有收录,这时候你不要再去推送链接,可以适当地去修改一下文章的标题及内容,也有可能是你文章标题在互联网上已经存在一模一样的,或者文章已经存在千篇一律,适当地去修改能够使搜索引擎更好的收录。

11、服务器问题

若是服务器响应速度慢,经常会出现打不开,那么spider来网站抓取页面就会收到阻碍。从所周知,搜索引擎来网站抓取页面的时间是有限制的,当然网站权重越高,抓取页面时间越长。如果导致大量服务器访问速度稳慢的因素存在,或者主机空间是国外或者是香港主机,那么就会导致搜索引擎来网站抓取页面的速度没有达到最佳效果,也许没有抓取几个页面,搜索引擎就离开了网站了。

解决办法:

①、建议购买国内备案主机服务器,一个网站想要长期发展,好的服务器是必须具备的,无论是对用户访问还是对搜索引擎抓取页面好处还是很显然的。

②、利用好robots文件,也能让搜索引擎很好的抓取页面,把一些不参与排名和无需抓取的页面Disallow掉,让搜索引擎不必在不重要的页面徘徊抓取,让搜索引擎放在重要的页面抓取,省掉不必要的抓取时间。

③、减少HTTP请求提高网站的访问速度,尽可能的减少页面中非必要的元素,一般由图片、form、flash等等元素都会发出HTTP请求,合并脚本和CSS文件可以使网站减少HTTP请求。

④、网站避免出现过量的死链,也会使搜索引擎重复抓取死链浪费抓取配额时间,从而影响网站收录,而且大量出现死链会降低网站的综合评分,所以及时的发现死链并处理掉就变得尤其重要。

后记:

我们在做SEO优化中,有时候往往会出现文章突然不收录或者其他各种问题,但是往往越到这时候我们越不能乱,冷静下来分析最近做了什么改动,或者网站出现了什么异常,找出原因是什么导致的,并修复才能使搜索引擎很好的收录网站页面。

㈦ 用robots.txt屏蔽站外URL怎么写

什么样的URL需要robots.txt 禁止搜索引擎蜘蛛抓取呢?
1.同时存在动态和静态URL
通常情况下很多网站都会对URL进行静态化,但是很多时候在网站的运营过程中,往往导致动态URL也被抓取了,比如营销部门不小心用动态URL来推广,比如产品部门不小心也用了动态URL,这个时候就会导致两个不一样的URL对应相同的内容,这对搜索引擎来讲是不友好的,也会导致权重的分散,或者导致搜索引擎抓取的页面不是站长需要的,这时候就需要用robots.txt来屏蔽动态的URL了。
2.有些内容我们不需要搜索引擎进行抓取
大家都知道淘宝不希望被网络抓取,淘宝认为他的商品页面最具价值,不希望网络收录之后导致用户搜索商品到来网络搜索,这样对淘宝来讲是不利益的,所以淘宝就屏蔽了网络的抓取,自然淘宝也少了很多流量。
我们有些会员信息,网站程序URL等都不希望被搜索引擎抓取,那么也可以用robots.txt进行屏蔽。
利用robots.txt 禁止不想被收录的url的好处:
1.重复的URL被屏蔽之后,有利于权重的积累
2.屏蔽一些无效的URL能提高搜索引擎的抓取效率,因为搜索引擎到网站的时间是固定的,那么如果有很多无效的URL,对于大型网站来讲,比如几千万级别的,搜索引擎花了大量的时间处理无效的URL,自然对有效的URL处理的时间就会减少,自然就会导致收录有问题。
robots.txt的撰写规则:
robots.txt文件是一个文本文件,使用任何一个常见的文本编辑器,比如Windows系统自带的Notepad,就可以创建和编辑它[2]。robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。网络官方建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

如果将网站视为酒店里的一个房间,robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。这个文件告诉来访的搜索引擎哪些房间可以进入和参观,哪些房间因为存放贵重物品,或可能涉及住户及访客的隐私而不对搜索引擎开放。但robots.txt不是命令,也不是防火墙,如同守门人无法阻止窃贼等恶意闯入者。

User-agent: * 这里的代表的所有的搜索引擎种类,是一个通配符

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

Disallow: /?禁止访问网站中所有的动态页面

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。

Allow: /cgi-bin/这里定义是允许爬寻cgi-bin目录下面的目录

Allow: /tmp 这里定义是允许爬寻tmp的整个目录

Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片

㈧ 如何设置robots.txt禁止或只允许搜索引擎抓取特定目录

网站的robots.txt文件一定要存放在网站的根目录。搜索引擎来网站抓取内容的时候,首先会访问你网站根目录下的一个文本文件robots.txt,搜索引擎机器人通过robots.txt里的说明,来理解该网站是否可以全部抓取,或只允许部分抓取。注意:网站的robots.txt文件一定要存放在网站的根目录。robots.txt文件举例说明
禁止所有搜索引擎访问网站的任何内容
User-agent: *
Disallow: / 禁止所有搜索引擎抓取某些特定目录
User-agent: *
Disallow: /目录名1/
Disallow: /目录名2/
Disallow: /目录名3/ 允许访问特定目录中的部分url
User-agent: *
Allow: /158
Allow: /joke 禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*
仅允许网络抓取网页和gif格式图片,不允许抓取其他格式图片
User-agent: Baispider
Allow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$ 1.屏蔽404页面
Disallow: /404.html 2.屏蔽死链
原来在目录为/158下的所有链接,因为目录地址的改变,现在都变成死链接了,那么我们可以用robots.txt把他屏蔽掉。
Disallow: /158/ 3.屏蔽动态的相似页面
假设以下这两个链接,内容其实差不多。
/XXX?123/123.html我们要屏掉/XXX?123 页面,代码如下:
Disallow: /XXX? 4.告诉搜索引擎你的sitemap.xml地址

㈨ robots文件主要是屏蔽网站的哪些页面

你好,具体哪些网站的目录需要使用robots.txt文件禁止抓取:
1)、图片目录图片是构成网站的主要组成元素。随着现在建站越来越方便,大量CMS的出现,真正做到了会打字就会建网站,而正是因为如此方便,网上出现了大量的同质化模板网站,被反复使用,这样的网站搜索引擎是肯定不喜欢的,就算是你的网站被收录了,那你的效果也是很差的。如果你非要用这种网站的话,建议你应该在robots.txt文件中进行屏蔽,通常的网站图片目录是:imags或者img;
2)、网站模板目录如上面图片目录中所说,CMS的强大和灵活,也导致了很多同质化的网站模板的出现和滥用,高度的重复性模板在搜索引擎中形成了一种冗余,且模板文件常常与生成文件高度相似,同样易造成雷同内容的出现。对搜索引擎很不友好,严重的直接被搜索引擎打入冷宫,不得翻身,很多CMS有拥有独立的模板存放目录,因此,应该进行模板目录的屏蔽。通常模板目录的文件目录是:templets
3)、CSS、JS目录的屏蔽CSS目录文件在搜索引擎的抓取中没有用处,也无法提供有价值的信息。所以强烈建议站长朋友们在Robots.txt文件中将其进行屏蔽,以提高搜索引擎的索引质量。为搜索引擎提供一个简洁明了的索引环境更易提升网站友好性。CSS样式的目录通常情况下是:CSS或者styleJS文件在搜索引擎中无法进行识别,这里只是建议,可以对其进行屏蔽,这样做也有一个好处:为搜索引擎提供一个简洁明了的索引环境;
4)、屏蔽双页面的内容这里拿DEDECMS来举例吧。大家都知道DEDECMS可以使用静态和动态URL进行同一篇内容的访问,如果你生成全站静态了,那你必须屏蔽动态地址的URL链接。这里有两个好处:1、搜索引擎对静态的URL比动态的URL更友好、更容易收录;2、防止静态、动态URL能访问同一篇文章而被搜索引擎判为重复内容。这样做对搜索引擎友好性来说是有益无害的。
5)、模板缓存目录很多CMS程序都有缓存目录,这种缓存目录的好处我想不用说大家也清楚了吧,可以非常有效的提升网站的访问速度,减少网站带宽,对用户体验也是很好的。不过,这样的缓存目录也有一定的缺点,那就是会让搜索引擎进行重复的抓取,一个网站中内容重复也是大祭,对网站百害而无一利。很多使用CMS建站的朋友都没有注意到,必须要引起重视。
6)被删除的目录死链过多,对搜索引擎优化来说,是致命的。不能不引起站长的高度重视,。在网站的发展过程中,目录的删除和调整是不可避免的,如果你的网站当前目录不存在了,那必须对此目录进行robots屏蔽,并返回正确的404错误页面(注意:在IIS中,有的朋友在设置404错误的时候,设置存在问题,在自定义错误页面一项中,404错误的正确设置应该是选择:默认值或者文件,而不应该是:URL,以防止搜索引擎返回200的状态码。至于怎么设置,网上教程很多,大家要吧搜索一下)
这里有一个争议性的问题,关于网站后台管理目录是否需要进行屏蔽,其实这个可有可无。在能保证网站安全的情况下,如果你的网站运营规模较小,就算网站管理目录出现在robots.txt文件中,也没有多大问题,这个我也见过很多网站这样设置的;但如果你的网站运营规模较大,竞争夺手过多,强烈建议千万别出现任何你网站后台管理目录的信息,以防被别有用心的人利用,损害你的利益;其实搜索引擎越来越智能,对于网站的管理目录还是能很好的识别,并放弃索引的。
另外,大家在做网站后台的时候,也可以在页面元标签中添加:进行搜索引擎的屏蔽抓取。
最后,需要说明一点,很多站长朋友喜欢把站点地图地址放在robots.txt文件中,当然这里并不是去屏蔽搜索引擎,而是让搜索引擎在第一次索引网站的时候便能通过站点地图快速的抓取网站内容。

希望对楼主有帮助,望采纳。

㈩ 如何设置网站只文章文章图片抓取,其它不抓取

最简单的方法就是你将网站图片跟文章图片分开存放,而且不要将文章图片设置为网站图片的目录的子目录,否则你这条命令会造成网站所有图片都不被抓取。