㈠ 如何屏蔽搜索引擎
我們在做網站時,有些目錄或者文件不希望搜索引擎蜘蛛搜索到,比如後台,重要頁面或文件。那麼我們這時該怎麼辦呢?最簡單的方法是修改robots.txt文件和網頁中的robots Meta標簽。
robots.txt文件是做什麼的,robots文件又稱robots協議(也稱為爬蟲協議、爬蟲規則、機器人協議等)robots協議是告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。robots協議不是命令,它只是一個網站國際互聯網界通行的道德規范,知名的引擎蜘蛛都會遵守這個協議,只有一些缺乏職業道德的搜索引擎會繞開它。所以修改這個協議也不是萬能保險的。
robots.txt文件是一個放置在網站根目錄下的記事本文件,當搜索蜘蛛訪問網站時,它會先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。網路官方建議,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件。
robots文件屏蔽的寫法
下面是一個網站的robots文件的代碼樣式。
===================================================================================
User-agent: *
Disallow: /plus/ad_js.php
Disallow: /plus/advancedsearch.php
Disallow: /plus/car.php
Disallow: /plus/carbuyaction.php
Disallow: /plus/shops_buyaction.php
Disallow: /plus/erraddsave.php
Disallow: /plus/posttocar.php
Disallow: /plus/disdls.php
Disallow: /plus/feedback_js.php
Disallow: /plus/mytag_js.php
Disallow: /plus/rss.php
Disallow: /plus/search.php
Disallow: /plus/recommend.php
Disallow: /plus/stow.php
Disallow: /plus/count.php
Disallow: /include
Disallow: /templets
===================================================================================
我們來看一下它的意思。
robots文件中應同時包含2個域,「User-agent:」和「Disallow:」,其中User-agent:代表允許、 Disallow: 代表禁止。每條指令獨立一行。並且User-agent必須出現在第一行(有意義的行,注釋除外),首先聲明用戶代理。
User-agent:
User-agent:指定允許哪些蜘蛛抓取,如果給出參數,則只有指定的蜘蛛能夠抓取;如值為通配符「*」號,代表允許所有蜘蛛抓取。如:
User-agent: Googlebot
只允許Google的蜘蛛抓取。
User-agent: spider
只允許網路的蜘蛛抓取。
User-agent: *
這個是指允許所有蜘蛛抓取,*為通配符,代表所有。
Disallow:
這個是表示禁止蜘蛛抓取的,以上面的robots文件為例。
Disallow: /plus/ad_js.php
這個是指禁止引擎蜘蛛抓取網站中plus目錄中的ad_js.php文件
Disallow: /include
這個是指禁止引擎蜘蛛抓取網站中include整個目錄,它和Disallow: /include/不是等同的。
Disallow: /include/
這個是指禁止引擎蜘蛛抓取網站中include目錄下面的目錄,但include目錄中的文件蜘蛛仍然可以抓取。
Disallow: /cgi-bin/*.htm
禁止訪問/cgi-bin/目錄下的所有以".htm"為後綴的URL(包含子目錄)。
Disallow: /*?*
禁止訪問網站中所有包含問號 (?) 的網址
Disallow: /.jpg$
禁止抓取網頁所有的.jpg格式的圖片
Allow:
這是允許的意思。
Allow: /include/
這里是允許爬尋include目錄下面的目錄
Allow: /include
這里是允許爬尋include整個目錄
Allow: .htm$
僅允許訪問以".htm"為後綴的URL。
Allow: .gif$
允許抓取網頁和gif格式圖片
Sitemap:
網站地圖 告訴爬蟲這個頁面是網站地圖
robot文件的常見用法
例1. 禁止所有搜索引擎訪問整個網站。
User-agent: *
Disallow: /
例2.禁止網路蜘蛛訪問整個網站。
User-agent: spider
Disallow: /
例3.允許所有搜索引擎訪問(也可以建立一個空robots.txt文件或者不建立robots文件)
User-agent: *
Allow:/
User-agent:後的*具有特殊的含義,代表「any robot」,所以在該文件中不能有「Disallow: /tmp/*」 or 「Disallow:*.gif」這樣的記錄出現。
robots Meta標簽屏蔽法
robots.txt是放在網站中,文件級的網路蜘蛛授權;而robots Meta標簽是放在網頁中,一般用於部分網頁需要單獨設置的情況下。兩者的功能是一樣的。
Meta robots標簽必須放在<head>和</head>之間,格式:
<meta name=」robots」 content=」index,follow」 />
content中的值決定允許抓取的類型,必須同時包含兩個值:是否允許索引(index)和是否跟蹤鏈接(follow,也可以理解為是否允許沿著網頁中的超級鏈接繼續抓取)。共有4個參數可選,組成4個組合:
index,follow:允許抓取本頁,允許跟蹤鏈接。
index,nofollow:允許抓取本頁,但禁止跟蹤鏈接。
noindex,follow:禁止抓取本頁,但允許跟蹤鏈接。
noindex,nofllow:禁止抓取本頁,同時禁止跟蹤本頁中的鏈接。
以上1和4還有另一種寫法:
index,follow可以寫成all,如:
<meta name=」robots」 content=」all」 />
noindex,nofollow可以寫成none,如:
<meta name=」robots」 content=」none」 />
需要注意的是,robots Meta標簽很多搜索引擎是不支持的,只有少數搜索引擎能夠識別並按給定的值抓取。所以,盡可能的使用robots.txt文件來限制抓取。
㈡ 如何屏蔽搜索蜘蛛抓取我網站上的電話號
圖片的方法是可以的。
盡量不要設置robot 設置robots可以禁止搜索引擎收錄你的聯系我們頁面,這樣就無法收錄裡面電話號碼信息了,但影響網站收錄總是不好的,圖片的方法就可以。
㈢ 網站robots.txt有這句話什麼意思
您好,
User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符,意思是針對所有搜索引擎都生效
比如這個
User-agent:Baispider
這個表示User-agent: Baispide這句以下的規則只針對網路蜘蛛,對其他搜索引擎無效
Disallow: /search.html表示禁止收錄/search.html這個頁面
一般情況下,搜索頁面都沒必要讓蜘蛛收錄的,出於對搜索引擎的友好,一般會禁止搜索引擎抓取
比如我博客的robots是這樣的
User-agent: *
sitemap: http://www.itbyc.com/sitemap.xml
sitemap: http://www.itbyc.com/sitemap.txt
Disallow: /plus/
Disallow: /t
User-agent: Baispider
Disallow: /ap
User-agent: MJ12bot
Disallow: /
User-agent: Googlebot
Disallow: /-*/
此外
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為後綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪問網站中所有包含問號 (?) 的網址
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以".htm"為後綴的URL。
Allow: .gif$ 允許抓取網頁和gif格式圖片
Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖
㈣ 搜索引擎對圖片的抓取
搜索引擎對圖片的抓取
不能。
搜索引擎抓取圖片的原理是什麼?
你可以去安可培訓官網看看,他們可以教會你大量的知識 搜安可培訓
如何搜索引擎自動抓取網站圖片
搜索引擎是指網路谷歌之類的?那是不能抓取網站圖片的吧!用迅雷的下載所有鏈接可以下載網站上的圖片。還有一些其他的可以分析網站的軟體可以抓取。
搜索引擎對圖片的關注度有哪些?
每個連接都是經過搜索引擎的一套演算法得出的順序,根據流量 連接速度之類的因素組成
專門搜索圖片的搜索引擎
:pic./
全球最專業的原創圖片搜索引擎
:cphoto./
中國搜圖網
如何屏蔽搜索引擎抓取
第一種、robots.txt方法
搜索引擎默認的遵守robots.txt協議,創建robots.txt文本文件放至網站根目錄下,編輯代碼如下:
User-agent:*
Disallow:
通過代碼,即可告訴搜索引擎不要抓取採取收錄本網站。
第二種、網頁代碼
在網站首頁代碼<head>與</head>之間,加入<metaname="robots"content="noarchive">代碼,此標記禁止搜索引擎抓取網站並顯示網頁快照。
如何禁止網路搜索引擎收錄抓取網頁
1、編輯robots.txt文件,設計標記為:
User-agent:Baispider
Disallow:/
2、在網站首頁代碼<head>與</head>之間,加入<metaname="Baispider"content="noarchive">即可禁止網路搜索引擎抓取網站並顯示網頁快照。
3、聯系網路管理人員,用網站聯系人信箱發電郵,如實說明刪除網頁快照的情況,經網路核實後,網頁停止收錄抓取。
4、登陸網路自己的「網路快照」帖吧和「網路投訴」帖吧,發個帖子,表明刪除網頁收錄網站快照的原因,當網路管理人員,看到會給予處理。
如何禁止Google搜索引擎收錄抓取網頁
1、編輯robots.txt文件,設計標記為:
User-agent:googlebot
Disallow:/
2、在網站首頁代碼<head>與</head>之間,加入<metaname="googlebot"content="noarchive">即可禁止網路搜索引擎抓取網站並顯示網頁快照。
韓國可以搜索圖片的搜索引擎?
:search.naver./search.naver?where=nexearch&query=%C7%D1%B0%E6& *** =tab_hty
提高網頁被搜索引擎抓取?
講一個被很多SEO們誤解的重要概念。很久以前,搜索引擎的爬蟲(機器人)大部分時間都會遞歸地抓取某個網站(通過你提交的網站首頁網址,然後通過網頁上發現的鏈接抓取這些鏈接所指向的網頁,周而復始)。但現在不是那麼回事了,就像下面的圖一樣,搜索引擎的爬蟲抓取時會有多個進入點,並且每個進入點都同樣重要,然後再從這些進入點向外擴散,進行抓取。
那我們看看有什麼方能提高網頁被搜索引擎抓取、索引和排名的方法:
站點不向任何搜索引擎提交,搜索引擎會來抓取嗎?
網路會收取的··網路不定期的會進行這一工作,不過不會那麼簡單。
當然天下沒免費的午餐,通常想推廣自己的網站都要到知名的名站上「放血」打廣告鏈接。
搜索引擎到底會不會抓取圖片,js,fhash內容
網頁組成內容無非就是文字,圖片,js,動畫flash,視頻元素,早在幾年前,在搜索引擎發展初級階段的時候,搜索引擎的抓取內容方式是及其原始和簡陋的,而且只能抓取網頁的title等頁頭部分。
當時站長群也很少,而且做一個關鍵詞也非常容易,主要隨便修改一下網頁的標題就可以達到很好的排名,隨著搜索引擎數據發掘技術的發展,搜索引擎慢慢會嘗試去抓取更多的東西,比如網頁的其他文字內容,並且不再將網頁標題作為唯一的排名標准,並且加入了很多其他的演算法來給一個網站在搜索引擎上綜合的排名。
目前來說,網路能夠很好的識別和把握中文內容,不然也不會對外號稱自己是全球第一大中文搜索引擎,對圖片能夠有一定程度的識別,而對flas *** 和視頻抓取技術還比不上google;谷歌雖然不主張站長使用動畫來作為網站主要展示內容的方式,但是經過大家試驗,一些簡單的flas *** 內的問題google能夠很好的識別,並將該元素內抓取的內容作為網站綜合排名的依據,而網路似乎還是停留在文字和圖片基礎上。
谷歌對於一些單色背景圖片能夠很好的識別,比如黑色背景上打上白色的字,谷歌的識別幾乎達到了100%。
㈤ robots里要禁止搜索引擎抓取css js 和圖片嗎
一般都是禁止的吧。
㈥ 在網站優化中,出現文章不收錄或者收錄慢的原因有哪些呢
網路不收錄怎麼辦
一、搜索引擎不收錄文章到底是什麼原因導致的?
1、網站是新站
如果網站是新站,那麼網站是在審核期,搜索引擎對網站的信任度還很低,文章收錄率比較低這是正常現象,原因是網站並沒有在搜索引擎獲得足夠的綜合頁面評分數,所以大部分新站只是收錄了首頁,或一兩個內頁鏈接。一般搜索引擎在新站停留時間不會很久的!
解決方法:
①、建議把網站首頁和內頁進行發布一下外鏈,誘惑蜘蛛來爬取,進而增加spider在網站的停留時間!
②、到網路站長平台提交鏈接,為spider提供爬取通道入口
2、網站的文章大部分是採集復制過來的
網站的文章大部分是採集復制過來的,導致網站文章不收錄或者收錄率極低,該怎麼增加網站的收錄呢?這種情況目前在互聯網上情況最多的,情況基本出於你網站沒有得到搜索引擎的信任,沒有新鮮內容的支撐。反之,有些網站即使偽原創也可以達到秒收,那也是該網站已經得到搜索引擎很高的信任度了。面對大部分網站是採集或者偽原創,而相對都比較渴望得到解決方法,而往往都沒有真正的被解決!下面這幾種方法會為你解決這個問題!
解決方法:
①、通過網路站點工具主動推送和外鏈發布引誘spider來網站抓取文章,如果過了一兩天都還沒收錄,可以通過網站日記查看spider是否有在抓取這條連接,如果有在抓取連接,但是就是不收錄,那麼就要進行下一步計劃了!
②、修改標題以及內容正文的開頭部分,沒錯,進行修改一下這篇文章的標題以及內容,spider有在抓取這條頁面連接但是就是不收錄,說明這篇文章重復率相似度很高,搜索引擎索引庫已經存有大量同樣/相似的文章,沒有必要再去收錄了。通過修改文章標題以及內容這是很有效的辦法,如果還不收錄再繼續修改一下正文的內容,這樣收錄將有很大的提升。
③、在各種不同的平台,多發布幾次外鏈,並在底部填寫該頁面的鏈接,對該頁面也有一定增加收錄的。
④、重新更新製作一個sitemap文件,把網站的鏈接全部提交網路站長平台的鏈接提交選項進行提交。老虎sitemap生成器可以實行效果,這種情況使用最好是一個網站大量文章是採集得來的,對此這種方法還是有一定的幫助的。
3、更新文章的都是過時過期的文章,老生常談之內容。
有些網站更新的文章都是一些過期過時的、老生常談的內容,搜索引擎都不知道過濾N遍了,居然在你網站又出來,然後結果肯定是悄悄地來,輕輕地走。所以即使採集也要採集一些新鮮內容,這樣收錄率才會有所提升。到了這里,可能有些SEOER會問我,SEO文章不就是那幾篇文章寫來寫去嗎?那你告訴我什麼是新鮮內容。我只想說,你不去創新,永遠都是採集來的文章,那為什麼別人又可以創作新鮮的內容呢?
解決方法:
①、多去一些問答平台,交流論壇去走動,看看他們交流的一些核心問題還有什麼是沒有解決的?然後你通過各種資源、人脈、網路整理出一個新穎的文章。
②、給網站寫一些獨特軟文、故事式軟文,增加網站的新鮮血液,提升網站的原創性對網站的收錄率有很大的提升。
4、內容出現敏感詞,spider排斥
寫文章盡量使用一些規范的語句來描述,不要弄一些用戶無法看懂,spider無法識別繁字體,特別是一些網路和論壇都屏蔽的語句,也許是文章內容存有敏感詞而導致文章不收錄索引呢!雖然這種情況存在幾率較小,但是還是有一定的幾率存在的。
解決辦法:
①、在不收錄的頁面自行檢查是否存在敏感詞,也可以在網路搜索敏感詞在線檢測工具進行檢測,把一些存有敏感詞的語句去掉。
5、文章更新的是原創文章,但還是不收錄或者收錄較慢
像這種情況,是因為網站在搜索引擎的索引庫頁面綜合評分不是高,搜索引擎對網站的青睞度是很低的。
解決辦法:
①、更新一些新鮮內容,不要更新的一些文章是二次製作,過時過期、老生常談的文章內容。
②、為網站多製作一些鏈接爬取通道,比如多交換幾條友鏈,各平台外鏈的發布,誘引蜘蛛來網站抓取鏈接。
③、對網站進行整站優化,提升網站的綜合評分,spider不來收錄,有很大的因素是因為網站的綜合評分不高,這時候要把網站綜合評分提高,比如把一些不參與排名的頁面鏈接用nofollow標簽掉,並更新一些高質量的文章,吸引更多用戶來網站瀏覽,把控好頁面的跳出率,盡量原創最好。但是低質量的原創文章還是不要更新,什麼是低質量的文章?寫的文章網路觀點千篇一律,只是稍微換種說法,二次創作罷了,網路搜索切詞技術還是挺強大,還是能夠檢測出來的。
6、頻繁修改標題和網站結構以及網站標簽也會影響收錄
網站如果經常修改標題和網站結構及標簽,會被搜索引擎重新拉入觀察室,重新對網站進行考察以及排名排序,不僅降低搜索引擎對網站信任度,甚至還有可能引發降權的跡象,而且對網站的收錄也有一定阻礙,網路快照日期也不會更新。
解決辦法:
①、到網路服務中心/快照更新投訴到網路中心審核,進行網路快照申訴更新,可以加快快照的更新速度。
②、多更新幾篇高質量原創內容進行恢復排名,網路快照和排名會有所恢復。
文章不收錄原因全解附帶解決辦法
二、導致網路搜索引擎不收錄文章的其他因素
7、robots文件禁止搜索引擎抓取
是否在最近有動過robots文件設置,不小心把文章html的鏈接都禁止爬取了,到網路站長平台進行檢查一番,如果存在有異常,直接到後台修改回來即可!
8、網站存在大量404、503沒有進行處理,影響頁面索引
如果網站存有大量404、503錯誤頁面,會導致搜索引擎很難抓取頁面的,對於搜索引擎來說,你網站的內容價值和鏈接數量決定搜索引擎在你網站的停留時長,而且存於大量死鏈對網站的綜合評分也會有所降低的,所以一定要及時地去處理好死鏈。
解決辦法:可以利用一些死鏈檢測工具來為網站檢測,比如:xenu、愛站工具等去檢測死鏈,然而把死鏈連接放在txt格式文件,上傳到網站根目錄,最後到網路站長平台死鏈提交選項,把死鏈文件提交上去等待即可!
9、網站優化過度,網站降權引起的網路不收錄
網站無論優化過度還是出現降權了,都是導致spider不收錄頁面的,這時候需要自己分析最近幾天對網站做了什麼,是否不小心導致優化過度了,或者做了一些令搜索引擎排斥的事情,思考分析一下,找出原因並修改回來即可!
10、頻繁在主動推送提交未收錄頁面
文章編輯發布後,一般人都會去網路站長平台提交鏈接或者主動推送鏈接,這本來是好事,但是你看著文章提交鏈接好幾天了還不收錄,於是你每天都去提交一篇這條鏈接,甚至有些還是提交幾次來著,咬著牙說,看你還不收錄。但是往往你越是這樣,網站對收索引擎信任度越低。我們知道網站內容頁收錄,涉及到搜索引擎最基本的原理,那就是爬行,抓取,建立索引,收錄等過程,這原本是搜索引擎來網站抓取主動行為啊,你要明白,網路提供提交鏈接入口,主要原因是維護原創的利益,讓SEO優化的人員編輯文章發布後,第一時間提交鏈接為搜索引擎提供爬取入口來網站抓取,防止被其他人抄襲。但是站長們完全搞混了當初網路建立主動推送的真正意義。
解決辦法:原創文章編輯發布後,使用主動推送入口最後,更快能讓搜索引擎來抓取網站文章鏈接,但是你提交鏈接後就不要再提交了,可以通過日記分析搜索引擎有沒有來網站抓取該鏈接,如果抓取了,但還是沒有收錄,這時候你不要再去推送鏈接,可以適當地去修改一下文章的標題及內容,也有可能是你文章標題在互聯網上已經存在一模一樣的,或者文章已經存在千篇一律,適當地去修改能夠使搜索引擎更好的收錄。
11、伺服器問題
若是伺服器響應速度慢,經常會出現打不開,那麼spider來網站抓取頁面就會收到阻礙。從所周知,搜索引擎來網站抓取頁面的時間是有限制的,當然網站權重越高,抓取頁面時間越長。如果導致大量伺服器訪問速度穩慢的因素存在,或者主機空間是國外或者是香港主機,那麼就會導致搜索引擎來網站抓取頁面的速度沒有達到最佳效果,也許沒有抓取幾個頁面,搜索引擎就離開了網站了。
解決辦法:
①、建議購買國內備案主機伺服器,一個網站想要長期發展,好的伺服器是必須具備的,無論是對用戶訪問還是對搜索引擎抓取頁面好處還是很顯然的。
②、利用好robots文件,也能讓搜索引擎很好的抓取頁面,把一些不參與排名和無需抓取的頁面Disallow掉,讓搜索引擎不必在不重要的頁面徘徊抓取,讓搜索引擎放在重要的頁面抓取,省掉不必要的抓取時間。
③、減少HTTP請求提高網站的訪問速度,盡可能的減少頁面中非必要的元素,一般由圖片、form、flash等等元素都會發出HTTP請求,合並腳本和CSS文件可以使網站減少HTTP請求。
④、網站避免出現過量的死鏈,也會使搜索引擎重復抓取死鏈浪費抓取配額時間,從而影響網站收錄,而且大量出現死鏈會降低網站的綜合評分,所以及時的發現死鏈並處理掉就變得尤其重要。
後記:
我們在做SEO優化中,有時候往往會出現文章突然不收錄或者其他各種問題,但是往往越到這時候我們越不能亂,冷靜下來分析最近做了什麼改動,或者網站出現了什麼異常,找出原因是什麼導致的,並修復才能使搜索引擎很好的收錄網站頁面。
㈦ 用robots.txt屏蔽站外URL怎麼寫
什麼樣的URL需要robots.txt 禁止搜索引擎蜘蛛抓取呢?
1.同時存在動態和靜態URL
通常情況下很多網站都會對URL進行靜態化,但是很多時候在網站的運營過程中,往往導致動態URL也被抓取了,比如營銷部門不小心用動態URL來推廣,比如產品部門不小心也用了動態URL,這個時候就會導致兩個不一樣的URL對應相同的內容,這對搜索引擎來講是不友好的,也會導致權重的分散,或者導致搜索引擎抓取的頁面不是站長需要的,這時候就需要用robots.txt來屏蔽動態的URL了。
2.有些內容我們不需要搜索引擎進行抓取
大家都知道淘寶不希望被網路抓取,淘寶認為他的商品頁面最具價值,不希望網路收錄之後導致用戶搜索商品到來網路搜索,這樣對淘寶來講是不利益的,所以淘寶就屏蔽了網路的抓取,自然淘寶也少了很多流量。
我們有些會員信息,網站程序URL等都不希望被搜索引擎抓取,那麼也可以用robots.txt進行屏蔽。
利用robots.txt 禁止不想被收錄的url的好處:
1.重復的URL被屏蔽之後,有利於權重的積累
2.屏蔽一些無效的URL能提高搜索引擎的抓取效率,因為搜索引擎到網站的時間是固定的,那麼如果有很多無效的URL,對於大型網站來講,比如幾千萬級別的,搜索引擎花了大量的時間處理無效的URL,自然對有效的URL處理的時間就會減少,自然就會導致收錄有問題。
robots.txt的撰寫規則:
robots.txt文件是一個文本文件,使用任何一個常見的文本編輯器,比如Windows系統自帶的Notepad,就可以創建和編輯它[2]。robots.txt是一個協議,而不是一個命令。robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在伺服器上什麼文件是可以被查看的。
當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。網路官方建議,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件。
如果將網站視為酒店裡的一個房間,robots.txt就是主人在房間門口懸掛的「請勿打擾」或「歡迎打掃」的提示牌。這個文件告訴來訪的搜索引擎哪些房間可以進入和參觀,哪些房間因為存放貴重物品,或可能涉及住戶及訪客的隱私而不對搜索引擎開放。但robots.txt不是命令,也不是防火牆,如同守門人無法阻止竊賊等惡意闖入者。
User-agent: * 這里的代表的所有的搜索引擎種類,是一個通配符
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為後綴的URL(包含子目錄)。
Disallow: /?禁止訪問網站中所有的動態頁面
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以".htm"為後綴的URL。
Allow: .gif$ 允許抓取網頁和gif格式圖片
㈧ 如何設置robots.txt禁止或只允許搜索引擎抓取特定目錄
網站的robots.txt文件一定要存放在網站的根目錄。搜索引擎來網站抓取內容的時候,首先會訪問你網站根目錄下的一個文本文件robots.txt,搜索引擎機器人通過robots.txt里的說明,來理解該網站是否可以全部抓取,或只允許部分抓取。注意:網站的robots.txt文件一定要存放在網站的根目錄。robots.txt文件舉例說明
禁止所有搜索引擎訪問網站的任何內容
User-agent: *
Disallow: / 禁止所有搜索引擎抓取某些特定目錄
User-agent: *
Disallow: /目錄名1/
Disallow: /目錄名2/
Disallow: /目錄名3/ 允許訪問特定目錄中的部分url
User-agent: *
Allow: /158
Allow: /joke 禁止訪問網站中所有的動態頁面
User-agent: *
Disallow: /*?*
僅允許網路抓取網頁和gif格式圖片,不允許抓取其他格式圖片
User-agent: Baispider
Allow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$ 1.屏蔽404頁面
Disallow: /404.html 2.屏蔽死鏈
原來在目錄為/158下的所有鏈接,因為目錄地址的改變,現在都變成死鏈接了,那麼我們可以用robots.txt把他屏蔽掉。
Disallow: /158/ 3.屏蔽動態的相似頁面
假設以下這兩個鏈接,內容其實差不多。
/XXX?123/123.html我們要屏掉/XXX?123 頁面,代碼如下:
Disallow: /XXX? 4.告訴搜索引擎你的sitemap.xml地址
㈨ robots文件主要是屏蔽網站的哪些頁面
你好,具體哪些網站的目錄需要使用robots.txt文件禁止抓取:
1)、圖片目錄圖片是構成網站的主要組成元素。隨著現在建站越來越方便,大量CMS的出現,真正做到了會打字就會建網站,而正是因為如此方便,網上出現了大量的同質化模板網站,被反復使用,這樣的網站搜索引擎是肯定不喜歡的,就算是你的網站被收錄了,那你的效果也是很差的。如果你非要用這種網站的話,建議你應該在robots.txt文件中進行屏蔽,通常的網站圖片目錄是:imags或者img;
2)、網站模板目錄如上面圖片目錄中所說,CMS的強大和靈活,也導致了很多同質化的網站模板的出現和濫用,高度的重復性模板在搜索引擎中形成了一種冗餘,且模板文件常常與生成文件高度相似,同樣易造成雷同內容的出現。對搜索引擎很不友好,嚴重的直接被搜索引擎打入冷宮,不得翻身,很多CMS有擁有獨立的模板存放目錄,因此,應該進行模板目錄的屏蔽。通常模板目錄的文件目錄是:templets
3)、CSS、JS目錄的屏蔽CSS目錄文件在搜索引擎的抓取中沒有用處,也無法提供有價值的信息。所以強烈建議站長朋友們在Robots.txt文件中將其進行屏蔽,以提高搜索引擎的索引質量。為搜索引擎提供一個簡潔明了的索引環境更易提升網站友好性。CSS樣式的目錄通常情況下是:CSS或者styleJS文件在搜索引擎中無法進行識別,這里只是建議,可以對其進行屏蔽,這樣做也有一個好處:為搜索引擎提供一個簡潔明了的索引環境;
4)、屏蔽雙頁面的內容這里拿DEDECMS來舉例吧。大家都知道DEDECMS可以使用靜態和動態URL進行同一篇內容的訪問,如果你生成全站靜態了,那你必須屏蔽動態地址的URL鏈接。這里有兩個好處:1、搜索引擎對靜態的URL比動態的URL更友好、更容易收錄;2、防止靜態、動態URL能訪問同一篇文章而被搜索引擎判為重復內容。這樣做對搜索引擎友好性來說是有益無害的。
5)、模板緩存目錄很多CMS程序都有緩存目錄,這種緩存目錄的好處我想不用說大家也清楚了吧,可以非常有效的提升網站的訪問速度,減少網站帶寬,對用戶體驗也是很好的。不過,這樣的緩存目錄也有一定的缺點,那就是會讓搜索引擎進行重復的抓取,一個網站中內容重復也是大祭,對網站百害而無一利。很多使用CMS建站的朋友都沒有注意到,必須要引起重視。
6)被刪除的目錄死鏈過多,對搜索引擎優化來說,是致命的。不能不引起站長的高度重視,。在網站的發展過程中,目錄的刪除和調整是不可避免的,如果你的網站當前目錄不存在了,那必須對此目錄進行robots屏蔽,並返回正確的404錯誤頁面(注意:在IIS中,有的朋友在設置404錯誤的時候,設置存在問題,在自定義錯誤頁面一項中,404錯誤的正確設置應該是選擇:默認值或者文件,而不應該是:URL,以防止搜索引擎返回200的狀態碼。至於怎麼設置,網上教程很多,大家要吧搜索一下)
這里有一個爭議性的問題,關於網站後台管理目錄是否需要進行屏蔽,其實這個可有可無。在能保證網站安全的情況下,如果你的網站運營規模較小,就算網站管理目錄出現在robots.txt文件中,也沒有多大問題,這個我也見過很多網站這樣設置的;但如果你的網站運營規模較大,競爭奪手過多,強烈建議千萬別出現任何你網站後台管理目錄的信息,以防被別有用心的人利用,損害你的利益;其實搜索引擎越來越智能,對於網站的管理目錄還是能很好的識別,並放棄索引的。
另外,大家在做網站後台的時候,也可以在頁面元標簽中添加:進行搜索引擎的屏蔽抓取。
最後,需要說明一點,很多站長朋友喜歡把站點地圖地址放在robots.txt文件中,當然這里並不是去屏蔽搜索引擎,而是讓搜索引擎在第一次索引網站的時候便能通過站點地圖快速的抓取網站內容。
希望對樓主有幫助,望採納。
㈩ 如何設置網站只文章文章圖片抓取,其它不抓取
最簡單的方法就是你將網站圖片跟文章圖片分開存放,而且不要將文章圖片設置為網站圖片的目錄的子目錄,否則你這條命令會造成網站所有圖片都不被抓取。