專注互聯網營銷推廣
服務熱線:0577-86997785

robots.txt用途及寫法詳解

原創2019-04-16 11:29溫州網站排名
robots.txt是引導搜索引擎Spider收錄網站的協議文件,合理地使用robots.txt可以防止網站內隱私頁面被百度索引和公布,還可以屏蔽網站內不重要的頁面抓取,只讓搜索引擎抓取和收錄能夠帶來流量和排名的網頁。
seo

要不要使用robots.txt

只有在需要禁止抓取網頁內容時,robots.txt才有價值,Robots文件不存在或者是空文件都意味著允許搜索引擎抓取所有內容。有的服務器設置有問題,robots文件不存在時會返回200狀態碼及一些錯誤信息,而不是404狀態碼,這有可能使搜索引擎錯誤解讀robots.txt文件信息,所以建議就算允許抓取所有內容,也要設置一個空的robots.txt文件,放在網站根目錄。

robots.txt主要用途

一般來說可以使用robots.txt文件來屏蔽不想被搜索引擎抓取的頁面,但是這些"不想被抓取的頁面"有哪些,下面舉幾個簡單的例子。
1.網站改版或因為某種原因刪除了大量網頁,眾所周知,網站突然出現大量死鏈接對關鍵詞排名是不利的。雖然現在可以直接向百度提交死鏈接,但是還不如直接屏蔽百度對死鏈接的抓取。
2.多版本URL的情況下,非主顯URL的其他版本。比如網站鏈接偽靜態后就不希望搜索引擎抓取動態路徑了,這是就可以使用robots.txt屏蔽站內所有動態鏈接。
3.如果網站有大量的交叉組合查詢所生成的頁面,可定有大量頁面是沒有內容的,對于沒有內容的空頁面可以單獨設置一個URL版本,然后使用robots.txt進行屏蔽,以防被搜索引擎判定為垃圾網頁。
4.不想被搜索引擎索引的內容,比如隱私數據、用戶信息、管理后臺等都可以使用robots.txt進行屏蔽。

robots.txt詳細寫法

robots.txt文件由記錄組成,記錄之間以空行分開,格式如下:
<域>:<可選空格><域值><可選空格>
最簡單的robots.txt文件:
User-agent: *
Disallow: /
上面這個robots文件禁止所有搜索引擎抓取任何內容
User-agent:指定下面的規則適用于哪個蜘蛛,通配符*代表所有搜索引擎,如需單獨設置:
User-agent: Baiduspider   適用于百度蜘蛛
User-agent: Googlebot    適用于百度蜘蛛
Disallow:告訴蜘蛛不要抓取某些目錄或文件,例如下面的代碼將阻止所有蜘蛛抓取/images/和/about/兩個目錄下面的內容:
User-agent: *
Disallow: /images/
Disallow: /about/
Disallow:命令必須分開寫,每個一行
下面的代碼允許所有搜索引擎抓取所有內容
User-agent: *
Disallow: 
下面的代碼禁止除百度以外其他搜索引擎抓取任何內容:
User-agent: Baiduspider
Disallow: 
User-agent: *
Disallow: /
主流搜索引擎都遵守robots文件協議,robots禁止抓取的內容搜索引擎將不會訪問、不抓取。但要注意的是,只要有導入鏈接指向這個URL,被robots屏蔽的URL有可能展現在搜索結果中。
相關推薦
服務熱線:0577-86997785 移動電話:131-5770-6995 公司地址:浙江省溫州經濟技術開發區濱海園區海匯中心3幢802

版權所有 ? 2010-2020 溫州極禾科技有限公司ICP備案:浙ICP備18046138號-2

在線客服
高清av电影