阿里解禁1050億美元股票：市場聚焦雅虎策略

發布時間：2016-03-19 文章來源：瀏覽次數：3924

Robots文件是網站和蜘蛛程序之間的“正人協議”——robots文件不僅僅可以節省網站的資源，還可以匡助蜘蛛更加有效的抓取網，從而進步排名。
1：只答應谷歌bot
假如要攔截除谷歌bot之外的所有爬蟲：
User-agent:*
disallow:/
Uer-agent:答應的蜘蛛名
Disallow:
2：“/folder/”和“/folder”的區別
舉個例子：
User-agent:*
Disallow:/folder/
Disallow:/folder
“Disallow:folder/”表示攔截的是一個目錄，該目錄文件下的所有文件不答應被抓取，但是答應抓取folder.hlml。
“Disallow:/folder”：對/folder/下的所有文件和folder.html都不能被抓取。
3：“*”匹配任意字符
User-agent:*
表示屏蔽所有的蜘蛛。當我們做了偽靜態處理之后，會同時又動態網頁和靜態網頁，網頁內容一模一樣，視為鏡態頁面，所以我們要屏蔽掉動態的網頁，可以用*號來屏蔽動態的網頁
User-agent:*
Disallow:/?*?/
4：$匹配網址結束
假如要攔截以某個字符串結束的網址，就可以使用$，例如，要攔截以.asp結束的網址：
User-agent:*
Disallow:/*.asp$
也可以打開比較優秀的網站，看他們的robots文件是如何書寫的，然后根據自己的需求進行相應的修改。Robots文件可以讓蜘蛛把更多的時間花在要抓取的內容上，所以優化robots文件是很有必要的。

上一條：一個創業公司倒下的128...

下一條：特斯拉遭保時捷奧迪寶馬圍...