代理加盟 2019全新代理計劃 賺錢+省錢雙管齊下,獨立平臺,豐厚利潤!

您現在的位置: 秀站網 > 站長學院 > SEO資訊 >

robots禁止抓取規則為什么還被收錄

來源:未知 發布時間:2019-03-30熱度:我要評論
有時候不希望搜索引擎抓取某些內容可以寫robots.txt文件放到根目錄,按理蜘蛛會首先讀取這個文件,按照robots協議抓取相應的內容。但是許多站長們發現,蜘蛛并不太遵守這個協議。 為驗證這個問題,做了測試后發現,如果蜘蛛已經抓取并有索引、快照了,這個時候再寫robo...

織夢模板免費下載,無需注冊無需充值

       有時候不希望搜索引擎抓取某些內容可以寫robots.txt文件放到根目錄,按理蜘蛛會首先讀取這個文件,按照robots協議抓取相應的內容。但是許多站長們發現,蜘蛛并不太遵守這個協議。

       為驗證這個問題,做了測試后發現,如果蜘蛛已經抓取并有索引、快照了,這個時候再寫robots就不遵守這個協議了,一般在robots中禁止抓取文件夾如下,

Disallow:/about/

       還不放心,在頁面里增加<meta>聲明

<meta name="robots" content="noindex,follow" />

       這個聲明的意思是告訴蜘蛛不建立索引,可以沿著路徑繼續抓取內容。以為這就能讓已經收錄的快照刪除了,有網友說這需要等待,時間都說不好。

       百度有個規則是判斷頁面質量,如果多個頁面重復內容過多,會被降權,甚至移出索引庫。等待很長世間才會被移出索引庫,一般調整過的網站的收錄量會減少,但不是大幅度減少,是因為有些垃圾頁面在算法更新后被移出索引庫而已,這對于正規SEO做法的站長來說是好事,垃圾頁面會影響到網站的排名。

       robots和nofollow都能控制蜘蛛抓取范圍,而兩個的用法不盡相同。

robots協議

       告訴蜘蛛哪些內容可抓取,哪些不可抓取。原則是:參與排名的就讓蜘蛛抓,不參與的或涉及到信息安全的不抓取。

nofollow標簽

       告訴蜘蛛該頁面內,某鏈接不可信任,不傳遞權重。一般在頁面鏈接較多的情況下(頁面會給該頁面下所有鏈接權重),為了集中頁面權重,一些無關緊要的鏈接采用nofollow加以控制。

       簡單說,nofollow主要是為了集中某個頁面的權重,而robots是控制整個網站的蜘蛛抓取范圍。那么問題來了,為什么很多時候蜘蛛不遵守我們的robots協議呢?(一些垃圾蜘蛛是完全不遵守robots協議的)我們說的蜘蛛主要指百度、谷歌蜘蛛。

①書寫錯誤

       robots.txt的書寫格式是一行一行的寫,不能連著寫,如

User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/

       每個記錄都需要另起一行,每個記錄里不允許空行,空行用來分割不同的記錄。正確的如

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/

       很多時候搜索引擎抓取了你 robots.txt 不允許抓取的內容不是因為機器人不遵守,而是從抓取到索引到展現這個過程需要一段時間,當搜索引擎已經抓取了,你才更新,那么之前抓取的是不會那么快刪掉的,刪除周期并不規律,一般是算法更新后生效的情況多些。

       下面說下幾個新手可能會需要的信息。

1、robots.txt 怎么寫?       

       各大搜索引擎的站長平臺(英文叫 webmasters )都有詳細說明,也有生成工具。

2、怎樣確定 robots.txt 有效?

       站長平臺都有抓取 robots.txt 的工具,也會有“抓取工具”來確認某個頁面是不是可以正確抓取。

3、怎樣通知搜索引擎 robots.txt 已更新?

       和上面的一樣,通過站長平臺的抓取工具重新抓取(有的是“更新”)即可。

4、讓搜索引擎抓取了不應該抓取的內容怎么辦?

       這個常用方法有幾種:

* 在站長平臺的刪除鏈接工具中輸入鏈接并確認刪除
* 修改代碼使搜索引擎訪問時返回錯誤代碼(503、404等),然后在站長平臺重新抓取
* 修改 robots.txt (這個只建議在上面兩個操作過之后補充)

5、整站禁止抓取,如何操作更有效?

       有的搜索引擎索引是不遵守 robots.txt 的,只有在展現的時候遵守,也就是說,就算你 robots.txt 寫明了禁止抓取,你會發現還是有機器人來爬。

       所以如果是大目錄或者是整站禁止抓取,建議在服務器軟件(如 nginx)的代碼段中直接判斷搜索引擎 UA 并返回錯誤代碼。這樣一方面可以減輕服務器壓力,一方面可以真正禁止抓取。

本文地址:http://www.yxrxyy.live/seo/1522.html

責任編輯:秀站網

    發表評論

    評論列表(條)

      北京28是什么彩票