從連勝文官網看搜尋引擎怎麼收錄你的網站

8/25『連勝文官網』的搜尋結果

是說 SEO 要做的事情有好多,其中有一項,外面的很多教學都告訴你說一定要做,那就是 robots.txt 的建置。我直接跳結論:我已經很多年都不特別設定 robots.txt ,更多時間我是直接寫入 .htaccess 或是用其他方式限制爬蟲權限,因為 Google 的爬蟲常常不理會 robots.txt 的設定啊!另外一個理由,把一些重要的資料夾寫在 robots.txt 中,根本就是在告訴一些人:您好,我的重要資料夾都寫在 Disallow 底下唷


一、 robots.txt disallow 及 Allow 有順序性?

最近這個 robots.txt 因為連勝文競選官網的原因被新聞報導說『官方網站正式上線1個多小時,在搜尋引擎上還是找不到網站位置』,媒體不專業沒關係,當然就引起了一番討論,幾位『專家』(如)的討論,沒錯在 robots.txt 裡面的 disallow 跟 allow 是有順序性的,在官方的說明文檔當中也舉了範例:


所以一開始把 DisAllow : / 寫在最前面真的很傷,但這其實不是我們今天要聊的主要故事

二、Googlebot 有機會不理會 robots.txt?

這件事是真的,在過去 SEO 的經驗中,有幾次 Google 並不理會 robots.txt disallow 的內容,在跟幾個前輩討論求教的時候,其中連啟佑前輩有點出 Google 其實有一段特別的說明

雖然 Google 不會對 robots.txt 所封鎖的內容進行檢索或建立索引,但如果我們在網路上的其他網頁中發現封鎖網址的資訊,仍然會建立這些資訊的索引。因此,網頁網址以及其他可能的公開資訊 (例如網站連結中的錨點文字) 仍然會出現在 Google 搜尋結果中。如要完全避免這種情形,請使用 robots.txt 輔以其他封鎖網址方法,例如使用密碼保護伺服器上的檔案或在 HTML 中插入中繼標記。
其實從 Google 本身的建議來說,如果要加速或是讓 Bot 更加了解你的網站的時候,除了內容的建設之外,你還必須多在外部加強連結的導入,可以讓 Googlebot 更加了解你的網站。所以如果真的有需要不希望 Google 來爬的內容,真的不要隨便放上去或是做加密。此外我個人及前輩的建議都是:
  1. 使用 .htaccess 來禁止 bot 訪問
  2. 使用  meta name="robots" 來設定 noindex 範圍(但不用特別設 index )

留言