從連勝文官網看搜尋引擎怎麼收錄你的網站

8/25『連勝文官網』的搜尋結果

是說 SEO 要做的事情有好多，其中有一項，外面的很多教學都告訴你說一定要做，那就是 robots.txt 的建置。我直接跳結論：我已經很多年都不特別設定 robots.txt ，更多時間我是直接寫入 .htaccess 或是用其他方式限制爬蟲權限，因為 Google 的爬蟲常常不理會 robots.txt 的設定啊！另外一個理由，把一些重要的資料夾寫在 robots.txt 中，根本就是在告訴一些人：您好，我的重要資料夾都寫在 Disallow 底下唷！

一、 robots.txt disallow 及 Allow 有順序性？

最近這個 robots.txt 因為連勝文競選官網的原因被新聞報導說『官方網站正式上線1個多小時，在搜尋引擎上還是找不到網站位置』，媒體不專業沒關係，當然就引起了一番討論，幾位『專家』（如他跟她）的討論，沒錯在 robots.txt 裡面的 disallow 跟 allow 是有順序性的，在官方的說明文檔當中也舉了範例：

所以一開始把 DisAllow : / 寫在最前面真的很傷，但這其實不是我們今天要聊的主要故事

二、Googlebot 有機會不理會 robots.txt？

這件事是真的，在過去 SEO 的經驗中，有幾次 Google 並不理會 robots.txt disallow 的內容，在跟幾個前輩討論求教的時候，其中連啟佑前輩有點出 Google 其實有一段特別的說明：

雖然 Google 不會對 robots.txt 所封鎖的內容進行檢索或建立索引，但如果我們在網路上的其他網頁中發現封鎖網址的資訊，仍然會建立這些資訊的索引。因此，網頁網址以及其他可能的公開資訊 (例如網站連結中的錨點文字) 仍然會出現在 Google 搜尋結果中。如要完全避免這種情形，請使用 robots.txt 輔以其他封鎖網址方法，例如使用密碼保護伺服器上的檔案或在 HTML 中插入中繼標記。

其實從 Google 本身的建議來說，如果要加速或是讓 Bot 更加了解你的網站的時候，除了內容的建設之外，你還必須多在外部加強連結的導入，可以讓 Googlebot 更加了解你的網站。所以如果真的有需要不希望 Google 來爬的內容，真的不要隨便放上去或是做加密。此外我個人及前輩的建議都是：

使用 .htaccess 來禁止 bot 訪問
使用 meta name="robots" 來設定 noindex 範圍（但不用特別設 index ）

Post by 邱煜庭.

留言