針對于谷歌搜索引擎優(yōu)化的十二個基本步驟

發(fā)布時間：2015-03-10 文章來源：瀏覽次數(shù)：4435

首先，我來先容一下什么是robots.txt：robots.txt是搜索引擎中訪問網(wǎng)站的時候要查看的第一個文件。Robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。當(dāng)一個搜索蜘蛛訪問一個站點(diǎn)時，它會首先檢查該站點(diǎn)根目錄下是否存在robots.txt，假如存在，搜索機(jī)器人就會按照該文件中的內(nèi)容來確定訪問的范圍；假如該文件不存在，所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。最后，robots.txt必需放置在一個站點(diǎn)的根目錄下。

大家可以參考一下谷歌、百度和騰訊的robots寫法：

http://www.google.com/robots.txt

http://www.baidu.com/robots.txt

http://www.qq.com/robots.txt

大家了解完robots.txt后，那么我們可以用robots.txt來做什么？

1、用robots.txt屏蔽相似度高的頁面或沒內(nèi)容的頁面。

我們知道，搜索引擎收錄網(wǎng)頁后，會對網(wǎng)頁進(jìn)行“審核”，而當(dāng)兩個網(wǎng)頁的相似度很高時，那么搜索引擎就會刪除掉其中一個，并且會降低一點(diǎn)你網(wǎng)站的得分。

假設(shè)以下這兩個鏈接，內(nèi)容實(shí)在差未幾，那么第一個鏈接就應(yīng)該屏蔽掉。

/XXX?123

/123.html

像第一個的鏈接這樣的鏈接非常多，那么我們要怎么屏蔽呢?實(shí)在只要屏蔽/XXX?就可以屏蔽所有的鏈接了。

代碼如下：

Disallow： /XXX?

同理，一些沒有內(nèi)容的頁面我們也可以利用相同的辦法將其屏蔽掉。

2、用robots.txt屏蔽多余的鏈接，一般留存靜態(tài)的鏈接（既HTML、htm、shtml等）。

因?yàn)榫W(wǎng)站中常常會泛起多個鏈接指向統(tǒng)一個頁面的情況，而這樣會讓搜索引擎對網(wǎng)站的友好度降低。為了避免這一個情況，我們就可以通過robots.txt把非主要的鏈接去掉。

好比以下兩個鏈接指向同樣的頁面：

/OOO?123

/123.html

那么我們就應(yīng)該去掉第一個垃圾，代碼如下：

Disallow： /OOO?123

3、用robots.txt屏蔽死鏈

死鏈就是曾經(jīng)存在的網(wǎng)頁，由于改版或其他原因而失去效用后就變成死鏈，也就是說看似一個正常的網(wǎng)頁鏈接，但點(diǎn)擊后不能打開相對應(yīng)的網(wǎng)頁頁面。

好比，原來在目錄為/seo下的所有鏈接，由于目錄地址的改變，現(xiàn)在都變成死鏈接了，那么我們可以用robots.txt把他屏蔽掉，代碼如下：

Disallow： /seo/

4、告訴搜索引擎你的sitemap.xml地址

利用robots.txt可以告訴搜索引擎你sitemap.xml文件的地址，而不需要在網(wǎng)站上添加sitemap.xml的鏈接。詳細(xì)代碼如下：

Sitemap：你的sitemap地址

以上就是robots.txt的基本用法，一個好的網(wǎng)站必然會有一個好的robots.txt，由于robots.txt是搜索引擎了解你網(wǎng)站的一個途徑。另外在這里我推薦一下一個比較適合wordpress用戶使用的robots.txt寫法：

User-agent： *

Disallow： /wp-

Disallow： /feed/

Disallow： /comments/feed

Disallow： /trackback/

Sitemap： http://rainjer.com/sitemap.xml

最后，假如你覺得上面所說的還不能知足你的需要，那么你可以在谷歌或百度官方提供的robots.txt使用指南學(xué)習(xí)：

百度：http://www.baidu.com/search/robots.html

谷歌：http://www.google.com/support/forum/p/webmasters/thread?tid=4dbbe5f3cd2f6a13&hl=zh-CN

上一條：搜狗搜索引擎優(yōu)化方法...

下一條：禁忌：網(wǎng)站優(yōu)化中絕對不能...