大家好,因?yàn)樽蛱焱砩蠋蛣e人弄電腦弄到比較晚,所以昨天晚上的博文今天上午來發(fā)。
大家一定在想,蝸牛SEO? 你分享的什么破文章,分享了半天,雖然有點(diǎn)與SEO沾邊,但是卻沒有一個是真實(shí)的在做SEO的東西!于是呢,蝸牛今天就給大家開始分享真實(shí)的在 “做”SEO的東西。今天蝸牛給大家分享的是入門開始做網(wǎng)站時第一個應(yīng)該明白的東東,同時也是蜘蛛到一個網(wǎng)站第一個要訪問的東東,一定有人猜出來是什么東 東了吧。對,就是Robots的作用與寫法。
下面就聽 蝸牛SEO 娓娓道來吧!
一、????? 什么是robots?有什么用?
“Robots”被一些同行朋友叫作“蘿卜絲”,它是搜索引擎的機(jī)器協(xié)議。全稱是“網(wǎng)絡(luò)爬蟲排除協(xié)議”。網(wǎng)站通過Robots協(xié)議來告訴搜索引擎,哪些頁面可以抓取,哪些頁面不能夠抓取。
因?yàn)榫W(wǎng)站的很多目錄如果被抓取是有風(fēng)險的,或者是因?yàn)槔嬖虿荒鼙蛔ト。孕枰嬖V蜘蛛人你網(wǎng)站允許與不允許的情況。
Robots是放在網(wǎng)站根目錄下面,名稱為:robots.txt
二、????? Robot有哪些指令?
Robots 的指令很簡單,只有三個指令,一般我們也會把地圖放在上面,方便蜘蛛進(jìn)站抓完Robots就直接順著地圖爬。
User-agent: 此指令定義了此指令下面的內(nèi)容對哪些蜘蛛有效。默認(rèn)所有蜘蛛都允許抓取,如果此指令指定了特定的蜘蛛,那么此指令下跟的內(nèi)容就對特定蜘蛛有效。
Disallow: 此指令定義了禁止蜘蛛抓取哪些因?yàn)?,有些人可能認(rèn)為,做網(wǎng)站當(dāng)然都希望被抓取了。錯,如果是后臺或是隱私文件,相信誰都不愿意被抓取的。
Allow: 此指令定義了允許蜘蛛抓些哪些內(nèi)容,如果是某些內(nèi)容允許,其它全部拒絕,則可以用這個指令,大多數(shù)網(wǎng)站只用到禁止指令。
Sitemap: 顧名思義,就是我們常說的站點(diǎn)地圖了。在這里我們就不詳細(xì)介紹站點(diǎn)地圖了,蝸牛WEO會在下一節(jié)給大家詳細(xì)介紹? 站點(diǎn)地圖? 的作用與用法。我們把站點(diǎn)地圖放在Robots下面,可以方便蜘蛛直接在訪問Robots時就訪問到你的地圖位置。
三、????? Robots的寫法
1、???? User-agent: 是用來定義蜘蛛名的:常見的蜘蛛名包括:Baiduspider、Googlebot、MSNBot、Baiduspider-image、YoudaoBot、Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider、Sosospider、PangusoSpider、JikeSpider、yisouspider、EasouSpider。
2、???????????? Disallow:
是用來定義什么內(nèi)容不允許蜘蛛抓取,robots中最難用,而且最常出現(xiàn)問題的就是Disallow指令?;蛘哒f整個robots的精髓就在于Disallow,學(xué)好了這個指令的用法你就能寫出完美的Robots.下面我就把我們最常用到的一些Disallow的用法給大家列出來。
禁止整站被抓?。?/p>
Disallow: /
禁止根目錄下的woniuseo目錄抓取:
Disallow: /woniuseo/
禁止根目錄下的woniuseo目錄下的單個頁面woniuseo.html被抓?。?/p>
Disallow:/woniuseo/woniuseo.html
禁止全站含有?的頁面被抓取:
Disallow: ?/*?*
禁止全站含有woniuseo的頁面被抓取:
Disallow: ?/*woniuseo*
禁止全站后綴為.aspx的頁面被抓?。?/p>
Disallow:? /*.aspx$
禁止全站后綴為.jpg的文件被抓?。?/p>
Disallow:/*.jpb$
3. Allow:
允許命令一般不單獨(dú)拿來使用,允許命令一般是先允許某個目錄被抓取,然后再禁止其它所有頁面被抓取。
允許所有頁面被抓取:
Allow: /
允許woniuseo的目錄被抓?。?/p>
Allow: /woniuseo/
允許抓取.html的頁面:
Allow: /*.html$
允許抓取.jpg的圖片:
Allow: /*.jpg$
四、????? Robots的應(yīng)用
- 蝸牛自己的網(wǎng)站的robots文件是這樣寫的:
User-agent: *Disallow: /wp-admin/Disallow: /wp-content/Disallow: /wp-includes/Disallow: /tag/Disallow: /wp-config.phpAllow: /
sitemap:http://m.fr188.cn/sitemap.xml
- 禁止所有搜索引擎抓取所有頁面:
User-agent: *
Disallow: /
這種情況一般用在新站建好還沒正式上線,不希望蜘蛛抓取時。
- 禁止百度蜘蛛抓取所有頁面:
User-agent: Baiduspider
Disallow: ?/
淘寶就因?yàn)榕c百度的利益關(guān)系,從2008年就禁止百度抓取它所有頁面了。
- 僅允許百度蜘蛛抓取所有頁面:
User-agent: Baiduspider
Allow: ?/
User-agent: *
Disallow: /
- 禁止所有蜘蛛抓取特定的目錄和頁面,允許其它所有:
User-agent: *
Disallow: ?/sys-admin/
Disallow:? /aboutwoniu.html
Allow: ?/
- 僅允許蜘蛛抓取.html的頁面與.jpg的圖片:
User-agent:*
Allow: /*.html$
Allow: /*.jpg$
Disallow:/
- 禁止所有動態(tài)的頁面的抓取,允許其它:
User-agent: *
Disallow:? /*?*
Allow:? /
- 允許某個目錄下某個目錄被抓取,禁止其它
User-agent: *
Allow: /woniuseo/woniuseo/
Disallow:/woniuseo/
五、????? 關(guān)于robots的網(wǎng)絡(luò)大事件
- 淘寶封殺
2008年9月8日,淘寶網(wǎng)宣布封殺百度爬蟲,百度忍痛遵守爬蟲協(xié)議。因?yàn)橐坏┢茐膮f(xié)議,用戶的隱私和利益就無法得到保障,搜索網(wǎng)站就談不到人性關(guān)懷
- 京東封殺
2011年10月25日,京東商城正式將一淘網(wǎng)的搜索爬蟲屏蔽,以防止一淘網(wǎng)對其的內(nèi)容抓取。
- BE違規(guī)抓取Evay
美國BE拍賣公司無視Ebey公司網(wǎng)站 robots協(xié)議,終于2000年2月被告上法庭,最終被判Be侵權(quán)。
- 360搜索無視robots協(xié)議
2012年8月,360綜合搜索被指違反robots協(xié)議,被業(yè)內(nèi)指為“違規(guī)”警告。
如果大家看完上面的指令還有疑問一話,請大家訪問“蝸牛SEO博客”留言或者直接加入? 蝸牛SEO博客 的官方群,找博主來看大家的Disallow應(yīng)該怎么寫才對。關(guān)于Robots的用法還有很多很多,蝸牛SEO 在這里沒法一一列舉出來,如果大家對Robots還有疑問。請大家訪問“蝸牛SEO博客”。在這里,我會給大家量解答大家的疑問。另外我也會在自己的博客里面分享更多SEO相關(guān)的知識,希望能夠?qū)Υ蠹襍EO的道路有一點(diǎn)幫助。
轉(zhuǎn)載請注明:?蝸牛SEO? ? Robots的作用與寫法