咨詢電話:15966287372(微信同號)
十年專注各類網站建設、SEO優化研究

【站長的必修課】如何設置“robots.txt”文件

?????? 通過前面一篇文章,聊城SEO站長給站長朋友介紹了“如何分析網站日志

?????? 今天,我們接著學習如何設置“robots.txt”文件。

?????? robots.txt文件,其實就是我們常說的“robots協議”

網站通過robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。Robots協議是網站國際互聯網界通行的道德規范,其目的是保護網站數據和敏感信息、確保用戶個人信息和隱私不被侵犯。

寫到這里,相信大家對robots協議會有一個初步的了解。

怎么查看網站的robots協議呢?其實很簡單,大家在網址中輸入http://www.lvxdrc.live/robots.txt就可以直接看到聊城SEO網站的robots協議。

———————————————-
User-agent: *
Disallow: /wp-admin
Disallow: /wp-content
Disallow: /wp-includes
Disallow: /jiage
Disallow: /zhanghao
Disallow: /*?replytocom=
Disallow: /lqlxyy
Disallow: /blog
———————————–

通過分析上面的robots,可以看到,上面多次出現了“Disallow”,下面詳細為大家分析一下:

User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄 
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄 
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以”.htm”為后綴的URL(包含子目錄)。 
Disallow: /*?* 禁止訪問網站中所有包含問號 (?) 的網址 
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片 
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。 
Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄 
Allow: /tmp 這里定義是允許爬尋tmp的整個目錄 
Allow: .htm$ 僅允許訪問以”.htm”為后綴的URL。 
Allow: .gif$ 允許抓取網頁和gif格式圖片
Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖

看到這里,大家應該能看懂http://www.lvxdrc.live/robots.txt 文件了吧!

??????? 我們可以試著分析一下,淘寶網站是如何屏蔽百度蜘蛛的:

User-agent: Baiduspider
Disallow: /

User-agent: baiduspider
Disallow: /

其實很簡單,就是運用了“Disallow: /”

懂得了上面這些之后,我們可以試著分析一些其他網站,當然,關于一些黑客攻擊或盜取別人信息,robots.txt文件也是一個很好的途徑!
當然,網站還有很多網站日志分析工具,比如:站長工具就有這個功能,還有其他一些工具可以在網上查一下。

?????? SEO小常識:

?????? 做SEO是需要耐心的,這段時間百度變化比較頻繁,作為有一名經驗的SEOer,應該已經了解這種規律了,一定要淡定!網站排名下降不可怕,下降后多去分析一下,如果自己沒有做違反搜索引摯規定的事項,那就要去觀察一下同行的網站,是不是也遇到這種情況了?在自己的網站中沒有找到原因,可以借助同類的網站去分析啊!

未經允許不得轉載:聊城卡碩網絡公司 » 【站長的必修課】如何設置“robots.txt”文件

分享到:更多 ()
網站建設及網站優化精典案例展示

評論 搶沙發

評論前必須登錄!

十年專注網站建設、SEO優化推廣研究(0635-8260708)

網站SEO案例聯系我們
斗魂在线客服 河南快赢481开奖视组走 开个投标公司赚钱吗 异度装甲哪里好赚钱 幸运赛车开户 老11选5开奖结果走势图 丰禾棋牌官网1369 99赚钱App进不去了 排列三和排列五走势图 新加坡三分彩 981cc棋牌在线 分分彩后一稳赚技巧 北京赛车大群推荐 怎么利用淘必中赚钱 足彩17147开奖结果奖金 青海十一选五预测号码 内蒙古11选5最新走势图