亚洲国产人成中字幕_在线观看网站深夜免费AV_亚洲精品有码在线观看_亚洲精品有码在线观看

你的位置：膠體磨首頁(yè) >> 新聞發(fā)布 >> 行業(yè)新聞行業(yè)新聞

膠體磨:由淺到深再談網(wǎng)站原始訪問(wèn)日志分析

來(lái)源:www.flybabyjewels.com | 發(fā)布時(shí)間:2012/4/19 | 瀏覽次數(shù)：

期筆者對(duì)大約50多位剛從事或已經(jīng)從事1-2年的seoer做了個(gè)小調(diào)查，其中包括很多面試者，真正在工作中能分析到日志的seoer比例非常非常的少，在問(wèn)到訪問(wèn)日志在seo所起到的作用，很多seoer都直搖頭，或者僅僅知道一些皮毛并未親手操作過(guò)，其主要原因還是在公司平臺(tái)中并未有機(jī)會(huì)去實(shí)踐，下面筆者分享下自己對(duì)網(wǎng)站原始訪問(wèn)日志的認(rèn)識(shí)：

　　什么是訪問(wèn)日志

　　網(wǎng)站訪問(wèn)日志是記錄web服務(wù)器接收處理請(qǐng)求以及運(yùn)行時(shí)錯(cuò)誤等各種原始信息的以.log結(jié)尾的文件，確切的講，應(yīng)該是服務(wù)器日志。它的作用是讓我們seoer可以清楚的得知用戶在什么IP、什么時(shí)間、用什么操作系統(tǒng)、什么瀏覽器、什么分辨率顯示器的情況下訪問(wèn)了你網(wǎng)站的哪個(gè)頁(yè)面，是否訪問(wèn)成功。

　　什么時(shí)候我們需要去分析日志及日志特征

　　我們會(huì)天天都去分析日志嗎?不會(huì)的，因?yàn)槿罩痉治霰容^枯燥，一般都是每月或者半月分析一次。這種分析屬于日常分析，如果您的網(wǎng)站一直都比較正常那可以每月分析一次，或者可以簡(jiǎn)單的分析一次。

　　其實(shí)日志更多是在網(wǎng)站出現(xiàn)異常的時(shí)候，會(huì)觀察半個(gè)月日志，集中分析蜘蛛的動(dòng)向。比如會(huì)分析是不是網(wǎng)站404，robots設(shè)置異�；蛘邟祚R等問(wèn)題造成蜘蛛消失，逐兒去查找解決問(wèn)題。

　　下面是從筆者日常分析的日志中取的一條訪問(wèn)記錄：

　　119.254.22.200 - - [10/Apr/2012:00:04:54 +0800] "GET /bbjk/index.html HTTP/1.0" 200 25269 "-" "Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)"

　　119.254.22.200 為用戶訪問(wèn)ip

　　10/Apr/2012:00:04:54 +0800 為訪問(wèn)日期 -時(shí)區(qū)

　　GET /bbjk/index.html HTTP/1.0 根據(jù)HTTP/1.1 協(xié)議抓取(域名下)/bbjk/index.html 這個(gè)頁(yè)面(GET表示服務(wù)器動(dòng)作)

　　200 服務(wù)器響應(yīng)狀態(tài)碼

　　25269 為頁(yè)面字節(jié)數(shù)。

　　Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) 為搜狗蜘蛛特征。

　　注意：任何蜘蛛都僅僅為網(wǎng)站的普通用戶。不要以為蜘蛛非常的強(qiáng)大，很多人還認(rèn)為網(wǎng)站若禁止登錄查看內(nèi)容，蜘蛛都能爬取登陸后的頁(yè)面內(nèi)容，這是不可能的。除非網(wǎng)站做了蜘蛛專屬手段。

　　怎么去分析網(wǎng)站訪問(wèn)日志

　　曾記得在幾年前，筆者剛接觸seo的時(shí)候，工具稀少的年代，筆記一直都喜歡手工

　　去分析訪問(wèn)日志，當(dāng)然手工分析很費(fèi)時(shí)費(fèi)力，再這里只講解下筆者最喜歡手工分析日志中的幾點(diǎn)。

　　筆者現(xiàn)在手工分析一般都集中在研究每日蜘蛛在網(wǎng)站上爬行規(guī)律與網(wǎng)站更新數(shù)據(jù)之間的關(guān)系。當(dāng)然每個(gè)網(wǎng)站需根據(jù)自己來(lái)觀察，最后會(huì)有一個(gè)非常完美的規(guī)律。

　　筆者會(huì)把每日的蜘蛛訪問(wèn)時(shí)間按時(shí)間段排序統(tǒng)計(jì)成報(bào)表，

　　比如：2012-4-18 1-2點(diǎn)爬行5次

　　2-3點(diǎn)爬行3次

　　3-4點(diǎn)爬行10次

　　如果你細(xì)心的話可以做個(gè)走勢(shì)圖就非常直觀。這種統(tǒng)計(jì)一般都是在網(wǎng)站剛建立后和網(wǎng)站出異常后加強(qiáng)分析日志，日常運(yùn)營(yíng)中，更多注重的是分析出蜘蛛每日的爬行規(guī)律然后定時(shí)的放出充量文章，增加收錄。

　　手工分析日志都是比較枯燥的，有時(shí)會(huì)影響心情，不過(guò)現(xiàn)在工具繁盛的年代，我們也借助工具來(lái)達(dá)到事半功倍。

　　筆者比較推薦的是光年日志分析工具。該工具非常簡(jiǎn)單，筆者不在此演示，有興趣的自己百度，它的優(yōu)點(diǎn)在于能在生成的報(bào)告中清晰的告訴我們蜘蛛爬行異常，與頁(yè)面抓取痕跡。比如404. 唯一遺憾的是目前筆者還未找到一款工具帶有分析蜘蛛爬行規(guī)律生成走勢(shì)圖的工具。

　　注意：在日志分析中，很多時(shí)候我們都是想從日志中尋找到問(wèn)題，以便改進(jìn)我們的自身的問(wèn)題，所以需要特別關(guān)注404,301等狀態(tài)碼。

　　真假蜘蛛辨別

　　為什么會(huì)出現(xiàn)真假蜘蛛，主要是因?yàn)楝F(xiàn)在信息繁盛，很多采集工具為不讓對(duì)方發(fā)現(xiàn)自己的痕跡都模擬蜘蛛的痕跡來(lái)下載數(shù)據(jù)源。所以會(huì)造成很多seoer誤認(rèn)為蜘蛛大量的抓取頁(yè)面卻發(fā)現(xiàn)收錄并未增加的現(xiàn)象。下面筆者告訴大家比較容易辨認(rèn)真假蜘蛛和一些特別注意的地方。

　　1，真蜘蛛

　　220.181.108.96 - - [07/Apr/2012:01:22:21 +0800] "GET /site/sex/index.php HTTP/1.1" 302 20 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

　　這是筆者某網(wǎng)站的日志片段，我拿出ip，在win系統(tǒng)下cmd登錄dos框下輸入nslookup 220.181.108.96 查看回顯：

　　如上圖，若是百度蜘蛛，他會(huì)直接回顯百度的域名。

　　2，假蜘蛛

　　假蜘蛛比較經(jīng)典的就是chinaz的查詢工具了，他就是模擬百度蜘蛛的，他的ip為125.90.88.96 我們反查后并未出現(xiàn)百度域名。有興趣的可以nslookup 125.90.88.96下，筆者就不截圖了。

　　一般假蜘蛛的存在形式為：XXX.XXX.XXX.XXX - - [07/Apr/2012:01:22:21 +0800] "GET /site/sex/index.php HTTP/1.1" 302 20 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

　　看著跟真的一樣，唯獨(dú)ip就是貓膩！

　　3，特殊情況的蜘蛛

　　1) cdn加速后，造成ip混亂。

　　此類情況出現(xiàn)一般是網(wǎng)站在做了cdn加速后，再去查看apache服務(wù)器的訪問(wèn)日志的時(shí)候發(fā)現(xiàn)很多蜘蛛的痕跡ip都非常的類似，如果按照百度官方出的辨別手法nslookup ip 后肯定為匿名，因?yàn)檫@些ip都是cdn節(jié)點(diǎn)ip，所以會(huì)造成誤解。若開(kāi)啟cdn后，蜘蛛實(shí)際訪問(wèn)次數(shù)一般都<=日志中蜘蛛總數(shù)值。

　　2) 百度匿名蜘蛛的存在性討論。

　　匿名蜘蛛？百度工程師lee一直強(qiáng)調(diào)百度蜘蛛是不會(huì)匿名去訪問(wèn)網(wǎng)站的，但筆者從網(wǎng)上查閱資料，加上筆者某個(gè)站的數(shù)據(jù)推測(cè)，筆者認(rèn)為會(huì)有兩種情況:

　　第一種：假如真的存在匿名蜘蛛，這很明顯與lee的話有悖。所以這點(diǎn)我們可以去辯證的去理解，假如存在，匿名蜘蛛會(huì)做什么，很多seoer包括筆者都猜測(cè)可能會(huì)存在用此類蜘蛛去驗(yàn)證網(wǎng)站是否對(duì)蜘蛛與用戶做了不同的待遇。所以此種情況，做賊就不要心虛嘛，老老實(shí)實(shí)做站吧。

　　第二種：可能是百度的上班族們?cè)诠驹L問(wèn)了你的網(wǎng)站，百度員工也是人，他們也有七情六欲，或許你的網(wǎng)站被他們某人發(fā)現(xiàn)了，訪問(wèn)了你的網(wǎng)站后，從而留下了百度ip，造成了誤解。(其實(shí)百度很多部門都是一直在做收集客戶資料的，比如網(wǎng)盟部門)

　　注意：對(duì)于真假蜘蛛的辨別一定要多方面考慮，切勿只拿ip來(lái)判斷就斷定真?zhèn)巍?/p>

本文來(lái)自廊坊膠體磨www.flybabyjewels.com

TAG：

打印本頁(yè) || 關(guān)閉窗口

上一篇：膠體磨優(yōu)化突破點(diǎn)之長(zhǎng)尾關(guān)鍵詞戰(zhàn)略
下一篇：膠體磨教你五種方法讓你的軟文像新聞

評(píng)論

評(píng)論加載中...

相關(guān)內(nèi)容

Powered by 廊通機(jī)械有限公司 © 2010-2012, 膠體磨 Inc	聯(lián)系電話：0316-8092035,0316-8092025　傳真：0316-2895316 RSS 網(wǎng)站地圖
	版權(quán)所有：廊通膠體磨聯(lián)系地址：河北廊坊市廣陽(yáng)區(qū)廊萬(wàn)路189-3號(hào)

337p人体欧版aⅴ视频_好看的亚洲av网站_国产爽视频在线观看视频_男女xxⅹ爽视频