本文將教您如何利用站點(diǎn)服務(wù)器日志作為SEO分析工具,以更好地了解搜索引擎機(jī)器人與站點(diǎn)的交互方式。在本文中,我們將只關(guān)注Google的Googlebot和Googlebot Smartphone。因此,從現(xiàn)在開(kāi)始,每當(dāng)提到機(jī)器人時(shí),是在指Google。(本教程適用于百度)
同樣值得注意的是,服務(wù)器日志通常也包含其他交互數(shù)據(jù),但是我們?cè)谶@里只涉及搜索引擎機(jī)器人流量。
什么是服務(wù)器日志文件?
簡(jiǎn)而言之,服務(wù)器日志文件是服務(wù)器自動(dòng)生成的記錄,列出了搜索引擎機(jī)器人與其中包含的頁(yè)面/資源的每次交互。簡(jiǎn)而言之,每次漫游器請(qǐng)求服務(wù)器上的頁(yè)面時(shí),都會(huì)創(chuàng)建一個(gè)日志項(xiàng),其中顯示了各種數(shù)據(jù)點(diǎn),例如:
*Warning: Jargon Zone*
請(qǐng)求了什么頁(yè)面或資源?
請(qǐng)求了哪種資源?(HTML,JavaScript等)
使用什么方法?(獲取或發(fā)布)
該請(qǐng)求何時(shí)發(fā)生?
請(qǐng)求的響應(yīng)代碼是什么?(200、301、404、500等)
還有最重要的數(shù)據(jù)點(diǎn)…* drumroll * …哪個(gè)搜索引擎機(jī)器人發(fā)出了請(qǐng)求以及發(fā)出了多少請(qǐng)求?。℅ooglebot,Googlebot Smartphone,Bingbot,Baidu等)
為什么機(jī)器人抓取如此重要?
能夠一目了然地確定機(jī)器人在一段時(shí)間內(nèi)正在請(qǐng)求哪些頁(yè)面,這使我們能夠識(shí)別潛在的“問(wèn)題”頁(yè)面。
什么是“問(wèn)題”頁(yè)面?
我將這些頁(yè)面定義為在一個(gè)特定的時(shí)間范圍內(nèi)(至少一個(gè)月或三個(gè)月)幾乎沒(méi)有機(jī)器人請(qǐng)求的頁(yè)面。為了進(jìn)行衡量,假設(shè)在一個(gè)月內(nèi)任何具有10個(gè)或更少的漫游器請(qǐng)求的頁(yè)面都是潛在的“問(wèn)題”頁(yè)面。由于這是一個(gè)可縮放的比例,請(qǐng)根據(jù)網(wǎng)站大?。ɡ?,小于10,小于30,小于50等)隨意從此數(shù)字開(kāi)始并繼續(xù)進(jìn)入列表。
機(jī)器人流量低的原因有哪些?
頁(yè)面位于網(wǎng)站導(dǎo)航的深處,導(dǎo)致機(jī)器人平均需要更長(zhǎng)的時(shí)間才能到達(dá)。
跨多個(gè)頁(yè)面的內(nèi)容稀少或重復(fù),導(dǎo)致漫游器在請(qǐng)求頁(yè)面時(shí)沒(méi)有那么緊迫性或重要性。
頁(yè)面未包含在XML網(wǎng)站地圖中,導(dǎo)致漫游器僅依靠自然爬網(wǎng)進(jìn)行查找。
缺少指向頁(yè)面的內(nèi)部/外部鏈接,從而使機(jī)器人找到它們的途徑少得多。
技術(shù)問(wèn)題,例如格式不正確的robots.txt文件阻止了bot爬行網(wǎng)站上的某些區(qū)域。
機(jī)器人流量低有什么影響?
頁(yè)面根本沒(méi)有被拾取和索引。
如果在索引頁(yè)面上更新頁(yè)面內(nèi)容,則刷新后的內(nèi)容可能需要更長(zhǎng)的時(shí)間才能被檢索和建立索引,意味著網(wǎng)站的訪問(wèn)者可能會(huì)看到過(guò)時(shí)的內(nèi)容。
話雖這么說(shuō),重要的是要注意,具有低漫游器流量的頁(yè)面并不總是引起人們關(guān)注的。這只是為了幫助識(shí)別潛在問(wèn)題頁(yè)面的晴雨表,并不保證實(shí)際上有任何錯(cuò)誤。
網(wǎng)站大小如何影響機(jī)器人爬行?
大型 – 如果大型網(wǎng)站包含1000多個(gè)頁(yè)面,則機(jī)器人可能會(huì)遇到一個(gè)問(wèn)題,即通過(guò)自然的爬網(wǎng)進(jìn)度持續(xù)到達(dá)較深的頁(yè)面。這些可能是將與日志文件一起審核的頁(yè)面,以確定重要性和優(yōu)先級(jí)。
中小型網(wǎng)站 – 對(duì)于中型網(wǎng)站和小型網(wǎng)站而言,其網(wǎng)頁(yè)大約少于500頁(yè),因此漫游器應(yīng)該能夠毫無(wú)問(wèn)題地抓取大部分頁(yè)面。在這種情況下,您可能正在審核日志文件,以查找邏輯上應(yīng)更頻繁地進(jìn)行爬網(wǎng)的頁(yè)面。
利用服務(wù)器日志分析seo
1.訪問(wèn)網(wǎng)站的服務(wù)器日志
獲得對(duì)站點(diǎn)日志文件的訪問(wèn)權(quán)限并將之解析后,開(kāi)始審核潛在的“問(wèn)題”頁(yè)面。(我將使用Screaming Frog的Log Analyzer工具進(jìn)行此特定演練)
就最佳做法而言,需要審核至少一個(gè)月的數(shù)據(jù),以準(zhǔn)確描繪出網(wǎng)站上機(jī)器人活動(dòng)的狀態(tài)。要分析的數(shù)據(jù)量實(shí)際上取決于站點(diǎn)的大小,頁(yè)面越多,將擁有更多的“事件”,這實(shí)際上會(huì)減慢導(dǎo)入速度。
2.驗(yàn)證機(jī)器人
開(kāi)始導(dǎo)入過(guò)程后,將出現(xiàn)一個(gè)框,詢問(wèn)您是否要在導(dǎo)入時(shí)“驗(yàn)證”機(jī)器人。該過(guò)程實(shí)質(zhì)上涉及對(duì)向服務(wù)器發(fā)出請(qǐng)求的每個(gè)漫游器的IP地址執(zhí)行反向DNS查找,以識(shí)別假機(jī)器人。(當(dāng)然,也可以利用nslookup命令符進(jìn)行識(shí)別IP)
3.篩選和過(guò)濾
導(dǎo)入要分析的日志文件數(shù)據(jù)量后,可以自行調(diào)整視圖結(jié)構(gòu),請(qǐng)注意下面提到的兩個(gè)Googlebot列,這我們稍后將重點(diǎn)討論的列。
接下來(lái)導(dǎo)出數(shù)據(jù),以便更好地過(guò)濾和處理數(shù)據(jù),在“行”列上方的左側(cè)找到導(dǎo)出按鈕。
4.審核數(shù)據(jù)
數(shù)據(jù)導(dǎo)出到Excel電子表格后,可以通過(guò)Googlebot和Googlebot Smartphone過(guò)濾數(shù)據(jù),將請(qǐng)求數(shù)量最多的頁(yè)面過(guò)濾到數(shù)量最少的頁(yè)面將隔離潛在的“問(wèn)題”頁(yè)面。
如下所示,網(wǎng)站上有很多頁(yè)面,在一個(gè)月的時(shí)間里,它們僅收到一個(gè)Googlebot請(qǐng)求!這可能是一個(gè)問(wèn)題,但是我們需要進(jìn)一步調(diào)查。
編譯好要分析的頁(yè)面列表后,就該重新討論前面有關(guān)機(jī)器人流量低的可能原因的部分。
結(jié)論
服務(wù)器日志文件為我們提供了搜索引擎機(jī)器人如何與特定網(wǎng)站交互的視圖,為進(jìn)一步的seo優(yōu)化提供了必要的信息,以更好地了解機(jī)器人為何會(huì)忽略網(wǎng)站上的某些頁(yè)面以及如何進(jìn)行最佳優(yōu)化。