你知道像百度這樣的搜索引擎如何發(fā)現(xiàn),抓取和排列數(shù)以萬億計的網(wǎng)頁,以便提供搜索結果嗎?
盡管搜索引擎的整體工作原理較為復雜,但我嘛可以理解一些非技術性的東西,如抓取,索引和排名,以便我嘛更好地理解搜索引擎優(yōu)化策略背后的方法。
據(jù)統(tǒng)計網(wǎng)絡上頁面結果超過130萬億個。實際上,可能遠遠超過這個數(shù)字,有很多頁面因為各種原因被百度排除在抓取,索引和排名過程之外。
為了保持搜索結果盡可能的與用戶搜索相關,像百度這樣的搜索引擎有一個明確定義的流程,即用于為任何給定的搜索查詢確定最佳網(wǎng)頁,這個過程隨著時間的推移而變化,因為它可以使搜索結果更好。
基本上,我們試圖回答這個問題:“百度如何確定以及排序搜索結果?”。簡而言之,這個過程包含以下步驟:
1.抓取 – 發(fā)現(xiàn)網(wǎng)絡上頁面并抓??;
2.索引 – 存儲所有檢索到的頁面的信息供日后檢索;
3.排名 – 確定每個頁面的內(nèi)容,以及應該如何對相關查詢進行排名;
讓我們仔細看看更簡單的解釋…
抓取
搜索引擎具有專門的抓取工具(又名蜘蛛),可以“爬行”萬維網(wǎng)來發(fā)現(xiàn)存在的頁面,以幫助確定最佳網(wǎng)頁,以便對查詢進行評估,爬蟲旅行的方式是網(wǎng)站鏈接。網(wǎng)站鏈接將整個網(wǎng)站上的頁面鏈接在一起,這樣做為抓取工具創(chuàng)建了一條通往存在的萬億互聯(lián)網(wǎng)頁的途徑。
百度蜘蛛
每當爬蟲查看網(wǎng)頁時,他們都會查看頁面的“文檔對象模型”(或“DOM”),以查看其中的內(nèi)容。DOM頁面呈現(xiàn)HTML和Javascript代碼,爬蟲可以通過它查找其他頁面的鏈接,這允許搜索引擎發(fā)現(xiàn)網(wǎng)頁上的新頁面,并且找到每個新鏈接都會加載到該爬蟲將在稍后訪問的隊列中。
如前所述,像百度這樣的搜索引擎不會抓取每一個網(wǎng)頁,相反,他們從一組可信的網(wǎng)站開始,這些網(wǎng)站是確定其他網(wǎng)站如何衡量的基礎,并且通過跟蹤他們在他們訪問的網(wǎng)頁上看到的鏈接,擴展了他們在網(wǎng)絡上的抓取。
相關閱讀:百度蜘蛛優(yōu)化教程
索引
索引是將關于網(wǎng)頁的信息添加到搜索引擎索引中的行為,索引是一組網(wǎng)頁 – 一個數(shù)據(jù)庫 – 包含搜索引擎蜘蛛爬取頁面的信息。
索引目錄和組織:
·每個網(wǎng)頁內(nèi)容的性質和主題相關性的詳細數(shù)據(jù);
·每個頁面鏈接到的所有頁面的地圖;
·任何鏈接的可點擊(錨點)文字;
·有關鏈接的其他信息,例如它們是否是廣告,它們位于頁面上的位置以及鏈接上下文的其他方面,以及關于接收鏈接的頁面的含義… 和更多。
索引是當用戶在搜索引擎中輸入查詢時,百度等搜索引擎存儲和檢索數(shù)據(jù)的數(shù)據(jù)庫決定從索引中顯示哪些網(wǎng)頁并按照什么順序顯示之前,搜索引擎會應用算法來幫助排列這些網(wǎng)頁。
排名
為了向搜索引擎的用戶提供搜索結果,搜索引擎必須執(zhí)行一些關鍵步驟:
1.解釋用戶查詢的意圖;
2.識別與查詢相關的索引中的網(wǎng)頁;
3.按相關性和重要性排序并返回這些網(wǎng)頁;
這是搜索引擎優(yōu)化的主要領域之一,有效的SEO有助于影響這些網(wǎng)頁對相關查詢的相關性和重要性。
那么,相關性和重要性意味著什么?
·相關性:網(wǎng)頁上的內(nèi)容與搜索者的意圖相匹配的程度(意圖是搜索者試圖完成搜索的目的,這對于搜索引擎(或SEO)來說是一個不小的任務)。
·重要性:他們在別處引用的越多,網(wǎng)頁被認為越重要(將這些引用視為該網(wǎng)頁的信任投票)。傳統(tǒng)上,這是從其他網(wǎng)站鏈接到該網(wǎng)頁的形式,但也可能有其他因素發(fā)揮作用。
為了完成分配相關性和重要性的任務,搜索引擎具有復雜的算法,旨在考慮數(shù)百個信號 ,以幫助確定任何給定網(wǎng)頁的相關性和重要性。
這些算法通常會隨著搜索引擎的工作而改變,以改善他們向用戶提供最佳結果的方法。
雖然我們可能永遠不會知道百度等搜索引擎在其算法中使用的完整信號列表(這是一個嚴密保密的秘密,并且有充分的理由,以免某些不道德者使用其來對系統(tǒng)進行排名),但搜索引擎已經(jīng)揭示了一些通過與網(wǎng)絡出版社區(qū)共享知識的基礎知識,我們可以使用這些知識來創(chuàng)建持久的SEO策略。
搜索引擎如何評估內(nèi)容?
作為排名過程的一部分,搜索引擎需要理解它所搜索的每個網(wǎng)頁內(nèi)容的性質,事實上,百度對網(wǎng)頁內(nèi)容作為排名信號很重視。
在2016年,百度證實了我們許多人已經(jīng)相信的內(nèi)容:內(nèi)容是網(wǎng)頁排名前三位的因素之一。
為了理解網(wǎng)頁的內(nèi)容,搜索引擎分析出現(xiàn)在網(wǎng)頁上的詞語和短語,然后建立一個稱為“語義地圖”的數(shù)據(jù)地圖,這有助于定義網(wǎng)絡上的概念之間的關系頁。
您可能想知道網(wǎng)頁上的“內(nèi)容”實際上是什么,獨特的頁面內(nèi)容由頁面標題和正文內(nèi)容組成。在這里,導航鏈接通常不在這個等式中,這并不是說它們并不重要,但在這種情況下,它們不被視為頁面上的獨特內(nèi)容。
搜索引擎可以在網(wǎng)頁上“查看”什么樣的內(nèi)容?
為了評估內(nèi)容,搜索引擎在網(wǎng)頁上找到的數(shù)據(jù)以解釋理解它,由于搜索引擎是軟件程序,他們“看到”網(wǎng)頁的方式與我們看到的截然不同。
搜索引擎爬蟲以DOM的形式查看網(wǎng)頁(如我們上面定義的那樣)。作為一個人,如果你想看看搜索引擎看到什么,你可以做的一件事就是看看頁面的源代碼,要做到這一點,您可以通過右鍵單擊瀏覽器中并查看源代碼。
源代碼
源代碼
這和DOM之間的區(qū)別在于我們沒有看到Javascript執(zhí)行的效果,但作為一個人,我們?nèi)匀豢梢允褂盟鼇砹私夂芏嚓P于頁面內(nèi)容的內(nèi)容,網(wǎng)頁上的正文內(nèi)容通常可以在源代碼中找到,以下是HTML代碼中以上網(wǎng)頁上的一些獨特內(nèi)容的示例:
除了網(wǎng)頁上的獨特內(nèi)容之外,搜索引擎抓取工具還會在網(wǎng)頁上添加其他元素,幫助搜索引擎了解該網(wǎng)頁的內(nèi)容。
這包括如下內(nèi)容:
·網(wǎng)頁的元數(shù)據(jù),包括HTML代碼中的標題標簽和元描述標簽,這些標簽用作搜索結果中網(wǎng)頁的標題和說明,并應由網(wǎng)站所有者維護。
·網(wǎng)頁上圖像的alt屬性,這些是網(wǎng)站所有者應該保留的描述,以描述圖像的內(nèi)容。由于搜索引擎無法“看見”圖像,這有助于他們更好地理解網(wǎng)頁上的內(nèi)容,并且對于那些使用屏幕閱讀程序來描述網(wǎng)頁內(nèi)容的殘障人士也起著重要作用。
我們已經(jīng)提到了圖片,以及alt屬性如何幫助爬蟲了解這些圖片的內(nèi)容,搜索引擎無法看到的其他元素包括:
Flash文件:百度曾表示可以從Adobe Flash文件中提取一些信息,但這很難,因為Flash是一種圖片媒介,當設計人員使用Flash來設計網(wǎng)站時,他們通常不會插入有助于解釋文件內(nèi)容的文本,許多設計人員已將HTML5作為Adobe Flash的替代品,這對搜索引擎友好。
音頻和視頻:就像圖像一樣,搜索引擎很難理解沒有上下文的音頻或視頻。例如,搜索引擎可以在Mp3文件中的ID3標簽中提取有限的數(shù)據(jù),這是許多出版商將音頻和視頻與成績單一起放在網(wǎng)頁上以幫助搜索引擎提供更多背景的原因之一。
程序中包含的內(nèi)容:這包括AJAX和其他形式的JavaScript方法,動態(tài)加載網(wǎng)頁上的內(nèi)容。
iframe:iframe標記通常用于將自己網(wǎng)站上的其他內(nèi)容嵌入到當前網(wǎng)頁中,或者將來自其他網(wǎng)站的內(nèi)容嵌入到您的網(wǎng)頁中百度可能不會將此內(nèi)容視為您的網(wǎng)頁的一部分,尤其是當它來自第三方網(wǎng)站時。從歷史上看,百度忽略了iframe中的內(nèi)容,但可能有些情況是該通用規(guī)則的例外情況。
結論
在SEO面前,搜索引擎顯得如此簡單:在搜索框中輸入查詢,然后poof!顯示你的結果。但是,這種即時展現(xiàn)是由幕后的一組復雜過程支持的,這有助于為用戶搜索識別最相關的數(shù)據(jù),因此搜索引擎可以尋找食譜,研究產(chǎn)品或其他奇奇怪怪不可描述的事情。
上一篇:百度對新站就是這么不公平