搜索引擎的目的是從互聯(lián)網(wǎng)上可用資源的龐大數(shù)據(jù)庫中提取所請求的信息,搜索引擎成為日常的重要工具,用于查找所需信息,而無需知道存儲的確切位置。有不同類型的搜索引擎可以獲取您正在尋找的信息。
不同類型的搜索引擎,搜索引擎根據(jù)其工作原理分為以下三類。
1.基于爬蟲的搜索引擎
所有基于爬蟲的搜索引擎都使用爬蟲或機(jī)器人或蜘蛛來抓取新內(nèi)容并將其編入索引數(shù)據(jù)庫,有四個基本步驟。
1.1:爬行
搜索引擎抓取整個網(wǎng)絡(luò)以獲取可用的網(wǎng)頁,一個名為crawler或bot或spider?的軟件可以執(zhí)行整個Web的爬網(wǎng)。抓取頻率取決于搜索引擎,抓取間隔可能需要幾天時間。這就是有時您可以在搜索結(jié)果中看到舊的或已刪除的頁面內(nèi)容的原因。一旦搜索引擎再次抓取您的網(wǎng)站,搜索結(jié)果就會顯示新的更新內(nèi)容。
1.2:索引
索引是爬網(wǎng)后的下一步,這是識別能描述頁面的單詞和表達(dá)式的過程。所識別的單詞被稱為關(guān)鍵字,并且頁面被分配給所識別的關(guān)鍵字。有時,當(dāng)抓取工具無法理解網(wǎng)頁的含義時,您的網(wǎng)站可能會在搜索結(jié)果中排名較低。在這里,您需要針對搜索引擎抓取工具優(yōu)化網(wǎng)頁,以確保內(nèi)容易于理解。一旦抓取工具提取正確的關(guān)鍵字,網(wǎng)頁就會被分配到這些關(guān)鍵字并在搜索結(jié)果中排名靠前。
1.3:計算相關(guān)性
搜索引擎將搜索請求中的搜索字符串與數(shù)據(jù)庫中的索引頁面進(jìn)行比較。由于可能有多個頁面包含搜索字符串,因此搜索引擎開始計算其索引中每個頁面與搜索字符串的相關(guān)性。
1.4:檢索結(jié)果
搜索引擎活動的最后一步是檢索結(jié)果?;旧?,它只是按順序在瀏覽器中顯示。搜索引擎按照最相關(guān)的順序?qū)λ阉鹘Y(jié)果的無限頁面進(jìn)行排序。
2.人力資源目錄
人力目錄也稱為開放目錄系統(tǒng),取決于基于人類的列表活動。以下是人力資源目錄中索引的工作原理:
站點所有者向目錄提交站點的簡短描述以及要列出的類別。
然后手動審查提交的網(wǎng)站并將其添加到適當(dāng)?shù)念悇e中。
在搜索框中輸入的關(guān)鍵字將與網(wǎng)站的描述相匹配,這意味著不考慮對網(wǎng)頁內(nèi)容所做的更改,因為它只是關(guān)于描述。
雅虎目錄和DMOZ是人力資源目錄的示例。不幸的是,像Google這樣的自動搜索引擎將所有這些人性化的目錄式搜索引擎從網(wǎng)絡(luò)中刪除了。
3.混合搜索引擎
混合搜索引擎使用基于爬蟲和手動索引的方式在搜索結(jié)果中列出網(wǎng)站。大多數(shù)基于爬蟲的搜索引擎(如谷歌)基本上都使用爬蟲作為主要機(jī)制,將人力驅(qū)動目錄作為輔助機(jī)制。例如,Google可以從人力資源目錄中獲取網(wǎng)頁的描述并顯示在搜索結(jié)果中。隨著人力資源目錄的消失,混合類型正在成為越來越多基于爬蟲的搜索引擎。
4.其他類型的搜索引擎
除了上述三種主要類型之外,搜索引擎可以根據(jù)用途分為許多其他類別。以下是一些示例:
搜索引擎具有不同類型的機(jī)器人,用于專門顯示圖像,視頻,新聞,產(chǎn)品和本地列表。例如,百度新聞頁面可用于僅搜索來自不同新聞源站點的新聞。
一些像Dogpile這樣的搜索引擎從其他搜索引擎和目錄中收集頁面的元信息,以顯示在搜索結(jié)果中,這種類型的搜索引擎稱為元搜索引擎。
像Swoogle這樣的語義搜索引擎通過了解搜索查詢的上下文含義,在特定區(qū)域提供準(zhǔn)確的搜索結(jié)果。
結(jié)論
在互聯(lián)網(wǎng)的早期階段,人力搜索引擎是流行的重要信息來源。技術(shù)世界正朝著自動化和人工智能的方向發(fā)展,像谷歌和百度這樣擁有熱門搜索引擎的大型科技公司正在推動這一變革并從中獲益。
沒有一個人力搜索引擎能夠在這種快速轉(zhuǎn)變中幸存下來。雖然人們使用非常小規(guī)模的專用搜索引擎,但在這個時間點,基于人工或基于爬蟲的搜索引擎充當(dāng)信息的主要來源,而人為干預(yù)最少。