今天互聯(lián)網(wǎng)上有大約3.5億個(gè)注冊(cè)域名,數(shù)十億個(gè)子域名和數(shù)萬(wàn)億個(gè)不同的網(wǎng)頁(yè)。搜索引擎收集這些頁(yè)面包含的所有文本,將數(shù)百萬(wàn)臺(tái)專業(yè)計(jì)算機(jī)組合成所謂的搜索引擎蜘蛛,下載所有可以訪問(wèn)的網(wǎng)頁(yè),解析這些頁(yè)面的內(nèi)容,并將它們存儲(chǔ)在遍布整個(gè)網(wǎng)絡(luò)的大型數(shù)據(jù)庫(kù)中。
然后,他們的任務(wù)是獲取存儲(chǔ)在這些數(shù)據(jù)庫(kù)中的所有內(nèi)容,并找到使用它來(lái)對(duì)與用戶按相關(guān)性排序的任何可能的關(guān)鍵字或短語(yǔ)匹配的網(wǎng)頁(yè)進(jìn)行排名的方法。
解析網(wǎng)頁(yè)的內(nèi)容
搜索引擎試圖從人類用戶的角度查看網(wǎng)頁(yè),但在確定頁(yè)面的內(nèi)容時(shí)必須推斷出頁(yè)面上的哪些單詞或短語(yǔ)最為重要。網(wǎng)頁(yè)包含HTML標(biāo)記,并且在根據(jù)諸如字體大小,頁(yè)面上的位置和字體可讀性等因素進(jìn)行索引時(shí),網(wǎng)頁(yè)上的術(shù)語(yǔ)可以被賦予更多權(quán)重。
網(wǎng)頁(yè)還可以指定內(nèi)容所在的語(yǔ)言,但是大多數(shù)搜索引擎現(xiàn)在能夠執(zhí)行語(yǔ)言識(shí)別以自動(dòng)確定網(wǎng)頁(yè)的語(yǔ)言。此外,頁(yè)面上出現(xiàn)的術(shù)語(yǔ)可能會(huì)受到稱為詞干的過(guò)程,該過(guò)程采用“戰(zhàn)斗力”,“戰(zhàn)斗”和“戰(zhàn)斗機(jī)”之類的術(shù)語(yǔ),并將其縮減為“戰(zhàn)斗”的詞干。
創(chuàng)建倒置索引
大多數(shù)搜索引擎使用倒排索引來(lái)存儲(chǔ)網(wǎng)頁(yè)內(nèi)容??紤]倒排索引如何存儲(chǔ)和處理所有內(nèi)容的方法是將搜索引擎的索引視為教科書(shū)背面的索引。書(shū)的索引包含書(shū)中使用的單詞列表及其出現(xiàn)的頁(yè)面(例如:生物書(shū)的索引可能包含滲透作用:65,573-578,654,以便讓您知道“滲透”這個(gè)詞在那些頁(yè)碼)。如果您要列出所有網(wǎng)頁(yè)上顯示的所有唯一字詞列表,則該列表將比所有網(wǎng)頁(yè)的內(nèi)容長(zhǎng)度小得多,因?yàn)榇蠖鄶?shù)字詞都顯示在多個(gè)網(wǎng)頁(yè)上。
存儲(chǔ)數(shù)十億的關(guān)鍵詞和短語(yǔ)
搜索互聯(lián)網(wǎng)上顯示的所有唯一術(shù)語(yǔ)列表比搜索所有網(wǎng)頁(yè)的完整內(nèi)容要快得多,但該列表仍然太大,無(wú)法用于將網(wǎng)站與顯示在上面的關(guān)鍵字進(jìn)行實(shí)時(shí)匹配。對(duì)此的解決方案是將網(wǎng)頁(yè)的內(nèi)容存儲(chǔ)為具有n個(gè)長(zhǎng)度的子串的n?-gram,并且大多數(shù)搜索引擎可能使用三元組來(lái)執(zhí)行此操作。文檔的三元組表示形式是將該文檔分解為其所有3個(gè)字符組合,例如:
“毛衣”={?swe,wea,eat,ate,ter?}
由于一個(gè)術(shù)語(yǔ)可以包含26個(gè)字母,10個(gè)數(shù)字和~10個(gè)符號(hào)的任意組合,所以可以存在的唯一三元組的總數(shù)是(26 + 10 + 10)^ 3,等于97,336,創(chuàng)建一個(gè)明顯更小的術(shù)語(yǔ)列表實(shí)時(shí)搜索,而不是互聯(lián)網(wǎng)上所有獨(dú)特術(shù)語(yǔ)的列表,這些術(shù)語(yǔ)將在數(shù)千億中。
優(yōu)化重要關(guān)鍵字的內(nèi)容
為了確保網(wǎng)頁(yè)顯示在為給定關(guān)鍵字返回的結(jié)果列表中,您可以做的最重要的事情是將該關(guān)鍵字放在頁(yè)面上的可見(jiàn)位置,然后在頁(yè)眉中使用它,元信息,頁(yè)面的標(biāo)題,以及相關(guān)上下文中的正文文本。
可能影響搜索引擎如何確定術(shù)語(yǔ)在頁(yè)面上的相關(guān)性的其他因素是該術(shù)語(yǔ)出現(xiàn)的頻率,逆文檔頻率和長(zhǎng)度歸一化等。