谷歌已經(jīng)使用TF-IDF作為內(nèi)容排名因素很長一段時間,因為搜索引擎似乎更關(guān)注術(shù)語頻率而不是而不是計算關(guān)鍵字。雖然算法的視覺復(fù)雜性可能會讓很多人失望,但重要的是要認(rèn)識到理解TF-IDF并不像知道它如何工作那么重要。
搜索引擎使用TF-IDF來更好地理解被低估的內(nèi)容。例如,如果您想在Google上搜索“可口可樂”一詞,Google就可以確定標(biāo)題為“COKE”的頁面是關(guān)于:
a)可口可樂。
b)可卡因
c)源自原油蒸餾的固體富碳?xì)堄辔?/p>
d)德克薩斯州的一個縣
本文的目的是通過TF-IDF的未知主題指導(dǎo)所有內(nèi)容編寫者和SEO專家。通過更好地了解Google如何利用此算法,內(nèi)容編寫者可以對TF-IDF進(jìn)行逆向工程,從而優(yōu)化網(wǎng)站內(nèi)容,使其更好地適用于用戶和搜索引擎。并且SEO可以將其用作搜索具有更高搜索量和相對較低競爭的關(guān)鍵字的工具。
TF-IDF是什么?
TF-IDF是一種信息檢索技術(shù),它對術(shù)語的頻率(TF)和逆文檔頻率(IDF)進(jìn)行加權(quán)。每個單詞或術(shù)語都有其各自的TF和IDF分?jǐn)?shù)。術(shù)語的TF和IDF得分的乘積稱為該術(shù)語的TF-IDF權(quán)重。
簡而言之,TF-IDF得分(重量)越高,該術(shù)語越罕見,反之亦然。
TF-IDF算法用于權(quán)衡任何內(nèi)容中的關(guān)鍵字,并根據(jù)該關(guān)鍵字在文檔中出現(xiàn)的次數(shù)指定該關(guān)鍵字的重要性。更重要的是,它會檢查關(guān)鍵字在整個網(wǎng)絡(luò)中的相關(guān)程度,即所謂的語料庫。
對于術(shù)語噸在文檔d,重量重量%,d的文件中術(shù)語d t通過下式給出:
Wt,d=TFt,d log(N / DFt)
哪里:
TFt,d是文檔d中t的出現(xiàn)次數(shù)。
DFt是包含術(shù)語t的文檔數(shù)。
N是語料庫中的文檔總數(shù)。
好吧。如果您感到頭痛,請不要驚慌。
讓我們更具體地定義它。
TF-IDF定義
單詞的TF(術(shù)語頻率)是文檔中單詞的頻率(即它出現(xiàn)的次數(shù))。當(dāng)你知道它時,你就可以看到你使用的術(shù)語是太多還是太少。
例如,當(dāng)一個100字的文檔包含12次“cat”這個詞時,“cat”這個詞的TF就是
TFcat=12/100即0.12
單詞的IDF(逆文檔頻率)是該術(shù)語在整個語料庫中的重要程度的度量。
例如,假設(shè)術(shù)語“cat”在10,000,000,000文檔大小的語料庫(即web)中出現(xiàn)x次。假設(shè)有30萬個文檔包含術(shù)語“cat”,那么IDF(即log {DF})由文檔總數(shù)(10,000,000)除以包含術(shù)語“cat”的文檔數(shù)量(300,000) )。
IDF(cat)=log(10,000,000 / 300,000)=1.52
∴Wcat=(TF * IDF)cat=0.12 * 1.52=0.182
既然你想出了這個(對吧?),讓我們來看看這對你有什么好處。
如何使用TF-IDF獲益
收集話語。寫下你的內(nèi)容,為您的單詞運行TF-IDF報告并獲取其權(quán)重。數(shù)值權(quán)重值越高,該項越少。重量越小,該術(shù)語越常見。比較所有具有高TF-IDF權(quán)重的術(shù)語與其在Web上的搜索量。選擇搜索量較高,競爭較慢的用戶。
一個好的經(jīng)驗法則是,您的內(nèi)容對用戶“有意義”越多,搜索引擎分配的權(quán)重就越大。對于內(nèi)容中TF-IDF較高的單詞,您的內(nèi)容將始終位于搜索結(jié)果中,因此您可以:
不要擔(dān)心使用停用詞,成功搜索具有更高搜索量和更低競爭力的詞匯,
請確保使用能使您的內(nèi)容與用戶相關(guān)且與用戶相關(guān)的單詞等。
下一篇:語義搜索的基礎(chǔ)知識