湘潭seo認(rèn)為做seo需要從基礎(chǔ)開(kāi)始,理解搜索引擎的中文分詞技術(shù),有助于我們理解seo技術(shù)的本質(zhì),優(yōu)化更好的網(wǎng)站。 另外,除了本文提到的分詞技術(shù)以外,搜索引擎的原理等也是必須的知識(shí)點(diǎn)。
如果你想成為專(zhuān)業(yè)的SEO,湘潭SEO認(rèn)為必須掌握搜索引擎的分詞思維。 因?yàn)橹挥姓莆辗衷~思維,才能更深入地挖掘搜索引擎,用戶(hù)也能確定喜歡的關(guān)鍵詞,SEO技術(shù)。
有些初學(xué)者的朋友可能覺(jué)得中文分詞的分詞理論看起來(lái)很復(fù)雜,但你和必要詞的理論完全一樣,沒(méi)有什么意義。 我要是知道計(jì)算方法和該怎么做就好了。 現(xiàn)在詳細(xì)介紹百度的中文分詞技術(shù)。
一、中文分詞是什么?
湘潭seo從相關(guān)途徑得知,百度分詞技術(shù)是百度對(duì)用戶(hù)提出查詢(xún)的關(guān)鍵詞串進(jìn)行查詢(xún)處理后,根據(jù)用戶(hù)的關(guān)鍵詞串用各種匹配方法進(jìn)行的技術(shù)。
中文分詞是把漢字序列分成一個(gè)單詞,分詞是把連續(xù)的單詞序列按照一定的規(guī)范重新組合復(fù)合詞序列的過(guò)程,分詞是把單詞和連接單詞的中文句子相互獨(dú)立,分為完全、正確的單詞,單詞最小,可以獨(dú)立活動(dòng)。
在英語(yǔ)行文中,單詞之間以空格為自然界線,但漢語(yǔ)只有單詞、句子、段可以用明顯的界線簡(jiǎn)單地劃分,只有單詞沒(méi)有形式的界線,英語(yǔ)也同樣有句子的劃分問(wèn)題,但在詞層,中文比英語(yǔ)更復(fù)雜更難
中文分詞是文本挖掘的基礎(chǔ),對(duì)于輸入的一段中文,通過(guò)使中文分詞成功,可以達(dá)到計(jì)算機(jī)自動(dòng)識(shí)別句子意思的效果。
中文分詞技術(shù)屬于自然語(yǔ)言處理技術(shù)的范疇,一句話,人通過(guò)自己的知識(shí)能知道什么樣的語(yǔ)言? 不是語(yǔ)言的東西是什么? 但是,怎么才能讓電腦也理解呢? 其處理過(guò)程是分詞算法。
計(jì)算機(jī)的所有語(yǔ)言知識(shí)來(lái)自機(jī)器詞典(給定詞的各種信息)、句法規(guī)則(用詞類(lèi)的各種組合記述詞的匯集現(xiàn)象)以及詞和句的語(yǔ)義上下文語(yǔ)用知識(shí)庫(kù),中文信息處理系統(tǒng)具有句法語(yǔ)義(檢索翻譯摘要校正等應(yīng)用
二、湘潭seo詳細(xì)解答分詞的思路和原理。
首先,搜索引擎的工作原理是按單詞在數(shù)據(jù)庫(kù)中注冊(cè)每個(gè)頁(yè)面的內(nèi)容。 例如,你的文章標(biāo)題是“SEO博客提供免費(fèi)的SEO實(shí)戰(zhàn)訓(xùn)練教程”。 搜索引擎搜索該標(biāo)題搜索引擎詞典中存儲(chǔ)的單詞和用戶(hù)經(jīng)常關(guān)注的單詞,例如、SEO、博客、訓(xùn)練、提供、免費(fèi)
因?yàn)橹饕谴蠹夷芾斫膺@樣的思考就好了,所以把文章分割成各個(gè)詞或者各個(gè)詞是搜索引擎要做的第一頁(yè),也是最重要的一步。 因?yàn)槎⒄Z(yǔ)的話,就能正確地向用戶(hù)反饋有價(jià)值的信息。
對(duì)于專(zhuān)業(yè)網(wǎng)站的優(yōu)化者來(lái)說(shuō)中文分詞的方法也非常重要。 因?yàn)橹饕前岩獌?yōu)化的各詞分詞后,可以更好地完成各網(wǎng)站的優(yōu)化工作,更明確地告訴搜索引擎這個(gè)網(wǎng)站是代表什么提高搜索引擎排名的機(jī)會(huì)。 更多的努力是徒勞的。 普及SEO的企業(yè)非常有效率,效率低下意味著投資和收益率過(guò)低,是企業(yè)資源未被合理利用的錯(cuò)誤戰(zhàn)略。
三、中文分詞技術(shù)在搜索引擎中有什么應(yīng)用?
在自然語(yǔ)言處理技術(shù)中,中文處理技術(shù)比西文處理技術(shù)落后很多,很多西文的處理方法需要中文分詞這個(gè)工序,中文分詞是其他中文信息處理的基礎(chǔ),搜索引擎是中文分詞的一個(gè)應(yīng)用,其他例如機(jī)器翻譯(mm
中文需要分詞,所以可能會(huì)影響一些研究,但同時(shí)也會(huì)給一些企業(yè)帶來(lái)機(jī)會(huì)。 因?yàn)楹M獾挠?jì)算機(jī)處理技術(shù)要進(jìn)入中國(guó)市場(chǎng)必須首先解決中文分詞問(wèn)題。
分詞的正確性對(duì)搜索引擎非常重要,但如果分詞速度太慢,即使精度高,對(duì)搜索引擎來(lái)說(shuō)也無(wú)法利用。 搜索引擎需要處理數(shù)億個(gè)頁(yè)面,因此如果分詞花費(fèi)太多時(shí)間,將嚴(yán)重影響搜索引擎內(nèi)容更新的速度。 因此,對(duì)搜索引擎來(lái)說(shuō),分詞的正確性和速度兩者都必須滿足高要求。
四、特殊性。
在計(jì)算機(jī)網(wǎng)絡(luò)上,中文分詞技術(shù)之所以存在,是因?yàn)橹形脑诨菊Z(yǔ)法上具有其特殊性,我們知道湘潭seo總結(jié)的特殊性的具體表現(xiàn)如下。
1 .與以英語(yǔ)為代表的拉丁語(yǔ)系語(yǔ)言相比,英語(yǔ)將空間作為天然的分隔符,但中文繼承了古代漢語(yǔ)的傳統(tǒng),所以語(yǔ)言之間沒(méi)有間隔。
古代漢語(yǔ)中除連綿語(yǔ)、人名、地名等外,詞通常是單一的漢字,因此當(dāng)時(shí)不需要分詞寫(xiě),但現(xiàn)代漢語(yǔ)中多為二字或多字,一字不再與一字相同。
2 .在中文中,“詞”和“詞組”的界限模糊,現(xiàn)代中文的基本表現(xiàn)單位是“詞”,多為雙關(guān)語(yǔ)或很多單詞,但根據(jù)人們的認(rèn)識(shí)水平,很難區(qū)分詞和短語(yǔ)的界限。
例如,“懲罰吐痰者”、“吐痰者”本身是語(yǔ)言還是短語(yǔ),因人而異,同樣的“海上”、“酒館”等,即使是同一個(gè)人也有可能做出不同的判斷,如果中文真的不分詞,就會(huì)混亂,很難。
中文分詞的方法其實(shí)不限于中文的應(yīng)用,也應(yīng)用于英語(yǔ)的處理。 例如,在手寫(xiě)識(shí)別中,單詞之間的空間很清楚。 中文分詞的方法有助于判別英語(yǔ)單詞的邊界。
五、分詞算法的分類(lèi)。
現(xiàn)有的分詞算法分為基于字符串匹配的分詞方法、基于理解的分詞方法、基于統(tǒng)計(jì)的分詞方法三種,根據(jù)是否與詞性標(biāo)記過(guò)程結(jié)合,分為單純分詞方法、分詞和標(biāo)記結(jié)合的一體化方法。
1 .基于字符串匹配的分詞方法
該方法也被稱(chēng)為機(jī)器分詞方法,將分析的漢字串以一定的策略分配給“足夠大”的機(jī)器詞典的詞條,如果在詞典中找到字符串,則匹配成功(識(shí)別單詞)。
根據(jù)掃描方向,字符串匹配分詞方法可以分為正向匹配和反向匹配。 根據(jù)長(zhǎng)度優(yōu)先匹配時(shí),可以分為最大(最長(zhǎng))匹配和最小(最短)匹配。 常用的幾種機(jī)器分詞方法如下。
(1)、正方向最大匹配法(從左到右的方向)
首先,粗點(diǎn)是按句子把文本切成一個(gè)句子,然后按句子切成單詞,詞典按照樹(shù)結(jié)構(gòu)記憶。 例如,“春天還遠(yuǎn)嗎”這個(gè)詞首先查找以“春”字開(kāi)頭的單詞,然后按照詞典的樹(shù)結(jié)構(gòu)前進(jìn)到下一個(gè)節(jié)點(diǎn),“春”的下一個(gè)單詞是“天”。
(2)、反向最大匹配法(從右向左的方向)
就是發(fā)掘反向匹配的文字。 例如,網(wǎng)絡(luò)中心這個(gè)字符串,在網(wǎng)絡(luò)上向左延伸的話,就會(huì)出現(xiàn)區(qū)域性的文字,比如上海和北京等。 商場(chǎng)前會(huì)出現(xiàn)更正確的定義文字,如愛(ài)好者、女性等專(zhuān)業(yè)性強(qiáng)的文字。
(3)、最小分割法
為了使每個(gè)句子的切分單詞數(shù)最小,有必要通過(guò)利用各種其他語(yǔ)言信息來(lái)進(jìn)一步提高切分的精度。
(4)、雙向最大匹配法(進(jìn)行從左到右、從右到左的兩次掃描)
結(jié)合正向最大匹配方法和反向最大匹配方法構(gòu)成雙向匹配法是在左右深度上挖掘比較匹配的結(jié)果值。
也可以組合上述各種方法。 例如,也可以將正向最大匹配方法和反向最大匹配方法結(jié)合起來(lái)構(gòu)成雙向匹配法。 由于中文單詞構(gòu)成的特點(diǎn),正向最小匹配和反向最小匹配一般很少使用
通常,反向匹配分割精度比正向匹配稍高,模糊性也少,統(tǒng)計(jì)的結(jié)果是,單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用反向最大匹配的錯(cuò)誤率為1/245,但該精度為實(shí)際的尼
一種方法是改進(jìn)掃描方式,稱(chēng)為特征掃描或標(biāo)識(shí)分割,優(yōu)先識(shí)別和分割要分析的字符串中具有明顯特征的單詞,以這些單詞為斷點(diǎn),將原來(lái)的字符串分成小字符串放入機(jī)器分詞,進(jìn)行匹配
另一種方法是把分詞和詞性標(biāo)注結(jié)合起來(lái),利用豐富的詞性信息有助于分詞決定,同時(shí)在標(biāo)注過(guò)程中通過(guò)反向驗(yàn)證和調(diào)整分詞結(jié)果,大幅度提高分割的準(zhǔn)確率。
關(guān)于機(jī)器分詞法,可以建立一般的模型,在這方面有專(zhuān)門(mén)的學(xué)術(shù)論文,但在這里不詳細(xì)敘述。
2 .基于理解的分詞方法
該分詞方法是通過(guò)使計(jì)算機(jī)模擬人類(lèi)句子的理解,達(dá)到識(shí)別詞的效果,其基本思想是在分詞的同時(shí)進(jìn)行句法語(yǔ)義分析,利用句法信息和語(yǔ)義信息處理模糊現(xiàn)象,通常是分詞子系統(tǒng)、句法
在總控制部的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得詞、句等相關(guān)的句法和語(yǔ)義信息來(lái)判斷分詞歧義。 也就是模擬人類(lèi)句子的理解過(guò)程。 這個(gè)分詞方法需要使用大量的語(yǔ)言知識(shí)和信息。 由于中文語(yǔ)言知識(shí)的籠統(tǒng)和復(fù)雜,很難將各種語(yǔ)言信息組織成機(jī)器直接讀取的形式。 因此,目前基于理解的分詞系統(tǒng)還處于實(shí)驗(yàn)階段。
3 .基于統(tǒng)計(jì)的分詞方法
在形式上,詞是穩(wěn)定的詞的組合,所以在上下文中相鄰的詞同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞,所以詞和詞相鄰共現(xiàn)的頻率和概率很好地反映了詞的可靠性,詞材中相鄰共現(xiàn)的各個(gè)詞的組合的頻率
這種方法只是統(tǒng)計(jì)詞匯中的字組頻率,不需要分隔詞典,因此也稱(chēng)為無(wú)詞典分詞法和統(tǒng)計(jì)取法,但這種方法也有限度。 經(jīng)常提取共現(xiàn)頻率高但不是詞的常用字組。 例如,“這個(gè)”、“一個(gè)”和“有。
實(shí)際使用的統(tǒng)計(jì)分詞系統(tǒng)都必須使用基本分詞詞典(常用詞詞典)進(jìn)行字符串匹配分詞,同時(shí)使用統(tǒng)計(jì)方法識(shí)別幾個(gè)新詞
另一種是基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法,首先給出大量的分詞文本,利用統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型學(xué)習(xí)單詞分割法則(稱(chēng)為訓(xùn)練),實(shí)現(xiàn)分割未知文本。 我知道中文單獨(dú)造單詞的能力不同。 另外,既有作為前綴出現(xiàn)的單詞,也有后綴(“者”“性”。 這樣我得到了很多關(guān)于分詞的知識(shí)。 這個(gè)方法是利用中文組語(yǔ)的規(guī)則進(jìn)行分詞。 這個(gè)方法最大的缺點(diǎn)是需要很多預(yù)先分詞的詞匯,而且在訓(xùn)練中時(shí)空開(kāi)銷(xiāo)非常大。
到底哪個(gè)分詞算法的精度高還不確定,對(duì)于任何成熟的分詞系統(tǒng),都不能只通過(guò)某個(gè)算法實(shí)現(xiàn),需要整合不同的算法。 例如,大量科學(xué)技術(shù)的分詞算法采用“復(fù)合分詞法”。 復(fù)合處方是指像中西醫(yī)結(jié)合一樣綜合機(jī)械方法和知識(shí)方法,成熟的中文分詞系統(tǒng)。
六、搜索引擎分詞的技術(shù)難點(diǎn)。
如果有成熟的分詞算法,能容易地解決中文分詞的問(wèn)題嗎? 事實(shí)并非如此。 中文是非常復(fù)雜的語(yǔ)言,讓電腦理解中文語(yǔ)言更難。 在中文分詞的過(guò)程中,兩大課題沒(méi)有完全突破。
1 .模糊認(rèn)識(shí)
歧義是同一個(gè)詞,可能有兩種以上的分割方法。 主要的歧義有兩個(gè)。 交叉型歧義和組合型歧義。 例如,因?yàn)楸砻娴臇|西“表面的東西”和“表面的東西”都是詞,所以這個(gè)句子可以分為“表面的東西”和“表面的東西”。
這種交叉型歧義很常見(jiàn),前述的“和服”的例子是由交叉型歧義引起的錯(cuò)誤,“化妝和服裝”分為“化妝和服裝”或“化妝和服”。 沒(méi)有人的知識(shí),電腦很難知道哪個(gè)方案是對(duì)的。
交叉型歧義比組合型歧義更容易處理,組合型歧義必須通過(guò)句子整體來(lái)判斷。 例如,在“這個(gè)門(mén)把手壞了”中,“把手”是詞,但在“請(qǐng)放手”中,“把手”不是詞。 在文“將軍任命中將”中,“中將”是詞,但在文“產(chǎn)量3年內(nèi)翻倍”中,“中將”不再是詞,這些詞計(jì)算機(jī)是怎么認(rèn)識(shí)的呢?
如果交叉型歧義和組合型歧義計(jì)算機(jī)可以解決的話,歧義還有一個(gè)課題。 真的很曖昧。 真模糊性是指人判斷哪個(gè)應(yīng)該是單詞,哪個(gè)不是單詞。 例如,可以分為“乒乓球拍賣(mài)結(jié)束了”和“乒乓球拍賣(mài)完了”。
2 .新詞識(shí)別
命名實(shí)體(人名地名)、新詞、專(zhuān)業(yè)用語(yǔ)被稱(chēng)為未登錄詞,雖然沒(méi)有收錄在分詞詞典中,但確實(shí)是可以稱(chēng)為詞的詞。
最典型的是人名,人很容易理解。 在《王軍虎去了廣州》一文中,“王軍虎”是一個(gè)人的名字,但很難讓電腦認(rèn)識(shí)。 如果把“王軍虎”作為一個(gè)詞收錄在詞典里的話,世界上有很多名字。
湘潭seo除了人名外,還是機(jī)關(guān)名、地名、產(chǎn)品名、商標(biāo)名、縮寫(xiě)、縮寫(xiě)等難以處理的問(wèn)題,而且這些正好是人們常用的詞語(yǔ),所以對(duì)搜索引擎來(lái)說(shuō),分詞系統(tǒng)中的新詞識(shí)別非常重要,新詞識(shí)別精度是分詞系統(tǒng)
湘潭seo點(diǎn)評(píng):
中文分詞對(duì)搜索引擎來(lái)說(shuō)最重要的不是找到所有的結(jié)果。 因?yàn)樵趲装賰|的網(wǎng)頁(yè)上找到所有的結(jié)果沒(méi)有什么意義,沒(méi)有人能看到。 最重要的是把最相關(guān)的結(jié)果放在最優(yōu)先的位置,也稱(chēng)為關(guān)聯(lián)度排名,中文分詞的正確性往往直接影響檢索結(jié)果的關(guān)聯(lián)度排名。 定性分析中,搜索引擎的分詞算法不同,詞典的不同會(huì)影響頁(yè)面的返回結(jié)果。