jizz性欧美2,无上神帝在线观看全集免费播放高清动漫

robots

未知

2020-10-20 16:42:21

0次

　　robots.txt作為所有搜索引擎共同遵循的規(guī)則協(xié)議書，當(dāng)搜索引擎蜘蛛爬行站點(diǎn)時(shí)先檢測網(wǎng)站有無robots其次依照robots規(guī)則范圍進(jìn)行爬行，如果沒有robots.txt，那么蜘蛛就會(huì)沿著鏈接抓取。

　　請牢牢記?。簉obots.txt必須放置在站點(diǎn)的根目錄下，而且文件名必須全部小寫。Disallow后面的冒號必須為英文狀態(tài)的。

　　我們先來理解User-agent和Disallow的定義。

　　User-agent：該項(xiàng)用于描述搜索引擎蜘蛛的名字。（1）規(guī)定所有蜘蛛：User-agent:*；（2）規(guī)定某一個(gè)蜘蛛：User-agent:BaiduSpider。

　　Disallow：該項(xiàng)用于描述不希望被抓取和索引的一個(gè)URL，這個(gè)URL可以是一條完整的路徑。這有幾種不同定義和寫法：（1）Disallow:/AAA.net，任何以域名+Disallow描述的內(nèi)容開頭的URL均不會(huì)被蜘蛛訪問，也就是說以AAA.net目錄內(nèi)的文件均不會(huì)被蜘蛛訪問；（2）Disallow：/AAA.net/則允許robots抓取和索引AAA.net/index.html，而不能抓取和索引AAA.net/admin.html；（3）如果Disallow記錄為空，說明該網(wǎng)站的所有部分都允許被訪問。在robots.txt文件中，至少應(yīng)有Disallow記錄，如果robots.txt為空文件，則對所有的搜索引擎robot來說，該網(wǎng)站都是開放的。

　　1、國內(nèi)建站需要用到的常見搜索引擎robot的名稱。

　　有時(shí)候我們覺得網(wǎng)站訪問量（IP）不多，但是網(wǎng)站流量為什么耗的快？有很多的原因是垃圾（沒有）蜘蛛爬行和抓取消耗的。而網(wǎng)站要屏蔽哪個(gè)搜索引擎或只讓哪個(gè)搜索引擎收錄的話，首先要知道每個(gè)搜索引擎robot的名稱。

　　2、robots.txt文件基本常用寫法：

　　首先，你先建一個(gè)空白文本文檔（記事本），然后命名為：robots.txt。

　　（1）禁止所有搜索引擎訪問網(wǎng)站的任何部分。

　　User-agent: *

　　Disallow: /

　?。?）允許所有的robots訪問，無任何限制。

　　User-agent: *

　　Disallow:

　　或者

　　User-agent: *

　　Allow: /

　　還可以建立一個(gè)空文件robots.txt或者不建立robots.txt。

　?。?）僅禁止某個(gè)搜索引擎的訪問（例如：百度baiduspider）

　　User-agent: BaiduSpider

　　Disallow:/

　?。?）允許某個(gè)搜索引擎的訪問（還是百度）

　　User-agent: BaiduSpider

　　Disallow:

　　User-agent: *

　　Disallow: /

　　這里需要注意，如果你還需要允許谷歌bot，那么也是在“User-agent: *”前面加上，而不是在“User-agent: *”后面。

　?。?）禁止Spider訪問特定目錄和特定文件（圖片、壓縮文件）。

　　User-agent: *

　　Disallow: /AAA.net/

　　Disallow: /admin/

　　Disallow: .jpg$

　　Disallow: .rar$

　　這樣寫之后，所有搜索引擎都不會(huì)訪問這2個(gè)目錄。需要注意的是對每一個(gè)目錄必須分開說明，而不要寫出“Disallow:/AAA.net/ /admin/”。

　　3、robots特殊參數(shù)（這一部分不熟者不要輕易使用）

　?。?）Allow

　　Allow與Disallow是正好相反的功能，Allow行的作用原理完全與Disallow行一樣，所以寫法是一樣的，只需要列出你要允許的目錄或頁面即可。

　　Disallow和Allow可以同時(shí)使用，例如，需要攔截子目錄中的某一個(gè)頁面之外的其他所有頁面，可以這么寫：

　　User-agent: *

　　Disallow: /AAA.net/

　　Allow: /AAA.net/index.html

　　這樣說明了所有蜘蛛只可以抓取/AAA.net/index.html的頁面，而/AAA.net/文件夾的其他頁面則不能抓取，還需要注意以下錯(cuò)誤的寫法：

　　User-agent: *

　　Disallow: /AAA.net

　　Allow: /AAA.net/index.html

　　原因請看上面Disallow值的定義說明。

　?。?）使用“*”號匹配字符序列。

　　例1.攔截搜索引擎對所有以admin開頭的子目錄的訪問，寫法：

　　User-agent: *

　　Disallow: /admin*/

　　例2.要攔截對所有包含“?”號的網(wǎng)址的訪問，寫法：

　　User-agent: *

　　Disallow: /*?*

　?。?）使用“$”匹配網(wǎng)址的結(jié)束字符

　　例1.要攔截以.asp結(jié)尾的網(wǎng)址，寫法：

　　User-agent: *

　　Disallow:/*.asp$

　　例2.如果“:”表示一個(gè)會(huì)話ID，可排除所包含該ID的網(wǎng)址，確保蜘蛛不會(huì)抓取重復(fù)的網(wǎng)頁。但是，以“?”結(jié)尾的網(wǎng)址可能是你要包含的網(wǎng)頁版本，寫法：

　　User-agent: *

　　Allow: /*?$

　　Disallow: /*?

　　也就是只抓取.asp?的頁面，而.asp?=1，.asp?=2等等都不抓取。

　　4、網(wǎng)站地圖（sitemap）

　　對于提交網(wǎng)站地圖，我們可以到谷歌站長工具提交，也可以用robots.txt文件中提示蜘蛛抓?。?/p>

　　sitemap:AAA.net/sitemaps.xml

　　5、robots.txt的好處與壞處（解決方法）。

　　好處：

　?。?）有了robots.txt，spider抓取URL頁面發(fā)生錯(cuò)誤時(shí)則不會(huì)被重定向至404處錯(cuò)誤頁面，同時(shí)有利于搜索引擎對網(wǎng)站頁面的收錄。

　　（2）robots.txt可以制止我們不需要的搜索引擎占用服務(wù)器的寶貴寬帶。

　?。?）robots.txt可以制止搜索引擎對非公開的爬行與索引，如網(wǎng)站的后臺(tái)程序、管理程序，還可以制止蜘蛛對一些臨時(shí)產(chǎn)生的網(wǎng)站頁面的爬行和索引。

　?。?）如果網(wǎng)站內(nèi)容由動(dòng)態(tài)轉(zhuǎn)換靜態(tài)，而原有某些動(dòng)態(tài)參數(shù)仍可以訪問，可以用robots中的特殊參數(shù)的寫法限制，可以避免搜索引擎對重復(fù)的內(nèi)容懲罰，保證網(wǎng)站排名不受影響。

　　壞處：

　?。?）robots.txt輕松給黑客指明了后臺(tái)的路徑。

　　解決方法：給后臺(tái)文件夾的內(nèi)容加密，對默認(rèn)的目錄主文件inde.html改名為其他。

　　（2）如果robots.txt設(shè)置不對，將導(dǎo)致搜索引擎不抓取網(wǎng)站內(nèi)容或者將數(shù)據(jù)庫中索引的數(shù)據(jù)全部刪除。

　　User-agent: *

　　Disallow: /

　　這一條就是將禁止所有的搜索引擎索引數(shù)據(jù)。

　　數(shù)字營銷人員和搜索引擎優(yōu)化專業(yè)人士都應(yīng)該知道搜索引擎索引的重要性，這正是他們盡力幫助各大搜索引擎正確抓取并索引其網(wǎng)站，并將時(shí)間和資源投入到頁內(nèi)和頁外優(yōu)化（如內(nèi)容，鏈接，標(biāo)簽，元描述，圖像優(yōu)化，網(wǎng)站結(jié)構(gòu)等）的原因。

　　但是，雖然不排除高級網(wǎng)站優(yōu)化是搜索成功的基礎(chǔ)，但忘記搜索引擎優(yōu)化的技術(shù)部分可能是一個(gè)嚴(yán)重的錯(cuò)誤。如果您從未聽說過有關(guān)robots.txt，機(jī)器人標(biāo)簽，XML站點(diǎn)地圖，微格式和X-Robot標(biāo)簽的信息，則可能會(huì)遇到麻煩。

　　不過，請不要驚慌。在本文中，我將解釋如何使用和設(shè)置robots.txt標(biāo)簽。我也會(huì)提供幾個(gè)實(shí)際的例子。開始吧！

　　什么是robots.txt？

　　robots.txt是一個(gè)文本文件，用于指示搜索引擎機(jī)器人（也稱為抓取工具，機(jī)器人或蜘蛛）如何抓取和索引網(wǎng)站頁面。理想情況下，robots.txt文件放置在您網(wǎng)站的頂級目錄中，以便機(jī)器人可以立即訪問其說明。

　　為了將命令傳達(dá)給不同類型的搜索爬蟲，robots.txt文件必須遵循機(jī)器人排除協(xié)議（REP）中的特定標(biāo)準(zhǔn)，該協(xié)議于1994年創(chuàng)建，然后在1996年，1997年和2005年大幅擴(kuò)展。

　　縱觀他們的歷史，robots.txt文件已經(jīng)逐漸改進(jìn)，以支持特定的抓取工具指令，URI模式擴(kuò)展，索引指令（也稱為REP標(biāo)簽或機(jī)器人元標(biāo)簽）以及微格式rel=“nofollow”。

　　由于robots.txt文件為搜索漫游器提供了關(guān)于如何抓取或如何不抓取本網(wǎng)站或該部分網(wǎng)站的指導(dǎo)，因此了解如何使用和設(shè)置這些文件非常重要。如果robots.txt文件設(shè)置不正確，可能會(huì)導(dǎo)致多個(gè)索引錯(cuò)誤。所以，每次你開始一個(gè)新的SEO活動(dòng)時(shí)，請使用手動(dòng)檢查你的robots.txt文件。

　　不要忘記：如果一切正常，robots.txt文件將加快索引過程。

　　用robots.txt隱藏

　　robots.txt文件可用于從搜索中排除某些目錄，類別和頁面。為此，請使用“disallow”指令。

　　以下是一些您應(yīng)該使用robots.txt文件隱藏的頁面：

　　包含重復(fù)內(nèi)容的網(wǎng)頁

　　分頁頁面

　　動(dòng)態(tài)產(chǎn)品和服務(wù)頁面

　　帳戶頁面

　　管理頁面

　　購物車

　　聊天

　　基本上，它看起來像這樣：

　　在上面的示例中，我指示避免對用戶帳戶，購物車和用戶在搜索欄中查找產(chǎn)品或按價(jià)格排序時(shí)生成的多個(gè)動(dòng)態(tài)頁面的所有頁面進(jìn)行爬網(wǎng)和索引，等等。

　　但是，請不要忘記，任何robots.txt文件都可以在網(wǎng)上公開獲得。要訪問robots.txt文件，只需輸入：

　　www.simcf.cc/robots.txt(替換自己的域名即可)；

　　此可用性意味著您無法保護(hù)或隱藏其中的任何數(shù)據(jù)。此外，惡意機(jī)器人和惡意抓取工具可以利用robots.txt文件，將其用作詳細(xì)地圖來瀏覽最有價(jià)值的網(wǎng)頁。

　　另外，請記住，robots.txt命令實(shí)際上是指令。這意味著即使您指示他們不要，搜索漫游器也可以抓取您的網(wǎng)站并將其編入索引。好消息是，大多數(shù)搜索引擎（如百度、360、Google、Bing、Yahoo和Yandex）都會(huì)遵守robots.txt指令。

　　robots.txt文件肯定有缺點(diǎn)。盡管如此，我強(qiáng)烈建議您將它們作為每個(gè)SEO活動(dòng)的組成部分。各大搜索引擎承認(rèn)并遵守robots.txt指令，并且在大多數(shù)情況下，讓搜索引擎承擔(dān)您的責(zé)任已經(jīng)足夠了。

　　如何使用Robots.txt

　　Robots.txt文件非常靈活，可以以多種方式使用。然而，他們的主要好處是可以讓SEO專家一次性“允許”或“禁止”多個(gè)頁面，而無需逐一訪問每個(gè)頁面的代碼。

　　例如，您可以阻止來自內(nèi)容的所有搜索抓取工具。喜歡這個(gè)：

　　用戶代理： *

　　不允許： /

　　或隱藏您網(wǎng)站的目錄結(jié)構(gòu)和特定類別，如下所示：

　　用戶代理： *

　　禁止：/ no-index /

　　從搜索中排除多個(gè)頁面也很有用。只需解析您想要從搜索抓取工具中隱藏的網(wǎng)址。然后，在您的robots.txt中添加“disallow”命令，列出這些URL，并且，瞧！?– 各大搜索引擎不再顯示這些網(wǎng)頁。

　　但更重要的是，robots.txt文件允許您優(yōu)先考慮某些頁面，類別，甚至是CSS和JS代碼?？纯聪旅娴睦樱?/p>

　　在這里，我們不允許使用WordPress頁面和特定類別，但是允許使用wp-content文件，JS插件，CSS樣式和博客。這種方法可以保證蜘蛛抓取并索引有用的代碼和類別。

　　還有一件重要的事情：robots.txt文件是您的sitemap.xml文件的可能位置之一。它應(yīng)放置在用戶代理，禁止，允許和主機(jī)命令之后。喜歡這個(gè)：

　　注意：您還可以將您的robots.txt文件手動(dòng)添加到站長管理平臺(tái)，并且如果您的目標(biāo)是百度站長工具。這是一種更安全的方法，因?yàn)檫@樣做可以保護(hù)您的內(nèi)容免受競爭對手網(wǎng)站的網(wǎng)站管理員的影響。

　　盡管robots.txt結(jié)構(gòu)和設(shè)置非常簡單，但正確設(shè)置的文件可以制作或打破您的SEO活動(dòng)。小心使用設(shè)置：您可以輕易“不允許”整個(gè)網(wǎng)站，然后等待流量和客戶無濟(jì)于事。

　　結(jié)論

　　搜索引擎優(yōu)化不僅僅是關(guān)鍵字，鏈接和內(nèi)容。SEO的技術(shù)部分也很重要。事實(shí)上，它可以為您的整個(gè)數(shù)字營銷活動(dòng)帶來不同。因此，請盡快學(xué)習(xí)如何正確使用和設(shè)置robots.txt文件協(xié)議。我希望我在本文中描述的做法和建議能夠指導(dǎo)您順利完成這一過程。

有幫助

沒幫助

上一篇：做網(wǎng)站地圖需要注意的6個(gè)方面

下一篇：什么是關(guān)鍵詞，怎么找關(guān)鍵詞

欄目索引

相關(guān)內(nèi)容

欄目推薦

精品人妻互换一区二区三区免费,午夜精品久久久久久久9,欧美巨鞭大战丰满少妇,97精品人妻一区二区三区蜜桃

跨度推