搜索引擎機器人不斷抓取網(wǎng)站,以便將它們添加到搜索引擎索引中。但是,有時開發(fā)人員希望將自己的網(wǎng)站或特定頁面隱藏在搜索引擎結(jié)果中,在這種情況下,robots.txt可用于阻止搜索引擎蜘蛛訪問網(wǎng)站。在本教程中,您將學(xué)習(xí)如何創(chuàng)建robots.txt文件并阻止搜索引擎蜘蛛訪問或抓取網(wǎng)站。
步驟1 – 訪問服務(wù)器并創(chuàng)建新文件
首先,創(chuàng)建一個robots.txt文件,可以使用FTP客戶端或?qū)毸姘鍖⒃撐募蟼髦了鶎倬W(wǎng)站的根目錄下。
第2步 – 編輯robots.txt
每個搜索引擎都有自己的抓取工具(user-agen),在robots.txt中,您可以指定抓取工具User-agent?;ヂ?lián)網(wǎng)有數(shù)百個爬蟲,但最常見的是:
Googlebot
Yahoo! Slurp
bingbot
AhrefsBot
Baiduspider
Ezooms
MJ12bot
YandexBot
例如,如果想阻止百度抓取工具訪問正規(guī)網(wǎng)站,則可以使用以下規(guī)則編輯robots.txt:
User-agent: Baiduspider
Disallow: /
如果要阻止所有搜索引擎抓取工具,可以使用*作為通配符:
User-agent: *
Disallow: /
如果要阻止搜索引擎爬網(wǎng)程序僅訪問特定文件或文件夾,則使用類似語法,但是,需要指定文件或文件夾的名稱。假設(shè)我們想阻止搜索引擎抓取工具僅訪問文章文件夾(articles)和private.php文件。在這種情況下,robots.txt文件的內(nèi)容應(yīng)如下所示:
User-agent: *
Disallow: /articles/
Disallow: /private.php
完成編輯robots.txt文件后,保存更改,并上傳至網(wǎng)站的根目錄下??梢栽跒g覽器搜索欄中輸入,域名/robots.txt 進(jìn)行查看。
上一篇:重慶搜索引擎優(yōu)化