欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

如何使用robots.txt阻止搜尋引擎爬(抓取)你的網(wǎng)站?

2023-12-23    分類: 網(wǎng)站建設

為了你的網(wǎng)站可以被別人搜尋到,搜尋引擎爬蟲,有時也稱為搜尋機器人(bots)或是搜尋蜘蛛(spiders),會爬取你的網(wǎng)站,搜尋有變動的內(nèi)容并且重新更新搜尋引擎的搜尋檢索。

如何用robts.txt 這個檔案去控制搜尋蜘蛛
網(wǎng)站站長可以使用robots.txt這個文件,來指導搜尋蜘蛛應該如何爬取這個網(wǎng)站,當搜尋引擎爬取網(wǎng)站時,會先讀取robots.tx 文件,并且依照規(guī)則爬取網(wǎng)站。

※ robots.txt 規(guī)則雖然是重要的,但是搜尋機器人不一定會遵守 robot.txt 規(guī)則,它只是一個執(zhí)行方針。
※ 以Google而言,要設定Crawl-delay,是必須在Google管理工具裡設定。
※ 對于浮濫爬取你的網(wǎng)站的劣質(zhì)搜尋蜘蛛,應該研究如何憑藉.htaccess裡的User-agent去阻擋不好的搜尋蜘蛛。

編輯與創(chuàng)建robots.txt 文件
Robots.txt 文件是必須放在網(wǎng)站根目錄裡,如果你的網(wǎng)址是example.com 是可以讀取到的。

網(wǎng)址位置:

http://example.com/robots.txt

伺服器位置:

/home/userna5/public_html/robots.txt

如果沒有這個檔案的話,你可以使用純文件檔案建立一個新的robots.txt文件。

搜尋引擎的使用者代理
以搜尋引擎蜘蛛的User-agent來說,使用robots.txt文件來控制,是最普通的規(guī)范方式。

當搜尋蜘蛛爬取網(wǎng)站時,他們會以使用者代理User-agent來識別、以下提供些參考范例

前三名美國最常發(fā)現(xiàn)的搜尋引擎使用者代理:
Googlebot
Yahoo! Slurp
bingbot

最常被阻擋的搜尋引擎使用者代理:
AhrefsBot
Baiduspider
Ezooms
MJ12bot
YandexBot

搜尋引擎蜘蛛是會以robots.txt文件規(guī)則來抓取網(wǎng)站
robots.txt 文件有許多的規(guī)則,可以控制搜尋蜘蛛如何爬取你得網(wǎng)站。

User-agent:可以具體指定哪一個User-agent是適用的,如*是萬用搭配于全部的User-agent。

Disallow:設定檔案或是資料夾,不允許被搜尋蜘蛛爬取。

設定全部搜尋引擎延遲爬取
如果你的網(wǎng)站有1000頁,搜尋蜘蛛可能在幾分鐘內(nèi)檢索全部的網(wǎng)站,然而這有可能導致系統(tǒng)資源使用過度,在短時間內(nèi)讓全部的網(wǎng)頁超過負荷,導致網(wǎng)頁無法瀏覽。

延遲30秒的時間,將允許搜尋蜘蛛在8.3小時內(nèi)檢索1000張網(wǎng)頁。

延遲500秒的時間,將允許搜尋蜘蛛在5.8天內(nèi)檢索1000張網(wǎng)頁。

你也可以設定Crawl-delay:所有的搜尋蜘蛛立即搜尋。

User-agent: *
Crawl-delay: 30

允許搜尋蜘蛛爬取全部網(wǎng)站
在預設空白情況下,搜尋引擎蜘蛛還是會爬取你的網(wǎng)站,不過你還是可以指定它是允許的。

User-agent: *
Disallow:

不允許搜尋蜘蛛爬取全部網(wǎng)站
User-agent: *
Disallow: /

不允許搜尋蜘蛛爬取特定一個網(wǎng)站
你可以運用這些規(guī)則,不允許特定的搜尋引擎蜘蛛爬取你的網(wǎng)站。

User-agent: Baiduspider
Disallow: /

不允許全部搜尋蜘蛛爬取特定的檔案
如果有些檔案如contactus.htm, index.htm, 或是store.htm我們不想要搜尋蜘蛛爬取,我可以使用:

User-agent: *
Disallow: /contactus.htm
Disallow: /index.htm
Disallow: /store.htm

除了指定的以外,不允許全部搜尋蜘蛛爬取
如果我們只想讓Googlebot爬取我們的/private/目錄,但是不允許其他搜尋蜘蛛爬取,我們可以這樣使用:

User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: /private/

當Googlebot讀取我的robots.txt文件時,會去理解文件內(nèi)容,不會禁止全部目錄的爬取。

如果想只想要一網(wǎng)頁部被抓取檢索請參考(使用標籤來阻擋搜尋蜘蛛檢索網(wǎng)頁)

網(wǎng)站標題:如何使用robots.txt阻止搜尋引擎爬(抓取)你的網(wǎng)站?
新聞來源:http://chinadenli.net/news14/310014.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供App設計移動網(wǎng)站建設、網(wǎng)站建設、外貿(mào)建站、網(wǎng)站設計公司、云服務器

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設
国产又猛又大又长又粗| 高清一区二区三区四区五区| 国产成人精品综合久久久看| 精品推荐国产麻豆剧传媒| 国产欧美精品对白性色| 国产高清在线不卡一区| 亚洲欧美日本成人在线| 国产又粗又黄又爽又硬的| 高清亚洲精品中文字幕乱码| 亚洲av熟女一区二区三区蜜桃| 国产又粗又猛又长又黄视频| 欧美激情中文字幕综合八区| 午夜精品麻豆视频91| 丝袜美女诱惑在线观看| 色综合视频一区二区观看| 国产肥女老熟女激情视频一区 | 国产又大又黄又粗的黄色| 免费精品国产日韩热久久| 激情亚洲内射一区二区三区| 国产一区二区三区午夜精品 | 精品欧美在线观看国产| 久久精品中文字幕人妻中文| 欧美乱妇日本乱码特黄大片| 好吊色欧美一区二区三区顽频| 美日韩一区二区精品系列| 国产精品伦一区二区三区四季| 国产成人免费激情视频| 久久国产亚洲精品成人| 亚洲国产精品肉丝袜久久| 五月天丁香婷婷一区二区| 精品推荐国产麻豆剧传媒| 麻豆tv传媒在线观看| 国产精品国产亚洲区久久| 国产视频一区二区三区四区| 91欧美亚洲精品在线观看| 成人亚洲国产精品一区不卡| 好吊色欧美一区二区三区顽频| 91精品国产综合久久精品| 午夜视频成人在线观看| 欧美日韩亚洲综合国产人| 青草草在线视频免费视频|