jquery爬蟲,前端js爬蟲

如何防止網站被爬蟲爬取的幾種辦法

相較于爬蟲技術，反爬蟲實際上更復雜。目前許多互聯(lián)網企業(yè)都會花大力氣進行“反爬蟲”，網絡爬蟲不但會占據(jù)過多的網站流量，導致有真正需求的用戶沒法進入網站，另外也有可能會導致網站關鍵數(shù)據(jù)的外泄等現(xiàn)象。網絡爬蟲遍布互聯(lián)網的各個角落，因此網絡爬蟲有好處也有壞處，接下來介紹一下和網絡爬蟲一同誕生的反爬蟲技術，如何才能防止別人爬取自己的網站？

創(chuàng)新互聯(lián)建站是創(chuàng)新、創(chuàng)意、研發(fā)型一體的綜合型網站建設公司，自成立以來公司不斷探索創(chuàng)新，始終堅持為客戶提供滿意周到的服務，在本地打下了良好的口碑，在過去的十載時間我們累計服務了上千家以及全國政企客戶，如成都門窗定制等企業(yè)單位，完善的項目管理流程，嚴格把控項目進度與質量監(jiān)控加上過硬的技術實力獲得客戶的一致贊揚。

1、基于程序本身去防止爬取：作為爬蟲程序，爬取行為是對頁面的源文件爬取，如爬取靜態(tài)頁面的html代碼，可以用jquery去模仿寫html，這種方法偽裝的頁面就很難被爬取了，不過這種方法對程序員的要求很高。

2、基于iptables和shell腳本：可以對nginx的access.log進行策略定義，例如定義在1分鐘內并發(fā)連接數(shù)超過30個ip為非法，如ip不在白名單內，則加入iptables策略封掉，當然這種的缺點是會有“誤傷”，策略細粒度越小就會有更多的“誤傷”，細粒度大就會使效果變差，另外還有類似的第三方工具fail2ban，利用做filter和actor對一些有危害的操作記錄或是封ip。但是對于某個特定的爬蟲地址（例如網易、有道）的爬取行為拒絕也很難準確做到，因為你無法準確知道這些特定的爬蟲ip地址。注意：建議不要用封ip條目的方式,iptables列表長度是65535時就會封滿，服務器也就會死機。

3.使用robots.txt文件：例如阻止所有的爬蟲爬取，但是這種效果不是很明顯。

User-agent: *

Disallow: /

4.使用nginx的自帶功能：通過對httpuseragent阻塞來實現(xiàn)，包括GET/POST方式的請求，以nginx為例，具體步驟如下：

編輯nginx.conf

拒絕以wget方式的httpuseragent，增加如下內容

## Block http user agent - wget ##

if ($http_user_agent ~* (Wget) ) {

return 403;

}

## Block Software download user agents ##

if ($http_user_agent ~* LWP::Simple|BBBike|wget) {

return 403;

平滑啟動

# /usr/local/nginx/sbin/nginx -s reload

如何拒絕多種httpuseragent，內容如下：

if ($http_user_agent ~ (agent1|agent2|Foo|Wget|Catall Spider|AcoiRobot) ) {

return 403;

}

大小寫敏感匹配

### 大小寫敏感http user agent拒絕###

if ($http_user_agent ~ (Catall Spider|AcoiRobot) ) {

return 403;

}

### 大小寫不敏感http user agent拒絕###

if ($http_user_agent ~* (foo|bar) ) {

return 403;

}

注意語法：~*表示是大小寫不敏感，~表示是大小寫敏感

}

以上就是預防網站信息被別人爬取的一些方法，大量的爬取行為會對web服務器的性能有影響，所以一定要注重反爬蟲措施。

如何防止重復爬蟲

1.基于程序本身去防止爬取：作為爬蟲程序，爬取行為是對頁面的源文件爬取，如爬取靜態(tài)頁面的html代碼，可以用jquery去模仿寫html，這種方法偽裝的頁面就很難被爬取了，不過這種方法對程序員的要求很高。

2.基于iptables和shell腳本：可以對nginx的access.log進行策略定義，例如定義在1分鐘內并發(fā)連接數(shù)超過30個ip為非法，如ip不在白名單內，則加入iptables策略封掉，當然這種的缺點是會有“誤傷”，策略細粒度越小就會有更多的“誤傷”，細粒度大就會使效果變差，另外還有類似的第三方工具fail2ban，利用做filter和actor對一些有危害的操作記錄或是封ip。但是對于某個特定的爬蟲地址（例如網易、有道）的爬取行為拒絕也很難準確做到，因為你無法準確知道這些特定的爬蟲ip地址（例如網易、有道），以下是我的定位方式，不過發(fā)現(xiàn)由于ip庫不準確造成錯誤的屏蔽。注意：建議不要用封ip條目的方式,iptables列表長度是65535時就會封滿，服務器也就會死機。

如何使用爬蟲做一個網站？

做法：傳統(tǒng)爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復雜，需要根據(jù)一定的網頁分析算法過濾與主題無關的鏈接，保留有用的鏈接并將其放入等待抓取的URL隊列。

然后，它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網頁URL，并重復上述過程，直到達到系統(tǒng)的某一條件時停止。另外，所有被爬蟲抓取的網頁將會被系統(tǒng)存貯，進行一定的分析、過濾，并建立索引，以便之后的查詢和檢索；對于聚焦爬蟲來說，這一過程所得到的分析結果還可能對以后的抓取過程給出反饋和指導。

網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人，在FOAF社區(qū)中間，更經常被稱為網頁追逐者），是一種按照一定的規(guī)則，自動的抓取萬維網信息的程序或者腳本，已被廣泛應用于互聯(lián)網領域。搜索引擎使用網絡爬蟲抓取Web網頁、文檔甚至圖片、音頻、視頻等資源，通過相應的索引技術組織這些信息，提供給搜索用戶進行查詢。

如何使用nodejs做爬蟲程序

《使用 superagent 與 cheerio 完成簡單爬蟲》

目標

建立一個 lesson3 項目，在其中編寫代碼。

當在瀏覽器中訪問時，輸出 CNode( ) 社區(qū)首頁的所有帖子標題和鏈接，以 json 的形式。

輸出示例：

[

{

"title": "【公告】發(fā)招聘帖的同學留意一下這里",

"href": ""

{

"title": "發(fā)布一款 Sublime Text 下的 JavaScript 語法高亮插件",

"href": ""

}

]

挑戰(zhàn)

訪問時，輸出包括主題的作者，

示例：

[

{

"title": "【公告】發(fā)招聘帖的同學留意一下這里",

"href": "",

"author": "alsotang"

{

"title": "發(fā)布一款 Sublime Text 下的 JavaScript 語法高亮插件",

"href": "",

"author": "otheruser"

}

]

知識點

學習使用 superagent 抓取網頁

學習使用 cheerio 分析網頁

課程內容

Node.js 總是吹牛逼說自己異步特性多么多么厲害，但是對于初學者來說，要找一個能好好利用異步的場景不容易。我想來想去，爬蟲的場景就比較適合，沒事就異步并發(fā)地爬幾個網站玩玩。

本來想教大家怎么爬 github 的 api 的，但是 github 有 rate limit 的限制，所以只好犧牲一下 CNode 社區(qū)（國內最專業(yè)的 Node.js 開源技術社區(qū)），教大家怎么去爬它了。

我們這回需要用到三個依賴，分別是 express，superagent 和 cheerio。

先介紹一下，

superagent( ) 是個 http 方面的庫，可以發(fā)起 get 或 post 請求。

cheerio( ) 大家可以理解成一個 Node.js 版的 jquery，用來從網頁中以 css selector 取數(shù)據(jù)，使用方式跟 jquery 一樣一樣的。

還記得我們怎么新建一個項目嗎？

新建一個文件夾，進去之后 npm init

安裝依賴 npm install --save PACKAGE_NAME

寫應用邏輯

我們應用的核心邏輯長這樣

app.get('/', function (req, res, next) {

// 用 superagent 去抓取的內容

superagent.get('')

.end(function (err, sres) {

// 常規(guī)的錯誤處理

if (err) {

return next(err);

}

// sres.text 里面存儲著網頁的 html 內容，將它傳給 cheerio.load 之后

// 就可以得到一個實現(xiàn)了 jquery 接口的變量，我們習慣性地將它命名為 `$`

// 剩下就都是 jquery 的內容了

var $ = cheerio.load(sres.text);

var items = [];

$('#topic_list .topic_title').each(function (idx, element) {

var $element = $(element);

items.push({

title: $element.attr('title'),

href: $element.attr('href')

});

res.send(items);

});

OK，一個簡單的爬蟲就是這么簡單。這里我們還沒有利用到 Node.js 的異步并發(fā)特性。不過下兩章內容都是關于異步控制的。

記得好好看看 superagent 的 API，它把鏈式調用的風格玩到了極致。

網站名稱：jquery爬蟲,前端js爬蟲
轉載來于：http://chinadenli.net/article33/dsihiss.html

成都網站建設公司_創(chuàng)新互聯(lián)，為您提供網站營銷、網站排名、網站設計公司、關鍵詞優(yōu)化、網站內鏈、定制開發(fā)

聲明：本網站發(fā)布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內容

欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

jquery爬蟲,前端js爬蟲

如何防止網站被爬蟲爬取的幾種辦法

如何防止重復爬蟲

如何使用爬蟲做一個網站？

如何使用nodejs做爬蟲程序