這篇文章給大家分享的是有關(guān)NodeJs如何實(shí)現(xiàn)簡(jiǎn)單的爬蟲(chóng)功能的內(nèi)容。小編覺(jué)得挺實(shí)用的,因此分享給大家做個(gè)參考,一起跟隨小編過(guò)來(lái)看看吧。
10年積累的成都做網(wǎng)站、網(wǎng)站設(shè)計(jì)經(jīng)驗(yàn),可以快速應(yīng)對(duì)客戶(hù)對(duì)網(wǎng)站的新想法和需求。提供各種問(wèn)題對(duì)應(yīng)的解決方案。讓選擇我們的客戶(hù)得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識(shí)你,你也不認(rèn)識(shí)我。但先網(wǎng)站制作后付款的網(wǎng)站建設(shè)流程,更有臺(tái)安免費(fèi)網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。
1.爬蟲(chóng):爬蟲(chóng),是一種按照一定的規(guī)則,自動(dòng)地抓取網(wǎng)頁(yè)信息的程序或者腳本;利用NodeJS實(shí)現(xiàn)一個(gè)簡(jiǎn)單的爬蟲(chóng)案例,爬取Boss直聘網(wǎng)站的web前端相關(guān)的招聘信息,以廣州地區(qū)為例;
2.腳本所用到的nodejs模塊
express 用來(lái)搭建一個(gè)服務(wù),將結(jié)果渲染到頁(yè)面
swig 模板引擎
cheerio 用來(lái)抓取頁(yè)面的數(shù)據(jù)
requests 用來(lái)發(fā)送請(qǐng)求數(shù)據(jù)(具體可查:https://www.npmjs.com/package/requests)
async 用來(lái)處理異步操作,解決請(qǐng)求嵌套的問(wèn)題,腳本中只使用了async.whilst(test,iteratee,callback),具體可見(jiàn):https://caolan.github.io/async/
3.實(shí)現(xiàn)流程:
首先先獲取到所爬取頁(yè)面的URL,打開(kāi)boss直聘網(wǎng)站,搜索web前端既可以獲取到 https://www.zhipin.com/c101280100-p100901/?page=1&ka=page-next

然后通過(guò)Chrome瀏覽器打開(kāi)F12,獲取到信息中多對(duì)應(yīng)的dom節(jié)點(diǎn),即可知道想要獲取信息;
.png)
4.代碼實(shí)現(xiàn)
目錄結(jié)構(gòu):

app.js
var cheerio = require('cheerio');
var requests = require('requests');
var async = require('async');
var express = require('express');
var swig = require('swig');
var app = express();
swig.setDefaults({cache:false});
app.set('views','./views/');
app.set('view engine','html');
app.engine('html',swig.renderFile);
app.get('/',function(req,res,next){
var page = 1; //當(dāng)前頁(yè)數(shù)
var list = []; //保存記錄
async.whilst(
function(){
return page < 11;
},
function(callback){
requests(`https://www.zhipin.com/c101280100-p100901/?page=${page}&ka=page-next`)
.on('data',function(chunk){
var $ = cheerio.load(chunk.toString());
$('.job-primary').each(function(){
var company = $(this).find('.info-company .company-text .name').text();
var job_title = $(this).find('.info-primary .name .job-title').text();
var salary = $(this).find('.info-primary .name .red').text();
var description = $(this).find('.info-company .company-text p').text();
var area = $(this).find('.info-primary p').text();
var item = {
company:company,
job_title:job_title,
salary:salary,
description:description,
area:area
};
list.push(item);
});
page++;
callback();
}).on('end',function(err){
if(err){
console.log(err);
}
if(page==10){
res.render('index',{
lists:list
});
}
});
},
function(err){
console.log(err);
}
);
});
//監(jiān)聽(tīng)
app.listen(8080);view/index.html頁(yè)面
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Document</title>
</head>
<style>
table{
width:1300px;
border:1px solid #ccc;
border-collapse: collapse;
text-align: center;
margin:0 auto;
}
td,tr,th{
border:1px solid #ccc;
border-collapse: collapse;
}
tr{
height:30px;
line-height: 30px;
}
</style>
<body>
<table>
<thead>
<tr>
<th>公司名稱(chēng)</th>
<th>公司地址</th>
<th>薪資</th>
<th>公司描述</th>
<th>崗位名稱(chēng)</th>
</tr>
</thead>
<tbody>
{% for list in lists %}
<tr>
<td>{{list.company}}</td>
<td>{{list.area}}</td>
<td>{{list.salary}}</td>
<td>{{list.description}}</td>
<td>{{list.job_title}}</td>
</tr>
{% endfor %}
</tbody>
</table>
</body>
</html>5.啟動(dòng)
直接通過(guò) node app.js啟動(dòng)即可;
6.運(yùn)行結(jié)果(http://localhost:8080),只截取部分?jǐn)?shù)據(jù)

感謝各位的閱讀!關(guān)于“NodeJs如何實(shí)現(xiàn)簡(jiǎn)單的爬蟲(chóng)功能”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,讓大家可以學(xué)到更多知識(shí),如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到吧!
當(dāng)前題目:NodeJs如何實(shí)現(xiàn)簡(jiǎn)單的爬蟲(chóng)功能
瀏覽地址:http://chinadenli.net/article24/gsgpce.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供外貿(mào)建站、企業(yè)建站、小程序開(kāi)發(fā)、定制網(wǎng)站、品牌網(wǎng)站建設(shè)、虛擬主機(jī)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)