python爬蟲中怎樣編寫pyspider

這篇文章給大家分享的是有關(guān)python爬蟲中怎樣編寫pyspider的內(nèi)容。小編覺得挺實(shí)用的，因此分享給大家做個(gè)參考。一起跟隨小編過來看看吧。

創(chuàng)新互聯(lián)長期為1000多家客戶提供的網(wǎng)站建設(shè)服務(wù)，團(tuán)隊(duì)從業(yè)經(jīng)驗(yàn)10年，關(guān)注不同地域、不同群體，并針對不同對象提供差異化的產(chǎn)品和服務(wù)；打造開放共贏平臺(tái)，與合作伙伴共同營造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為畢節(jié)企業(yè)提供專業(yè)的網(wǎng)站建設(shè)、成都做網(wǎng)站，畢節(jié)網(wǎng)站改版等技術(shù)服務(wù)。擁有十載豐富建站經(jīng)驗(yàn)和眾多成功案例,為您定制開發(fā)。

代碼：

from pyspider.libs.base_handler import *class Handler(BaseHandler):
    crawl_config = {
    }
 
    @every(minutes=24 * 60)    def on_start(self):
        self.crawl('__START_URL__', callback=self.index_page)
 
    @config(age=10 * 24 * 60 * 60)    def index_page(self, response):        for each in response.doc('a[href^="http"]').items():
            self.crawl(each.attr.href, callback=self.detail_page)
 
    @config(priority=2)    def detail_page(self, response):        return {            "url": response.url,            "title": response.doc('title').text(),
        }

crawl_config：爬蟲的全局參數(shù)設(shè)置，例如請求頭和cookies可以在這里設(shè)置（傳入關(guān)鍵字及對應(yīng)的參數(shù)即可）

on_start(self)：爬蟲開始爬取的入口

crawl：和requests有相同的功能，可以支持 get(默認(rèn)) 和 post，常用的參數(shù)有

data 是想要提交數(shù)據(jù)

callback 可以在執(zhí)行完 crawl后調(diào)用回調(diào)函數(shù)

method 是指定訪問方法

files 上傳文件，{'key': ('file.name': 'content')}

headers 請求頭，類型dict

cookies 請求的 Cookies 類型 dict

timeout 請求內(nèi)容里最大等待秒數(shù)．默認(rèn)值：120

connect_timeout ：指定請求時(shí)鏈接超時(shí)時(shí)間,單位秒，默認(rèn)值：20

proxy ：可以設(shè)置代理服務(wù)器，暫時(shí)只支持http代理

感謝各位的閱讀！關(guān)于python爬蟲中怎樣編寫pyspider就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，讓大家可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò)，可以把它分享出去讓更多的人看到吧！

分享題目：python爬蟲中怎樣編寫pyspider
當(dāng)前鏈接：http://chinadenli.net/article0/giesoo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供靜態(tài)網(wǎng)站、全網(wǎng)營銷推廣、App設(shè)計(jì)、品牌網(wǎng)站設(shè)計(jì)、企業(yè)建站、網(wǎng)站導(dǎo)航

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

python爬蟲中怎樣編寫pyspider