欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

怎么用Scrapy構(gòu)建一個網(wǎng)絡(luò)爬蟲

這篇文章主要講解了“怎么用Scrapy構(gòu)建一個網(wǎng)絡(luò)爬蟲”,文中的講解內(nèi)容簡單清晰,易于學(xué)習(xí)與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“怎么用Scrapy構(gòu)建一個網(wǎng)絡(luò)爬蟲”吧!

成都創(chuàng)新互聯(lián)公司專業(yè)為企業(yè)提供蘭州網(wǎng)站建設(shè)、蘭州做網(wǎng)站、蘭州網(wǎng)站設(shè)計、蘭州網(wǎng)站制作等企業(yè)網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計與制作、蘭州企業(yè)網(wǎng)站模板建站服務(wù),十載蘭州做網(wǎng)站經(jīng)驗,不只是建網(wǎng)站,更提供有價值的思路和整體網(wǎng)絡(luò)服務(wù)。

我們來看下Scrapy怎么做到這些功能的。首先準(zhǔn)備Scrapy環(huán)境,你需要安裝Python(本文使用v2.7)和pip,然后用pip來安裝lxml和scrapy。個人強烈建議使用virtualenv來安裝環(huán)境,這樣不同的項目之間不會沖突。詳細(xì)步驟這里就不贅述了。對于Mac用戶要注意,當(dāng)使用pip安裝lxml時,會出現(xiàn)類似于的下面錯誤:

Error: #include “xml/xmlversion.h” not found

解決這個問題,你需要先安裝Xcode的command line tools,具體的方法是在命令行執(zhí)行下面的命令即可。

$ xcode-select --install

環(huán)境安裝好之后,我們來用Scrapy實現(xiàn)一個簡單的爬蟲,抓取本博客網(wǎng)站的文章標(biāo)題,地址和摘要。

    1

    1

    2

    3

    4

    5

    6

    7

    8

    1. 設(shè)置待抓取內(nèi)容的字段,本例中就是文章的標(biāo)題,地址和摘要

修改”items.py”文件,在”MyCrawlerItem”類中加上如下代碼:

Python

# -*- coding: utf-8 -*-

import scrapy

class MyCrawlerItem(scrapy.Item):

    title = scrapy.Field()    # 文章標(biāo)題

    url = scrapy.Field()      # 文章地址

    summary = scrapy.Field()  # 文章摘要

    pass



對于XPath不熟悉的朋友,可以通過Chrome的debug工具獲取元素的XPath。

    1

    1. 將結(jié)果保存到數(shù)據(jù)庫

這里我們采用MongoDB,你需要先安裝Python的MongoDB庫”pymongo”。編輯”my_crawler”目錄下的”pipelines.py”文件,在”MyCrawlerPipeline”類中加上如下代碼:

Python

# -*- coding: utf-8 -*-

import pymongo

from scrapy.conf import settings

from scrapy.exceptions import DropItem

class MyCrawlerPipeline(object):

    def __init__(self):

        # 設(shè)置MongoDB連接

        connection = pymongo.Connection(

            settings['MONGO_SERVER'],

            settings['MONGO_PORT']

        )

        db = connection[settings['MONGO_DB']]

        self.collection = db[settings['MONGO_COLLECTION']]

    # 處理每個被抓取的MyCrawlerItem項

    def process_item(self, item, spider):

        valid = True

        for data in item:

            if not data:  # 過濾掉存在空字段的項

                valid = False

                raise DropItem("Missing {0}!".format(data))

        if valid:

            # 也可以用self.collection.insert(dict(item)),使用upsert可以防止重復(fù)項

            self.collection.update({'url': item['url']}, dict(item), upsert=True)

        return item

再打開”my_crawler”目錄下的”settings.py”文件,在文件末尾加上pipeline的設(shè)置:

Python

ITEM_PIPELINES = {

    'my_crawler.pipelines.MyCrawlerPipeline': 300,    # 設(shè)置Pipeline,可以多個,值為執(zhí)行優(yōu)先級

}

# MongoDB連接信息

MONGO_SERVER = 'localhost'

MONGO_PORT = 27017

MONGO_DB = 'bjhee'

MONGO_COLLECTION = 'articles'

DOWNLOAD_DELAY=2    # 如果網(wǎng)絡(luò)慢,可以適當(dāng)加些延遲,單位是秒

  1. <td class="crayon-code" ">

  2. $ scrapy crawl my_crawler

    別忘了啟動MongoDB并創(chuàng)建”bjhee”數(shù)據(jù)庫哦?,F(xiàn)在你可以在MongoDB里查詢到記錄了。

    總結(jié)下,使用Scrapy來構(gòu)建一個網(wǎng)絡(luò)爬蟲,你需要做的就是:廈門叉車租賃公司

    • “items.py”中定義爬取字段

    • 在”spiders”目錄下創(chuàng)建你的爬蟲,編寫解析函數(shù)和規(guī)則

    • “pipelines.py”中對爬取后的結(jié)果做處理

    • “settings.py”設(shè)置必要的參數(shù)

感謝各位的閱讀,以上就是“怎么用Scrapy構(gòu)建一個網(wǎng)絡(luò)爬蟲”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對怎么用Scrapy構(gòu)建一個網(wǎng)絡(luò)爬蟲這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識點的文章,歡迎關(guān)注!

當(dāng)前文章:怎么用Scrapy構(gòu)建一個網(wǎng)絡(luò)爬蟲
文章路徑:http://chinadenli.net/article34/gpcdse.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供做網(wǎng)站、微信公眾號、網(wǎng)站制作、網(wǎng)站導(dǎo)航、軟件開發(fā)、網(wǎng)站設(shè)計

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)頁設(shè)計公司
中文精品人妻一区二区| 欧美日韩人妻中文一区二区| 国产又色又爽又黄又免费| 久热99中文字幕视频在线| 日本加勒比中文在线观看| 久热99中文字幕视频在线| 欧美一区二区不卡专区| 欧美大粗爽一区二区三区| 亚洲午夜精品视频在线| 成人精品一区二区三区在线| 日韩精品毛片视频免费看| 欧美日韩中国性生活视频| 日本丰满大奶熟女一区二区| 人妻久久一区二区三区精品99| 欧美日韩精品一区免费| 日本一本在线免费福利| 久久热中文字幕在线视频| 日本人妻精品中文字幕不卡乱码 | 日本熟女中文字幕一区| 婷婷开心五月亚洲综合| 久久这里只有精品中文字幕| 国产亚洲精品一二三区| 国产午夜福利不卡片在线观看| 日本女优一区二区三区免费| 欧美日韩亚洲巨色人妻| 国产日本欧美韩国在线| 亚洲欧美日韩综合在线成成| 一区二区三区日韩在线| 五月婷婷六月丁香狠狠| 亚洲最新中文字幕一区| 蜜桃av人妻精品一区二区三区| 在线观看免费无遮挡大尺度视频| 大香蕉伊人精品在线观看| 亚洲一区二区三区在线中文字幕| 亚洲国产精品av在线观看| 亚洲第一区二区三区女厕偷拍| 99秋霞在线观看视频| 国产精品免费福利在线| 国产午夜福利不卡片在线观看| 欧美视频在线观看一区| 极品熟女一区二区三区|