這篇文章主要介紹用python爬蟲(chóng)scrapy框架中獲取內(nèi)容對(duì)的示例,文中介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們一定要看完!
網(wǎng)站設(shè)計(jì)制作、網(wǎng)站制作服務(wù)團(tuán)隊(duì)是一支充滿(mǎn)著熱情的團(tuán)隊(duì),執(zhí)著、敏銳、追求更好,是創(chuàng)新互聯(lián)的標(biāo)準(zhǔn)與要求,同時(shí)竭誠(chéng)為客戶(hù)提供服務(wù)是我們的理念。成都創(chuàng)新互聯(lián)公司把每個(gè)網(wǎng)站當(dāng)做一個(gè)產(chǎn)品來(lái)開(kāi)發(fā),精雕細(xì)琢,追求一名工匠心中的細(xì)致,我們更用心!
Items介紹
爬取的主要目標(biāo)就是從非結(jié)構(gòu)性的數(shù)據(jù)源提取結(jié)構(gòu)性數(shù)據(jù),例如網(wǎng)頁(yè)。 Scrapy spider可以以python的dict來(lái)返回提取的數(shù)據(jù).雖然dict很方便,并且用起來(lái)也熟悉,但是其缺少結(jié)構(gòu)性,容易打錯(cuò)字段的名字或者返回不一致的數(shù)據(jù),尤其在具有多個(gè)spider的大項(xiàng)目中。
為了定義常用的輸出數(shù)據(jù),Scrapy提供了 Item 類(lèi)。 Item 對(duì)象是種簡(jiǎn)單的容器,保存了爬取到得數(shù)據(jù)。 其提供了 類(lèi)似于詞典(dictionary-like) 的API以及用于聲明可用字段的簡(jiǎn)單語(yǔ)法。
許多Scrapy組件使用了Item提供的額外信息: exporter根據(jù)Item聲明的字段來(lái)導(dǎo)出數(shù)據(jù)、 序列化可以通過(guò)Item字段的元數(shù)據(jù)(metadata)來(lái)定義、 trackref 追蹤Item實(shí)例來(lái)幫助尋找內(nèi)存泄露 (see 使用 trackref 調(diào)試內(nèi)存泄露) 等等。
Item 對(duì)象是種簡(jiǎn)單的容器,保存了爬取到得數(shù)據(jù)。 其提供了 類(lèi)似于詞典(dictionary-like) 的API以及用于聲明可用字段的簡(jiǎn)單語(yǔ)法。
在Scrapy中,items是用來(lái)加載抓取內(nèi)容的容器,提供了一些額外的保護(hù)減少錯(cuò)誤。
一般來(lái)說(shuō),item可以用scrapy.item.Item類(lèi)來(lái)創(chuàng)建,并且用scrapy.item.Field對(duì)象來(lái)定義屬性。
接下來(lái),我們開(kāi)始來(lái)構(gòu)建item模型(model)。
首先,我們想要的內(nèi)容有:
排名(ranking)
電影名稱(chēng)(movie_name)
電影評(píng)分(score)
評(píng)論人數(shù)(score_num)
格言(quote)
Item使用簡(jiǎn)單的class定義語(yǔ)法以及Field對(duì)象來(lái)聲明。我們打開(kāi)scrapyspider目錄下的items.py文件寫(xiě)入下列代碼聲明Item:
以上是用python爬蟲(chóng)scrapy框架中獲取內(nèi)容對(duì)的示例的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對(duì)大家有幫助,更多相關(guān)知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!
本文標(biāo)題:用python爬蟲(chóng)scrapy框架中獲取內(nèi)容對(duì)的示例
轉(zhuǎn)載來(lái)于:http://chinadenli.net/article20/ppgojo.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站設(shè)計(jì)公司、App設(shè)計(jì)、品牌網(wǎng)站制作、商城網(wǎng)站、企業(yè)網(wǎng)站制作、網(wǎng)站制作
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)