前言
我看到最近幾部電影很火,查了一下貓眼電影上的數(shù)據(jù),發(fā)現(xiàn)還有個榜單,里面有各種經(jīng)典和熱映電影的排行榜,然后我覺得電影封面圖還挺好看的,想著一張一張下載真是費時費力,于是突發(fā)奇想,好像可以用一下最近學(xué)的東西實現(xiàn)我的需求,學(xué)習(xí)了正則表達(dá)式之后,想著要感受一下它在爬蟲里面的效果和優(yōu)缺點。
目標(biāo):爬取Top100榜單上電影的封面圖
Top100榜單規(guī)則:將貓眼電影庫中的經(jīng)典影片,按照評分和評分人數(shù)從高到低綜合排序取前100名,每天上午10點更新。相關(guān)數(shù)據(jù)來源于“貓眼電影庫”。
下面是我做的步驟:
(1)查看頁面元素,找到包含圖片的路徑的代碼段落
(2)分析圖片在web上面的唯一屬性,便于之后獲取正確圖片位置信息
(3)因為需要翻頁,觀察多個頁面的URL變化
(4)綜合以上幾個點,編寫合適的正則表達(dá)式
1、python 標(biāo)準(zhǔn)庫中re模塊提供了正則表達(dá)式的全部功能,直接引入;requests模塊是http庫,爬蟲常用庫,而urllib.requests 則是最后用到寫入文件的函數(shù)
import re import requests import urllib.request
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。
本文名稱:Python爬蟲運用正則表達(dá)式的方法和優(yōu)缺點-創(chuàng)新互聯(lián)
當(dāng)前路徑:http://chinadenli.net/article0/dhjdio.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供搜索引擎優(yōu)化、企業(yè)網(wǎng)站制作、動態(tài)網(wǎng)站、品牌網(wǎng)站制作、網(wǎng)站收錄、建站公司
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容