使用python爬蟲怎么對(duì)圖片進(jìn)行爬???很多新手對(duì)此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來學(xué)習(xí)下,希望你能有所收獲。
1、spider原理
spider就是定義爬取的動(dòng)作及分析網(wǎng)站的地方。
以初始的URL**初始化Request**,并設(shè)置回調(diào)函數(shù)。 當(dāng)該request**下載完畢并返回時(shí),將生成**response ,并作為參數(shù)傳給該回調(diào)函數(shù)。
第一步:導(dǎo)入正則表達(dá)式模塊
import re # 導(dǎo)入正則表達(dá)式模塊 import requests # python HTTP客戶端 編寫爬蟲和測試服務(wù)器經(jīng)常用到的模塊 import random # 隨機(jī)生成一個(gè)數(shù),范圍[0,1]
第二步:使用定義函數(shù)的方法爬取圖片
def spiderPic(html, keyword): print('正在查找 ' + keyword + ' 對(duì)應(yīng)的圖片,下載中,請(qǐng)稍后......') for addr in re.findall('"objURL":"(.*?)"', html, re.S): # 查找URL print('正在爬取URL地址:' + str(addr)[0:30] + '...') # 爬取的地址長度超過30時(shí),用'...'代替后面的內(nèi)容 try: pics = requests.get(addr, timeout=100) # 請(qǐng)求URL時(shí)間(較大10秒) except requests.exceptions.ConnectionError: print('您當(dāng)前請(qǐng)求的URL地址出現(xiàn)錯(cuò)誤') continue fq = open('H:\\img\\' + (keyword + '_' + str(random.randrange(0, 1000, 4)) + '.jpg'), 'wb') # 下載圖片,并保存和命名 fq.write(pics.content) fq.close()
看完上述內(nèi)容是否對(duì)您有幫助呢?如果還想對(duì)相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章,請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝您對(duì)創(chuàng)新互聯(lián)網(wǎng)站建設(shè)公司,的支持。
當(dāng)前標(biāo)題:使用python爬蟲怎么對(duì)圖片進(jìn)行爬取-創(chuàng)新互聯(lián)
地址分享:http://chinadenli.net/article22/eojjc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供微信小程序、電子商務(wù)、網(wǎng)站制作、商城網(wǎng)站、移動(dòng)網(wǎng)站建設(shè)、企業(yè)網(wǎng)站制作
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容