用python爬蟲下載鏈接的方法

小編給大家分享一下用python爬蟲下載鏈接的方法，希望大家閱讀完這篇文章后大所收獲，下面讓我們一起去探討吧！

10年積累的成都網(wǎng)站制作、網(wǎng)站設(shè)計(jì)經(jīng)驗(yàn)，可以快速應(yīng)對(duì)客戶對(duì)網(wǎng)站的新想法和需求。提供各種問題對(duì)應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識(shí)你，你也不認(rèn)識(shí)我。但先網(wǎng)站設(shè)計(jì)后付款的網(wǎng)站建設(shè)流程，更有東寧免費(fèi)網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。

步驟

1、要利用headers拉動(dòng)請(qǐng)求，模擬成瀏覽器去訪問網(wǎng)站，跳過最簡(jiǎn)單的反爬蟲機(jī)制。

2、獲取網(wǎng)頁內(nèi)容，保存在一個(gè)字符串content中。

3、構(gòu)造正則表達(dá)式，從content中匹配關(guān)鍵詞pattern獲取下載鏈接。需要注意的是，網(wǎng)頁中的關(guān)鍵詞出現(xiàn)了兩遍（如下圖），所以我們要利用set()函數(shù)清除重復(fù)元素。

4、第三步是遍歷set之后的結(jié)果，下載鏈接。

5、設(shè)置time.sleep(t)，無sleep間隔的話，網(wǎng)站認(rèn)定這種行為是攻擊，所以我們隔一段時(shí)間下載一個(gè)，反反爬蟲。

具體代碼

import urllib.request# url request
import re            # regular expression
import os            # dirs
import time
'''
url 下載網(wǎng)址
pattern 正則化的匹配關(guān)鍵詞
Directory 下載目錄
'''
def BatchDownload(url,pattern,Directory):
    
    # 拉動(dòng)請(qǐng)求，模擬成瀏覽器去訪問網(wǎng)站->跳過反爬蟲機(jī)制
    headers = {'User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'}
    opener = urllib.request.build_opener()
    opener.addheaders = [headers]
    
    # 獲取網(wǎng)頁內(nèi)容
    content = opener.open(url).read().decode('utf8')
    
    # 構(gòu)造正則表達(dá)式，從content中匹配關(guān)鍵詞pattern
    raw_hrefs = re.findall(pattern, content, 0)
    
    # set函數(shù)消除重復(fù)元素
    hset = set(raw_hrefs)
         
    # 下載鏈接
    for href in hset:
        # 之所以if else 是為了區(qū)別只有一個(gè)鏈接的特別情況
        if(len(hset)>1):
            link = url + href[0]
            filename = os.path.join(Directory, href[0])
            print("正在下載",filename)
            urllib.request.urlretrieve(link, filename)
            print("成功下載！")
        else:
            link = url +href
            filename = os.path.join(Directory, href)
            print("正在下載",filename)
            urllib.request.urlretrieve(link, filename)
            print("成功下載！")
            
        # 無sleep間隔，網(wǎng)站認(rèn)定這種行為是攻擊，反反爬蟲
        time.sleep(1)
 
#BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/',
#              '(Storm-Data-Export-Format.docx)',
#              'E:\stormevents\csvfiles')
        
#BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/',
#              '(Storm-Data-Export-Format.pdf)',
#              'E:\stormevents\csvfiles')
        
#BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/',
#              '(StormEvents_details-ftp_v1.0_d(\d*)_c(\d*).csv.gz)',
#              'E:\stormevents\csvfiles')
        
#BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/',
#              '(StormEvents_fatalities-ftp_v1.0_d(\d*)_c(\d*).csv.gz)',
#              'E:\stormevents\csvfiles')
 
#BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/',
#              '(StormEvents_locations-ftp_v1.0_d(\d*)_c(\d*).csv.gz)',
#              'E:\stormevents\csvfiles')
 
#BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/legacy/',
#              '(ugc_areas.csv)',
#              'E:\stormevents\csvfiles\legacy')
 
#BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/',
#              '(ugc_areas.csv)',
#              'E:\stormevents\csvfiles')

看完了這篇文章，相信你對(duì)用python爬蟲下載鏈接的方法有了一定的了解，想了解更多相關(guān)知識(shí)，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道，感謝各位的閱讀！

本文題目：用python爬蟲下載鏈接的方法
分享地址：http://chinadenli.net/article26/giohjg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供面包屑導(dǎo)航、網(wǎng)站設(shè)計(jì)公司、Google、企業(yè)建站、域名注冊(cè)、營(yíng)銷型網(wǎng)站建設(shè)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

用python爬蟲下載鏈接的方法