爬蟲(chóng)urllib庫(kù)的使用方法

這篇文章給大家分享的是有關(guān)爬蟲(chóng)urllib庫(kù)的使用方法的內(nèi)容。小編覺(jué)得挺實(shí)用的，因此分享給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧。

創(chuàng)新互聯(lián)服務(wù)項(xiàng)目包括洪山網(wǎng)站建設(shè)、洪山網(wǎng)站制作、洪山網(wǎng)頁(yè)制作以及洪山網(wǎng)絡(luò)營(yíng)銷策劃等。多年來(lái)，我們專注于互聯(lián)網(wǎng)行業(yè)，利用自身積累的技術(shù)優(yōu)勢(shì)、行業(yè)經(jīng)驗(yàn)、深度合作伙伴關(guān)系等，向廣大中小型企業(yè)、政府機(jī)構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案，洪山網(wǎng)站推廣取得了明顯的社會(huì)效益與經(jīng)濟(jì)效益。目前，我們服務(wù)的客戶以成都為中心已經(jīng)輻射到洪山省份的部分城市，未來(lái)相信會(huì)繼續(xù)擴(kuò)大服務(wù)區(qū)域并繼續(xù)獲得客戶的支持與信任！

URL（Uniform Resource Locator）對(duì)象代表統(tǒng)一資源定位器，它是指向互聯(lián)網(wǎng)“資源”的指針。資源可以是簡(jiǎn)單的文件或目錄，也可以是對(duì)復(fù)雜對(duì)象的引用，例如對(duì)數(shù)據(jù)庫(kù)或搜索引擎的查詢。在通常情況下，URL 可以由協(xié)議名、主機(jī)、端口和資源路徑組成，即滿足如下格式：

protocol://host:port/path

例如如下的 URL 地址：

http://www.crazyit.org/index.php

urllib 模塊則包含了多個(gè)用于處理 URL 的子模塊：

urllib.request：這是最核心的子模塊，它包含了打開(kāi)和讀取 URL 的各種函數(shù)。
urllib.error：主要包含由 urllib.request 子模塊所引發(fā)的各種異常。
urllib.parse：用于解析 URL。
urllib.robotparser：主要用于解析 robots.txt 文件。

通過(guò)使用 urllib 模塊可以打開(kāi)任意 URL 所指向的資源，就像打開(kāi)本地文件一樣，這樣程序就能完整地下載遠(yuǎn)程頁(yè)面。如果再與 re 模塊結(jié)合使用，那么程序完全可以提取頁(yè)面中各種信息，這就是所謂的“網(wǎng)絡(luò)爬蟲(chóng)”的初步原理。

下面先介紹 urllib.parse 子模塊中用于解析 URL 地址和查詢字符串的函數(shù)：

urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)：該函數(shù)用于解析 URL 字符串。程序返回一個(gè) ParseResult 對(duì)象，可以獲取解析出來(lái)的數(shù)據(jù)。

urllib.parse.urlunparse(parts)：該函數(shù)是上一個(gè)函數(shù)的反向操作，用于將解析結(jié)果反向拼接成 URL 地址。

urllib.parse.parse_qs(qs, keep_blank_values=False, strict_parsing=False, encoding='utf-8', errors='replace')：該該函數(shù)用于解析查詢字符串（application/x-www-form-urlencoded 類型的數(shù)據(jù)），并以 dict 形式返回解析結(jié)果。

urllib.parse.parse_qsl(qs, keep_blank_values=False, strict_parsing=False, encoding='utf-8', errors='replace')：該函數(shù)用于解析查詢字符串（application/x-www-form-urlencoded 類型的數(shù)據(jù)），并以列表形式返回解析結(jié)果。

urllib.parse.urlencode(query, doseq=False, safe='', encoding=None, errors=None, quote_via=quote_plus)：將字典形式或列表形式的請(qǐng)求參數(shù)恢復(fù)成請(qǐng)求字符串。該函數(shù)相當(dāng)于 parse_qs()、parse_qsl() 的逆函數(shù)。

urllib.parse.urljoin(base, url, allow_fragments=True)：該函數(shù)用于將一個(gè) base_URL 和另一個(gè)資源 URL 連接成代表絕對(duì)地址的 URL。

例如，如下程序使用 urlparse() 函數(shù)來(lái)解析 URL 字符串：

from urllib.parse import *

# 解析URL字符串
result = urlparse('http://www.crazyit.org:80/index.php;yeeku?name=fkit#frag')
print(result)
# 通過(guò)屬性名和索引來(lái)獲取URL的各部分
print('scheme:', result.scheme, result[0])
print('主機(jī)和端口:', result.netloc, result[1])
print('主機(jī):', result.hostname)
print('端口:', result.port)
print('資源路徑:', result.path, result[2])
print('參數(shù):', result.params, result[3])
print('查詢字符串:', result.query, result[4])
print('fragment:', result.fragment, result[5])
print(result.geturl())

上面程序中使用 urlparse() 函數(shù)解析 URL 字符串，解析結(jié)果是一個(gè) ParseResult 對(duì)象，該對(duì)象實(shí)際上是 tuple 的子類。因此，程序既可通過(guò)屬性名來(lái)獲取 URL 的各部分，也可通過(guò)索引來(lái)獲取 URL 的各部分。

感謝各位的閱讀！關(guān)于爬蟲(chóng)urllib庫(kù)的使用方法就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，讓大家可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò)，可以把它分享出去讓更多的人看到吧！

網(wǎng)站題目：爬蟲(chóng)urllib庫(kù)的使用方法
本文地址：http://chinadenli.net/article38/ipccpp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站改版、虛擬主機(jī)、網(wǎng)站設(shè)計(jì)、響應(yīng)式網(wǎng)站、品牌網(wǎng)站制作、面包屑導(dǎo)航

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

爬蟲(chóng)urllib庫(kù)的使用方法