這篇文章將為大家詳細(xì)講解有關(guān)Python爬蟲(chóng)如何爬取天氣并數(shù)據(jù)圖形化,文章內(nèi)容質(zhì)量較高,因此小編分享給大家做個(gè)參考,希望大家閱讀完這篇文章后對(duì)相關(guān)知識(shí)有一定的了解。
扶綏網(wǎng)站制作公司哪家好,找成都創(chuàng)新互聯(lián)!從網(wǎng)頁(yè)設(shè)計(jì)、網(wǎng)站建設(shè)、微信開(kāi)發(fā)、APP開(kāi)發(fā)、成都響應(yīng)式網(wǎng)站建設(shè)等網(wǎng)站項(xiàng)目制作,到程序開(kāi)發(fā),運(yùn)營(yíng)維護(hù)。成都創(chuàng)新互聯(lián)公司2013年成立到現(xiàn)在10年的時(shí)間,我們擁有了豐富的建站經(jīng)驗(yàn)和運(yùn)維經(jīng)驗(yàn),來(lái)保證我們的工作的順利進(jìn)行。專注于網(wǎng)站建設(shè)就選成都創(chuàng)新互聯(lián)。
前言
使用python進(jìn)行網(wǎng)頁(yè)數(shù)據(jù)的爬取現(xiàn)在已經(jīng)很常見(jiàn)了,而對(duì)天氣數(shù)據(jù)的爬取更是入門(mén)級(jí)的新手操作,很多人學(xué)習(xí)爬蟲(chóng)都從天氣開(kāi)始,本文便是介紹了從中國(guó)天氣網(wǎng)爬取天氣數(shù)據(jù),能夠?qū)崿F(xiàn)輸入想要查詢的城市,返回該城市未來(lái)一周的天氣情況,保存為csv文件,并對(duì)數(shù)據(jù)圖形化展示分析。最后附完整代碼。
1、使用模塊
Python3。主要使用到了csv、sys、urllib.request和BeautifulSoup4模塊,其中csv模塊是為了對(duì)csv文件的處理,urllib.request可以構(gòu)造http請(qǐng)求,BeautifulSoup4可以解析頁(yè)面信息。在使用這些模塊之前,如果不存在需要進(jìn)行安裝,可打開(kāi)cmd使用pip進(jìn)行安裝。當(dāng)然,還需要一個(gè)城市名與城市code對(duì)應(yīng)的文件,便于我們輸入城市后找到對(duì)應(yīng)的code進(jìn)行相應(yīng)的天氣信息提取。這里點(diǎn)擊文件內(nèi)容cityinfo,可以查看到整理好的城市代碼,將該頁(yè)面內(nèi)容復(fù)制保存為.py文件,然后放入同路徑導(dǎo)入即可。
2、根據(jù)輸入城市從城市代碼文件提取到相應(yīng)的城市代碼
cityname = input("請(qǐng)輸入你想要查詢天氣的城市:") if cityname in cityinfo.city: citycode = cityinfo.city[cityname] else: sys.exit()
3、制作請(qǐng)求頭,得到請(qǐng)求的應(yīng)答內(nèi)容,即頁(yè)面信息
url = 'http://www.weather.com.cn/weather/' + citycode + '.shtml' header = ("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0. 3809.132 Safari/537.36") # 設(shè)置頭部信息 http_handler = urllib.request.HTTPHandler() opener = urllib.request.build_opener(http_handler) # 修改頭部信息 opener.addheaders = [header] request = urllib.request.Request(url) # 制作請(qǐng)求 response = opener.open(request) # 得到應(yīng)答包 html = response.read() # 讀取應(yīng)答包 html = html.decode('utf-8') # 設(shè)置編碼,否則會(huì)亂碼
其中,設(shè)置頭部信息header是為了防止某些網(wǎng)站設(shè)置了反爬蟲(chóng),在chrome瀏覽器下,頭部信息header可在瀏覽器中按f12然后點(diǎn)擊network,找到一個(gè)請(qǐng)求流,點(diǎn)擊請(qǐng)求流后可以看到相應(yīng)的頭部信息。
4、根據(jù)返回的頁(yè)面進(jìn)行數(shù)據(jù)的篩選
final = [] # 初始化一個(gè)列表保存數(shù)據(jù) bs = BeautifulSoup(html, "html.parser") # 創(chuàng)建BeautifulSoup對(duì)象 body = bs.body # 獲取body部分?jǐn)?shù)據(jù) data = body.find('div', {'id': '7d'}) ul = data.find('ul') li = ul.find_all('li')
#所有的標(biāo)簽獲取內(nèi)容都根據(jù)在頁(yè)面的所在位置進(jìn)行篩選,如圖所示,我們要查找的未來(lái)七天的天氣情況都包含在id為7d的div標(biāo)簽中,七天的天氣又在這個(gè)div的ul中,該div僅有一個(gè)ul,因此可使用find方法,每一天的天氣又在該ul的li中,且有多個(gè)li,則必須使用find_all()方法,找到所有的li,不能使用find方法。
5、爬取數(shù)據(jù)
i = 0 # 控制爬取的天數(shù) lows = [] # 保存低溫 highs = [] # 保存高溫 for day in li: # 便利找到的每一個(gè)li if i < 7: temp = [] date = day.find('h2').string # 得到日期 temp.append(date) inf = day.find_all('p') # 獲取天氣,遍歷li下面的p標(biāo)簽 有多個(gè)p需要使用find_all 而不是find temp.append(inf[0].string) temlow = inf[1].find('i').string # 最低氣溫 if inf[1].find('span') is None: # 天氣預(yù)報(bào)有時(shí)候可能沒(méi)有最高氣溫,需要做一個(gè)判斷 temhigh = None temperate = temlow else: temhigh = inf[1].find('span').string # 最高氣溫 temhigh = temhigh.replace('℃', '') temperate = temhigh + '/' + temlow temp.append(temperate) final.append(temp) i = i + 1
這里是從每個(gè)li中獲取到每天的天氣情況,控制在7天,通過(guò)li標(biāo)簽下面的各數(shù)據(jù)位置進(jìn)行相應(yīng)的提取,要注意提取標(biāo)簽的數(shù)量,如果在當(dāng)前標(biāo)簽下有多個(gè)相同的提取標(biāo)簽,要使用find_all()而不是find,然后用[n]進(jìn)行相應(yīng)的數(shù)據(jù)提取。
在提取溫度時(shí)要注意一個(gè)問(wèn)題,中國(guó)天氣網(wǎng)一般都會(huì)顯示最高氣溫和最低氣溫,但有時(shí)候只會(huì)顯示一個(gè)溫度,無(wú)最高氣溫,這時(shí)就要做一個(gè)判斷,否則腳本會(huì)出錯(cuò)。然后將天氣拼接成一個(gè)字符串,和其他數(shù)據(jù)一起放入final列表中。
6、寫(xiě)入csv文件
with open('weather.csv', 'a', errors='ignore', newline='') as f: f_csv = csv.writer(f) f_csv.writerows([cityname]) f_csv.writerows(final)
最后看到的csv文件中存儲(chǔ)的天氣數(shù)據(jù),如下圖所示:
7、使用pygal繪圖
使用該模塊前需先安裝pip install pygal,然后導(dǎo)入import pygal。
bar = pygal.Line() # 創(chuàng)建折線圖 bar.add('最低氣溫', lows) #添加兩線的數(shù)據(jù)序列 bar.add('最高氣溫', highs) #注意lows和highs是int型的列表 bar.x_labels = daytimes bar.x_labels_major = daytimes[::30] bar.x_label_rotation = 45 bar.title = cityname+'未來(lái)七天氣溫走向圖' #設(shè)置圖形標(biāo)題 bar.x_title = '日期' #x軸標(biāo)題 bar.y_title = '氣溫(攝氏度)' # y軸標(biāo)題 bar.legend_at_bottom = True bar.show_x_guides = False bar.show_y_guides = True bar.render_to_file('temperate1.svg') # 將圖像保存為SVG文件,可通過(guò)瀏覽器查看
最終生成的圖形如下圖所示,直觀的顯示了天氣情況:
8、完整代碼
import csv import sys import urllib.request from bs4 import BeautifulSoup # 解析頁(yè)面模塊 import pygal import cityinfo cityname = input("請(qǐng)輸入你想要查詢天氣的城市:") if cityname in cityinfo.city: citycode = cityinfo.city[cityname] else: sys.exit() url = 'http://www.weather.com.cn/weather/' + citycode + '.shtml' header = ("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0. 3809.132 Safari/537.36") # 設(shè)置頭部信息 http_handler = urllib.request.HTTPHandler() opener = urllib.request.build_opener(http_handler) # 修改頭部信息 opener.addheaders = [header] request = urllib.request.Request(url) # 制作請(qǐng)求 response = opener.open(request) # 得到應(yīng)答包 html = response.read() # 讀取應(yīng)答包 html = html.decode('utf-8') # 設(shè)置編碼,否則會(huì)亂碼 # 根據(jù)得到的頁(yè)面信息進(jìn)行初步篩選過(guò)濾 final = [] # 初始化一個(gè)列表保存數(shù)據(jù) bs = BeautifulSoup(html, "html.parser") # 創(chuàng)建BeautifulSoup對(duì)象 body = bs.body data = body.find('div', {'id': '7d'}) print(type(data)) ul = data.find('ul') li = ul.find_all('li') # 爬取自己需要的數(shù)據(jù) i = 0 # 控制爬取的天數(shù) lows = [] # 保存低溫 highs = [] # 保存高溫 daytimes = [] # 保存日期 weathers = [] # 保存天氣 for day in li: # 便利找到的每一個(gè)li if i < 7: temp = [] # 臨時(shí)存放每天的數(shù)據(jù) date = day.find('h2').string # 得到日期 #print(date) temp.append(date) daytimes.append(date) inf = day.find_all('p') # 遍歷li下面的p標(biāo)簽 有多個(gè)p需要使用find_all 而不是find #print(inf[0].string) # 提取第一個(gè)p標(biāo)簽的值,即天氣 temp.append(inf[0].string) weathers.append(inf[0].string) temlow = inf[1].find('i').string # 最低氣溫 if inf[1].find('span') is None: # 天氣預(yù)報(bào)可能沒(méi)有最高氣溫 temhigh = None temperate = temlow else: temhigh = inf[1].find('span').string # 最高氣溫 temhigh = temhigh.replace('℃', '') temperate = temhigh + '/' + temlow # temp.append(temhigh) # temp.append(temlow) lowStr = "" lowStr = lowStr.join(temlow.string) lows.append(int(lowStr[:-1])) # 以上三行將低溫NavigableString轉(zhuǎn)成int類型并存入低溫列表 if temhigh is None: highs.append(int(lowStr[:-1])) else: highStr = "" highStr = highStr.join(temhigh) highs.append(int(highStr)) # 以上三行將高溫NavigableString轉(zhuǎn)成int類型并存入高溫列表 temp.append(temperate) final.append(temp) i = i + 1 # 將最終的獲取的天氣寫(xiě)入csv文件 with open('weather.csv', 'a', errors='ignore', newline='') as f: f_csv = csv.writer(f) f_csv.writerows([cityname]) f_csv.writerows(final) # 繪圖 bar = pygal.Line() # 創(chuàng)建折線圖 bar.add('最低氣溫', lows) bar.add('最高氣溫', highs) bar.x_labels = daytimes bar.x_labels_major = daytimes[::30] # bar.show_minor_x_labels = False # 不顯示X軸最小刻度 bar.x_label_rotation = 45 bar.title = cityname+'未來(lái)七天氣溫走向圖' bar.x_title = '日期' bar.y_title = '氣溫(攝氏度)' bar.legend_at_bottom = True bar.show_x_guides = False bar.show_y_guides = True bar.render_to_file('temperate.svg')
關(guān)于Python爬蟲(chóng)如何爬取天氣并數(shù)據(jù)圖形化就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到。
網(wǎng)頁(yè)題目:Python爬蟲(chóng)如何爬取天氣并數(shù)據(jù)圖形化
網(wǎng)頁(yè)鏈接:http://chinadenli.net/article26/gpggcg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供關(guān)鍵詞優(yōu)化、搜索引擎優(yōu)化、虛擬主機(jī)、建站公司、外貿(mào)網(wǎng)站建設(shè)、網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)