欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

python核密度函數(shù) python 概率密度函數(shù)

114 11 個(gè)案例掌握 Python 數(shù)據(jù)可視化--美國氣候研究

自哥本哈根氣候會(huì)議之后,全球日益關(guān)注氣候變化和溫室效應(yīng)等問題,并于會(huì)后建立了全球碳交易市場(chǎng),分階段分批次減碳。本實(shí)驗(yàn)獲取了美國 1979 - 2011 年間 NASA 等機(jī)構(gòu)對(duì)美國各地日均最高氣溫、降雨量等數(shù)據(jù),研究及可視化了氣候相關(guān)指標(biāo)的變化規(guī)律及相互關(guān)系。

成都創(chuàng)新互聯(lián)公司于2013年創(chuàng)立,先為新和等服務(wù)建站,新和等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為新和企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問題。

輸入并執(zhí)行魔法命令 %matplotlib inline, 并去除圖例邊框。

數(shù)據(jù)集介紹:

本數(shù)據(jù)集特征包括美國 49 個(gè)州(State),各州所在的地區(qū)(Region),統(tǒng)計(jì)年(Year),統(tǒng)計(jì)月(Month),平均光照(Avg Daily Sunlight),日均最大空氣溫度(Avg Daily Max Air Temperature ),日均最大熱指數(shù)(Avg Daily Max Heat Index ),日均降雨量(Avg Daily Precipitation ),日均地表溫度(Avg Day Land Surface Temperature)。

各特征的年度區(qū)間為:

導(dǎo)入數(shù)據(jù)并查看前 5 行。

篩選美國各大區(qū)域的主要?dú)夂蛑笖?shù),通過 sns.distplot 接口繪制指數(shù)的分布圖。

從運(yùn)行結(jié)果可知:

光照能量密度(Sunlight),美國全境各地區(qū)分布趨勢(shì)大致相同,均存在較為明顯的兩個(gè)峰(強(qiáng)光照和弱光照)。這是因?yàn)榉浅嗟绹沂艿厍蚬D(zhuǎn)影響,四季光照強(qiáng)度會(huì)呈現(xiàn)出一定的周期變化規(guī)律;

從地理區(qū)位能看出,東北部光照低谷明顯低于其他三個(gè)區(qū)域;

日均最高空氣溫度(Max Air Temperature),美國全境各地區(qū)表現(xiàn)出較大差異,東北部和中西部趨勢(shì)大致相同,氣溫平緩期較長(zhǎng),且包含一個(gè)顯著的尖峰;西部地區(qū)平緩期最長(zhǎng),全年最高溫均相對(duì)穩(wěn)定;南部分布則相對(duì)更為集中;

日均地表溫度(Land Surface Temperature),與最高空氣溫度類似,不同之處在于其低溫區(qū)分布更少;

最大熱指數(shù)(Max Heat Index),西部與中西部分布較為一致,偏溫和性溫度,東北部熱指數(shù)偏高,南部偏低;

降雨量(Precipitation),西部明顯偏小,南部與東北部大致相同,中西部相對(duì)較多。

結(jié)合地理知識(shí)做一個(gè)總結(jié):

東北部及大多數(shù)中西部地區(qū),屬于溫帶大陸性氣候,四季分明,夏季悶熱,降雨較多。

西部屬于溫帶地中海氣候,全年氣候溫和,并且干燥少雨,夏季氣候溫和,最高溫度相對(duì)穩(wěn)定。

南部沿海一帶,終年氣候溫暖,夏季炎熱,雨水充沛。

按月計(jì)算美國各地區(qū)降雨量均值及標(biāo)準(zhǔn)偏差,以均值 ± 一倍標(biāo)準(zhǔn)偏差繪制各地區(qū)降雨量誤差線圖。

從運(yùn)行結(jié)果可知:

在大多數(shù)夏季月份,西部地區(qū)降雨量遠(yuǎn)小于其他地區(qū);

西部地區(qū)冬季月降雨量高于夏季月;

中西部地區(qū)是較為典型的溫帶大陸性氣候,秋冬降雨逐漸減少,春夏降雨逐漸升高;

南部地區(qū)偏向海洋性氣候,全年降雨量相對(duì)平均。

需要安裝joypy包。

日均最高氣溫變化趨勢(shì)

通過 joypy 包的 joyplot 接口,可以繪制帶堆積效應(yīng)的直方分布曲線,將 1980 年 - 2008 年的日均最高溫度按每隔 4 年的方式繪制其分布圖,并標(biāo)注 25%、75% 分位數(shù)。

從運(yùn)行結(jié)果可知:

1980 - 2008 年區(qū)間,美國全境日均最高溫度分布的低溫區(qū)正逐漸升高,同時(shí)高溫區(qū)正逐漸降低,分布更趨向于集中;

1980 - 2008 年區(qū)間,美國全境日均最高溫度的 25% 分位數(shù)和 75% 分位數(shù)有少量偏離但并不明顯。

日均降雨量變化趨勢(shì)

同樣的方式對(duì)降雨量數(shù)據(jù)進(jìn)行處理并查看輸出結(jié)果。

篩選出加州和紐約州的日均降雨量數(shù)據(jù),通過 plt.hist 接口繪制降雨量各月的分布圖。

從運(yùn)行結(jié)果可知:

加州地區(qū)降雨量多集中在 0 - 1 mm 區(qū)間,很少出現(xiàn)大雨,相比而言,紐約州則顯得雨量充沛,日均降雨量分布在 2 - 4 mm 區(qū)間。

直方圖在堆積效應(yīng)下會(huì)被覆蓋大多數(shù)細(xì)節(jié),同時(shí)表達(dá)聚合、離散效應(yīng)的箱線圖在此類問題上或許是更好的選擇。

通過 sns.boxplot 接口繪制加州和紐約州全年各月降雨量分布箱線圖.

從箱線圖上,我們可以清晰地對(duì)比每個(gè)月兩個(gè)州的降雨量分布,既可以看到集中程度,例如七月的加州降雨量集中在 0.1 - 0.5 mm 的窄區(qū)間,說明此時(shí)很少會(huì)有大雨;又可以看到離散情況,例如一月的加州,箱線圖箱子(box)部分分布較寬,且上方 10 mm 左右存在一個(gè)離散點(diǎn),說明此時(shí)的加州可能偶爾地會(huì)出現(xiàn)大到暴雨。

視覺上更為美觀且簡(jiǎn)約的是擺動(dòng)的誤差線圖,實(shí)驗(yàn) 「美國全境降雨量月度分布」 將所有類別標(biāo)簽的 x 位置均放于同一處,導(dǎo)致誤差線高度重合。可通過調(diào)節(jié) x 坐標(biāo)位置將需要對(duì)比的序列緊湊排布。

從輸出結(jié)果可以看出,加州冬季的降雨量不確定更強(qiáng),每年的的十一月至次年的三月,存在降雨量大,且降雨量存在忽多忽少的現(xiàn)象(誤差線長(zhǎng))。

上面的實(shí)驗(yàn)均在研究單變量的分布,但經(jīng)常性地,我們希望知道任意兩個(gè)變量的聯(lián)合分布有怎樣的特征。

核密度估計(jì) , 是研究此類問題的主要方式之一, sns.kdeplot 接口通過高斯核函數(shù)計(jì)算兩變量的核密度函數(shù)并以等高線的形式繪制核密度。

從運(yùn)行結(jié)果可知:

加州在高溫區(qū)和低降雨期存在一個(gè)較為明顯的高密度分布區(qū)(高溫少雨的夏季);

紐約州在高溫及低溫區(qū)均存在一個(gè)高密度的分布區(qū),且在不同溫區(qū)降雨量分布都較為均勻。

將美國全境的降雨量與空氣溫度通過 plt.hist2d 接口可視化。

從運(yùn)行結(jié)果可知:

美國全境最高密度的日均高溫溫度區(qū)域和降雨量區(qū)間分別為,78 F (約等于 25 C)和 2.2 mm 左右,屬于相對(duì)舒適的生活氣候區(qū)間。

美國全境降雨量與空氣溫度的關(guān)系-核密度估計(jì)

在上面實(shí)驗(yàn)基礎(chǔ)上,在 x, y 軸上分別通過 sns.rugplot 接口繪制核密度估計(jì)的一維分布圖,可在一張繪圖平面上同時(shí)獲取聯(lián)合分布和單變量分布的特征。

美國全境降雨量與空氣溫度的關(guān)系-散點(diǎn)分布和直方分布

sns.jointplot 接口通過柵格的形式,將單變量分布用子圖的形式進(jìn)行分別繪制,同時(shí)通過散點(diǎn)圖進(jìn)行雙變量關(guān)系的展示,也是一種較好的展現(xiàn)數(shù)據(jù)分布的方式。

上面兩個(gè)實(shí)驗(yàn)研究了雙變量分布的可視化,以下研究 3 變量聚合結(jié)果的可視化。

通過 sns.heatmap 接口可實(shí)現(xiàn)對(duì)透視數(shù)據(jù)的可視化,其原理是對(duì)透視結(jié)果的值賦予不同的顏色塊,以可視化其值的大小,并通過顏色條工具量化其值大小。

上面的兩個(gè)實(shí)驗(yàn)可視化了各州隨年份日均最高溫度的中位數(shù)變化趨勢(shì),從圖中并未看出有較為顯著地變化。

以下通過 t 檢驗(yàn)的方式查看統(tǒng)計(jì)量是否有顯著性差異。stats.ttest_ind 接口可以輸出 1980 年 與 2010 年主要?dú)夂蛑笖?shù)的顯著性檢驗(yàn)統(tǒng)計(jì)量及 p 值。

從運(yùn)行結(jié)果可以看出:

檢驗(yàn)結(jié)果拒絕了降雨量相等的原假設(shè),即 1980 年 與 2010 年兩年間,美國降雨量是不同的,同時(shí)沒有拒絕日均日照、日均最大氣溫兩個(gè)變量相等的原假設(shè),說明氣溫未發(fā)生顯著性變化。

python的seaborn.kdeplot有什么用

kde(kernel density estimation)是核密度估計(jì)。核的作用是根據(jù)離散采樣,估計(jì)連續(xù)密度分布。

如果原始采樣是《陰陽師》里的式神,那么kernel(核函數(shù))就相當(dāng)于御魂。

假設(shè)現(xiàn)在有一系列離散變量X = [4, 5, 5, 6, 12, 14, 15, 15, 16, 17],可見5和15的概率密度應(yīng)該要高一些,但具體有多高呢?有沒有三四層樓那么高,有沒有華萊士高?如果要估計(jì)的是沒有出現(xiàn)過的3呢?這就要自己判斷了。

核函數(shù)就是給空間的每個(gè)離散點(diǎn)都套上一個(gè)連續(xù)分布。最簡(jiǎn)單的核函數(shù)是Parzen窗,類似一個(gè)方波:

這時(shí)候單個(gè)離散點(diǎn)就可以變成區(qū)間,空間或者高維空間下的超立方,實(shí)質(zhì)上是進(jìn)行了升維。

設(shè)h=4,則3的概率密度為:

(只有4對(duì)應(yīng)的核函數(shù)為1,其他皆為0)

kernel是非負(fù)實(shí)值對(duì)稱可積函數(shù),表示為K,且一本滿足:

這樣才能保證cdf仍為1。

實(shí)際上應(yīng)用最多的是高斯核函數(shù)(Gaussian Kernel),也就是標(biāo)準(zhǔn)正態(tài)分布。所謂核密度估計(jì)就是把所有離散點(diǎn)的核函數(shù)加起來,得到整體的概率密度分布。核密度估計(jì)在很多機(jī)器學(xué)習(xí)算法中都有應(yīng)用,比如K近鄰、K平均等。

在支持向量機(jī)里,也有“核”的概念,同樣也是給數(shù)據(jù)升維,最常用的還是高斯核函數(shù),也叫徑向基函數(shù)(Radial Basis Funtion)。

seaborn.kdeplot內(nèi)置了多種kerne,總有一款適合你。

7在python中快速瀏覽數(shù)據(jù)集應(yīng)該調(diào)用哪個(gè)函數(shù)?

pairplot函數(shù)。7在python中快速瀏覽數(shù)據(jù)集調(diào)用pairplot函數(shù),此函數(shù)使用散點(diǎn)圖和直方圖,還可以在非對(duì)角線上繪制回歸圖,在對(duì)角線上繪制核密度估計(jì)圖。

文章標(biāo)題:python核密度函數(shù) python 概率密度函數(shù)
文章位置:http://chinadenli.net/article8/hpjoop.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供做網(wǎng)站域名注冊(cè)網(wǎng)站制作網(wǎng)站排名軟件開發(fā)商城網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站優(yōu)化排名