欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

詳解python實現(xiàn)交叉驗證法與留出法-創(chuàng)新互聯(lián)

在機器學習中,我們經(jīng)常在訓練集上訓練模型,在測試集上測試模型。最終的目標是希望我們的模型在測試集上有最好的表現(xiàn)。

專注于為中小企業(yè)提供網(wǎng)站制作、做網(wǎng)站服務,電腦端+手機端+微信端的三站合一,更高效的管理,為中小企業(yè)寧安免費做網(wǎng)站提供優(yōu)質(zhì)的服務。我們立足成都,凝聚了一批互聯(lián)網(wǎng)行業(yè)人才,有力地推動了上千余家企業(yè)的穩(wěn)健成長,幫助中小企業(yè)通過網(wǎng)站建設實現(xiàn)規(guī)模擴充和轉變。

但是,我們往往只有一個包含m個觀測的數(shù)據(jù)集D,我們既要用它進行訓練,又要對它進行測試。此時,我們就需要對數(shù)據(jù)集D進行劃分。

對于數(shù)據(jù)集D的劃分,我們盡量需要滿足三個要求:

  1. 訓練集樣本量充足
  2. 訓練模型時的計算量可以忍受
  3. 不同的劃分方式會得出不同的訓練集和測試集,從而得出不同的結果,我們需要消除這種影響

我們將分別介紹留出法、交叉驗證法,以及各自的python實現(xiàn)。自助法(bootstrapping)將在下篇中加以介紹。

1.留出法


留出法是最常用最直接最簡單的方法,它直接將數(shù)據(jù)集D拆分成兩個互斥的集合,其中一個作為訓練集R,另一個作為測試集T。 即


在使用留出法時,需要注意:

  1. 要有足夠的樣本量,以保證訓練模型的效果
  2. 在劃分時注意保證數(shù)據(jù)分布的一致性(如:500個樣本中正例和反例的比為2:3,則在訓練集和測試集中正例和反例的比也要求為2:3),只需要采用隨機分層抽樣即可
  3. 為了減弱隨機劃分的影響,重復劃分訓練集和測試集,對得到的多次結果取平均作為最后的結果
  4. 一般訓練集和測試集的比例在8:2或者7:3

當然留出法的缺點也非常明顯,即它會損失一定的樣本信息;同時需要大樣本

python實現(xiàn)留出法,只需要使用sklearn包就可以

from sklearn.model_selection import train_test_split
#使用train_test_split劃分訓練集和測試集
train_X , test_X, train_Y ,test_Y = train_test_split(
  X, Y, test_size=0.2,random_state=0)
''' 
X為原始數(shù)據(jù)的自變量,Y為原始數(shù)據(jù)因變量;
train_X,test_X是將X按照8:2劃分所得;
train_Y,test_Y是將X按照8:2劃分所得;
test_size是劃分比例;
random_state設置是否使用隨機數(shù)
'''

網(wǎng)站題目:詳解python實現(xiàn)交叉驗證法與留出法-創(chuàng)新互聯(lián)
網(wǎng)頁路徑:http://chinadenli.net/article30/shgso.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供靜態(tài)網(wǎng)站微信小程序網(wǎng)頁設計公司小程序開發(fā)網(wǎng)站內(nèi)鏈建站公司

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

外貿(mào)網(wǎng)站制作