在機器學習中,我們經(jīng)常在訓練集上訓練模型,在測試集上測試模型。最終的目標是希望我們的模型在測試集上有最好的表現(xiàn)。

但是,我們往往只有一個包含m個觀測的數(shù)據(jù)集D,我們既要用它進行訓練,又要對它進行測試。此時,我們就需要對數(shù)據(jù)集D進行劃分。
對于數(shù)據(jù)集D的劃分,我們盡量需要滿足三個要求:
我們將分別介紹留出法、交叉驗證法,以及各自的python實現(xiàn)。自助法(bootstrapping)將在下篇中加以介紹。
1.留出法
留出法是最常用最直接最簡單的方法,它直接將數(shù)據(jù)集D拆分成兩個互斥的集合,其中一個作為訓練集R,另一個作為測試集T。 即
在使用留出法時,需要注意:
當然留出法的缺點也非常明顯,即它會損失一定的樣本信息;同時需要大樣本。
python實現(xiàn)留出法,只需要使用sklearn包就可以
from sklearn.model_selection import train_test_split #使用train_test_split劃分訓練集和測試集 train_X , test_X, train_Y ,test_Y = train_test_split( X, Y, test_size=0.2,random_state=0) ''' X為原始數(shù)據(jù)的自變量,Y為原始數(shù)據(jù)因變量; train_X,test_X是將X按照8:2劃分所得; train_Y,test_Y是將X按照8:2劃分所得; test_size是劃分比例; random_state設置是否使用隨機數(shù) '''
                網(wǎng)站題目:詳解python實現(xiàn)交叉驗證法與留出法-創(chuàng)新互聯(lián)
                
                網(wǎng)頁路徑:http://chinadenli.net/article30/shgso.html
            
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供靜態(tài)網(wǎng)站、微信小程序、網(wǎng)頁設計公司、小程序開發(fā)、網(wǎng)站內(nèi)鏈、建站公司
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)