大家如何使用scikit-learn包中的類方法來進行隨機森林算法的預(yù)測。其中講的比較好的是各個參數(shù)的具體用途。
創(chuàng)新互聯(lián)公司專注為客戶提供全方位的互聯(lián)網(wǎng)綜合服務(wù),包含不限于成都網(wǎng)站設(shè)計、成都網(wǎng)站建設(shè)、獲嘉網(wǎng)絡(luò)推廣、小程序制作、獲嘉網(wǎng)絡(luò)營銷、獲嘉企業(yè)策劃、獲嘉品牌公關(guān)、搜索引擎seo、人物專訪、企業(yè)宣傳片、企業(yè)代運營等,從售前售中售后,我們都將竭誠為您服務(wù),您的肯定,是我們最大的嘉獎;創(chuàng)新互聯(lián)公司為所有大學生創(chuàng)業(yè)者提供獲嘉建站搭建服務(wù),24小時服務(wù)熱線:18980820575,官方網(wǎng)址:chinadenli.net
這里我給出我的理解和部分翻譯:
參數(shù)說明:
最主要的兩個參數(shù)是n_estimators和max_features。
n_estimators:表示森林里樹的個數(shù)。理論上是越大越好。但是伴隨著就是計算時間的增長。但是并不是取得越大就會越好,預(yù)測效果最好的將會出現(xiàn)在合理的樹個數(shù)。
max_features:隨機選擇特征集合的子集合,并用來分割節(jié)點。子集合的個數(shù)越少,方差就會減少的越快,但同時偏差就會增加的越快。根據(jù)較好的實踐經(jīng)驗。如果是回歸問題則:
max_features=n_features,如果是分類問題則max_features=sqrt(n_features)。
如果想獲取較好的結(jié)果,必須將max_depth=None,同時min_sample_split=1。
同時還要記得進行cross_validated(交叉驗證),除此之外記得在random forest中,bootstrap=True。但在extra-trees中,bootstrap=False。
這里也給出一篇老外寫的文章:調(diào)整你的隨機森林模型參數(shù)
這里我使用了scikit-learn自帶的iris數(shù)據(jù)來進行隨機森林的預(yù)測:
[python]?view plain?copy
from?sklearn.tree?import?DecisionTreeRegressor
from?sklearn.ensemble?import?RandomForestRegressor
import?numpy?as?np
from?sklearn.datasets?import?load_iris
iris=load_iris()
#print?iris#iris的4個屬性是:萼片寬度 萼片長度 花瓣寬度 花瓣長度 標簽是花的種類:setosa?versicolour?virginica
print?iris['target'].shape
rf=RandomForestRegressor()#這里使用了默認的參數(shù)設(shè)置
rf.fit(iris.data[:150],iris.target[:150])#進行模型的訓(xùn)練
#
#隨機挑選兩個預(yù)測不相同的樣本
instance=iris.data[[100,109]]
print?instance
print?'instance?0?prediction;',rf.predict(instance[0])
print?'instance?1?prediction;',rf.predict(instance[1])
print?iris.target[100],iris.target[109]
返回的結(jié)果如下:
(150,)
[[ 6.3 ?3.3 ?6. ? 2.5]
[ 7.2 ?3.6 ?6.1 ?2.5]]
instance 0 prediction; [ 2.]
instance 1 prediction; [ 2.]
2 2
在這里我有點困惑,就是在scikit-learn算法包中隨機森林實際上就是一顆顆決策樹組成的。但是之前我寫的決策樹博客中是可以將決策樹給顯示出來。但是隨機森林卻做了黑盒處理。我們不知道內(nèi)部的決策樹結(jié)構(gòu),甚至連父節(jié)點的選擇特征都不知道是誰。所以我給出下面的代碼(這代碼不是我的原創(chuàng)),可以顯示的顯示出所有的特征的貢獻。所以對于貢獻不大的,甚至是負貢獻的我們可以考慮刪除這一列的特征值,避免做無用的分類。
[python]?view plain?copy
from?sklearn.cross_validation?import?cross_val_score,?ShuffleSplit
X?=?iris["data"]
Y?=?iris["target"]
names?=?iris["feature_names"]
rf?=?RandomForestRegressor()
scores?=?[]
for?i?in?range(X.shape[1]):
score?=?cross_val_score(rf,?X[:,?i:i+1],?Y,?scoring="r2",
cv=ShuffleSplit(len(X),?3,?.3))
scores.append((round(np.mean(score),?3),?names[i]))
print?sorted(scores,?reverse=True)
顯示的結(jié)果如下:
[(0.934, 'petal width (cm)'), (0.929, 'petal length (cm)'), (0.597, 'sepal length (cm)'), (0.276, 'sepal width (cm)')]
這里我們會發(fā)現(xiàn)petal width、petal length這兩個特征將起到絕對的貢獻,之后是sepal length,影響最小的是sepal width。這段代碼將會提示我們各個特征的貢獻,可以讓我們知道部分內(nèi)部的結(jié)構(gòu)。
隨機森林在R packages和Python scikit-learn中的實現(xiàn)是當下非常流行的,下列是在R和Python中載入隨機森林模型的具體代碼:
Python
#Import Library
fromsklearn.ensemble import RandomForestClassifier #use RandomForestRegressor for regression problem
#Assumed you have, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset
# Create Random Forest object
model= RandomForestClassifier(n_estimators=1000)
# Train the model using the training sets and check score
model.fit(X, y)
#Predict Output
predicted= model.predict(x_test)
R Code
library(randomForest)
x- cbind(x_train,y_train)
# Fitting model
fit- randomForest(Species ~ ., x,ntree=500)
summary(fit)
#Predict Output
predicted= predict(fit,x_test)
你說的問題叫模型持久化,就是把學習好的模型保存起來,以后只要調(diào)用這個文件就可以了。
每個框架都應(yīng)該有模型持久化函數(shù),以sklearn為例:
from sklearn.externals import joblib
joblib.dump(clf, "train_model.m") #存儲
clf = joblib.load("train_model.m") #調(diào)用
當前名稱:隨機森林python函數(shù) python隨機森林庫
網(wǎng)頁鏈接:http://chinadenli.net/article46/dodcdhg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供面包屑導(dǎo)航、網(wǎng)站改版、網(wǎng)站維護、網(wǎng)站建設(shè)、建站公司、網(wǎng)站設(shè)計公司
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)