今天就跟大家聊聊有關sklearn中怎么實現(xiàn)數(shù)據(jù)縮放功能,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結了以下內容,希望大家根據(jù)這篇文章可以有所收獲。
創(chuàng)新互聯(lián)建站主營高邑網(wǎng)站建設的網(wǎng)絡公司,主營網(wǎng)站建設方案,APP應用開發(fā),高邑h5微信小程序定制開發(fā)搭建,高邑網(wǎng)站營銷推廣歡迎高邑等地區(qū)企業(yè)咨詢
一、數(shù)據(jù)縮放
你的預處理數(shù)據(jù)集中可能包含各種各樣、不同比例的特征字段,比如美元、千克、價格,有的特征列數(shù)值范圍在100以內,有的卻達到幾百萬,差異很大。
很多機器學習模型不希望有這樣大的差異,如果數(shù)據(jù)集各個屬性之間的數(shù)值差異越小,則模型表現(xiàn)的會越好。這里不一概而論,具體原因小伙伴們自行探索下。
數(shù)據(jù)歸一化是指將原始數(shù)據(jù)縮放到0和1之間。
對于依賴于值的大小的模型,這種對輸入屬性的縮放很管用。比如在K近鄰模型的距離測量和回歸系數(shù)的準備。
接下來用都知道的鳶尾花數(shù)據(jù)集演示數(shù)據(jù)歸一化:
# 對鳶尾花數(shù)據(jù)集進行數(shù)據(jù)歸一化處理.
from sklearn.datasets import load_iris
from sklearn import preprocessing
# 加載數(shù)據(jù)
iris = load_iris()
print(iris.data.shape)
# 分離原始數(shù)據(jù)集,分為自變量和因變量
X = iris.data
y = iris.target
# 歸一化處理
normalized_X = preprocessing.normalize(X)
數(shù)據(jù)標準化是指:將數(shù)據(jù)縮放,改變每個屬性的分布,使其平均值為0,標準差為1。
諸如高斯過程等依賴于特征分布的模型,對特征進行標準化是非常有用的。
依然用鳶尾花的例子:
# 對鳶尾花數(shù)據(jù)集進行數(shù)據(jù)標準化處理.
from sklearn.datasets import load_iris
from sklearn import preprocessing
# 加載數(shù)據(jù)
iris = load_iris()
print(iris.data.shape)
# 分離原始數(shù)據(jù)集,分為自變量和因變量
X = iris.data
y = iris.target
# 標準化處理
standardized_X = preprocessing.scale(X)
看完上述內容,你們對sklearn中怎么實現(xiàn)數(shù)據(jù)縮放功能有進一步的了解嗎?如果還想了解更多知識或者相關內容,請關注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝大家的支持。
本文題目:sklearn中怎么實現(xiàn)數(shù)據(jù)縮放功能
分享網(wǎng)址:http://chinadenli.net/article24/gecice.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站建設、自適應網(wǎng)站、移動網(wǎng)站建設、建站公司、網(wǎng)站制作、標簽優(yōu)化
聲明:本網(wǎng)站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)