作者——Navoneel Chakrabarty
創(chuàng)新互聯(lián)是一家集網(wǎng)站建設(shè),宿松企業(yè)網(wǎng)站建設(shè),宿松品牌網(wǎng)站建設(shè),網(wǎng)站定制,宿松網(wǎng)站建設(shè)報(bào)價(jià),網(wǎng)絡(luò)營銷,網(wǎng)絡(luò)優(yōu)化,宿松網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè),幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強(qiáng)企業(yè)競爭力。可充分滿足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時(shí)我們時(shí)刻保持專業(yè)、時(shí)尚、前沿,時(shí)刻以成就客戶成長自我,堅(jiān)持不斷學(xué)習(xí)、思考、沉淀、凈化自己,讓我們?yōu)楦嗟钠髽I(yè)打造出實(shí)用型網(wǎng)站。
在數(shù)據(jù)科學(xué)領(lǐng)域,分類問題是一個(gè)非常普遍和重要的問題。例如:糖尿病視網(wǎng)膜病變、情緒分析、數(shù)字識(shí)別、癌癥類型預(yù)測(惡性或良性)等。這些問題往往通過機(jī)器學(xué)習(xí)或深度學(xué)習(xí)來解決。像糖尿病視網(wǎng)膜病變或青光眼檢測這樣的項(xiàng)目中,紋理分析經(jīng)常被使用,而不是傳統(tǒng)的圖像處理或深度學(xué)習(xí)等。雖然根據(jù)研究論文,深度學(xué)習(xí)在處理糖尿病視網(wǎng)膜病變方面有著極強(qiáng)的優(yōu)越性。
補(bǔ)充:紋理分析指通過一定的提取出紋理特征參數(shù),從而獲得紋理的定量或定性描述的處理過程·紋理分析方法按其性質(zhì)而言,可分為兩大類:統(tǒng)計(jì)分析方法和結(jié)構(gòu)分析方法。紋理分析在遙感圖像、 X、細(xì)胞和處理方面有廣泛的應(yīng)用。關(guān)于紋理,還沒有一個(gè)統(tǒng)一的數(shù)學(xué)模型。它起源于表征紡織品表面性質(zhì)的紋理概念,可以用來描述任何物質(zhì)組成成分的排列情況,例如醫(yī)學(xué)上X 射線照片中的、血管紋理、航天(或航空)地形照片中的巖性紋理等。圖像處理中的視覺紋理通常理解為某種基本模式(色調(diào)基元)的重復(fù)排列。

現(xiàn)在,我們再回到主題。相關(guān)研究論文如下:
"糖尿病視網(wǎng)膜病變檢測的深度學(xué)習(xí)方法"鏈接:https://ieeexplore.ieee.org/document/8596839
在分類問題中,一個(gè)特定類的預(yù)測往往要涉及多個(gè)類。換句話說,它還可以以這樣一種方式構(gòu)建:將特定實(shí)例(特征空間幾何中的數(shù)據(jù)點(diǎn))保存在特定區(qū)域下(某一類),并且與其他區(qū)域分離(其他類)。這種與其他區(qū)域的分離的"現(xiàn)象"我們稱之為決策邊界的可視化。在特征空間中決策邊界的可視化是在散點(diǎn)圖上完成的。其中每個(gè)點(diǎn)表示數(shù)據(jù)集的一個(gè)數(shù)據(jù)點(diǎn),軸線表示特征。決策邊界將數(shù)據(jù)點(diǎn)劃分為多個(gè)區(qū)域,這些區(qū)域就是(我前面所談及的)數(shù)據(jù)點(diǎn)所屬的類。
決策邊界的重要性/意義:
在使用數(shù)據(jù)集訓(xùn)練機(jī)器學(xué)習(xí)模型之后,我們通常需要可視化特征空間中數(shù)據(jù)點(diǎn)的類。散點(diǎn)圖上的決策邊界就是出于這個(gè)目的。而散點(diǎn)圖更是包含著屬于不同類別的數(shù)據(jù)點(diǎn)(用顏色或形狀表示),決策邊界可以通過多種不同的策略繪制:
單線決策邊界:在散點(diǎn)圖上繪制決策邊界的基本策略是找到一條將數(shù)據(jù)點(diǎn)分隔成不同類區(qū)域的單線。現(xiàn)在,利用訓(xùn)練過的模型找到與機(jī)器學(xué)習(xí)算法相關(guān)的參數(shù),進(jìn)而找到這條直線。然后利用得到的參數(shù)和機(jī)器學(xué)習(xí)算法找到直線坐標(biāo)。如果你不知道ML算法的工作原理,那么你將無法繼續(xù)進(jìn)行下去。
基于輪廓的決策邊界:另一種策略是繪制輪廓,這些輪廓是用匹配或緊密匹配的顏色包圍數(shù)據(jù)點(diǎn)的區(qū)域——描繪數(shù)據(jù)點(diǎn)所屬的類,以及描繪預(yù)測類的輪廓。這是最常用的策略,因?yàn)樗皇褂媚P陀?xùn)練后得到的機(jī)器學(xué)習(xí)算法的參數(shù)和相關(guān)計(jì)算。但另一方面,我們并不能很好地用一條直線來分離數(shù)據(jù)點(diǎn),也就是說這條直線只能通過訓(xùn)練后得到的參數(shù)及其坐標(biāo)計(jì)算得到。
單線決策邊界的范例演練:
在這里,我將演示基于邏輯回歸的機(jī)器學(xué)習(xí)模型的單線決策邊界。
進(jìn)入邏輯回歸假設(shè)

其中z被定義為:

theta_1、theta_2 theta_3,....其中,theta_n為邏輯回歸的參數(shù),x_1、x_2、…、x_n為特征。
因此,h(z)是一個(gè)Sigmoid函數(shù),其范圍是從0到1(包括0和1)。
在繪制決策邊界時(shí),取h(z) = Logistic回歸中使用的閾值,通常為0.5。即:

然后:

現(xiàn)在,在繪制決策邊界時(shí),需要考慮兩個(gè)特征,并沿散點(diǎn)圖的x軸和y軸繪制。所以,

也就是說

其中x_1是數(shù)據(jù)集的原始特征
因此,得到2個(gè)x ' _1的值以及2個(gè)相應(yīng)的x ' _2的值。x ' _1是單線決策邊界的x極值,x ' _2是單線決策邊界的y極值。
在虛構(gòu)數(shù)據(jù)集上的應(yīng)用:
該數(shù)據(jù)集包含100名學(xué)生在2次考試中獲得的分?jǐn)?shù)和標(biāo)簽(1,0),該標(biāo)簽指示該學(xué)生是否將被大學(xué)錄取(用1和0表示)。相關(guān)數(shù)據(jù)集鏈接:https://github.com/navoneel1092283/logistic_regression.git
問題陳述:"根據(jù)在兩次考試中獲得的分?jǐn)?shù),用邏輯回歸預(yù)測該學(xué)生是否會(huì)被大學(xué)錄取。"
在這里,兩門考試的分?jǐn)?shù)將是考慮的兩個(gè)特征。
下面是具體的實(shí)現(xiàn)方法:
相關(guān)鏈接:https://hackernoon.com/logistic-regression-in-python-from-scratch-954c0196d258




對數(shù)據(jù)集進(jìn)行邏輯回歸:

得到(參數(shù))向量,

獲取數(shù)據(jù)點(diǎn)的預(yù)測或預(yù)測類:

繪制單線決策邊界:





得到單線決策邊界
這樣,任何基于邏輯回歸的機(jī)器學(xué)習(xí)模型都可以繪制出單線決策邊界。對于基于其他機(jī)器學(xué)習(xí)算法的模型而言,則必須知道相應(yīng)的假設(shè)等等。
基于輪廓的決策邊界的范例演練:
利用剛才的數(shù)據(jù)集和訓(xùn)練模型,繪制基于輪廓的決策邊界。



得到基于輪廓的決策邊界,其中黃色->允許,藍(lán)色->不允許
這種方法顯然更方便,因?yàn)闄C(jī)器學(xué)習(xí)算法不需要假設(shè),也不需要數(shù)學(xué)。所需要的只是高級(jí)Python編程的訣竅。
因此,它是繪制任意機(jī)器學(xué)習(xí)模型決策邊界的一種通用方法。
在現(xiàn)實(shí)生活中和一些高級(jí)項(xiàng)目中,都會(huì)涉及到許多特征。那么,如何在二維散點(diǎn)圖中繪制決策邊界呢?
面對這種情況,我認(rèn)為有多種解決辦法:
1.利用隨機(jī)森林分類器等給特征進(jìn)行重要性評分,得到2個(gè)最重要的特征,然后在散點(diǎn)圖上繪制決策邊界。
2.主成分分析(PCA)或線性判別分析(LDA)等降維技術(shù)可用于將N個(gè)特征嵌入到2個(gè)特征中,從而將N個(gè)特征的信息解釋或減少為2個(gè)特征(n_components = 2)。然后再基于這兩個(gè)特征在散點(diǎn)圖上繪制決策邊界。
這就是決策邊界可視化。
網(wǎng)站題目:決策邊界可視化,讓你的分類合理有序
分享網(wǎng)址:http://chinadenli.net/article46/gsjjeg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供用戶體驗(yàn)、網(wǎng)站制作、企業(yè)網(wǎng)站制作、手機(jī)網(wǎng)站建設(shè)、網(wǎng)站改版、網(wǎng)站排名
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)