之前博客中老王介紹了下WSFC中的仲裁,主要用于維持群集持續(xù)可用,出現(xiàn)宕機時應該處理的一些思路,在接下來的文章中老王將為大家介紹下WSFC中的日志分析,很多時候當出現(xiàn)問題了,或者需要進行性能優(yōu)化,都需要通過看日志來進行分析判斷,因此WSFC中掌握日志的分析更是重中之重,老王希望能夠通過幾篇文章把WSFC的日志分析功能授人以漁,介紹給更多的朋友們。
其實從2012時×××始,群集事件日志這方面,老王個人感覺已經(jīng)優(yōu)化了很多,說的基本上很清楚,對于ITpro來說已經(jīng)可以很直觀的從事件日志里面發(fā)現(xiàn)問題
首先我們先來看下系統(tǒng)日志,默認情況下,WSFC群集會將關于群集狀態(tài)的,例如,節(jié)點,存儲,網(wǎng)絡,群集,仲裁狀態(tài)信息,凡是出現(xiàn)關鍵,錯誤,警告,資源失敗等一類的日志,都會顯示在系統(tǒng)日志中,管理員直接在系統(tǒng)日志中篩選來自群集類別的日志就可以
篩選完成后打開就可以看到群集相關的日志,基本上絕大部分情況,在系統(tǒng)日志里面WSFC就會告訴你故障是怎么回事,是群集壞了,是存儲脫機了,是網(wǎng)絡分區(qū)了,還是沒辦法仲裁了,等等,因此,第一步可以先從看系統(tǒng)日志下手,理解里面群集日志說的內(nèi)容,一些情況下可以直接按照系統(tǒng)日志中給出的方向去進行修復,最起碼已經(jīng)給出明確的方向范圍
除了系統(tǒng)日志,在應用程序日志里面也有兩個和群集有關的關鍵日志,一些排錯的場景也許也會用到
FailoverClustering - Operational
FailoverClustering - Manager -Diagnostic
FailoverClustering - Operational 日志主要記載在群集在運行過程中的資源變化等信息,安全管理器,NetFT群集網(wǎng)絡通信拓撲生成,運行狀況檢測情況,群集應用或者群集磁盤的狀態(tài)變化,上線,離線或轉(zhuǎn)移等等,都會被詳細的記錄在這個事件日志中,因此如果想要重現(xiàn)群集的一些問題,確認資源變化是否生效,都可以查看Operational日志得知
FailoverClustering - Manager -Diagnostic,這個日志會記錄著群集管理員在打開群集管理器時每一個執(zhí)行過的動作,做過的修改,都會在這個日志中記錄,這在一些故障排除場景下會非常有用,可以幫助管理員們找到可能是由于做了哪些修改導致的問題
其它日志功能如下
FailoverClustering - Diagnostic :群集診斷日志,2012R2中l(wèi)evel 3詳細級別,可以完整呈現(xiàn)出群集運作時后臺發(fā)生的步驟,用于高級排查,原理學習。
FailoverClustering - Performance-CSV:針對于CSV的性能分析日志
FailoverClustering - Client:創(chuàng)建群集或添加節(jié)點時的詳細分析日志
FailoverClustering - CSVFT -Diagnostic:2012新增,用于幫助管理員分析CSV在各節(jié)點掛載讀取情況,Metadata的讀取寫入,IO重定向等日志
FailoverClustering - CSVFS -Operational:用于跟蹤CSV掛載情況,及直接IO情況
FailoverClustering - Manager -Operational:主要記錄針對于群集執(zhí)行的管理操作,例如PS腳本是否正常下發(fā)執(zhí)行,那些節(jié)點當前無法接受管理等管理操作記錄
FailoverClustering - WMIProvider -Admin:用于當群集使用通用WMI程序或其它調(diào)用WMIProvider的群集程序時進行排錯
除了群集本身的日志,2012開始也會有CAU更新單獨的日志,在這里可以看到群集節(jié)點進行CAU時的狀態(tài),以及詳細信息。
在老王看來,對于一般的企業(yè)管理員維護群集來講,事件管理器中掌握會看群集系統(tǒng)日志,F(xiàn)ailoverClustering - Operational,F(xiàn)ailoverClustering - Manager -Diagnostic,就已經(jīng)足夠了,已經(jīng)可以重現(xiàn)分析出絕大部分問題,但是對于一些癡迷于技術的愛好者們來講可能還并不滿足,他們希望深入至群集的最底層,或者一些高級排錯的場景,希望能夠完整的看到整個群集的最詳細執(zhí)行過程,那么你就需要去看Diagnostic日志,在FailoverClusterin - Diagnostic 診斷日志中會記載著幾乎是最詳細的群集執(zhí)行過程,你會看到這個日志會不斷的增長,后面老王會在進階篇中專門講解這種診斷日志。
在上文中老王是直接以2012R2為例,但其實對于群集日志來講,從很久以前就已經(jīng)有了,在Windows Server 2003時,那時候事件管理器還不像現(xiàn)在這么花花,所以那時候群集的日志,都是通過一個log來完成,群集一邊執(zhí)行著,那邊日志就不斷的增長,當出現(xiàn)問題時管理員直接連到C:\Windows\Cluster下的cluster.log進行排錯
在2008時發(fā)生了一些變化,群集日志一部分改成了通過事件跟蹤會話的形式進行收集
凡是被這種數(shù)據(jù)收集器采集的日志,你會發(fā)現(xiàn),在事件管理器中都不能直接看
可以看到診斷日志,在2008開始就被分成了多個一個個的ETL文件,這種文件并不能直接打開
只能通過tracerpt命令轉(zhuǎn)換為csv格式進行查看
因此,如果在2008時代,想看詳細的群集診斷日志,事件管理器里面是不能看的,只有通過Cluster log /gen或者Get-Clusterlog命令查看,當執(zhí)行這條命令之后,它會把所有診斷分析的ETL文件合并,然后去掉無用的元數(shù)據(jù),保存成cluster.log文件供大家查看,因此老王認為2008時代比起2012時代的群集日志還是操作上還要差一些
到了2012時×××始,可以看到診斷日志已經(jīng)從數(shù)據(jù)收集器中獨立出來,單獨有自己的事件單元,可以直接在事件管理器中看了
至此主要介紹群集日志在事件管理器的查看分析,老王認為學習群集日志分析,可以先從事件管理器入手,先學會看群集系統(tǒng)日志,F(xiàn)ailOverClustering - Operational,F(xiàn)ailoverClustering - Manager -Diagnostic這三個日志,然后用到時再看其它的,在這個部分老王對于診斷日志只是一帶而過,因為打算進階篇詳細講,事實上老王也建議大家先學會看基本的這個三個日志,最后再去看診斷日志,因為診斷日志中涉及到的群集底層知識較多,如果對群集并不是了解很深入可能看起來會有點吃力,事件管理器現(xiàn)在清晰明了,是個不錯的入手方向。
除了事件管理器,群集還提供了一些直觀的報告,在C:\Windows\Cluster\Report目錄下,可以看到有驗證報告,添加節(jié)點的報告,創(chuàng)建群集的報告,群集仲裁配置報告,等等,這些MHTML的文檔都是群集已經(jīng)幫我們設計好了的,打開之后都會有很友好的界面,不論是管理員看或是給經(jīng)理看都很直觀
其中群集驗證報告我們可以把它理解為一個群集的私人醫(yī)生,當創(chuàng)建群集的時候,強烈建議運行一次群集驗證報告,它會幫助我們從系統(tǒng)配置,網(wǎng)絡,存儲等多個角度來診斷出一份詳細的報告,當前環(huán)境是否適合創(chuàng)建群集,針對于不適合的地方會給出錯誤提示,也會使用內(nèi)置的最佳實踐來提示那些是應該改進的
除了群集創(chuàng)建時應該運行群集驗證報告,在向群集變更網(wǎng)絡,存儲環(huán)境后也建議運行下群集驗證,它會幫助我們分析模擬變更后的環(huán)境是否會影響群集的正常運行
如果在群集已經(jīng)跑了應用的話,運行群集驗證報告也會幫助我們?nèi)ヲ炞C模擬群集應用,這里需要注意的一點是,當運行群集驗證報告的時候,存儲一欄要謹慎勾選,一旦群集驗證報告勾選了存儲,那么驗證過程會嘗試離線再上線群集磁盤,可能會導致應用的宕機,可以選擇安排在合適的時間做,或者取消勾選存儲即可。
報告目錄這里面的MHTML報告,主要是當群集發(fā)生變化,或者我們觸發(fā)一個報告時,我們提供一個直觀的報告展示界面,但是當管理員要進行詳細的排錯時,有時仍需要看文件夾中的ValidateStorage日志,它會比MHTML的信息更加詳細。
對于想要學習群集日志分析的朋友來說,第二個步驟可以選擇掌握群集驗證報告,和目錄下的其它報告,起碼先學會看懂報告,理解群集驗證報告,會幫助你快速的了解,群集創(chuàng)建時發(fā)生的步驟,以及群集在運行時應該遵守的要求
第三個步驟,即掌握群集管理器中事件查詢的用法
打開群集管理器,我們可以看到首頁會提示當前最近的群集事件有2個關鍵,30個錯誤,3個警告,那么這些事件是在哪里來的呢?答案其實也是從事件管理器來的,只不過群集調(diào)用了事件管理器,使用自己的GUI做了一個查詢顯示
點擊事件的鏈接,可以看到跳轉(zhuǎn)進入了一個群集事件的界面,這個界面和我們事件管理器里面看到的差不多
但實際上,群集管理器里面的事件還是和普通事件管理器中的事件有點區(qū)別,設想一下,我們做了群集,那么肯定是希望能夠站在一個整體的角度,來看群集的狀態(tài),默認情況下事件管理器所展示的只是單臺
因此,群集管理器中做了優(yōu)化,我們在群集事件中看到的日志,實際上是群集搜集了群集中所有群集節(jié)點,而呈現(xiàn)出來的日志
打開群集事件界面下的查詢可以看到,當前日志來源是收集了群集所有節(jié)點中的,群集相關事件的關鍵,錯誤,警告部分,并且默認是查詢24小時內(nèi)的 ,這個設計的就很好,幫助管理員在一個群集事件的界面下就可以看到所有節(jié)點的日志
除了默認收集所有節(jié)點中的系統(tǒng)群集日志,我們也可以手動選擇,希望讓群集收集的各節(jié)點日志
例如,如果我們是一個Hyper-V集群,我們也可以選擇上Hyper-V的相關日志,當進行一個虛擬化集群的排錯時,我們不僅可以在群集事件中集中看到群集相關的日志,也可以集中看到Hyper-V的報錯日志
這里需要注意的一點是,由于這個查詢是在所有節(jié)點做,因此建議,除了群集本身的日志外,不要選擇過多其他的日志,可以選擇單獨的一項兩項,例如選擇SQL的,或者Hyper-V的,這里的關鍵是我們要在排錯的過程中,整體的,精確的來判斷一個問題的故障點,如果這里收集的來源過多就失去了意義
我們目前是在群集事件中查看群集整體的日志情況,如果只是單一的群集應用程序出現(xiàn)問題,我們也可以點擊單個的應用程序,在旁邊選擇 顯示關鍵事件就可以看到,關于當前應用的,在所有群集節(jié)點聚合起來的關鍵錯誤信息
如果是群集磁盤,也可以通過顯示關鍵信息的方式,來獲取針對于群集磁盤的,在各個節(jié)點匯集起來的關鍵錯誤信息
因此我們可以看到,WSFC內(nèi)置已經(jīng)幫助我們實現(xiàn)了群集節(jié)點事件匯總分析的功能,我們可以在整體的群集事件上面看所有群集節(jié)點的日志,WSFC也幫我?guī)椭覀冊诰唧w的群集應用,群集磁盤上面內(nèi)置了這項功能,針對于單獨的應用或磁盤進行分析,也可以通過這種簡單的方式來獲取所有節(jié)點上面的日志。
至此,WSFC日志分析基礎篇結束,在這一篇中老王主要為大家介紹了WSFC日志分析相對來說基礎一點的三個地方,分別是事件管理器,群集報告目錄,群集管理器事件,對于群集日志分析沒有頭緒的朋友可以先從這三個地方看起,仔細看懂里面的內(nèi)容,學會利用它們,相信對提高您的日志分析能力會有所幫助
另外有需要云服務器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。
當前文章:WSFC日志分析基礎篇-創(chuàng)新互聯(lián)
文章位置:http://chinadenli.net/article36/dsgspg.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供小程序開發(fā)、商城網(wǎng)站、響應式網(wǎng)站、網(wǎng)站制作、網(wǎng)站營銷、靜態(tài)網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容