欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

Oracle_RAC宕機(jī)和hang分析處理流程-創(chuàng)新互聯(lián)

目的:分享一下公司的db故障處理流程,主要是思想。
事件描述及影響:
2018年9月30日04:43點(diǎn),zabbix告警odsdb2數(shù)據(jù)庫(kù)疑似宕機(jī),機(jī)房值班人員通過(guò)堡壘機(jī)無(wú)法登錄數(shù)據(jù)庫(kù)服務(wù)器,從其他機(jī)器也無(wú)法ssh登錄該機(jī)器,同時(shí)odsdb1數(shù)據(jù)庫(kù)也HANG住,通過(guò)命令無(wú)法登錄數(shù)據(jù)庫(kù)。根據(jù)數(shù)據(jù)庫(kù)業(yè)務(wù)流程圖初步分析影響的各業(yè)務(wù)。(涉及公司業(yè)務(wù)可忽略)

成都創(chuàng)新互聯(lián)公司公司2013年成立,先為秀山土家族苗族等服務(wù)建站,秀山土家族苗族等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為秀山土家族苗族企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問(wèn)題。

事件排查:
4:46,機(jī)房值班人員通知DBA及亦莊值班人員分析情況
4:57,按照公司流程在相關(guān)群通告故障
5:23,值班人員反應(yīng)數(shù)據(jù)庫(kù)服務(wù)器已自動(dòng)重啟,但一直卡在啟動(dòng)界面
5:30,DBA到達(dá)現(xiàn)場(chǎng)協(xié)助問(wèn)題排查
5:39,DBA發(fā)現(xiàn)ogg進(jìn)程無(wú)法正常啟動(dòng),原因是數(shù)據(jù)庫(kù)連接進(jìn)程達(dá)到上限(3000),數(shù)據(jù)庫(kù)無(wú)法連接
6:03, 數(shù)據(jù)分析室人員參與分析ODS問(wèn)題,確認(rèn)ods 1節(jié)點(diǎn)數(shù)據(jù)庫(kù)HANG住
6:56,機(jī)房值班人員嘗試手動(dòng)重啟odsdb2服務(wù)器,仍然卡在啟動(dòng)界面
7:40,嘗試通過(guò)封堵應(yīng)用連接數(shù)據(jù)庫(kù)的端口的方式,減少應(yīng)用連接數(shù)據(jù)庫(kù)的連接數(shù)
8:30,聯(lián)系HP廠商報(bào)障
9:20,kill odsdb1數(shù)據(jù)庫(kù)所有的外部連接(先保障主要業(yè)務(wù))
9:30,對(duì)odsdb1數(shù)據(jù)庫(kù)做hang analyze,分析數(shù)據(jù)庫(kù)HANG住的原因
10:11,重啟oddsdb1數(shù)據(jù)庫(kù)實(shí)例
10:28,odsdb1恢復(fù)正常
10:30,ogg進(jìn)程恢復(fù)正常
10:40,放開(kāi)過(guò)封堵應(yīng)用的端口

事件分析:
1、 odsdb2節(jié)點(diǎn)宕機(jī)重啟,且無(wú)法啟動(dòng),一直卡在啟動(dòng)界面,懷疑由于數(shù)據(jù)庫(kù)硬件問(wèn)題導(dǎo)致數(shù)據(jù)庫(kù)宕機(jī)重啟。通知服務(wù)器廠商進(jìn)行報(bào)障
Oracle_RAC宕機(jī)和hang分析處理流程

2、 odsdb1數(shù)據(jù)庫(kù)HANG住無(wú)法正常提供服務(wù),導(dǎo)致與ods數(shù)據(jù)庫(kù)相關(guān)的所有應(yīng)用及ogg受到影響
3、 odsdb1達(dá)到設(shè)置的大連接進(jìn)程數(shù)(3000),導(dǎo)致數(shù)據(jù)庫(kù)無(wú)法登錄,無(wú)法分析情況。
Oracle_RAC宕機(jī)和hang分析處理流程

4、 分析哪個(gè)應(yīng)用服務(wù)器連接ods數(shù)據(jù)庫(kù),封堵其連接數(shù)據(jù)庫(kù)的端口,減少數(shù)據(jù)庫(kù)的外部連接

5、 數(shù)據(jù)庫(kù)無(wú)法登錄,需要kill odsdb1數(shù)據(jù)庫(kù)所有的外部連接后,可以登錄數(shù)據(jù)庫(kù),但數(shù)據(jù)字典查詢緩慢,無(wú)法正常分析hang住的原因。且kill掉外部連接后,很快連接數(shù)又會(huì)漲到大值。使用hang analyze做trace進(jìn)行分析。
Oracle_RAC宕機(jī)和hang分析處理流程
通過(guò)hang analyze分析,數(shù)據(jù)庫(kù)是由于gc domain validation 及parallel recory coord wait for reply。
這兩個(gè)等待事件是數(shù)據(jù)庫(kù)節(jié)點(diǎn)2宕機(jī)后,節(jié)點(diǎn)1要接管節(jié)點(diǎn)2的服務(wù),回滾節(jié)點(diǎn)2上未提交的數(shù)據(jù),恢復(fù)節(jié)點(diǎn)2的數(shù)據(jù)時(shí)的等待事件。
Oracle_RAC宕機(jī)和hang分析處理流程
從上圖的的信息可以知道,SMON進(jìn)程在進(jìn)行節(jié)點(diǎn)2的數(shù)據(jù)恢復(fù),但是等待了289min41sec。且該進(jìn)行阻塞了1456個(gè)進(jìn)程sessions,由些可以知道節(jié)點(diǎn)1是在恢復(fù)節(jié)點(diǎn)2的數(shù)據(jù)時(shí)SMON進(jìn)程異常,導(dǎo)致數(shù)據(jù)庫(kù)1456個(gè)進(jìn)程被阻塞。
查詢Oracle官方網(wǎng)站MOS,發(fā)現(xiàn)與gc domain validation相關(guān)的一些BUG
Oracle_RAC宕機(jī)和hang分析處理流程
6、 重啟數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)恢復(fù)正常,可以對(duì)外提供服務(wù)。進(jìn)而ODS相關(guān)的應(yīng)用也都恢復(fù)正常。

后續(xù)的優(yōu)化方案:
1、定期對(duì)數(shù)據(jù)庫(kù)進(jìn)行硬件檢查防止此類問(wèn)題再次發(fā)生(節(jié)后與數(shù)據(jù)中心溝通,爭(zhēng)取每月做一次檢查)
2、后續(xù)增加對(duì)ODS數(shù)據(jù)庫(kù)的切換應(yīng)急演練

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

本文名稱:Oracle_RAC宕機(jī)和hang分析處理流程-創(chuàng)新互聯(lián)
當(dāng)前地址:http://chinadenli.net/article24/cdjije.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供小程序開(kāi)發(fā)網(wǎng)站維護(hù)、網(wǎng)頁(yè)設(shè)計(jì)公司服務(wù)器托管、軟件開(kāi)發(fā)、用戶體驗(yàn)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

h5響應(yīng)式網(wǎng)站建設(shè)