以下內(nèi)容轉(zhuǎn)載自徐漢彬大牛的博客?億級Web系統(tǒng)搭建——單機到分布式集群?

創(chuàng)新互聯(lián)建站專注于太和企業(yè)網(wǎng)站建設(shè),成都響應(yīng)式網(wǎng)站建設(shè),商城系統(tǒng)網(wǎng)站開發(fā)。太和網(wǎng)站建設(shè)公司,為太和等地區(qū)提供建站服務(wù)。全流程按需設(shè)計網(wǎng)站,專業(yè)設(shè)計,全程項目跟蹤,創(chuàng)新互聯(lián)建站專業(yè)和態(tài)度為您提供的服務(wù)
當一個Web系統(tǒng)從日訪問量10萬逐步增長到1000萬,甚至超過1億的過程中,Web系統(tǒng)承受的壓力會越來越大,在這個過程中,我們會遇到很多的問題。為了解決這些性能壓力帶來問題,我們需要在Web系統(tǒng)架構(gòu)層面搭建多個層次的緩存機制。在不同的壓力階段,我們會遇到不同的問題,通過搭建不同的服務(wù)和架構(gòu)來解決。
Web負載均衡?
Web負載均衡(Load Balancing),簡單地說就是給我們的服務(wù)器集群分配“工作任務(wù)”,而采用恰當?shù)姆峙浞绞剑瑢τ诒Wo處于后端的Web服務(wù)器來說,非常重要。
負載均衡的策略有很多,我們從簡單的講起哈。
1.?HTTP重定向
當用戶發(fā)來請求的時候,Web服務(wù)器通過修改HTTP響應(yīng)頭中的Location標記來返回一個新的url,然后瀏覽器再繼續(xù)請求這個新url,實際上就是頁面重定向。通過重定向,來達到“負載均衡”的目標。例如,我們在下載PHP源碼包的時候,點擊下載鏈接時,為了解決不同國家和地域下載速度的問題,它會返回一個離我們近的下載地址。重定向的HTTP返回碼是302
這個重定向非常容易實現(xiàn),并且可以自定義各種策略。但是,它在大規(guī)模訪問量下,性能不佳。而且,給用戶的體驗也不好,實際請求發(fā)生重定向,增加了網(wǎng)絡(luò)延時。
2. 反向代理負載均衡
反向代理服務(wù)的核心工作主要是轉(zhuǎn)發(fā)HTTP請求,扮演了瀏覽器端和后臺Web服務(wù)器中轉(zhuǎn)的角色。因為它工作在HTTP層(應(yīng)用層),也就是網(wǎng)絡(luò)七層結(jié)構(gòu)中的第七層,因此也被稱為“七層負載均衡”。可以做反向代理的軟件很多,比較常見的一種是Nginx。
Nginx是一種非常靈活的反向代理軟件,可以自由定制化轉(zhuǎn)發(fā)策略,分配服務(wù)器流量的權(quán)重等。反向代理中,常見的一個問題,就是Web服務(wù)器存儲的session數(shù)據(jù),因為一般負載均衡的策略都是隨機分配請求的。同一個登錄用戶的請求,無法保證一定分配到相同的Web機器上,會導(dǎo)致無法找到session的問題。
解決方案主要有兩種:
1.?配置反向代理的轉(zhuǎn)發(fā)規(guī)則,讓同一個用戶的請求一定落到同一臺機器上(通過分析cookie),復(fù)雜的轉(zhuǎn)發(fā)規(guī)則將會消耗更多的CPU,也增加了代理服務(wù)器的負擔(dān)。
2.?將session這類的信息,專門用某個獨立服務(wù)來存儲,例如redis/memchache,這個方案是比較推薦的。
反向代理服務(wù),也是可以開啟緩存的,如果開啟了,會增加反向代理的負擔(dān),需要謹慎使用。這種負載均衡策略實現(xiàn)和部署非常簡單,而且性能表現(xiàn)也比較好。但是,它有“單點故障”的問題,如果掛了,會帶來很多的麻煩。而且,到了后期Web服務(wù)器繼續(xù)增加,它本身可能成為系統(tǒng)的瓶頸。
3. IP負載均衡
IP負載均衡服務(wù)是工作在網(wǎng)絡(luò)層(修改IP)和傳輸層(修改端口,第四層),比起工作在應(yīng)用層(第七層)性能要高出非常多。原理是,他是對IP層的數(shù)據(jù)包的IP地址和端口信息進行修改,達到負載均衡的目的。這種方式,也被稱為“四層負載均衡”。常見的負載均衡方式,是LVS(Linux Virtual Server,Linux虛擬服務(wù)),通過IPVS(IP Virtual Server,IP虛擬服務(wù))來實現(xiàn)。
在負載均衡服務(wù)器收到客戶端的IP包的時候,會修改IP包的目標IP地址或端口,然后原封不動地投遞到內(nèi)部網(wǎng)絡(luò)中,數(shù)據(jù)包會流入到實際Web服務(wù)器。實際服務(wù)器處理完成后,又會將數(shù)據(jù)包投遞回給負載均衡服務(wù)器,它再修改目標IP地址為用戶IP地址,最終回到客戶端。
上述的方式叫LVS-NAT,除此之外,還有LVS-RD(直接路由),LVS-TUN(IP隧道),三者之間都屬于LVS的方式,但是有一定的區(qū)別,篇幅問題,不贅敘。
IP負載均衡的性能要高出Nginx的反向代理很多,它只處理到傳輸層為止的數(shù)據(jù)包,并不做進一步的組包,然后直接轉(zhuǎn)發(fā)給實際服務(wù)器。不過,它的配置和搭建比較復(fù)雜。
4. DNS負載均衡
DNS(Domain Name System)負責(zé)域名解析的服務(wù),域名url實際上是服務(wù)器的別名,實際映射是一個IP地址,解析過程,就是DNS完成域名到IP的映射。而一個域名是可以配置成對應(yīng)多個IP的。因此,DNS也就可以作為負載均衡服務(wù)。
這種負載均衡策略,配置簡單,性能極佳。但是,不能自由定義規(guī)則,而且,變更被映射的IP或者機器故障時很麻煩,還存在DNS生效延遲的問題。?
5. DNS/GSLB負載均衡
我們常用的CDN(Content Delivery Network,內(nèi)容分發(fā)網(wǎng)絡(luò))實現(xiàn)方式,其實就是在同一個域名映射為多IP的基礎(chǔ)上更進一步,通過GSLB(Global Server Load Balance,全局負載均衡)按照指定規(guī)則映射域名的IP。一般情況下都是按照地理位置,將離用戶近的IP返回給用戶,減少網(wǎng)絡(luò)傳輸中的路由節(jié)點之間的跳躍消耗。
“向上尋找”,實際過程是LDNS(Local DNS)先向根域名服務(wù)(Root Name Server)獲取到頂級根的Name Server(例如.com的),然后得到指定域名的授權(quán)DNS,然后再獲得實際服務(wù)器IP。
CDN在Web系統(tǒng)中,一般情況下是用來解決大小較大的靜態(tài)資源(html/Js/Css/圖片等)的加載問題,讓這些比較依賴網(wǎng)絡(luò)下載的內(nèi)容,盡可能離用戶更近,提升用戶體驗。
例如,我訪問了一張imgcache.gtimg.cn上的圖片(騰訊的自建CDN,不使用qq.com域名的原因是防止http請求的時候,帶上了多余的cookie信息),我獲得的IP是183.60.217.90。
這種方式,和前面的DNS負載均衡一樣,不僅性能極佳,而且支持配置多種策略。但是,搭建和維護成本非常高。互聯(lián)網(wǎng)一線公司,會自建CDN服務(wù),中小型公司一般使用第三方提供的CDN。
Web系統(tǒng)的緩存機制的建立和優(yōu)化
剛剛我們講完了Web系統(tǒng)的外部網(wǎng)絡(luò)環(huán)境,現(xiàn)在我們開始關(guān)注我們Web系統(tǒng)自身的性能問題。我們的Web站點隨著訪問量的上升,會遇到很多的挑戰(zhàn),解決這些問題不僅僅是擴容機器這么簡單,建立和使用合適的緩存機制才是根本。
最開始,我們的Web系統(tǒng)架構(gòu)可能是這樣的,每個環(huán)節(jié),都可能只有1臺機器。
我們從最根本的數(shù)據(jù)存儲開始看哈。
一、 MySQL數(shù)據(jù)庫內(nèi)部緩存使用
MySQL的緩存機制,就從先從MySQL內(nèi)部開始,下面的內(nèi)容將以最常見的InnoDB存儲引擎為主。
1. 建立恰當?shù)乃饕?/p>
最簡單的是建立索引,索引在表數(shù)據(jù)比較大的時候,起到快速檢索數(shù)據(jù)的作用,但是成本也是有的。首先,占用了一定的磁盤空間,其中組合索引最突出,使用需要謹慎,它產(chǎn)生的索引甚至?xí)仍磾?shù)據(jù)更大。其次,建立索引之后的數(shù)據(jù)insert/update/delete等操作,因為需要更新原來的索引,耗時會增加。當然,實際上我們的系統(tǒng)從總體來說,是以select查詢操作居多,因此,索引的使用仍然對系統(tǒng)性能有大幅提升的作用。
2. 數(shù)據(jù)庫連接線程池緩存
如果,每一個數(shù)據(jù)庫操作請求都需要創(chuàng)建和銷毀連接的話,對數(shù)據(jù)庫來說,無疑也是一種巨大的開銷。為了減少這類型的開銷,可以在MySQL中配置thread_cache_size來表示保留多少線程用于復(fù)用。線程不夠的時候,再創(chuàng)建,空閑過多的時候,則銷毀。
其實,還有更為激進一點的做法,使用pconnect(數(shù)據(jù)庫長連接),線程一旦創(chuàng)建在很長時間內(nèi)都保持著。但是,在訪問量比較大,機器比較多的情況下,這種用法很可能會導(dǎo)致“數(shù)據(jù)庫連接數(shù)耗盡”,因為建立連接并不回收,最終達到數(shù)據(jù)庫的max_connections(最大連接數(shù))。因此,長連接的用法通常需要在CGI和MySQL之間實現(xiàn)一個“連接池”服務(wù),控制CGI機器“盲目”創(chuàng)建連接數(shù)。
建立數(shù)據(jù)庫連接池服務(wù),有很多實現(xiàn)的方式,PHP的話,我推薦使用swoole(PHP的一個網(wǎng)絡(luò)通訊拓展)來實現(xiàn)。
3. Innodb緩存設(shè)置(innodb_buffer_pool_size)
innodb_buffer_pool_size這是個用來保存索引和數(shù)據(jù)的內(nèi)存緩存區(qū),如果機器是MySQL獨占的機器,一般推薦為機器物理內(nèi)存的80%。在取表數(shù)據(jù)的場景中,它可以減少磁盤IO。一般來說,這個值設(shè)置越大,cache命中率會越高。
4. 分庫/分表/分區(qū)。
MySQL數(shù)據(jù)庫表一般承受數(shù)據(jù)量在百萬級別,再往上增長,各項性能將會出現(xiàn)大幅度下降,因此,當我們預(yù)見數(shù)據(jù)量會超過這個量級的時候,建議進行分庫/分表/分區(qū)等操作。最好的做法,是服務(wù)在搭建之初就設(shè)計為分庫分表的存儲模式,從根本上杜絕中后期的風(fēng)險。不過,會犧牲一些便利性,例如列表式的查詢,同時,也增加了維護的復(fù)雜度。不過,到了數(shù)據(jù)量千萬級別或者以上的時候,我們會發(fā)現(xiàn),它們都是值得的。?
二、 MySQL數(shù)據(jù)庫多臺服務(wù)搭建
1臺MySQL機器,實際上是高風(fēng)險的單點,因為如果它掛了,我們Web服務(wù)就不可用了。而且,隨著Web系統(tǒng)訪問量繼續(xù)增加,終于有一天,我們發(fā)現(xiàn)1臺MySQL服務(wù)器無法支撐下去,我們開始需要使用更多的MySQL機器。當引入多臺MySQL機器的時候,很多新的問題又將產(chǎn)生。
1. 建立MySQL主從,從庫作為備份
這種做法純粹為了解決“單點故障”的問題,在主庫出故障的時候,切換到從庫。不過,這種做法實際上有點浪費資源,因為從庫實際上被閑著了。
2. MySQL讀寫分離,主庫寫,從庫讀。
兩臺數(shù)據(jù)庫做讀寫分離,主庫負責(zé)寫入類的操作,從庫負責(zé)讀的操作。并且,如果主庫發(fā)生故障,仍然不影響讀的操作,同時也可以將全部讀寫都臨時切換到從庫中(需要注意流量,可能會因為流量過大,把從庫也拖垮)。
3. 主主互備。
兩臺MySQL之間互為彼此的從庫,同時又是主庫。這種方案,既做到了訪問量的壓力分流,同時也解決了“單點故障”問題。任何一臺故障,都還有另外一套可供使用的服務(wù)。
不過,這種方案,只能用在兩臺機器的場景。如果業(yè)務(wù)拓展還是很快的話,可以選擇將業(yè)務(wù)分離,建立多個主主互備。
三、 MySQL數(shù)據(jù)庫機器之間的數(shù)據(jù)同步
每當我們解決一個問題,新的問題必然誕生在舊的解決方案上。當我們有多臺MySQL,在業(yè)務(wù)高峰期,很可能出現(xiàn)兩個庫之間的數(shù)據(jù)有延遲的場景。并且,網(wǎng)絡(luò)和機器負載等,也會影響數(shù)據(jù)同步的延遲。我們曾經(jīng)遇到過,在日訪問量接近1億的特殊場景下,出現(xiàn),從庫數(shù)據(jù)需要很多天才能同步追上主庫的數(shù)據(jù)。這種場景下,從庫基本失去效用了。
于是,解決同步問題,就是我們下一步需要關(guān)注的點。
1. MySQL自帶多線程同步
MySQL5.6開始支持主庫和從庫數(shù)據(jù)同步,走多線程。但是,限制也是比較明顯的,只能以庫為單位。MySQL數(shù)據(jù)同步是通過binlog日志,主庫寫入到binlog日志的操作,是具有順序的,尤其當SQL操作中含有對于表結(jié)構(gòu)的修改等操作,對于后續(xù)的SQL語句操作是有影響的。因此,從庫同步數(shù)據(jù),必須走單進程。
2. 自己實現(xiàn)解析binlog,多線程寫入。
以數(shù)據(jù)庫的表為單位,解析binlog多張表同時做數(shù)據(jù)同步。這樣做的話,的確能夠加快數(shù)據(jù)同步的效率,但是,如果表和表之間存在結(jié)構(gòu)關(guān)系或者數(shù)據(jù)依賴的話,則同樣存在寫入順序的問題。這種方式,可用于一些比較穩(wěn)定并且相對獨立的數(shù)據(jù)表。
國內(nèi)一線互聯(lián)網(wǎng)公司,大部分都是通過這種方式,來加快數(shù)據(jù)同步效率。還有更為激進的做法,是直接解析binlog,忽略以表為單位,直接寫入。但是這種做法,實現(xiàn)復(fù)雜,使用范圍就更受到限制,只能用于一些場景特殊的數(shù)據(jù)庫中(沒有表結(jié)構(gòu)變更,表和表之間沒有數(shù)據(jù)依賴等特殊表)。?
四、 在Web服務(wù)器和數(shù)據(jù)庫之間建立緩存
實際上,解決大訪問量的問題,不能僅僅著眼于數(shù)據(jù)庫層面。根據(jù)“二八定律”,80%的請求只關(guān)注在20%的熱點數(shù)據(jù)上。因此,我們應(yīng)該建立Web服務(wù)器和數(shù)據(jù)庫之間的緩存機制。這種機制,可以用磁盤作為緩存,也可以用內(nèi)存緩存的方式。通過它們,將大部分的熱點數(shù)據(jù)查詢,阻擋在數(shù)據(jù)庫之前。
1. 頁面靜態(tài)化
用戶訪問網(wǎng)站的某個頁面,頁面上的大部分內(nèi)容在很長一段時間內(nèi),可能都是沒有變化的。例如一篇新聞報道,一旦發(fā)布幾乎是不會修改內(nèi)容的。這樣的話,通過CGI生成的靜態(tài)html頁面緩存到Web服務(wù)器的磁盤本地。除了第一次,是通過動態(tài)CGI查詢數(shù)據(jù)庫獲取之外,之后都直接將本地磁盤文件返回給用戶。
在Web系統(tǒng)規(guī)模比較小的時候,這種做法看似完美。但是,一旦Web系統(tǒng)規(guī)模變大,例如當我有100臺的Web服務(wù)器的時候。那樣這些磁盤文件,將會有100份,這個是資源浪費,也不好維護。這個時候有人會想,可以集中一臺服務(wù)器存起來,呵呵,不如看看下面一種緩存方式吧,它就是這樣做的。
2. 單臺內(nèi)存緩存
通過頁面靜態(tài)化的例子中,我們可以知道將“緩存”搭建在Web機器本機是不好維護的,會帶來更多問題(實際上,通過PHP的apc拓展,可通過Key/value操作Web服務(wù)器的本機內(nèi)存)。因此,我們選擇搭建的內(nèi)存緩存服務(wù),也必須是一個獨立的服務(wù)。
內(nèi)存緩存的選擇,主要有redis/memcache。從性能上說,兩者差別不大,從功能豐富程度上說,Redis更勝一籌。
3. 內(nèi)存緩存集群
當我們搭建單臺內(nèi)存緩存完畢,我們又會面臨單點故障的問題,因此,我們必須將它變成一個集群。簡單的做法,是給他增加一個slave作為備份機器。但是,如果請求量真的很多,我們發(fā)現(xiàn)cache命中率不高,需要更多的機器內(nèi)存呢?因此,我們更建議將它配置成一個集群。例如,類似redis cluster。
Redis cluster集群內(nèi)的Redis互為多組主從,同時每個節(jié)點都可以接受請求,在拓展集群的時候比較方便。客戶端可以向任意一個節(jié)點發(fā)送請求,如果是它的“負責(zé)”的內(nèi)容,則直接返回內(nèi)容。否則,查找實際負責(zé)Redis節(jié)點,然后將地址告知客戶端,客戶端重新請求。
對于使用緩存服務(wù)的客戶端來說,這一切是透明的。
內(nèi)存緩存服務(wù)在切換的時候,是有一定風(fēng)險的。從A集群切換到B集群的過程中,必須保證B集群提前做好“預(yù)熱”(B集群的內(nèi)存中的熱點數(shù)據(jù),應(yīng)該盡量與A集群相同,否則,切換的一瞬間大量請求內(nèi)容,在B集群的內(nèi)存緩存中查找不到,流量直接沖擊后端的數(shù)據(jù)庫服務(wù),很可能導(dǎo)致數(shù)據(jù)庫宕機)。
4. 減少數(shù)據(jù)庫“寫”
上面的機制,都實現(xiàn)減少數(shù)據(jù)庫的“讀”的操作,但是,寫的操作也是一個大的壓力。寫的操作,雖然無法減少,但是可以通過合并請求,來起到減輕壓力的效果。這個時候,我們就需要在內(nèi)存緩存集群和數(shù)據(jù)庫集群之間,建立一個修改同步機制。
先將修改請求生效在cache中,讓外界查詢顯示正常,然后將這些sql修改放入到一個隊列中存儲起來,隊列滿或者每隔一段時間,合并為一個請求到數(shù)據(jù)庫中更新數(shù)據(jù)庫。
除了上述通過改變系統(tǒng)架構(gòu)的方式提升寫的性能外,MySQL本身也可以通過配置參數(shù)innodb_flush_log_at_trx_commit來調(diào)整寫入磁盤的策略。如果機器成本允許,從硬件層面解決問題,可以選擇老一點的RAID(Redundant Arrays of independent Disks,磁盤列陣)或者比較新的SSD(Solid State Drives,固態(tài)硬盤)。
5. NoSQL存儲
不管數(shù)據(jù)庫的讀還是寫,當流量再進一步上漲,終會達到“人力有窮時”的場景。繼續(xù)加機器的成本比較高,并且不一定可以真正解決問題的時候。這個時候,部分核心數(shù)據(jù),就可以考慮使用NoSQL的數(shù)據(jù)庫。NoSQL存儲,大部分都是采用key-value的方式,這里比較推薦使用上面介紹過Redis,Redis本身是一個內(nèi)存cache,同時也可以當做一個存儲來使用,讓它直接將數(shù)據(jù)落地到磁盤。
這樣的話,我們就將數(shù)據(jù)庫中某些被頻繁讀寫的數(shù)據(jù),分離出來,放在我們新搭建的Redis存儲集群中,又進一步減輕原來MySQL數(shù)據(jù)庫的壓力,同時因為Redis本身是個內(nèi)存級別的Cache,讀寫的性能都會大幅度提升。
國內(nèi)一線互聯(lián)網(wǎng)公司,架構(gòu)上采用的解決方案很多是類似于上述方案,不過,使用的cache服務(wù)卻不一定是Redis,他們會有更豐富的其他選擇,甚至根據(jù)自身業(yè)務(wù)特點開發(fā)出自己的NoSQL服務(wù)。
6. 空節(jié)點查詢問題
當我們搭建完前面所說的全部服務(wù),認為Web系統(tǒng)已經(jīng)很強的時候。我們還是那句話,新的問題還是會來的。空節(jié)點查詢,是指那些數(shù)據(jù)庫中根本不存在的數(shù)據(jù)請求。例如,我請求查詢一個不存在人員信息,系統(tǒng)會從各級緩存逐級查找,最后查到到數(shù)據(jù)庫本身,然后才得出查找不到的結(jié)論,返回給前端。因為各級cache對它無效,這個請求是非常消耗系統(tǒng)資源的,而如果大量的空節(jié)點查詢,是可以沖擊到系統(tǒng)服務(wù)的。
在我曾經(jīng)的工作經(jīng)歷中,曾深受其害。因此,為了維護Web系統(tǒng)的穩(wěn)定性,設(shè)計適當?shù)目展?jié)點過濾機制,非常有必要。
我們當時采用的方式,就是設(shè)計一張簡單的記錄映射表。將存在的記錄存儲起來,放入到一臺內(nèi)存cache中,這樣的話,如果還有空節(jié)點查詢,則在緩存這一層就被阻擋了。
異地部署(地理分布式)
完成了上述架構(gòu)建設(shè)之后,我們的系統(tǒng)是否就已經(jīng)足夠強大了呢?答案當然是否定的哈,優(yōu)化是無極限的。Web系統(tǒng)雖然表面上看,似乎比較強大了,但是給予用戶的體驗卻不一定是最好的。因為東北的同學(xué),訪問深圳的一個網(wǎng)站服務(wù),他還是會感到一些網(wǎng)絡(luò)距離上的慢。這個時候,我們就需要做異地部署,讓W(xué)eb系統(tǒng)離用戶更近。
一、 核心集中與節(jié)點分散
有玩過大型網(wǎng)游的同學(xué)都會知道,網(wǎng)游是有很多個區(qū)的,一般都是按照地域來分,例如廣東專區(qū),北京專區(qū)。如果一個在廣東的玩家,去北京專區(qū)玩,那么他會感覺明顯比在廣東專區(qū)卡。實際上,這些大區(qū)的名稱就已經(jīng)說明了,它的服務(wù)器所在地,所以,廣東的玩家去連接地處北京的服務(wù)器,網(wǎng)絡(luò)當然會比較慢。
當一個系統(tǒng)和服務(wù)足夠大的時候,就必須開始考慮異地部署的問題了。讓你的服務(wù),盡可能離用戶更近。我們前面已經(jīng)提到了Web的靜態(tài)資源,可以存放在CDN上,然后通過DNS/GSLB的方式,讓靜態(tài)資源的分散“全國各地”。但是,CDN只解決的靜態(tài)資源的問題,沒有解決后端龐大的系統(tǒng)服務(wù)還只集中在某個固定城市的問題。
這個時候,異地部署就開始了。異地部署一般遵循:核心集中,節(jié)點分散。
·?核心集中:實際部署過程中,總有一部分的數(shù)據(jù)和服務(wù)存在不可部署多套,或者部署多套成本巨大。而對于這些服務(wù)和數(shù)據(jù),就仍然維持一套,而部署地點選擇一個地域比較中心的地方,通過網(wǎng)絡(luò)內(nèi)部專線來和各個節(jié)點通訊。
·?節(jié)點分散:將一些服務(wù)部署為多套,分布在各個城市節(jié)點,讓用戶請求盡可能選擇近的節(jié)點訪問服務(wù)。
例如,我們選擇在上海部署為核心節(jié)點,北京,深圳,武漢,上海為分散節(jié)點(上海自己本身也是一個分散節(jié)點)。我們的服務(wù)架構(gòu)如圖:
需要補充一下的是,上圖中上海節(jié)點和核心節(jié)點是同處于一個機房的,其他分散節(jié)點各自獨立機房。?
國內(nèi)有很多大型網(wǎng)游,都是大致遵循上述架構(gòu)。它們會把數(shù)據(jù)量不大的用戶核心賬號等放在核心節(jié)點,而大部分的網(wǎng)游數(shù)據(jù),例如裝備、任務(wù)等數(shù)據(jù)和服務(wù)放在地區(qū)節(jié)點里。當然,核心節(jié)點和地域節(jié)點之間,也有緩存機制。?
二、 節(jié)點容災(zāi)和過載保護
節(jié)點容災(zāi)是指,某個節(jié)點如果發(fā)生故障時,我們需要建立一個機制去保證服務(wù)仍然可用。毫無疑問,這里比較常見的容災(zāi)方式,是切換到附近城市節(jié)點。假如系統(tǒng)的天津節(jié)點發(fā)生故障,那么我們就將網(wǎng)絡(luò)流量切換到附近的北京節(jié)點上。考慮到負載均衡,可能需要同時將流量切換到附近的幾個地域節(jié)點。另一方面,核心節(jié)點自身也是需要自己做好容災(zāi)和備份的,核心節(jié)點一旦故障,就會影響全國服務(wù)。
過載保護,指的是一個節(jié)點已經(jīng)達到最大容量,無法繼續(xù)接接受更多請求了,系統(tǒng)必須有一個保護的機制。一個服務(wù)已經(jīng)滿負載,還繼續(xù)接受新的請求,結(jié)果很可能就是宕機,影響整個節(jié)點的服務(wù),為了至少保障大部分用戶的正常使用,過載保護是必要的。
解決過載保護,一般2個方向:
·?拒絕服務(wù),檢測到滿負載之后,就不再接受新的連接請求。例如網(wǎng)游登入中的排隊。
·?分流到其他節(jié)點。這種的話,系統(tǒng)實現(xiàn)更為復(fù)雜,又涉及到負載均衡的問題。
小結(jié)
Web系統(tǒng)會隨著訪問規(guī)模的增長,漸漸地從1臺服務(wù)器可以滿足需求,一直成長為“龐然大物”的大集群。而這個Web系統(tǒng)變大的過程,實際上就是我們解決問題的過程。在不同的階段,解決不同的問題,而新的問題又誕生在舊的解決方案之上。
系統(tǒng)的優(yōu)化是沒有極限的,軟件和系統(tǒng)架構(gòu)也一直在快速發(fā)展,新的方案解決了老的問題,同時也帶來新的挑戰(zhàn)。
數(shù)據(jù)庫屬于 IO 密集型的應(yīng)用程序,其主要職責(zé)就是數(shù)據(jù)的管理及存儲工作。而我們知道,從內(nèi)存中讀取一個數(shù)據(jù)庫的時間是微秒級別,而從一塊普通硬盤上讀取一個IO是在毫秒級別,二者相差3個數(shù)量級。所以,要優(yōu)化數(shù)據(jù)庫,首先第一步需要優(yōu)化的就是 IO,盡可能將磁盤IO轉(zhuǎn)化為內(nèi)存IO。本文先從 MySQL 數(shù)據(jù)庫IO相關(guān)參數(shù)(緩存參數(shù))的角度來看看可以通過哪些參數(shù)進行IO優(yōu)化:
?query_cache_size/query_cache_type (global)
Query cache 作用于整個 MySQL Instance,主要用來緩存 MySQL 中的 ResultSet,也就是一條SQL語句執(zhí)行的結(jié)果集,所以僅僅只能針對select語句。當我們打開了 Query Cache 功能,MySQL在接受到一條select語句的請求后,如果該語句滿足Query Cache的要求(未顯式說明不允許使用Query Cache,或者已經(jīng)顯式申明需要使用Query Cache),MySQL 會直接根據(jù)預(yù)先設(shè)定好的HASH算法將接受到的select語句以字符串方式進行hash,然后到Query Cache 中直接查找是否已經(jīng)緩存。也就是說,如果已經(jīng)在緩存中,該select請求就會直接將數(shù)據(jù)返回,從而省略了后面所有的步驟(如 SQL語句的解析,優(yōu)化器優(yōu)化以及向存儲引擎請求數(shù)據(jù)等),極大的提高性能。
當然,Query Cache 也有一個致命的缺陷,那就是當某個表的數(shù)據(jù)有任何任何變化,都會導(dǎo)致所有引用了該表的select語句在Query Cache 中的緩存數(shù)據(jù)失效。所以,當我們的數(shù)據(jù)變化非常頻繁的情況下,使用Query Cache 可能會得不償失。
Query Cache的使用需要多個參數(shù)配合,其中最為關(guān)鍵的是 query_cache_size 和 query_cache_type ,前者設(shè)置用于緩存 ResultSet 的內(nèi)存大小,后者設(shè)置在何場景下使用 Query Cache。在以往的經(jīng)驗來看,如果不是用來緩存基本不變的數(shù)據(jù)的MySQL數(shù)據(jù)庫,query_cache_size 一般 256MB 是一個比較合適的大小。當然,這可以通過計算Query Cache的命中率(Qcache_hits/(Qcache_hits+Qcache_inserts)*100))來進行調(diào)整。query_cache_type可以設(shè)置為0(OFF),1(ON)或者2(DEMOND),分別表示完全不使用query cache,除顯式要求不使用query cache(使用sql_no_cache)之外的所有的select都使用query cache,只有顯示要求才使用query cache(使用sql_cache)。
?binlog_cache_size (global)
Binlog Cache 用于在打開了二進制日志(binlog)記錄功能的環(huán)境,是 MySQL 用來提高binlog的記錄效率而設(shè)計的一個用于短時間內(nèi)臨時緩存binlog數(shù)據(jù)的內(nèi)存區(qū)域。
一般來說,如果我們的數(shù)據(jù)庫中沒有什么大事務(wù),寫入也不是特別頻繁,2MB~4MB是一個合適的選擇。但是如果我們的數(shù)據(jù)庫大事務(wù)較多,寫入量比較大,可與適當調(diào)高binlog_cache_size。同時,我們可以通過binlog_cache_use 以及 binlog_cache_disk_use來分析設(shè)置的binlog_cache_size是否足夠,是否有大量的binlog_cache由于內(nèi)存大小不夠而使用臨時文件(binlog_cache_disk_use)來緩存了。
?key_buffer_size (global)
Key Buffer 可能是大家最為熟悉的一個 MySQL 緩存參數(shù)了,尤其是在 MySQL 沒有更換默認存儲引擎的時候,很多朋友可能會發(fā)現(xiàn),默認的 MySQL 配置文件中設(shè)置最大的一個內(nèi)存參數(shù)就是這個參數(shù)了。key_buffer_size 參數(shù)用來設(shè)置用于緩存 MyISAM存儲引擎中索引文件的內(nèi)存區(qū)域大小。如果我們有足夠的內(nèi)存,這個緩存區(qū)域最好是能夠存放下我們所有的 MyISAM 引擎表的所有索引,以盡可能提高性能。
此外,當我們在使用MyISAM 存儲的時候有一個及其重要的點需要注意,由于 MyISAM 引擎的特性限制了他僅僅只會緩存索引塊到內(nèi)存中,而不會緩存表數(shù)據(jù)庫塊。所以,我們的 SQL 一定要盡可能讓過濾條件都在索引中,以便讓緩存幫助我們提高查詢效率。
?bulk_insert_buffer_size (thread)
和key_buffer_size一樣,這個參數(shù)同樣也僅作用于使用 MyISAM存儲引擎,用來緩存批量插入數(shù)據(jù)的時候臨時緩存寫入數(shù)據(jù)。當我們使用如下幾種數(shù)據(jù)寫入語句的時候,會使用這個內(nèi)存區(qū)域來緩存批量結(jié)構(gòu)的數(shù)據(jù)以幫助批量寫入數(shù)據(jù)文件:
insert … select …
insert … values (…) ,(…),(…)…
load data infile… into… (非空表)
?innodb_buffer_pool_size(global)
當我們使用InnoDB存儲引擎的時候,innodb_buffer_pool_size 參數(shù)可能是影響我們性能的最為關(guān)鍵的一個參數(shù)了,他用來設(shè)置用于緩存 InnoDB 索引及數(shù)據(jù)塊的內(nèi)存區(qū)域大小,類似于 MyISAM 存儲引擎的 key_buffer_size 參數(shù),當然,可能更像是 Oracle 的 db_cache_size。簡單來說,當我們操作一個 InnoDB 表的時候,返回的所有數(shù)據(jù)或者去數(shù)據(jù)過程中用到的任何一個索引塊,都會在這個內(nèi)存區(qū)域中走一遭。
和key_buffer_size 對于 MyISAM 引擎一樣,innodb_buffer_pool_size 設(shè)置了 InnoDB 存儲引擎需求最大的一塊內(nèi)存區(qū)域的大小,直接關(guān)系到 InnoDB存儲引擎的性能,所以如果我們有足夠的內(nèi)存,盡可將該參數(shù)設(shè)置到足夠打,將盡可能多的 InnoDB 的索引及數(shù)據(jù)都放入到該緩存區(qū)域中,直至全部。
我們可以通過 (Innodb_buffer_pool_read_requests – Innodb_buffer_pool_reads) / Innodb_buffer_pool_read_requests * 100% 計算緩存命中率,并根據(jù)命中率來調(diào)整 innodb_buffer_pool_size 參數(shù)大小進行優(yōu)化。
?innodb_additional_mem_pool_size(global)
這個參數(shù)我們平時調(diào)整的可能不是太多,很多人都使用了默認值,可能很多人都不是太熟悉這個參數(shù)的作用。innodb_additional_mem_pool_size 設(shè)置了InnoDB存儲引擎用來存放數(shù)據(jù)字典信息以及一些內(nèi)部數(shù)據(jù)結(jié)構(gòu)的內(nèi)存空間大小,所以當我們一個MySQL Instance中的數(shù)據(jù)庫對象非常多的時候,是需要適當調(diào)整該參數(shù)的大小以確保所有數(shù)據(jù)都能存放在內(nèi)存中提高訪問效率的。
這個參數(shù)大小是否足夠還是比較容易知道的,因為當過小的時候,MySQL 會記錄 Warning 信息到數(shù)據(jù)庫的 error log 中,這時候你就知道該調(diào)整這個參數(shù)大小了。
?innodb_log_buffer_size (global)
這是 InnoDB 存儲引擎的事務(wù)日志所使用的緩沖區(qū)。類似于 Binlog Buffer,InnoDB 在寫事務(wù)日志的時候,為了提高性能,也是先將信息寫入 Innofb Log Buffer 中,當滿足 innodb_flush_log_trx_commit 參數(shù)所設(shè)置的相應(yīng)條件(或者日志緩沖區(qū)寫滿)之后,才會將日志寫到文件(或者同步到磁盤)中。可以通過 innodb_log_buffer_size 參數(shù)設(shè)置其可以使用的最大內(nèi)存空間。
注:innodb_flush_log_trx_commit 參數(shù)對 InnoDB Log 的寫入性能有非常關(guān)鍵的影響。該參數(shù)可以設(shè)置為0,1,2,解釋如下:
0:log buffer中的數(shù)據(jù)將以每秒一次的頻率寫入到log file中,且同時會進行文件系統(tǒng)到磁盤的同步操作,但是每個事務(wù)的commit并不會觸發(fā)任何log buffer 到log file的刷新或者文件系統(tǒng)到磁盤的刷新操作;
1:在每次事務(wù)提交的時候?qū)og buffer 中的數(shù)據(jù)都會寫入到log file,同時也會觸發(fā)文件系統(tǒng)到磁盤的同步;
2:事務(wù)提交會觸發(fā)log buffer 到log file的刷新,但并不會觸發(fā)磁盤文件系統(tǒng)到磁盤的同步。此外,每秒會有一次文件系統(tǒng)到磁盤同步操作。
此外,MySQL文檔中還提到,這幾種設(shè)置中的每秒同步一次的機制,可能并不會完全確保非常準確的每秒就一定會發(fā)生同步,還取決于進程調(diào)度的問題。實際上,InnoDB 能否真正滿足此參數(shù)所設(shè)置值代表的意義正常 Recovery 還是受到了不同 OS 下文件系統(tǒng)以及磁盤本身的限制,可能有些時候在并沒有真正完成磁盤同步的情況下也會告訴 mysqld 已經(jīng)完成了磁盤同步。
?innodb_max_dirty_pages_pct (global)
這個參數(shù)和上面的各個參數(shù)不同,他不是用來設(shè)置用于緩存某種數(shù)據(jù)的內(nèi)存大小的一個參數(shù),而是用來控制在 InnoDB Buffer Pool 中可以不用寫入數(shù)據(jù)文件中的Dirty Page 的比例(已經(jīng)被修但還沒有從內(nèi)存中寫入到數(shù)據(jù)文件的臟數(shù)據(jù))。這個比例值越大,從內(nèi)存到磁盤的寫入操作就會相對減少,所以能夠一定程度下減少寫入操作的磁盤IO。
但是,如果這個比例值過大,當數(shù)據(jù)庫 Crash 之后重啟的時間可能就會很長,因為會有大量的事務(wù)數(shù)據(jù)需要從日志文件恢復(fù)出來寫入數(shù)據(jù)文件中。同時,過大的比例值同時可能也會造成在達到比例設(shè)定上限后的 flush 操作“過猛”而導(dǎo)致性能波動很大。
上面這幾個參數(shù)是 MySQL 中為了減少磁盤物理IO而設(shè)計的主要參數(shù),對 MySQL 的性能起到了至關(guān)重要的作用。
如果是為了求職的話,建議你還是需要一個大專或者本科文憑,會對你以后的工作薪資很有幫助。然后其次就是技術(shù)了,如果是自學(xué)能力不強的話,建議去傳智之類的現(xiàn)場授課機構(gòu),白天上課,晚上晚自習(xí),老師壓著你學(xué)的那種。如果自學(xué)能力強,就直接在網(wǎng)上下載視頻自學(xué)吧,PHP說難很難,說簡單也很簡單。
數(shù)據(jù)庫設(shè)計方法、規(guī)范與技巧
一、數(shù)據(jù)庫設(shè)計過程
數(shù)據(jù)庫技術(shù)是信息資源管理最有效的手段。數(shù)據(jù)庫設(shè)計是指對于一個給定的應(yīng)用環(huán)境,構(gòu)造最優(yōu)的數(shù)據(jù)庫模式,建立數(shù)據(jù)庫及其應(yīng)用系統(tǒng),有效存儲數(shù)據(jù),滿足用戶信息要求和處理要求。
數(shù)據(jù)庫設(shè)計中需求分析階段綜合各個用戶的應(yīng)用需求(現(xiàn)實世界的需求),在概念設(shè)計階段形成獨立于機器特點、獨立于各個DBMS產(chǎn)品的概念模式(信息世界模型),用E-R圖來描述。在邏輯設(shè)計階段將E-R圖轉(zhuǎn)換成具體的數(shù)據(jù)庫產(chǎn)品支持的數(shù)據(jù)模型如關(guān)系模型,形成數(shù)據(jù)庫邏輯模式。然后根據(jù)用戶處理的要求,安全性的考慮,在基本表的基礎(chǔ)上再建立必要的視圖(VIEW)形成數(shù)據(jù)的外模式。在物理設(shè)計階段根據(jù)DBMS特點和處理的需要,進行物理存儲安排,設(shè)計索引,形成數(shù)據(jù)庫內(nèi)模式。
1. 需求分析階段
需求收集和分析,結(jié)果得到數(shù)據(jù)字典描述的數(shù)據(jù)需求(和數(shù)據(jù)流圖描述的處理需求)。
需求分析的重點是調(diào)查、收集與分析用戶在數(shù)據(jù)管理中的信息要求、處理要求、安全性與完整性要求。
需求分析的方法:調(diào)查組織機構(gòu)情況、調(diào)查各部門的業(yè)務(wù)活動情況、協(xié)助用戶明確對新系統(tǒng)的各種要求、確定新系統(tǒng)的邊界。
常用的調(diào)查方法有: 跟班作業(yè)、開調(diào)查會、請專人介紹、詢問、設(shè)計調(diào)查表請用戶填寫、查閱記錄。
分析和表達用戶需求的方法主要包括自頂向下和自底向上兩類方法。自頂向下的結(jié)構(gòu)化分析方法(Structured Analysis,簡稱SA方法)從最上層的系統(tǒng)組織機構(gòu)入手,采用逐層分解的方式分析系統(tǒng),并把每一層用數(shù)據(jù)流圖和數(shù)據(jù)字典描述。
數(shù)據(jù)流圖表達了數(shù)據(jù)和處理過程的關(guān)系。系統(tǒng)中的數(shù)據(jù)則借助數(shù)據(jù)字典(Data Dictionary,簡稱DD)來描述。
數(shù)據(jù)字典是各類數(shù)據(jù)描述的集合,它是關(guān)于數(shù)據(jù)庫中數(shù)據(jù)的描述,即元數(shù)據(jù),而不是數(shù)據(jù)本身。數(shù)據(jù)字典通常包括數(shù)據(jù)項、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)流、數(shù)據(jù)存儲和處理過程五個部分(至少應(yīng)該包含每個字段的數(shù)據(jù)類型和在每個表內(nèi)的主外鍵)。
數(shù)據(jù)項描述={數(shù)據(jù)項名,數(shù)據(jù)項含義說明,別名,數(shù)據(jù)類型,長度,
取值范圍,取值含義,與其他數(shù)據(jù)項的邏輯關(guān)系}
數(shù)據(jù)結(jié)構(gòu)描述={數(shù)據(jù)結(jié)構(gòu)名,含義說明,組成:{數(shù)據(jù)項或數(shù)據(jù)結(jié)構(gòu)}}
數(shù)據(jù)流描述={數(shù)據(jù)流名,說明,數(shù)據(jù)流來源,數(shù)據(jù)流去向,
組成:{數(shù)據(jù)結(jié)構(gòu)},平均流量,高峰期流量}
數(shù)據(jù)存儲描述={數(shù)據(jù)存儲名,說明,編號,流入的數(shù)據(jù)流,流出的數(shù)據(jù)流,
組成:{數(shù)據(jù)結(jié)構(gòu)},數(shù)據(jù)量,存取方式}
處理過程描述={處理過程名,說明,輸入:{數(shù)據(jù)流},輸出:{數(shù)據(jù)流},
處理:{簡要說明}}
2. 概念結(jié)構(gòu)設(shè)計階段
通過對用戶需求進行綜合、歸納與抽象,形成一個獨立于具體DBMS的概念模型,可以用E-R圖表示。
概念模型用于信息世界的建模。概念模型不依賴于某一個DBMS支持的數(shù)據(jù)模型。概念模型可以轉(zhuǎn)換為計算機上某一DBMS支持的特定數(shù)據(jù)模型。
概念模型特點:
(1) 具有較強的語義表達能力,能夠方便、直接地表達應(yīng)用中的各種語義知識。
(2) 應(yīng)該簡單、清晰、易于用戶理解,是用戶與數(shù)據(jù)庫設(shè)計人員之間進行交流的語言。
概念模型設(shè)計的一種常用方法為IDEF1X方法,它就是把實體-聯(lián)系方法應(yīng)用到語義數(shù)據(jù)模型中的一種語義模型化技術(shù),用于建立系統(tǒng)信息模型。
使用IDEF1X方法創(chuàng)建E-R模型的步驟如下所示:
2.1 第零步——初始化工程
這個階段的任務(wù)是從目的描述和范圍描述開始,確定建模目標,開發(fā)建模計劃,組織建模隊伍,收集源材料,制定約束和規(guī)范。收集源材料是這階段的重點。通過調(diào)查和觀察結(jié)果,業(yè)務(wù)流程,原有系統(tǒng)的輸入輸出,各種報表,收集原始數(shù)據(jù),形成了基本數(shù)據(jù)資料表。
2.2 第一步——定義實體
實體集成員都有一個共同的特征和屬性集,可以從收集的源材料——基本數(shù)據(jù)資料表中直接或間接標識出大部分實體。根據(jù)源材料名字表中表示物的術(shù)語以及具有“代碼”結(jié)尾的術(shù)語,如客戶代碼、代理商代碼、產(chǎn)品代碼等將其名詞部分代表的實體標識出來,從而初步找出潛在的實體,形成初步實體表。
2.3 第二步——定義聯(lián)系
IDEF1X模型中只允許二元聯(lián)系,n元聯(lián)系必須定義為n個二元聯(lián)系。根據(jù)實際的業(yè)務(wù)需求和規(guī)則,使用實體聯(lián)系矩陣來標識實體間的二元關(guān)系,然后根據(jù)實際情況確定出連接關(guān)系的勢、關(guān)系名和說明,確定關(guān)系類型,是標識關(guān)系、非標識關(guān)系(強制的或可選的)還是非確定關(guān)系、分類關(guān)系。如果子實體的每個實例都需要通過和父實體的關(guān)系來標識,則為標識關(guān)系,否則為非標識關(guān)系。非標識關(guān)系中,如果每個子實體的實例都與而且只與一個父實體關(guān)聯(lián),則為強制的,否則為非強制的。如果父實體與子實體代表的是同一現(xiàn)實對象,那么它們?yōu)榉诸愱P(guān)系。
2.4 第三步——定義碼
通過引入交叉實體除去上一階段產(chǎn)生的非確定關(guān)系,然后從非交叉實體和獨立實體開始標識侯選碼屬性,以便唯一識別每個實體的實例,再從侯選碼中確定主碼。為了確定主碼和關(guān)系的有效性,通過非空規(guī)則和非多值規(guī)則來保證,即一個實體實例的一個屬性不能是空值,也不能在同一個時刻有一個以上的值。找出誤認的確定關(guān)系,將實體進一步分解,最后構(gòu)造出IDEF1X模型的鍵基視圖(KB圖)。
2.5 第四步——定義屬性
從源數(shù)據(jù)表中抽取說明性的名詞開發(fā)出屬性表,確定屬性的所有者。定義非主碼屬性,檢查屬性的非空及非多值規(guī)則。此外,還要檢查完全依賴函數(shù)規(guī)則和非傳遞依賴規(guī)則,保證一個非主碼屬性必須依賴于主碼、整個主碼、僅僅是主碼。以此得到了至少符合關(guān)系理論第三范式的改進的IDEF1X模型的全屬性視圖。
2.6 第五步——定義其他對象和規(guī)則
定義屬性的數(shù)據(jù)類型、長度、精度、非空、缺省值、約束規(guī)則等。定義觸發(fā)器、存儲過程、視圖、角色、同義詞、序列等對象信息。
3. 邏輯結(jié)構(gòu)設(shè)計階段
將概念結(jié)構(gòu)轉(zhuǎn)換為某個DBMS所支持的數(shù)據(jù)模型(例如關(guān)系模型),并對其進行優(yōu)化。設(shè)計邏輯結(jié)構(gòu)應(yīng)該選擇最適于描述與表達相應(yīng)概念結(jié)構(gòu)的數(shù)據(jù)模型,然后選擇最合適的DBMS。
將E-R圖轉(zhuǎn)換為關(guān)系模型實際上就是要將實體、實體的屬性和實體之間的聯(lián)系轉(zhuǎn)化為關(guān)系模式,這種轉(zhuǎn)換一般遵循如下原則:
1)一個實體型轉(zhuǎn)換為一個關(guān)系模式。實體的屬性就是關(guān)系的屬性。實體的碼就是關(guān)系的碼。
2)一個m:n聯(lián)系轉(zhuǎn)換為一個關(guān)系模式。與該聯(lián)系相連的各實體的碼以及聯(lián)系本身的屬性均轉(zhuǎn)換為關(guān)系的屬性。而關(guān)系的碼為各實體碼的組合。
3)一個1:n聯(lián)系可以轉(zhuǎn)換為一個獨立的關(guān)系模式,也可以與n端對應(yīng)的關(guān)系模式合并。如果轉(zhuǎn)換為一個獨立的關(guān)系模式,則與該聯(lián)系相連的各實體的碼以及聯(lián)系本身的屬性均轉(zhuǎn)換為關(guān)系的屬性,而關(guān)系的碼為n端實體的碼。
4)一個1:1聯(lián)系可以轉(zhuǎn)換為一個獨立的關(guān)系模式,也可以與任意一端對應(yīng)的關(guān)系模式合并。
5)三個或三個以上實體間的一個多元聯(lián)系轉(zhuǎn)換為一個關(guān)系模式。與該多元聯(lián)系相連的各實體的碼以及聯(lián)系本身的屬性均轉(zhuǎn)換為關(guān)系的屬性。而關(guān)系的碼為各實體碼的組合。
6)同一實體集的實體間的聯(lián)系,即自聯(lián)系,也可按上述1:1、1:n和m:n三種情況分別處理。
7)具有相同碼的關(guān)系模式可合并。
為了進一步提高數(shù)據(jù)庫應(yīng)用系統(tǒng)的性能,通常以規(guī)范化理論為指導(dǎo),還應(yīng)該適當?shù)匦薷摹⒄{(diào)整數(shù)據(jù)模型的結(jié)構(gòu),這就是數(shù)據(jù)模型的優(yōu)化。確定數(shù)據(jù)依賴。消除冗余的聯(lián)系。確定各關(guān)系模式分別屬于第幾范式。確定是否要對它們進行合并或分解。一般來說將關(guān)系分解為3NF的標準,即:
表內(nèi)的每一個值都只能被表達一次。
??表內(nèi)的每一行都應(yīng)該被唯一的標識(有唯一鍵)。
表內(nèi)不應(yīng)該存儲依賴于其他鍵的非鍵信息。
4. 數(shù)據(jù)庫物理設(shè)計階段
為邏輯數(shù)據(jù)模型選取一個最適合應(yīng)用環(huán)境的物理結(jié)構(gòu)(包括存儲結(jié)構(gòu)和存取方法)。根據(jù)DBMS特點和處理的需要,進行物理存儲安排,設(shè)計索引,形成數(shù)據(jù)庫內(nèi)模式。
5. 數(shù)據(jù)庫實施階段
運用DBMS提供的數(shù)據(jù)語言(例如SQL)及其宿主語言(例如C),根據(jù)邏輯設(shè)計和物理設(shè)計的結(jié)果建立數(shù)據(jù)庫,編制與調(diào)試應(yīng)用程序,組織數(shù)據(jù)入庫,并進行試運行。 數(shù)據(jù)庫實施主要包括以下工作:用DDL定義數(shù)據(jù)庫結(jié)構(gòu)、組織數(shù)據(jù)入庫 、編制與調(diào)試應(yīng)用程序、數(shù)據(jù)庫試運行 6. 數(shù)據(jù)庫運行和維護階段
數(shù)據(jù)庫應(yīng)用系統(tǒng)經(jīng)過試運行后即可投入正式運行。在數(shù)據(jù)庫系統(tǒng)運行過程中必須不斷地對其進行評價、調(diào)整與修改。包括:數(shù)據(jù)庫的轉(zhuǎn)儲和恢復(fù)、數(shù)據(jù)庫的安全性、完整性控制、數(shù)據(jù)庫性能的監(jiān)督、分析和改進、數(shù)據(jù)庫的重組織和重構(gòu)造。
建模工具的使用
為加快數(shù)據(jù)庫設(shè)計速度,目前有很多數(shù)據(jù)庫輔助工具(CASE工具),如Rational公司的Rational Rose,CA公司的Erwin和Bpwin,Sybase公司的PowerDesigner以及Oracle公司的Oracle Designer等。
ERwin主要用來建立數(shù)據(jù)庫的概念模型和物理模型。它能用圖形化的方式,描述出實體、聯(lián)系及實體的屬性。ERwin支持IDEF1X方法。通過使用ERwin建模工具自動生成、更改和分析IDEF1X模型,不僅能得到優(yōu)秀的業(yè)務(wù)功能和數(shù)據(jù)需求模型,而且可以實現(xiàn)從IDEF1X模型到數(shù)據(jù)庫物理設(shè)計的轉(zhuǎn)變。ERwin工具繪制的模型對應(yīng)于邏輯模型和物理模型兩種。在邏輯模型中,IDEF1X工具箱可以方便地用圖形化的方式構(gòu)建和繪制實體聯(lián)系及實體的屬性。在物理模型中,ERwin可以定義對應(yīng)的表、列,并可針對各種數(shù)據(jù)庫管理系統(tǒng)自動轉(zhuǎn)換為適當?shù)念愋汀?/p>
設(shè)計人員可根據(jù)需要選用相應(yīng)的數(shù)據(jù)庫設(shè)計建模工具。例如需求分析完成之后,設(shè)計人員可以使用Erwin畫ER圖,將ER圖轉(zhuǎn)換為關(guān)系數(shù)據(jù)模型,生成數(shù)據(jù)庫結(jié)構(gòu);畫數(shù)據(jù)流圖,生成應(yīng)用程序。
二、數(shù)據(jù)庫設(shè)計技巧
1. 設(shè)計數(shù)據(jù)庫之前(需求分析階段)
1) 理解客戶需求,詢問用戶如何看待未來需求變化。讓客戶解釋其需求,而且隨著開發(fā)的繼續(xù),還要經(jīng)常詢問客戶保證其需求仍然在開發(fā)的目的之中。
2) 了解企業(yè)業(yè)務(wù)可以在以后的開發(fā)階段節(jié)約大量的時間。
3) 重視輸入輸出。
在定義數(shù)據(jù)庫表和字段需求(輸入)時,首先應(yīng)檢查現(xiàn)有的或者已經(jīng)設(shè)計出的報表、查詢和視圖(輸出)以決定為了支持這些輸出哪些是必要的表和字段。
舉例:假如客戶需要一個報表按照郵政編碼排序、分段和求和,你要保證其中包括了單獨的郵政編碼字段而不要把郵政編碼糅進地址字段里。
4) 創(chuàng)建數(shù)據(jù)字典和ER 圖表
ER 圖表和數(shù)據(jù)字典可以讓任何了解數(shù)據(jù)庫的人都明確如何從數(shù)據(jù)庫中獲得數(shù)據(jù)。ER圖對表明表之間關(guān)系很有用,而數(shù)據(jù)字典則說明了每個字段的用途以及任何可能存在的別名。對SQL 表達式的文檔化來說這是完全必要的。
5) 定義標準的對象命名規(guī)范
數(shù)據(jù)庫各種對象的命名必須規(guī)范。
2. 表和字段的設(shè)計(數(shù)據(jù)庫邏輯設(shè)計)
表設(shè)計原則
1) 標準化和規(guī)范化
數(shù)據(jù)的標準化有助于消除數(shù)據(jù)庫中的數(shù)據(jù)冗余。標準化有好幾種形式,但Third Normal Form(3NF)通常被認為在性能、擴展性和數(shù)據(jù)完整性方面達到了最好平衡。簡單來說,遵守3NF 標準的數(shù)據(jù)庫的表設(shè)計原則是:“One Fact in One Place”即某個表只包括其本身基本的屬性,當不是它們本身所具有的屬性時需進行分解。表之間的關(guān)系通過外鍵相連接。它具有以下特點:有一組表專門存放通過鍵連接起來的關(guān)聯(lián)數(shù)據(jù)。
舉例:某個存放客戶及其有關(guān)定單的3NF 數(shù)據(jù)庫就可能有兩個表:Customer 和Order。Order 表不包含定單關(guān)聯(lián)客戶的任何信息,但表內(nèi)會存放一個鍵值,該鍵指向Customer 表里包含該客戶信息的那一行。
事實上,為了效率的緣故,對表不進行標準化有時也是必要的。
2) 數(shù)據(jù)驅(qū)動
采用數(shù)據(jù)驅(qū)動而非硬編碼的方式,許多策略變更和維護都會方便得多,大大增強系統(tǒng)的靈活性和擴展性。
舉例,假如用戶界面要訪問外部數(shù)據(jù)源(文件、XML 文檔、其他數(shù)據(jù)庫等),不妨把相應(yīng)的連接和路徑信息存儲在用戶界面支持表里。還有,如果用戶界面執(zhí)行工作流之類的任務(wù)(發(fā)送郵件、打印信箋、修改記錄狀態(tài)等),那么產(chǎn)生工作流的數(shù)據(jù)也可以存放在數(shù)據(jù)庫里。角色權(quán)限管理也可以通過數(shù)據(jù)驅(qū)動來完成。事實上,如果過程是數(shù)據(jù)驅(qū)動的,你就可以把相當大的責(zé)任推給用戶,由用戶來維護自己的工作流過程。
3) 考慮各種變化
在設(shè)計數(shù)據(jù)庫的時候考慮到哪些數(shù)據(jù)字段將來可能會發(fā)生變更。 舉例,姓氏就是如此(注意是西方人的姓氏,比如女性結(jié)婚后從夫姓等)。所以,在建立系統(tǒng)存儲客戶信息時,在單獨的一個數(shù)據(jù)表里存儲姓氏字段,而且還附加起始日和終止日等字段,這樣就可以跟蹤這一數(shù)據(jù)條目的變化。
字段設(shè)計原則
4) 每個表中都應(yīng)該添加的3 個有用的字段
??dRecordCreationDate,在VB 下默認是Now(),而在SQL Server 下默認為GETDATE()
??sRecordCreator,在SQL Server 下默認為NOT NULL DEFAULT USER
??nRecordVersion,記錄的版本標記;有助于準確說明記錄中出現(xiàn)null 數(shù)據(jù)或者丟失數(shù)據(jù)的原因
5) 對地址和電話采用多個字段
描述街道地址就短短一行記錄是不夠的。Address_Line1、Address_Line2 和Address_Line3 可以提供更大的靈活性。還有,電話號碼和郵件地址最好擁有自己的數(shù)據(jù)表,其間具有自身的類型和標記類別。
6) 使用角色實體定義屬于某類別的列
在需要對屬于特定類別或者具有特定角色的事物做定義時,可以用角色實體來創(chuàng)建特定的時間關(guān)聯(lián)關(guān)系,從而可以實現(xiàn)自我文檔化。
舉例:用PERSON 實體和PERSON_TYPE 實體來描述人員。比方說,當John Smith, Engineer 提升為John Smith, Director 乃至最后爬到John Smith, CIO 的高位,而所有你要做的不過是改變兩個表PERSON 和PERSON_TYPE 之間關(guān)系的鍵值,同時增加一個日期/時間字段來知道變化是何時發(fā)生的。這樣,你的PERSON_TYPE 表就包含了所有PERSON 的可能類型,比如Associate、Engineer、Director、CIO 或者CEO 等。還有個替代辦法就是改變PERSON 記錄來反映新頭銜的變化,不過這樣一來在時間上無法跟蹤個人所處位置的具體時間。
7) 選擇數(shù)字類型和文本類型盡量充足
在SQL 中使用smallint 和tinyint 類型要特別小心。比如,假如想看看月銷售總額,總額字段類型是smallint,那么,如果總額超過了$32,767 就不能進行計算操作了。
而ID 類型的文本字段,比如客戶ID 或定單號等等都應(yīng)該設(shè)置得比一般想象更大。假設(shè)客戶ID 為10 位數(shù)長。那你應(yīng)該把數(shù)據(jù)庫表字段的長度設(shè)為12 或者13 個字符長。但這額外占據(jù)的空間卻無需將來重構(gòu)整個數(shù)據(jù)庫就可以實現(xiàn)數(shù)據(jù)庫規(guī)模的增長了。
8) 增加刪除標記字段
在表中包含一個“刪除標記”字段,這樣就可以把行標記為刪除。在關(guān)系數(shù)據(jù)庫里不要單獨刪除某一行;最好采用清除數(shù)據(jù)程序而且要仔細維護索引整體性。
3. 選擇鍵和索引(數(shù)據(jù)庫邏輯設(shè)計)
鍵選擇原則:
1) 鍵設(shè)計4 原則
??為關(guān)聯(lián)字段創(chuàng)建外鍵。
??所有的鍵都必須唯一。
??避免使用復(fù)合鍵。
??外鍵總是關(guān)聯(lián)唯一的鍵字段。
2) 使用系統(tǒng)生成的主鍵
設(shè)計數(shù)據(jù)庫的時候采用系統(tǒng)生成的鍵作為主鍵,那么實際控制了數(shù)據(jù)庫的索引完整性。這樣,數(shù)據(jù)庫和非人工機制就有效地控制了對存儲數(shù)據(jù)中每一行的訪問。采用系統(tǒng)生成鍵作為主鍵還有一個優(yōu)點:當擁有一致的鍵結(jié)構(gòu)時,找到邏輯缺陷很容易。
3) 不要用用戶的鍵(不讓主鍵具有可更新性)
在確定采用什么字段作為表的鍵的時候,可一定要小心用戶將要編輯的字段。通常的情況下不要選擇用戶可編輯的字段作為鍵。
4) 可選鍵有時可做主鍵
把可選鍵進一步用做主鍵,可以擁有建立強大索引的能力。
索引使用原則:
索引是從數(shù)據(jù)庫中獲取數(shù)據(jù)的最高效方式之一。95%的數(shù)據(jù)庫性能問題都可以采用索引技術(shù)得到解決。
1) 邏輯主鍵使用唯一的成組索引,對系統(tǒng)鍵(作為存儲過程)采用唯一的非成組索引,對任何外鍵列采用非成組索引。考慮數(shù)據(jù)庫的空間有多大,表如何進行訪問,還有這些訪問是否主要用作讀寫。
2) 大多數(shù)數(shù)據(jù)庫都索引自動創(chuàng)建的主鍵字段,但是可別忘了索引外鍵,它們也是經(jīng)常使用的鍵,比如運行查詢顯示主表和所有關(guān)聯(lián)表的某條記錄就用得上。
3) 不要索引memo/note 字段,不要索引大型字段(有很多字符),這樣作會讓索引占用太多的存儲空間。
4) 不要索引常用的小型表
不要為小型數(shù)據(jù)表設(shè)置任何鍵,假如它們經(jīng)常有插入和刪除操作就更別這樣作了。對這些插入和刪除操作的索引維護可能比掃描表空間消耗更多的時間。
4. 數(shù)據(jù)完整性設(shè)計(數(shù)據(jù)庫邏輯設(shè)計)
1) 完整性實現(xiàn)機制:
實體完整性:主鍵
參照完整性:
父表中刪除數(shù)據(jù):級聯(lián)刪除;受限刪除;置空值
父表中插入數(shù)據(jù):受限插入;遞歸插入
父表中更新數(shù)據(jù):級聯(lián)更新;受限更新;置空值
DBMS對參照完整性可以有兩種方法實現(xiàn):外鍵實現(xiàn)機制(約束規(guī)則)和觸發(fā)器實現(xiàn)機制
用戶定義完整性:
NOT NULL;CHECK;觸發(fā)器
2) 用約束而非商務(wù)規(guī)則強制數(shù)據(jù)完整性
采用數(shù)據(jù)庫系統(tǒng)實現(xiàn)數(shù)據(jù)的完整性。這不但包括通過標準化實現(xiàn)的完整性而且還包括數(shù)據(jù)的功能性。在寫數(shù)據(jù)的時候還可以增加觸發(fā)器來保證數(shù)據(jù)的正確性。不要依賴于商務(wù)層保證數(shù)據(jù)完整性;它不能保證表之間(外鍵)的完整性所以不能強加于其他完整性規(guī)則之上。
3) 強制指示完整性
在有害數(shù)據(jù)進入數(shù)據(jù)庫之前將其剔除。激活數(shù)據(jù)庫系統(tǒng)的指示完整性特性。這樣可以保持數(shù)據(jù)的清潔而能迫使開發(fā)人員投入更多的時間處理錯誤條件。
4) 使用查找控制數(shù)據(jù)完整性
控制數(shù)據(jù)完整性的最佳方式就是限制用戶的選擇。只要有可能都應(yīng)該提供給用戶一個清晰的價值列表供其選擇。這樣將減少鍵入代碼的錯誤和誤解同時提供數(shù)據(jù)的一致性。某些公共數(shù)據(jù)特別適合查找:國家代碼、狀態(tài)代碼等。
5) 采用視圖
為了在數(shù)據(jù)庫和應(yīng)用程序代碼之間提供另一層抽象,可以為應(yīng)用程序建立專門的視圖而不必非要應(yīng)用程序直接訪問數(shù)據(jù)表。這樣做還等于在處理數(shù)據(jù)庫變更時給你提供了更多的自由。
5. 其他設(shè)計技巧
1) 避免使用觸發(fā)器
觸發(fā)器的功能通常可以用其他方式實現(xiàn)。在調(diào)試程序時觸發(fā)器可能成為干擾。假如你確實需要采用觸發(fā)器,你最好集中對它文檔化。
2) 使用常用英語(或者其他任何語言)而不要使用編碼
在創(chuàng)建下拉菜單、列表、報表時最好按照英語名排序。假如需要編碼,可以在編碼旁附上用戶知道的英語。
3) 保存常用信息
讓一個表專門存放一般數(shù)據(jù)庫信息非常有用。在這個表里存放數(shù)據(jù)庫當前版本、最近檢查/修復(fù)(對Access)、關(guān)聯(lián)設(shè)計文檔的名稱、客戶等信息。這樣可以實現(xiàn)一種簡單機制跟蹤數(shù)據(jù)庫,當客戶抱怨他們的數(shù)據(jù)庫沒有達到希望的要求而與你聯(lián)系時,這樣做對非客戶機/服務(wù)器環(huán)境特別有用。
4) 包含版本機制
在數(shù)據(jù)庫中引入版本控制機制來確定使用中的數(shù)據(jù)庫的版本。時間一長,用戶的需求總是會改變的。最終可能會要求修改數(shù)據(jù)庫結(jié)構(gòu)。把版本信息直接存放到數(shù)據(jù)庫中更為方便。
5) 編制文檔
對所有的快捷方式、命名規(guī)范、限制和函數(shù)都要編制文檔。
采用給表、列、觸發(fā)器等加注釋的數(shù)據(jù)庫工具。對開發(fā)、支持和跟蹤修改非常有用。
對數(shù)據(jù)庫文檔化,或者在數(shù)據(jù)庫自身的內(nèi)部或者單獨建立文檔。這樣,當過了一年多時間后再回過頭來做第2 個版本,犯錯的機會將大大減少。
6) 測試、測試、反復(fù)測試
建立或者修訂數(shù)據(jù)庫之后,必須用用戶新輸入的數(shù)據(jù)測試數(shù)據(jù)字段。最重要的是,讓用戶進行測試并且同用戶一道保證選擇的數(shù)據(jù)類型滿足商業(yè)要求。測試需要在把新數(shù)據(jù)庫投入實際服務(wù)之前完成。
7) 檢查設(shè)計
在開發(fā)期間檢查數(shù)據(jù)庫設(shè)計的常用技術(shù)是通過其所支持的應(yīng)用程序原型檢查數(shù)據(jù)庫。換句話說,針對每一種最終表達數(shù)據(jù)的原型應(yīng)用,保證你檢查了數(shù)據(jù)模型并且查看如何取出數(shù)據(jù)。
三、數(shù)據(jù)庫命名規(guī)范
1. 實體(表)的命名
1) 表以名詞或名詞短語命名,確定表名是采用復(fù)數(shù)還是單數(shù)形式,此外給表的別名定義簡單規(guī)則(比方說,如果表名是一個單詞,別名就取單詞的前4 個字母;如果表名是兩個單詞,就各取兩個單詞的前兩個字母組成4 個字母長的別名;如果表的名字由3 個單詞組成,從頭兩個單詞中各取一個然后從最后一個單詞中再取出兩個字母,結(jié)果還是組成4 字母長的別名,其余依次類推)
對工作用表來說,表名可以加上前綴WORK_ 后面附上采用該表的應(yīng)用程序的名字。在命名過程當中,根據(jù)語義拼湊縮寫即可。注意,由于ORCLE會將字段名稱統(tǒng)一成大寫或者小寫中的一種,所以要求加上下劃線。
舉例:
定義的縮寫 Sales: Sal 銷售;
Order: Ord 訂單;
Detail: Dtl 明細;
則銷售訂單明細表命名為:Sal_Ord_Dtl;
2) 如果表或者是字段的名稱僅有一個單詞,那么建議不使用縮寫,而是用完整的單詞。
舉例:
定義的縮寫 Material Ma 物品;
物品表名為:Material, 而不是 Ma.
但是字段物品編碼則是:Ma_ID;而不是Material_ID
3) 所有的存儲值列表的表前面加上前綴Z
目的是將這些值列表類排序在數(shù)據(jù)庫最后。
4) 所有的冗余類的命名(主要是累計表)前面加上前綴X
冗余類是為了提高數(shù)據(jù)庫效率,非規(guī)范化數(shù)據(jù)庫的時候加入的字段或者表
5) 關(guān)聯(lián)類通過用下劃線連接兩個基本類之后,再加前綴R的方式命名,后面按照字母順序羅列兩個表名或者表名的縮寫。
關(guān)聯(lián)表用于保存多對多關(guān)系。
如果被關(guān)聯(lián)的表名大于10個字母,必須將原來的表名的進行縮寫。如果沒有其他原因,建議都使用縮寫。
舉例:表Object與自身存在多對多的關(guān)系,則保存多對多關(guān)系的表命名為:R_Object;
表 Depart和Employee;存在多對多的關(guān)系;則關(guān)聯(lián)表命名為R_Dept_Emp
2. 屬性(列)的命名
1) 采用有意義的列名,表內(nèi)的列要針對鍵采用一整套設(shè)計規(guī)則。每一個表都將有一個自動ID作為主健,邏輯上的主健作為第一組候選主健來定義,如果是數(shù)據(jù)庫自動生成的編碼,統(tǒng)一命名為:ID;如果是自定義的邏輯上的編碼則用縮寫加“ID”的方法命名。如果鍵是數(shù)字類型,你可以用_NO 作為后綴;如果是字符類型則可以采用_CODE 后綴。對列名應(yīng)該采用標準的前綴和后綴。
舉例:銷售訂單的編號字段命名:Sal_Ord_ID;如果還存在一個數(shù)據(jù)庫生成的自動編號,則命名為:ID。
2) 所有的屬性加上有關(guān)類型的后綴,注意,如果還需要其它的后綴,都放在類型后綴之前。
注: 數(shù)據(jù)類型是文本的字段,類型后綴TX可以不寫。有些類型比較明顯的字段,可以不寫類型后綴。
3) 采用前綴命名
給每個表的列名都采用統(tǒng)一的前綴,那么在編寫SQL表達式的時候會得到大大的簡化。這樣做也確實有缺點,比如破壞了自動表連接工具的作用,后者把公共列名同某些數(shù)據(jù)庫聯(lián)系起來。
3. 視圖的命名
1) 視圖以V作為前綴,其他命名規(guī)則和表的命名類似;
2) 命名應(yīng)盡量體現(xiàn)各視圖的功能。
4. 觸發(fā)器的命名
觸發(fā)器以TR作為前綴,觸發(fā)器名為相應(yīng)的表名加上后綴,Insert觸發(fā)器加'_I',Delete觸發(fā)器加'_D',Update觸發(fā)器加'_U',如:TR_Customer_I,TR_Customer_D,TR_Customer_U。
5. 存儲過程名
存儲過程應(yīng)以'UP_'開頭,和系統(tǒng)的存儲過程區(qū)分,后續(xù)部分主要以動賓形式構(gòu)成,并用下劃線分割各個組成部分。如增加代理商的帳戶的存儲過程為'UP_Ins_Agent_Account'。
6. 變量名
變量名采用小寫,若屬于詞組形式,用下劃線分隔每個單詞,如@my_err_no。
7. 命名中其他注意事項
1) 以上命名都不得超過30個字符的系統(tǒng)限制。變量名的長度限制為29(不包括標識字符@)。
2) 數(shù)據(jù)對象、變量的命名都采用英文字符,禁止使用中文命名。絕對不要在對象名的字符之間留空格。
3) 小心保留詞,要保證你的字段名沒有和保留詞、數(shù)據(jù)庫系統(tǒng)或者常用訪問方法沖突
5) 保持字段名和類型的一致性,在命名字段并為其指定數(shù)據(jù)類型的時候一定要保證一致性。假如數(shù)據(jù)類型在一個表里是整數(shù),那在另一個表里可就別變成字符型了。
網(wǎng)頁名稱:php數(shù)據(jù)庫物理設(shè)計 PHP數(shù)據(jù)庫設(shè)計
當前鏈接:http://chinadenli.net/article10/hehddo.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供Google、動態(tài)網(wǎng)站、微信公眾號、品牌網(wǎng)站制作、外貿(mào)建站、移動網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)