欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

分表分庫nosql,分表分庫怎么統(tǒng)計

分庫分表技術及技術方案

一、分庫分表的必要性

創(chuàng)新互聯(lián)公司是一家專業(yè)提供良慶企業(yè)網站建設,專注與成都網站建設、網站制作、H5網站設計、小程序制作等業(yè)務。10年已為良慶眾多企業(yè)、政府機構等服務。創(chuàng)新互聯(lián)專業(yè)網絡公司優(yōu)惠進行中。

分庫分表技術的使用,主要是數(shù)據庫產生了瓶頸,如單庫的并發(fā)訪問或單表的查詢都超出了閾值。對系統(tǒng)使用造成一定的影響,不得已而產生的技術。

通過分庫分表技術來解決此類問題,但正因為使用此技術,會產生ACID一系列的問題,各類中間件解決此類問題各有各的優(yōu)勢。

提示:如場景無必要,千萬不要使用分庫分表。

二、分庫分表的思路

1、垂直區(qū)分

垂直分庫:從業(yè)務角度,一個庫分成多個庫,如把訂單和用戶信息分成兩個庫來存儲。這樣的好處就是可以微服務了。每塊的業(yè)務單獨部署,互不影響,通過接口去調用。

垂直分表:把大表分成多個小表,如熱點數(shù)據和非熱點數(shù)據分開,提高查詢速度。

2、水平區(qū)分

水平分表:同一業(yè)務如數(shù)據量大了以后,根據一定的規(guī)則分為不同的表進行存儲。

水平分庫:如訂單分成多個庫存儲,分解服務器壓力。

以上一般來說,垂直分庫和水平分表用的會多些。

三、分庫分表的原理分析

分庫分表常用的方案:Hash取模方案和range范圍方案;

路由算法為最主要的算法,指得是把路由的Key按照指定的算法進行存放;

1、Hash取模方案

根據取余分配到不同的表里。要根據實際情況確認模的大小。此方案由于平均分配,不存在熱點問題,但數(shù)據遷移很復雜。

2、Range范圍方案

range根據范圍進行劃分,如日期,大小。此方案不存在數(shù)據遷移,但存在熱點問題。

四、分庫分表的技術選型

1、技術選型

解決方案主要分為4種:MySQL的分區(qū)技術、NoSql、NewSQL、MySQL的分庫分表。

(1)mysql分區(qū)技術:把一張表存放在不同存儲文件。由于無法負載,使用較少。

(2)NoSQL(如MongoDB):如是訂單等比較重要數(shù)據,強關聯(lián)關系,需約束一致性,不太適應。

(3)NewSql(具有NoSQL對海量數(shù)據的存儲管理能力,還保持了傳統(tǒng)數(shù)據庫支持ACID和SQL等特性):如TiDB可滿足需求。

(4)MySQL的分庫分表:如使用mysql,此種方案為主流方式。

2、中間件

解決此類問題的中間件主要為:Proxy模式、Client模式。

(1)Proxy模式

(2)Client模式

把分庫分表相關邏輯存放在客戶端,一版客戶端的應用會引用一個jar,然后再jar中處理SQL組合、數(shù)據庫路由、執(zhí)行結果合并等相關功能。

(3)中間件的比較

由于Client模式少了一層,運維方便,相對來說容易些。

五、分庫分表的實踐

根據容量(當前容量和增長量)評估分庫或分表個數(shù) - 選key(均勻)- 分表規(guī)則(hash或range等)- 執(zhí)行(一般雙寫)- 擴容問題(盡量減少數(shù)據的移動)。

在這里我們選用中間件share-jdbc。

1、引入maven依賴

2、spring boot規(guī)則配置

行表達式標識符可以使用${...}或$-{...},但前者與Spring本身的屬性文件占位符沖突,因此在Spring環(huán)境中使用行表達式標識符建議使用$-{...}。

3、創(chuàng)建DataSource

通過ShardingDataSourceFactory工廠和規(guī)則配置對象獲取ShardingDataSource,ShardingDataSource實現(xiàn)自JDBC的標準接口DataSource。然后即可通過DataSource選擇使用原生JDBC開發(fā),或者使用JPA, MyBatis等ORM工具。

為什么要使用NoSQL?NOSQL的優(yōu)勢

非常榮幸能受邀在InfoQ開辟這樣一個關于NoSQL的專欄,InfoQ是我非常尊重的一家技術媒體,同時我也希望借助InfoQ,在國內推動NoSQL的發(fā)展,希望跟我一樣有興趣的朋友加入進來。這次的NoSQL專欄系列將先整體介紹NoSQL,然后介紹如何把NoSQL運用到自己的項目中合適的場景中,還會適當?shù)胤治鲆恍┏晒Π咐M谐晒κ褂肗oSQL經驗的朋友給我提供一些線索和信息。 NoSQL概念隨著web2.0的快速發(fā)展,非關系型、分布式數(shù)據存儲得到了快速的發(fā)展,它們不保證關系數(shù)據的ACID特性。NoSQL概念在2009年被提了出來。NoSQL最常見的解釋是“non-relational”,“Not Only SQL”也被很多人接受。(“NoSQL”一詞最早于1998年被用于一個輕量級的關系數(shù)據庫的名字。) NoSQL被我們用得最多的當數(shù)key-value存儲,當然還有其他的文檔型的、列存儲、圖型數(shù)據庫、xml數(shù)據庫等。在NoSQL概念提出之前,這些數(shù)據庫就被用于各種系統(tǒng)當中,但是卻很少用于web互聯(lián)網應用。比如cdb、qdbm、bdb數(shù)據庫。 傳統(tǒng)關系數(shù)據庫的瓶頸 傳統(tǒng)的關系數(shù)據庫具有不錯的性能,高穩(wěn)定型,久經歷史考驗,而且使用簡單,功能強大,同時也積累了大量的成功案例。在互聯(lián)網領域,MySQL成為了絕對靠前的王者,毫不夸張的說,MySQL為互聯(lián)網的發(fā)展做出了卓越的貢獻。 在90年代,一個網站的訪問量一般都不大,用單個數(shù)據庫完全可以輕松應付。在那個時候,更多的都是靜態(tài)網頁,動態(tài)交互類型的網站不多。 到了最近10年,網站開始快速發(fā)展。火爆的論壇、博客、sns、微博逐漸引領web領域的潮流。在初期,論壇的流量其實也不大,如果你接觸網絡比較早,你可能還記得那個時候還有文本型存儲的論壇程序,可以想象一般的論壇的流量有多大。 Memcached+MySQL 后來,隨著訪問量的上升,幾乎大部分使用MySQL架構的網站在數(shù)據庫上都開始出現(xiàn)了性能問題,web程序不再僅僅專注在功能上,同時也在追求性能。程序員們開始大量的使用緩存技術來緩解數(shù)據庫的壓力,優(yōu)化數(shù)據庫的結構和索引。開始比較流行的是通過文件緩存來緩解數(shù)據庫壓力,但是當訪問量繼續(xù)增大的時候,多臺web機器通過文件緩存不能共享,大量的小文件緩存也帶了了比較高的IO壓力。在這個時候,Memcached就自然的成為一個非常時尚的技術產品。 Memcached作為一個獨立的分布式的緩存服務器,為多個web服務器提供了一個共享的高性能緩存服務,在Memcached服務器上,又發(fā)展了根據hash算法來進行多臺Memcached緩存服務的擴展,然后又出現(xiàn)了一致性hash來解決增加或減少緩存服務器導致重新hash帶來的大量緩存失效的弊端。當時,如果你去面試,你說你有Memcached經驗,肯定會加分的。 Mysql主從讀寫分離 由于數(shù)據庫的寫入壓力增加,Memcached只能緩解數(shù)據庫的讀取壓力。讀寫集中在一個數(shù)據庫上讓數(shù)據庫不堪重負,大部分網站開始使用主從復制技術來達到讀寫分離,以提高讀寫性能和讀庫的可擴展性。Mysql的master-slave模式成為這個時候的網站標配了。 分表分庫隨著web2.0的繼續(xù)高速發(fā)展,在Memcached的高速緩存,MySQL的主從復制,讀寫分離的基礎之上,這時MySQL主庫的寫壓力開始出現(xiàn)瓶頸,而數(shù)據量的持續(xù)猛增,由于MyISAM使用表鎖,在高并發(fā)下會出現(xiàn)嚴重的鎖問題,大量的高并發(fā)MySQL應用開始使用InnoDB引擎代替MyISAM。同時,開始流行使用分表分庫來緩解寫壓力和數(shù)據增長的擴展問題。這個時候,分表分庫成了一個熱門技術,是面試的熱門問題也是業(yè)界討論的熱門技術問題。也就在這個時候,MySQL推出了還不太穩(wěn)定的表分區(qū),這也給技術實力一般的公司帶來了希望。雖然MySQL推出了MySQL Cluster集群,但是由于在互聯(lián)網幾乎沒有成功案例,性能也不能滿足互聯(lián)網的要求,只是在高可靠性上提供了非常大的保證。 MySQL的擴展性瓶頸 在互聯(lián)網,大部分的MySQL都應該是IO密集型的,事實上,如果你的MySQL是個CPU密集型的話,那么很可能你的MySQL設計得有性能問題,需要優(yōu)化了。大數(shù)據量高并發(fā)環(huán)境下的MySQL應用開發(fā)越來越復雜,也越來越具有技術挑戰(zhàn)性。分表分庫的規(guī)則把握都是需要經驗的。雖然有像淘寶這樣技術實力強大的公司開發(fā)了透明的中間件層來屏蔽開發(fā)者的復雜性,但是避免不了整個架構的復雜性。分庫分表的子庫到一定階段又面臨擴展問題。還有就是需求的變更,可能又需要一種新的分庫方式。 MySQL數(shù)據庫也經常存儲一些大文本字段,導致數(shù)據庫表非常的大,在做數(shù)據庫恢復的時候就導致非常的慢,不容易快速恢復數(shù)據庫。比如1000萬4KB大小的文本就接近40GB的大小,如果能把這些數(shù)據從MySQL省去,MySQL將變得非常的小。 關系數(shù)據庫很強大,但是它并不能很好的應付所有的應用場景。MySQL的擴展性差(需要復雜的技術來實現(xiàn)),大數(shù)據下IO壓力大,表結構更改困難,正是當前使用MySQL的開發(fā)人員面臨的問題。 NOSQL的優(yōu)勢易擴展NoSQL數(shù)據庫種類繁多,但是一個共同的特點都是去掉關系數(shù)據庫的關系型特性。數(shù)據之間無關系,這樣就非常容易擴展。也無形之間,在架構的層面上帶來了可擴展的能力。 大數(shù)據量,高性能 NoSQL數(shù)據庫都具有非常高的讀寫性能,尤其在大數(shù)據量下,同樣表現(xiàn)優(yōu)秀。這得益于它的無關系性,數(shù)據庫的結構簡單。一般MySQL使用Query Cache,每次表的更新Cache就失效,是一種大粒度的Cache,在針對web2.0的交互頻繁的應用,Cache性能不高。而NoSQL的Cache是記錄級的,是一種細粒度的Cache,所以NoSQL在這個層面上來說就要性能高很多了。 靈活的數(shù)據模型 NoSQL無需事先為要存儲的數(shù)據建立字段,隨時可以存儲自定義的數(shù)據格式。而在關系數(shù)據庫里,增刪字段是一件非常麻煩的事情。如果是非常大數(shù)據量的表,增加字段簡直就是一個噩夢。這點在大數(shù)據量的web2.0時代尤其明顯。 高可用NoSQL在不太影響性能的情況,就可以方便的實現(xiàn)高可用的架構。比如Cassandra,HBase模型,通過復制模型也能實現(xiàn)高可用。 總結NoSQL數(shù)據庫的出現(xiàn),彌補了關系數(shù)據(比如MySQL)在某些方面的不足,在某些方面能極大的節(jié)省開發(fā)成本和維護成本。 MySQL和NoSQL都有各自的特點和使用的應用場景,兩者的緊密結合將會給web2.0的數(shù)據庫發(fā)展帶來新的思路。讓關系數(shù)據庫關注在關系上,NoSQL關注在存儲上。

MySQL數(shù)據庫性能優(yōu)化之分區(qū)分表分庫

分表是分散數(shù)據庫壓力的好方法。

分表,最直白的意思,就是將一個表結構分為多個表,然后,可以再同一個庫里,也可以放到不同的庫。

當然,首先要知道什么情況下,才需要分表。個人覺得單表記錄條數(shù)達到百萬到千萬級別時就要使用分表了。

分表的分類

**1、縱向分表**

將本來可以在同一個表的內容,人為劃分為多個表。(所謂的本來,是指按照關系型數(shù)據庫的第三范式要求,是應該在同一個表的。)

分表理由:根據數(shù)據的活躍度進行分離,(因為不同活躍的數(shù)據,處理方式是不同的)

案例:

對于一個博客系統(tǒng),文章標題,作者,分類,創(chuàng)建時間等,是變化頻率慢,查詢次數(shù)多,而且最好有很好的實時性的數(shù)據,我們把它叫做冷數(shù)據。而博客的瀏覽量,回復數(shù)等,類似的統(tǒng)計信息,或者別的變化頻率比較高的數(shù)據,我們把它叫做活躍數(shù)據。所以,在進行數(shù)據庫結構設計的時候,就應該考慮分表,首先是縱向分表的處理。

這樣縱向分表后:

首先存儲引擎的使用不同,冷數(shù)據使用MyIsam 可以有更好的查詢數(shù)據。活躍數(shù)據,可以使用Innodb ,可以有更好的更新速度。

其次,對冷數(shù)據進行更多的從庫配置,因為更多的操作時查詢,這樣來加快查詢速度。對熱數(shù)據,可以相對有更多的主庫的橫向分表處理。

其實,對于一些特殊的活躍數(shù)據,也可以考慮使用memcache ,redis之類的緩存,等累計到一定量再去更新數(shù)據庫。或者mongodb 一類的nosql 數(shù)據庫,這里只是舉例,就先不說這個。

**2、橫向分表**

字面意思,就可以看出來,是把大的表結構,橫向切割為同樣結構的不同表,如,用戶信息表,user_1,user_2等。表結構是完全一樣,但是,根據某些特定的規(guī)則來劃分的表,如根據用戶ID來取模劃分。

分表理由:根據數(shù)據量的規(guī)模來劃分,保證單表的容量不會太大,從而來保證單表的查詢等處理能力。

案例:同上面的例子,博客系統(tǒng)。當博客的量達到很大時候,就應該采取橫向分割來降低每個單表的壓力,來提升性能。例如博客的冷數(shù)據表,假如分為100個表,當同時有100萬個用戶在瀏覽時,如果是單表的話,會進行100萬次請求,而現(xiàn)在分表后,就可能是每個表進行1萬個數(shù)據的請求(因為,不可能絕對的平均,只是假設),這樣壓力就降低了很多很多。

延伸:為什么要分表和分區(qū)?

日常開發(fā)中我們經常會遇到大表的情況,所謂的大表是指存儲了百萬級乃至千萬級條記錄的表。這樣的表過于龐大,導致數(shù)據庫在查詢和插入的時候耗時太長,性能低下,如果涉及聯(lián)合查詢的情況,性能會更加糟糕。分表和表分區(qū)的目的就是減少數(shù)據庫的負擔,提高數(shù)據庫的效率,通常點來講就是提高表的增刪改查效率。

什么是分表?

分表是將一個大表按照一定的規(guī)則分解成多張具有獨立存儲空間的實體表,我們可以稱為子表,每個表都對應三個文件,MYD數(shù)據文件,.MYI索引文件,.frm表結構文件。這些子表可以分布在同一塊磁盤上,也可以在不同的機器上。app讀寫的時候根據事先定義好的規(guī)則得到對應的子表名,然后去操作它。

什么是分區(qū)?

分區(qū)和分表相似,都是按照規(guī)則分解表。不同在于分表將大表分解為若干個獨立的實體表,而分區(qū)是將數(shù)據分段劃分在多個位置存放,可以是同一塊磁盤也可以在不同的機器。分區(qū)后,表面上還是一張表,但數(shù)據散列到多個位置了。app讀寫的時候操作的還是大表名字,db自動去組織分區(qū)的數(shù)據。

**MySQL分表和分區(qū)有什么聯(lián)系呢?**

1、都能提高mysql的性高,在高并發(fā)狀態(tài)下都有一個良好的表現(xiàn)。

2、分表和分區(qū)不矛盾,可以相互配合的,對于那些大訪問量,并且表數(shù)據比較多的表,我們可以采取分表和分區(qū)結合的方式(如果merge這種分表方式,不能和分區(qū)配合的話,可以用其他的分表試),訪問量不大,但是表數(shù)據很多的表,我們可以采取分區(qū)的方式等。

3、分表技術是比較麻煩的,需要手動去創(chuàng)建子表,app服務端讀寫時候需要計算子表名。采用merge好一些,但也要創(chuàng)建子表和配置子表間的union關系。

4、表分區(qū)相對于分表,操作方便,不需要創(chuàng)建子表。

我們知道對于大型的互聯(lián)網應用,數(shù)據庫單表的數(shù)據量可能達到千萬甚至上億級別,同時面臨這高并發(fā)的壓力。Master-Slave結構只能對數(shù)據庫的讀能力進行擴展,寫操作還是集中在Master中,Master并不能無限制的掛接Slave庫,如果需要對數(shù)據庫的吞吐能力進行進一步的擴展,可以考慮采用分庫分表的策略。

**1、分表**

在分表之前,首先要選中合適的分表策略(以哪個字典為分表字段,需要將數(shù)據分為多少張表),使數(shù)據能夠均衡的分布在多張表中,并且不影響正常的查詢。在企業(yè)級應用中,往往使用org_id(組織主鍵)做為分表字段,在互聯(lián)網應用中往往是userid。在確定分表策略后,當數(shù)據進行存儲及查詢時,需要確定到哪張表里去查找數(shù)據,

數(shù)據存放的數(shù)據表 = 分表字段的內容 % 分表數(shù)量

**2、分庫**

分表能夠解決單表數(shù)據量過大帶來的查詢效率下降的問題,但是不能給數(shù)據庫的并發(fā)訪問帶來質的提升,面對高并發(fā)的寫訪問,當Master無法承擔高并發(fā)的寫入請求時,不管如何擴展Slave服務器,都沒有意義了。我們通過對數(shù)據庫進行拆分,來提高數(shù)據庫的寫入能力,即所謂的分庫。分庫采用對關鍵字取模的方式,對數(shù)據庫進行路由。

數(shù)據存放的數(shù)據庫=分庫字段的內容%數(shù)據庫的數(shù)量

**3、即分表又分庫**

數(shù)據庫分表可以解決單表海量數(shù)據的查詢性能問題,分庫可以解決單臺數(shù)據庫的并發(fā)訪問壓力問題。

當數(shù)據庫同時面臨海量數(shù)據存儲和高并發(fā)訪問的時候,需要同時采取分表和分庫策略。一般分表分庫策略如下:

中間變量 = 關鍵字%(數(shù)據庫數(shù)量*單庫數(shù)據表數(shù)量)

庫 = 取整(中間變量/單庫數(shù)據表數(shù)量)

表 = (中間變量%單庫數(shù)據表數(shù)量)

實例:

1、分庫分表

很明顯,一個主表(也就是很重要的表,例如用戶表)無限制的增長勢必嚴重影響性能,分庫與分表是一個很不錯的解決途徑,也就是性能優(yōu)化途徑,現(xiàn)在的案例是我們有一個1000多萬條記錄的用戶表members,查詢起來非常之慢,同事的做法是將其散列到100個表中,分別從members0到members99,然后根據mid分發(fā)記錄到這些表中,牛逼的代碼大概是這樣子:

復制代碼 代碼如下:

?php

for($i=0;$i 100; $i++ ){

//echo "CREATE TABLE db2.members{$i} LIKE db1.members

";

echo "INSERT INTO members{$i} SELECT * FROM members WHERE mid%100={$i}

";

}

?

2、不停機修改mysql表結構

同樣還是members表,前期設計的表結構不盡合理,隨著數(shù)據庫不斷運行,其冗余數(shù)據也是增長巨大,同事使用了下面的方法來處理:

先創(chuàng)建一個臨時表:

/*創(chuàng)建臨時表*/

CREATE TABLE members_tmp LIKE members

然后修改members_tmp的表結構為新結構,接著使用上面那個for循環(huán)來導出數(shù)據,因為1000萬的數(shù)據一次性導出是不對的,mid是主鍵,一個區(qū)間一個區(qū)間的導,基本是一次導出5萬條吧,這里略去了

接著重命名將新表替換上去:

/*這是個頗為經典的語句哈*/

RENAME TABLE members TO members_bak,members_tmp TO members;

就是這樣,基本可以做到無損失,無需停機更新表結構,但實際上RENAME期間表是被鎖死的,所以選擇在線少的時候操作是一個技巧。經過這個操作,使得原先8G多的表,一下子變成了2G多。

分庫分表 VS newsql數(shù)據庫

最近與同行 科技 交流,經常被問到分庫分表與分布式數(shù)據庫如何選擇,網上也有很多關于中間件+傳統(tǒng)關系數(shù)據庫(分庫分表)與NewSQL分布式數(shù)據庫的文章,但有些觀點與判斷是我覺得是偏激的,脫離環(huán)境去評價方案好壞其實有失公允。

本文通過對兩種模式關鍵特性實現(xiàn)原理對比,希望可以盡可能客觀、中立的闡明各自真實的優(yōu)缺點以及適用場景。

首先關于“中間件+關系數(shù)據庫分庫分表”算不算NewSQL分布式數(shù)據庫問題,國外有篇論文pavlo-newsql-sigmodrec,如果根據該文中的分類,Spanner、TiDB、OB算是第一種新架構型,Sharding-Sphere、Mycat、DRDS等中間件方案算是第二種(文中還有第三種云數(shù)據庫,本文暫不詳細介紹)。

基于中間件(包括SDK和Proxy兩種形式)+傳統(tǒng)關系數(shù)據庫(分庫分表)模式是不是分布式架構?我覺得是的,因為存儲確實也分布式了,也能實現(xiàn)橫向擴展。但是不是"偽"分布式數(shù)據庫?從架構先進性來看,這么說也有一定道理。"偽"主要體現(xiàn)在中間件層與底層DB重復的SQL解析與執(zhí)行計劃生成、存儲引擎基于B+Tree等,這在分布式數(shù)據庫架構中實際上冗余低效的。為了避免引起真?zhèn)畏植际綌?shù)據庫的口水戰(zhàn),本文中NewSQL數(shù)據庫特指這種新架構NewSQL數(shù)據庫。

NewSQL數(shù)據庫相比中間件+分庫分表的先進在哪兒?畫一個簡單的架構對比圖:

這些大多也是NewSQL數(shù)據庫產品主要宣傳的點,不過這些看起來很美好的功能是否真的如此?接下來針對以上幾點分別闡述下的我的理解。

這是把雙刃劍。

CAP限制

想想更早些出現(xiàn)的NoSQL數(shù)據庫為何不支持分布式事務(最新版的mongoDB等也開始支持了),是缺乏理論與實踐支撐嗎?并不是,原因是CAP定理依然是分布式數(shù)據庫頭上的頸箍咒,在保證強一致的同時必然會犧牲可用性A或分區(qū)容忍性P。為什么大部分NoSQL不提供分布式事務?

那么NewSQL數(shù)據庫突破CAP定理限制了嗎?并沒有。NewSQL數(shù)據庫的鼻主Google Spanner(目前絕大部分分布式數(shù)據庫都是按照Spanner架構設計的)提供了一致性和大于5個9的可用性,宣稱是一個“實際上是CA”的,其真正的含義是 系統(tǒng)處于 CA 狀態(tài)的概率非常高,由于網絡分區(qū)導致的服務停用的概率非常小 ,究其真正原因是其打造私有全球網保證了不會出現(xiàn)網絡中斷引發(fā)的網絡分區(qū),另外就是其高效的運維隊伍,這也是cloud spanner的賣點。詳細可見CAP提出者Eric Brewer寫的《Spanner, TrueTime 和CAP理論》。

完備性 :

兩階段提交協(xié)議是否嚴格支持ACID,各種異常場景是不是都可以覆蓋?

2PC在commit階段發(fā)送異常,其實跟最大努力一階段提交類似也會有部分可見問題,嚴格講一段時間內并不能保證A原子性和C一致性(待故障恢復后recovery機制可以保證最終的A和C)。完備的分布式事務支持并不是一件簡單的事情,需要可以應對網絡以及各種硬件包括網卡、磁盤、CPU、內存、電源等各類異常,通過嚴格的測試。之前跟某友商交流,他們甚至說目前已知的NewSQL在分布式事務支持上都是不完整的,他們都有案例跑不過,圈內人士這么篤定,也說明了 分布式事務的支持完整程度其實是層次不齊的。

但分布式事務又是這些NewSQL數(shù)據庫的一個非常重要的底層機制,跨資源的DML、DDL等都依賴其實現(xiàn),如果這塊的性能、完備性打折扣,上層跨分片SQL執(zhí)行的正確性會受到很大影響。

性能

傳統(tǒng)關系數(shù)據庫也支持分布式事務XA,但為何很少有高并發(fā)場景下用呢? 因為XA的基礎兩階段提交協(xié)議存在網絡開銷大,阻塞時間長、死鎖等問題,這也導致了其實際上很少大規(guī)模用在基于傳統(tǒng)關系數(shù)據庫的OLTP系統(tǒng)中。

NewSQL數(shù)據庫的分布式事務實現(xiàn)也仍然多基于兩階段提交協(xié)議,例如google percolator分布式事務模型,

采用原子鐘+MVCC+ Snapshot Isolation(SI),這種方式通過TSO(Timestamp Oracle)保證了全局一致性,通過MVCC避免了鎖,另外通過primary lock和secondary lock將提交的一部分轉為異步,相比XA確實提高了分布式事務的性能。

但不管如何優(yōu)化,相比于1PC,2PC多出來的GID獲取、網絡開銷、prepare日志持久化還是會帶來很大的性能損失,尤其是跨節(jié)點的數(shù)量比較多時會更加顯著,例如在銀行場景做個批量扣款,一個文件可能上W個賬戶,這樣的場景無論怎么做還是吞吐都不會很高。

雖然NewSQL分布式數(shù)據庫產品都宣傳完備支持分布式事務,但這并不是說應用可以完全不用關心數(shù)據拆分,這些數(shù)據庫的最佳實踐中仍然會寫到,應用的大部分場景盡可能避免分布式事務。

既然強一致事務付出的性能代價太大,我們可以反思下是否真的需要這種強一致的分布式事務?尤其是在做微服務拆分后,很多系統(tǒng)也不太可能放在一個統(tǒng)一的數(shù)據庫中。嘗試將一致性要求弱化,便是柔性事務,放棄ACID(Atomicity,Consistency, Isolation, Durability),轉投BASE(Basically Available,Soft state,Eventually consistent),例如Saga、TCC、可靠消息保證最終一致等模型,對于大規(guī)模高并發(fā)OLTP場景,我個人更建議使用柔性事務而非強一致的分布式事務。關于柔性事務,筆者之前也寫過一個技術組件,最近幾年也涌現(xiàn)出了一些新的模型與框架(例如阿里剛開源的Fescar),限于篇幅不再贅述,有空再單獨寫篇文章。

HA與異地多活

主從模式并不是最優(yōu)的方式,就算是半同步復制,在極端情況下(半同步轉異步)也存在丟數(shù)問題,目前業(yè)界公認更好的方案是基于paxos分布式一致性協(xié)議或者其它類paxos如raft方式,Google Spanner、TiDB、cockcoachDB、OB都采用了這種方式,基于Paxos協(xié)議的多副本存儲,遵循過半寫原則,支持自動選主,解決了數(shù)據的高可靠,縮短了failover時間,提高了可用性,特別是減少了運維的工作量,這種方案技術上已經很成熟,也是NewSQL數(shù)據庫底層的標配。

當然這種方式其實也可以用在傳統(tǒng)關系數(shù)據庫,阿里、微信團隊等也有將MySQL存儲改造支持paxos多副本的,MySQL也推出了官方版MySQL Group Cluster,預計不遠的未來主從模式可能就成為 歷史 了。

需要注意的是很多NewSQL數(shù)據庫廠商宣傳基于paxos或raft協(xié)議可以實現(xiàn)【異地多活】,這個實際上是有前提的,那就是異地之間網絡延遲不能太高 。以銀行“兩地三中心”為例,異地之間多相隔數(shù)千里,延時達到數(shù)十毫秒,如果要多活,那便需異地副本也參與數(shù)據庫日志過半確認,這樣高的延時幾乎沒有OLTP系統(tǒng)可以接受的。

數(shù)據庫層面做異地多活是個美好的愿景,但距離導致的延時目前并沒有好的方案。 之前跟螞蟻團隊交流,螞蟻異地多活的方案是在應用層通過MQ同步雙寫交易信息,異地DC將交易信息保存在分布式緩存中,一旦發(fā)生異地切換,數(shù)據庫同步中間件會告之數(shù)據延遲時間,應用從緩存中讀取交易信息,將這段時間內涉及到的業(yè)務對象例如用戶、賬戶進行黑名單管理,等數(shù)據同步追上之后再將這些業(yè)務對象從黑名單中剔除。由于雙寫的不是所有數(shù)據庫操作日志而只是交易信息,數(shù)據延遲只影響一段時間內數(shù)據,這是目前我覺得比較靠譜的異地度多活方案。

另外有些系統(tǒng)進行了單元化改造,這在paxos選主時也要結合考慮進去,這也是目前很多NewSQL數(shù)據庫欠缺的功能。

Scale橫向擴展與分片機制

paxos算法解決了高可用、高可靠問題,并沒有解決Scale橫向擴展的問題,所以分片是必須支持的。NewSQL數(shù)據庫都是天生內置分片機制的,而且會根據每個分片的數(shù)據負載(磁盤使用率、寫入速度等)自動識別熱點,然后進行分片的分裂、數(shù)據遷移、合并,這些過程應用是無感知的,這省去了DBA的很多運維工作量。以TiDB為例,它將數(shù)據切成region,如果region到64M時,數(shù)據自動進行遷移。

分庫分表模式下需要應用設計之初就要明確各表的拆分鍵、拆分方式(range、取模、一致性哈希或者自定義路由表)、路由規(guī)則、拆分庫表數(shù)量、擴容方式等。相比NewSQL數(shù)據庫,這種模式給應用帶來了很大侵入和復雜度,這對大多數(shù)系統(tǒng)來說也是一大挑戰(zhàn)。

這里有個問題是NewSQL數(shù)據庫統(tǒng)一的內置分片策略(例如tidb基于range)可能并不是最高效的,因為與領域模型中的劃分要素并不一致,這導致的后果是很多交易會產生分布式事務。 舉個例子,銀行核心業(yè)務系統(tǒng)是以客戶為維度,也就是說客戶表、該客戶的賬戶表、流水表在絕大部分場景下是一起寫的,但如果按照各表主鍵range進行分片,這個交易并不能在一個分片上完成,這在高頻OLTP系統(tǒng)中會帶來性能問題。

分布式SQL支持

常見的單分片SQL,這兩者都能很好支持。NewSQL數(shù)據庫由于定位與目標是一個通用的數(shù)據庫,所以支持的SQL會更完整,包括跨分片的join、聚合等復雜SQL。中間件模式多面向應用需求設計,不過大部分也支持帶拆分鍵SQL、庫表遍歷、單庫join、聚合、排序、分頁等。但對跨庫的join以及聚合支持就不夠了。

NewSQL數(shù)據庫一般并不支持存儲過程、視圖、外鍵等功能,而中間件模式底層就是傳統(tǒng)關系數(shù)據庫,這些功能如果只是涉及單庫是比較容易支持的。

NewSQL數(shù)據庫往往選擇兼容MySQL或者PostgreSQL協(xié)議,所以SQL支持僅局限于這兩種,中間件例如驅動模式往往只需做簡單的SQL解析、計算路由、SQL重寫,所以可以支持更多種類的數(shù)據庫SQL。

SQL支持的差異主要在于分布式SQL執(zhí)行計劃生成器,由于NewSQL數(shù)據庫具有底層數(shù)據的分布、統(tǒng)計信息,因此可以做CBO,生成的執(zhí)行計劃效率更高,而中間件模式下沒有這些信息,往往只能基于規(guī)則RBO(Rule-Based-Opimization),這也是為什么中間件模式一般并不支持跨庫join,因為實現(xiàn)了效率也往往并不高,還不如交給應用去做。

存儲引擎

傳統(tǒng)關系數(shù)據庫的存儲引擎設計都是面向磁盤的,大多都基于B+樹。B+樹通過降低樹的高度減少隨機讀、進而減少磁盤尋道次數(shù),提高讀的性能,但大量的隨機寫會導致樹的分裂,從而帶來隨機寫,導致寫性能下降。NewSQL的底層存儲引擎則多采用LSM,相比B+樹LSM將對磁盤的隨機寫變成順序寫,大大提高了寫的性能。不過LSM的的讀由于需要合并數(shù)據性能比B+樹差,一般來說LSM更適合應在寫大于讀的場景。當然這只是單純數(shù)據結構角度的對比,在數(shù)據庫實際實現(xiàn)時還會通過SSD、緩沖、bloom filter等方式優(yōu)化讀寫性能,所以讀性能基本不會下降太多。NewSQL數(shù)據由于多副本、分布式事務等開銷,相比單機關系數(shù)據庫SQL的響應時間并不占優(yōu),但由于集群的彈性擴展,整體QPS提升還是很明顯的,這也是NewSQL數(shù)據庫廠商說分布式數(shù)據庫更看重的是吞吐,而不是單筆SQL響應時間的原因。

成熟度與生態(tài)

分布式數(shù)據庫是個新型通用底層軟件,準確的衡量與評價需要一個多維度的測試模型,需包括發(fā)展現(xiàn)狀、使用情況、社區(qū)生態(tài)、監(jiān)控運維、周邊配套工具、功能滿足度、DBA人才、SQL兼容性、性能測試、高可用測試、在線擴容、分布式事務、隔離級別、在線DDL等等,雖然NewSQL數(shù)據庫發(fā)展經過了一定時間檢驗,但多集中在互聯(lián)網以及傳統(tǒng)企業(yè)非核心交易系統(tǒng)中,目前還處于快速迭代、規(guī)模使用不斷優(yōu)化完善的階段。

相比而言,傳統(tǒng)關系數(shù)據庫則經過了多年的發(fā)展,通過完整的評測,在成熟度、功能、性能、周邊生態(tài)、風險把控、相關人才積累等多方面都具有明顯優(yōu)勢,同時對已建系統(tǒng)的兼容性也更好。

對于互聯(lián)網公司,數(shù)據量的增長壓力以及追求新技術的基因會更傾向于嘗試NewSQL數(shù)據庫,不用再考慮庫表拆分、應用改造、擴容、事務一致性等問題怎么看都是非常吸引人的方案。

對于傳統(tǒng)企業(yè)例如銀行這種風險意識較高的行業(yè)來說,NewSQL數(shù)據庫則可能在未來一段時間內仍處于 探索 、審慎試點的階段。基于中間件+分庫分表模式架構簡單,技術門檻更低,雖然沒有NewSQL數(shù)據庫功能全面,但大部分場景最核心的訴求也就是拆分后SQL的正確路由,而此功能中間件模式應對還是綽綽有余的,可以說在大多數(shù)OLTP場景是夠用的。

限于篇幅,其它特性例如在線DDL、數(shù)據遷移、運維工具等特性就不在本文展開對比。

總結

如果看完以上內容,您還不知道選哪種模式,那么結合以下幾個問題,先思考下NewSQL數(shù)據庫解決的點對于自身是不是真正的痛點:

如果以上有2到3個是肯定的,那么你可以考慮用NewSQL數(shù)據庫了,雖然前期可能需要一定的學習成本,但它是數(shù)據庫的發(fā)展方向,未來收益也會更高,尤其是互聯(lián)網行業(yè),隨著數(shù)據量的突飛猛進,分庫分表帶來的痛苦會與日俱增。當然選擇NewSQL數(shù)據庫你也要做好承擔一定風險的準備。

如果你還未做出抉擇,不妨再想想下面幾個問題:

如果這些問題有多數(shù)是肯定的,那還是分庫分表吧。在軟件領域很少有完美的解決方案,NewSQL數(shù)據庫也不是數(shù)據分布式架構的銀彈。相比而言分庫分表是一個代價更低、風險更小的方案,它最大程度復用傳統(tǒng)關系數(shù)據庫生態(tài),通過中間件也可以滿足分庫分表后的絕大多數(shù)功能,定制化能力更強。 在當前NewSQL數(shù)據庫還未完全成熟的階段,分庫分表可以說是一個上限低但下限高的方案,尤其傳統(tǒng)行業(yè)的核心系統(tǒng),如果你仍然打算把數(shù)據庫當做一個黑盒產品來用,踏踏實實用好分庫分表會被認為是個穩(wěn)妥的選擇。

很多時候軟件選型取決于領域特征以及架構師風格,限于筆者知識與所屬行業(yè)特點所限,以上僅為個人粗淺的一些觀點,歡迎討論。

nosql是什么

NoSQL,泛指非關系型的數(shù)據庫。隨著互聯(lián)網web2.0網站的興起,傳統(tǒng)的關系數(shù)據庫在應付web2.0網站,特別是超大規(guī)模和高并發(fā)的SNS類型的web2.0純動態(tài)網站已經顯得力不從心,暴露了很多難以克服的問題,而非關系型的數(shù)據庫則由于其本身的特點得到了非常迅速的發(fā)展。NoSQL數(shù)據庫的產生就是為了解決大規(guī)模數(shù)據集合多重數(shù)據種類帶來的挑戰(zhàn),尤其是大數(shù)據應用難題。

雖然NoSQL流行語火起來才短短一年的時間,但是不可否認,現(xiàn)在已經開始了第二代運動。盡管早期的堆棧代碼只能算是一種實驗,然而現(xiàn)在的系統(tǒng)已經更加的成熟、穩(wěn)定。不過現(xiàn)在也面臨著一個嚴酷的事實:技術越來越成熟——以至于原來很好的NoSQL數(shù)據存儲不得不進行重寫,也有少數(shù)人認為這就是所謂的2.0版本。這里列出一些比較知名的工具,可以為大數(shù)據建立快速、可擴展的存儲庫。

NoSQL(NoSQL = Not Only SQL ),意即“不僅僅是SQL”,是一項全新的數(shù)據庫革命性運動,早期就有人提出,發(fā)展至2009年趨勢越發(fā)高漲。NoSQL的擁護者們提倡運用非關系型的數(shù)據存儲,相對于鋪天蓋地的關系型數(shù)據庫運用,這一概念無疑是一種全新的思維的注入。

對于NoSQL并沒有一個明確的范圍和定義,但是他們都普遍存在下面一些共同特征:

不需要預定義模式:不需要事先定義數(shù)據模式,預定義表結構。數(shù)據中的每條記錄都可能有不同的屬性和格式。當插入數(shù)據時,并不需要預先定義它們的模式。

無共享架構:相對于將所有數(shù)據存儲的存儲區(qū)域網絡中的全共享架構。NoSQL往往將數(shù)據劃分后存儲在各個本地服務器上。因為從本地磁盤讀取數(shù)據的性能往往好于通過網絡傳輸讀取數(shù)據的性能,從而提高了系統(tǒng)的性能。

彈性可擴展:可以在系統(tǒng)運行的時候,動態(tài)增加或者刪除結點。不需要停機維護,數(shù)據可以自動遷移。

分區(qū):相對于將數(shù)據存放于同一個節(jié)點,NoSQL數(shù)據庫需要將數(shù)據進行分區(qū),將記錄分散在多個節(jié)點上面。并且通常分區(qū)的同時還要做復制。這樣既提高了并行性能,又能保證沒有單點失效的問題。

異步復制:和RAID存儲系統(tǒng)不同的是,NoSQL中的復制,往往是基于日志的異步復制。這樣,數(shù)據就可以盡快地寫入一個節(jié)點,而不會被網絡傳輸引起遲延。缺點是并不總是能保證一致性,這樣的方式在出現(xiàn)故障的時候,可能會丟失少量的數(shù)據。

BASE:相對于事務嚴格的ACID特性,NoSQL數(shù)據庫保證的是BASE特性。BASE是最終一致性和軟事務。

NoSQL數(shù)據庫并沒有一個統(tǒng)一的架構,兩種NoSQL數(shù)據庫之間的不同,甚至遠遠超過兩種關系型數(shù)據庫的不同。可以說,NoSQL各有所長,成功的NoSQL必然特別適用于某些場合或者某些應用,在這些場合中會遠遠勝過關系型數(shù)據庫和其他的NoSQL。

網站題目:分表分庫nosql,分表分庫怎么統(tǒng)計
分享鏈接:http://chinadenli.net/article5/dsieeoi.html

成都網站建設公司_創(chuàng)新互聯(lián),為您提供動態(tài)網站網站維護企業(yè)網站制作云服務器搜索引擎優(yōu)化小程序開發(fā)

廣告

聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

商城網站建設