nosql產(chǎn)生的時(shí)代背景,nosql的誕生背景和應(yīng)用場景

NewSQL為何使傳統(tǒng)關(guān)系數(shù)據(jù)庫黯然失色？

傳統(tǒng)數(shù)據(jù)庫仍舊會有一席之地，至于NewSQL的優(yōu)勢又是什么，簡單和大家說說：

創(chuàng)新互聯(lián)專業(yè)IDC數(shù)據(jù)服務(wù)器托管提供商，專業(yè)提供成都服務(wù)器托管，服務(wù)器租用，四川主機(jī)托管，四川主機(jī)托管，成都多線服務(wù)器托管等服務(wù)器托管服務(wù)。

首先關(guān)于“中間件+關(guān)系數(shù)據(jù)庫分庫分表”算不算NewSQL分布式數(shù)據(jù)庫問題，國外有篇論文pavlo-newsql-sigmodrec，如果根據(jù)該文中的分類，Spanner、TiDB、OB算是第一種新架構(gòu)型，Sharding-Sphere、Mycat、DRDS等中間件方案算是第二種（文中還有第三種云數(shù)據(jù)庫，本文暫不詳細(xì)介紹）。

基于中間件（包括SDK和Proxy兩種形式）+傳統(tǒng)關(guān)系數(shù)據(jù)庫（分庫分表）模式是不是分布式架構(gòu)？我覺得是的，因?yàn)榇鎯Υ_實(shí)也分布式了，也能實(shí)現(xiàn)橫向擴(kuò)展。但是不是“偽”分布式數(shù)據(jù)庫？從架構(gòu)先進(jìn)性來看，這么說也有一定道理。

“偽”主要體現(xiàn)在中間件層與底層DB重復(fù)的SQL解析與執(zhí)行計(jì)劃生成、存儲引擎基于B+Tree等，這在分布式數(shù)據(jù)庫架構(gòu)中實(shí)際上冗余低效的。為了避免引起真?zhèn)畏植际綌?shù)據(jù)庫的口水戰(zhàn)，本文中NewSQL數(shù)據(jù)庫特指這種新架構(gòu)NewSQL數(shù)據(jù)庫。

NewSQL數(shù)據(jù)庫相比中間件+分庫分表的先進(jìn)在哪兒？畫一個(gè)簡單的架構(gòu)對比圖：

傳統(tǒng)數(shù)據(jù)庫面向磁盤設(shè)計(jì)，基于內(nèi)存的存儲管理及并發(fā)控制，不如NewSQL數(shù)據(jù)庫那般高效利用；

中間件模式SQL解析、執(zhí)行計(jì)劃優(yōu)化等在中間件與數(shù)據(jù)庫中重復(fù)工作，效率相比較低；

NewSQL數(shù)據(jù)庫的分布式事務(wù)相比于XA進(jìn)行了優(yōu)化，性能更高；

新架構(gòu)NewSQL數(shù)據(jù)庫存儲設(shè)計(jì)即為基于paxos（或Raft）協(xié)議的多副本，相比于傳統(tǒng)數(shù)據(jù)庫主從模式（半同步轉(zhuǎn)異步后也存在丟數(shù)問題），在實(shí)現(xiàn)了真正的高可用、高可靠（RTO30s，RPO=0）；

NewSQL數(shù)據(jù)庫天生支持?jǐn)?shù)據(jù)分片，數(shù)據(jù)的遷移、擴(kuò)容都是自動化的，大大減輕了DBA的工作，同時(shí)對應(yīng)用透明，無需在SQL指定分庫分表鍵。

互聯(lián)網(wǎng)背景下為什么會出現(xiàn)NoSQL

NoSQL泛指非關(guān)系型數(shù)據(jù)庫。隨著互聯(lián)網(wǎng)行業(yè)的興起與發(fā)展，傳統(tǒng)的數(shù)據(jù)庫結(jié)構(gòu)已經(jīng)很難適應(yīng)大規(guī)模數(shù)據(jù)、非結(jié)構(gòu)性數(shù)據(jù)帶來的挑戰(zhàn)，也就是現(xiàn)在大數(shù)據(jù)行業(yè)的發(fā)展對傳統(tǒng)的數(shù)據(jù)庫發(fā)出了挑戰(zhàn)，而為了應(yīng)對大規(guī)模的非結(jié)構(gòu)性數(shù)據(jù)的處理，非關(guān)系型數(shù)據(jù)庫才會在計(jì)算機(jī)、軟件、數(shù)據(jù)庫等方面得到飛速的發(fā)展。

nosql數(shù)據(jù)庫是什么具有代表性以key-value的形式存儲的

什么是NoSQL

大家有沒有聽說過“NoSQL”呢?近年，這個(gè)詞極受關(guān)注。看到“NoSQL”這個(gè)詞，大家可能會誤以為是“No!SQL”的縮寫，并深感憤怒：“SQL怎么會沒有必要了呢?”但實(shí)際上，它是“Not Only SQL”的縮寫。它的意義是：適用關(guān)系型數(shù)據(jù)庫的時(shí)候就使用關(guān)系型數(shù)據(jù)庫，不適用的時(shí)候也沒有必要非使用關(guān)系型數(shù)據(jù)庫不可，可以考慮使用更加合適的數(shù)據(jù)存儲。

為彌補(bǔ)關(guān)系型數(shù)據(jù)庫的不足，各種各樣的NoSQL數(shù)據(jù)庫應(yīng)運(yùn)而生。

為了更好地了解本書所介紹的NoSQL數(shù)據(jù)庫，對關(guān)系型數(shù)據(jù)庫的理解是必不可少的。那么，就讓我們先來看一看關(guān)系型數(shù)據(jù)庫的歷史、分類和特征吧。

關(guān)系型數(shù)據(jù)庫簡史

1969年，埃德加?6?1弗蘭克?6?1科德(Edgar Frank Codd)發(fā)表了劃時(shí)代的論文，首次提出了關(guān)系數(shù)據(jù)模型的概念。但可惜的是，刊登論文的《IBM Research Report》只是IBM公司的內(nèi)部刊物，因此論文反響平平。1970年，他再次在刊物《Communication of the ACM》上發(fā)表了題為“A Relational Model of Data for Large Shared Data banks”(大型共享數(shù)據(jù)庫的關(guān)系模型)的論文，終于引起了大家的關(guān)注。

科德所提出的關(guān)系數(shù)據(jù)模型的概念成為了現(xiàn)今關(guān)系型數(shù)據(jù)庫的基礎(chǔ)。當(dāng)時(shí)的關(guān)系型數(shù)據(jù)庫由于硬件性能低劣、處理速度過慢而遲遲沒有得到實(shí)際應(yīng)用。但之后隨著硬件性能的提升，加之使用簡單、性能優(yōu)越等優(yōu)點(diǎn)，關(guān)系型數(shù)據(jù)庫得到了廣泛的應(yīng)用。

通用性及高性能

雖然本書是講解NoSQL數(shù)據(jù)庫的，但有一個(gè)重要的大前提，請大家一定不要誤解。這個(gè)大前提就是“關(guān)系型數(shù)據(jù)庫的性能絕對不低，它具有非常好的通用性和非常高的性能”。毫無疑問，對于絕大多數(shù)的應(yīng)用來說它都是最有效的解決方案。

突出的優(yōu)勢

關(guān)系型數(shù)據(jù)庫作為應(yīng)用廣泛的通用型數(shù)據(jù)庫，它的突出優(yōu)勢主要有以下幾點(diǎn):

保持?jǐn)?shù)據(jù)的一致性(事務(wù)處理)

由于以標(biāo)準(zhǔn)化為前提，數(shù)據(jù)更新的開銷很小(相同的字段基本上都只有一處)

可以進(jìn)行JOIN等復(fù)雜查詢

存在很多實(shí)際成果和專業(yè)技術(shù)信息(成熟的技術(shù))

這其中，能夠保持?jǐn)?shù)據(jù)的一致性是關(guān)系型數(shù)據(jù)庫的最大優(yōu)勢。在需要嚴(yán)格保證數(shù)據(jù)一致性和處理完整性的情況下，用關(guān)系型數(shù)據(jù)庫是肯定沒有錯(cuò)的。但是有些情況不需要JOIN，對上述關(guān)系型數(shù)據(jù)庫的優(yōu)點(diǎn)也沒有什么特別需要，這時(shí)似乎也就沒有必要拘泥于關(guān)系型數(shù)據(jù)庫了。

關(guān)系型數(shù)據(jù)庫的不足

不擅長的處理

就像之前提到的那樣，關(guān)系型數(shù)據(jù)庫的性能非常高。但是它畢竟是一個(gè)通用型的數(shù)據(jù)庫，并不能完全適應(yīng)所有的用途。具體來說它并不擅長以下處理：

大量數(shù)據(jù)的寫入處理

為有數(shù)據(jù)更新的表做索引或表結(jié)構(gòu)(schema)變更

字段不固定時(shí)應(yīng)用

對簡單查詢需要快速返回結(jié)果的處理

。。。。。。

NoSQL數(shù)據(jù)庫

為了彌補(bǔ)關(guān)系型數(shù)據(jù)庫的不足(特別是最近幾年)，NoSQL數(shù)據(jù)庫出現(xiàn)了。關(guān)系型數(shù)據(jù)庫應(yīng)用廣泛，能進(jìn)行事務(wù)處理和JOIN等復(fù)雜處理。相對地，NoSQL數(shù)據(jù)庫只應(yīng)用在特定領(lǐng)域，基本上不進(jìn)行復(fù)雜的處理，但它恰恰彌補(bǔ)了之前所列舉的關(guān)系型數(shù)據(jù)庫的不足之處。

易于數(shù)據(jù)的分散

如前所述，關(guān)系型數(shù)據(jù)庫并不擅長大量數(shù)據(jù)的寫入處理。原本關(guān)系型數(shù)據(jù)庫就是以JOIN為前提的，就是說，各個(gè)數(shù)據(jù)之間存在關(guān)聯(lián)是關(guān)系型數(shù)據(jù)庫得名的主要原因。為了進(jìn)行JOIN處理，關(guān)系型數(shù)據(jù)庫不得不把數(shù)據(jù)存儲在同一個(gè)服務(wù)器內(nèi)，這不利于數(shù)據(jù)的分散。相反，NoSQL數(shù)據(jù)庫原本就不支持JOIN處理，各個(gè)數(shù)據(jù)都是獨(dú)立設(shè)計(jì)的，很容易把數(shù)據(jù)分散到多個(gè)服務(wù)器上。由于數(shù)據(jù)被分散到了多個(gè)服務(wù)器上，減少了每個(gè)服務(wù)器上的數(shù)據(jù)量，即使要進(jìn)行大量數(shù)據(jù)的寫入操作，處理起來也更加容易。同理，數(shù)據(jù)的讀入操作當(dāng)然也同樣容易。

提升性能和增大規(guī)模

下面說一點(diǎn)題外話，如果想要使服務(wù)器能夠輕松地處理更大量的數(shù)據(jù)，那么只有兩個(gè)選擇：一是提升性能，二是增大規(guī)模。下面我們來整理一下這兩者的不同。

首先，提升性能指的就是通過提升現(xiàn)行服務(wù)器自身的性能來提高處理能力。這是非常簡單的方法，程序方面也不需要進(jìn)行變更，但需要一些費(fèi)用。若要購買性能翻倍的服務(wù)器，需要花費(fèi)的資金往往不只是原來的2倍，可能需要多達(dá)5到10倍。這種方法雖然簡單，但是成本較高。

另一方面，增大規(guī)模指的是使用多臺廉價(jià)的服務(wù)器來提高處理能力。它需要對程序進(jìn)行變更，但由于使用廉價(jià)的服務(wù)器，可以控制成本。另外，以后只要依葫蘆畫瓢增加廉價(jià)服務(wù)器的數(shù)量就可以了。

不對大量數(shù)據(jù)進(jìn)行處理的話就沒有使用的必要嗎？

NoSQL數(shù)據(jù)庫基本上來說為了“使大量數(shù)據(jù)的寫入處理更加容易(讓增加服務(wù)器數(shù)量更容易)”而設(shè)計(jì)的。但如果不是對大量數(shù)據(jù)進(jìn)行操作的話，NoSQL數(shù)據(jù)庫的應(yīng)用就沒有意義嗎?

答案是否定的。的確，它在處理大量數(shù)據(jù)方面很有優(yōu)勢。但實(shí)際上NoSQL數(shù)據(jù)庫還有各種各樣的特點(diǎn)，如果能夠恰當(dāng)?shù)乩眠@些特點(diǎn)將會是非常有幫助。具體的例子將會在第2章和第3章進(jìn)行介紹，這些用途將會讓你感受到利用NoSQL的好處。

希望順暢地對數(shù)據(jù)進(jìn)行緩存(Cache)處理

希望對數(shù)組類型的數(shù)據(jù)進(jìn)行高速處理

希望進(jìn)行全部保存

多樣的NoSQL數(shù)據(jù)庫

NoSQL數(shù)據(jù)庫存在著“key-value存儲”、“文檔型數(shù)據(jù)庫”、“列存儲數(shù)據(jù)庫”等各種各樣的種類，每種數(shù)據(jù)庫又包含各自的特點(diǎn)。下一節(jié)讓我們一起來了解一下NoSQL數(shù)據(jù)庫的種類和特點(diǎn)。

NoSQL數(shù)據(jù)庫是什么

NoSQL說起來簡單，但實(shí)際上到底有多少種呢?我在提筆的時(shí)候，到NoSQL的官方網(wǎng)站上確認(rèn)了一下，竟然已經(jīng)有122種了。另外官方網(wǎng)站上也介紹了本書沒有涉及到的圖形數(shù)據(jù)庫和對象數(shù)據(jù)庫等各個(gè)類別。不知不覺間，原來已經(jīng)出現(xiàn)了這么多的NoSQL數(shù)據(jù)庫啊。

本節(jié)將為大家介紹具有代表性的NoSQL數(shù)據(jù)庫。

key-value存儲

這是最常見的NoSQL數(shù)據(jù)庫，它的數(shù)據(jù)是以key-value的形式存儲的。雖然它的處理速度非常快，但是基本上只能通過key的完全一致查詢獲取數(shù)據(jù)。根據(jù)數(shù)據(jù)的保存方式可以分為臨時(shí)性、永久性和兩者兼具三種。

臨時(shí)性

memcached屬于這種類型。所謂臨時(shí)性就是 “數(shù)據(jù)有可能丟失”的意思。memcached把所有數(shù)據(jù)都保存在內(nèi)存中，這樣保存和讀取的速度非常快，但是當(dāng)memcached停止的時(shí)候，數(shù)據(jù)就不存在了。由于數(shù)據(jù)保存在內(nèi)存中，所以無法操作超出內(nèi)存容量的數(shù)據(jù)(舊數(shù)據(jù)會丟失)。

在內(nèi)存中保存數(shù)據(jù)

可以進(jìn)行非常快速的保存和讀取處理

數(shù)據(jù)有可能丟失

永久性

Tokyo Tyrant、Flare、ROMA等屬于這種類型。和臨時(shí)性相反，所謂永久性就是“數(shù)據(jù)不會丟失”的意思。這里的key-value存儲不像memcached那樣在內(nèi)存中保存數(shù)據(jù)，而是把數(shù)據(jù)保存在硬盤上。與memcached在內(nèi)存中處理數(shù)據(jù)比起來，由于必然要發(fā)生對硬盤的IO操作，所以性能上還是有差距的。但數(shù)據(jù)不會丟失是它最大的優(yōu)勢。

在硬盤上保存數(shù)據(jù)

可以進(jìn)行非常快速的保存和讀取處理(但無法與memcached相比)

數(shù)據(jù)不會丟失

兩者兼具

Redis屬于這種類型。Redis有些特殊，臨時(shí)性和永久性兼具，且集合了臨時(shí)性key-value存儲和永久性key-value存儲的優(yōu)點(diǎn)。Redis首先把數(shù)據(jù)保存到內(nèi)存中，在滿足特定條件(默認(rèn)是15分鐘一次以上，5分鐘內(nèi)10個(gè)以上，1分鐘內(nèi)10000個(gè)以上的key發(fā)生變更)的時(shí)候?qū)?shù)據(jù)寫入到硬盤中。這樣既確保了內(nèi)存中數(shù)據(jù)的處理速度，又可以通過寫入硬盤來保證數(shù)據(jù)的永久性。這種類型的數(shù)據(jù)庫特別適合于處理數(shù)組類型的數(shù)據(jù)。

同時(shí)在內(nèi)存和硬盤上保存數(shù)據(jù)

可以進(jìn)行非常快速的保存和讀取處理

保存在硬盤上的數(shù)據(jù)不會消失(可以恢復(fù))

適合于處理數(shù)組類型的數(shù)據(jù)

面向文檔的數(shù)據(jù)庫

MongoDB、CouchDB屬于這種類型。它們屬于NoSQL數(shù)據(jù)庫，但與key-value存儲相異。

不定義表結(jié)構(gòu)

面向文檔的數(shù)據(jù)庫具有以下特征：即使不定義表結(jié)構(gòu)，也可以像定義了表結(jié)構(gòu)一樣使用。關(guān)系型數(shù)據(jù)庫在變更表結(jié)構(gòu)時(shí)比較費(fèi)事，而且為了保持一致性還需修改程序。然而NoSQL數(shù)據(jù)庫則可省去這些麻煩(通常程序都是正確的)，確實(shí)是方便快捷。

可以使用復(fù)雜的查詢條件

跟key-value存儲不同的是，面向文檔的數(shù)據(jù)庫可以通過復(fù)雜的查詢條件來獲取數(shù)據(jù)。雖然不具備事務(wù)處理和JOIN這些關(guān)系型數(shù)據(jù)庫所具有的處理能力，但除此以外的其他處理基本上都能實(shí)現(xiàn)。這是非常容易使用的NoSQL數(shù)據(jù)庫。

不需要定義表結(jié)構(gòu)

可以利用復(fù)雜的查詢條件

面向列的數(shù)據(jù)庫

Cassandra、Hbase、HyperTable屬于這種類型。由于近年來數(shù)據(jù)量出現(xiàn)爆發(fā)性增長，這種類型的NoSQL數(shù)據(jù)庫尤其引人注目。

面向行的數(shù)據(jù)庫和面向列的數(shù)據(jù)庫

普通的關(guān)系型數(shù)據(jù)庫都是以行為單位來存儲數(shù)據(jù)的，擅長進(jìn)行以行為單位的讀入處理，比如特定條件數(shù)據(jù)的獲取。因此，關(guān)系型數(shù)據(jù)庫也被稱為面向行的數(shù)據(jù)庫。相反，面向列的數(shù)據(jù)庫是以列為單位來存儲數(shù)據(jù)的，擅長以列為單位讀入數(shù)據(jù)。

高擴(kuò)展性

面向列的數(shù)據(jù)庫具有高擴(kuò)展性，即使數(shù)據(jù)增加也不會降低相應(yīng)的處理速度(特別是寫入速度)，所以它主要應(yīng)用于需要處理大量數(shù)據(jù)的情況。另外，利用面向列的數(shù)據(jù)庫的優(yōu)勢，把它作為批處理程序的存儲器來對大量數(shù)據(jù)進(jìn)行更新也是非常有用的。但由于面向列的數(shù)據(jù)庫跟現(xiàn)行數(shù)據(jù)庫存儲的思維方式有很大不同，應(yīng)用起來十分困難。

高擴(kuò)展性(特別是寫入處理)

應(yīng)用十分困難

最近，像Twitter和Facebook這樣需要對大量數(shù)據(jù)進(jìn)行更新和查詢的網(wǎng)絡(luò)服務(wù)不斷增加，面向列的數(shù)據(jù)庫的優(yōu)勢對其中一些服務(wù)是非常有用的，但是由于這與本書所要介紹的內(nèi)容關(guān)系不大，就不進(jìn)行詳細(xì)介紹了。

總結(jié)：

NoSQL并不是No-SQL，而是指Not Only SQL。

NoSQL的出現(xiàn)是為了彌補(bǔ)SQL數(shù)據(jù)庫因?yàn)槭聞?wù)等機(jī)制帶來的對海量數(shù)據(jù)、高并發(fā)請求的處理的性能上的欠缺。

NoSQL不是為了替代SQL而出現(xiàn)的，它是一種替補(bǔ)方案，而不是解決方案的首選。

絕大多數(shù)的NoSQL產(chǎn)品都是基于大內(nèi)存和高性能隨機(jī)讀寫的（比如具有更高性能的固態(tài)硬盤陣列），一般的小型企業(yè)在選擇NoSQL時(shí)一定要慎重！不要為了NoSQL而NoSQL，可能會導(dǎo)致花了冤枉錢又耽擱了項(xiàng)目進(jìn)程。

NoSQL不是萬能的，但在大型項(xiàng)目中，你往往需要它！

一、NoSQL數(shù)據(jù)庫簡介

Web1.0的時(shí)代，數(shù)據(jù)訪問量很有限，用一夫當(dāng)關(guān)的高性能的單點(diǎn)服務(wù)器可以解決大部分問題。

隨著Web2.0的時(shí)代的到來，用戶訪問量大幅度提升，同時(shí)產(chǎn)生了大量的用戶數(shù)據(jù)。加上后來的智能移動設(shè)備的普及，所有的互聯(lián)網(wǎng)平臺都面臨了巨大的性能挑戰(zhàn)。

NoSQL(NoSQL = Not Only SQL )，意即“不僅僅是SQL”，泛指非關(guān)系型的數(shù)據(jù)庫。

NoSQL 不依賴業(yè)務(wù)邏輯方式存儲，而以簡單的key-value模式存儲。因此大大的增加了數(shù)據(jù)庫的擴(kuò)展能力。

Memcache Memcache Redis Redis MongoDB MongoDB 列式數(shù)據(jù)庫列式數(shù)據(jù)庫 Hbase Hbase

HBase是Hadoop項(xiàng)目中的數(shù)據(jù)庫。它用于需要對大量的數(shù)據(jù)進(jìn)行隨機(jī)、實(shí)時(shí)的讀寫操作的場景中。

HBase的目標(biāo)就是處理數(shù)據(jù)量非常龐大的表，可以用普通的計(jì)算機(jī)處理超過10億行數(shù)據(jù)，還可處理有數(shù)百萬列元素的數(shù)據(jù)表。

Cassandra Cassandra

Apache Cassandra是一款免費(fèi)的開源NoSQL數(shù)據(jù)庫，其設(shè)計(jì)目的在于管理由大量商用服務(wù)器構(gòu)建起來的龐大集群上的海量數(shù)據(jù)集(數(shù)據(jù)量通常達(dá)到PB級別)。在眾多顯著特性當(dāng)中，Cassandra最為卓越的長處是對寫入及讀取操作進(jìn)行規(guī)模調(diào)整，而且其不強(qiáng)調(diào)主集群的設(shè)計(jì)思路能夠以相對直觀的方式簡化各集群的創(chuàng)建與擴(kuò)展流程。

主要應(yīng)用：社會關(guān)系，公共交通網(wǎng)絡(luò)，地圖及網(wǎng)絡(luò)拓譜(n*(n-1)/2)

大數(shù)據(jù)時(shí)代發(fā)展歷程是什么？

大數(shù)據(jù)技術(shù)發(fā)展史：大數(shù)據(jù)的前世今生

今天我們常說的大數(shù)據(jù)技術(shù)，其實(shí)起源于Google在2004年前后發(fā)表的三篇論文，也就是我們經(jīng)常聽到的“三駕馬車”，分別是分布式文件系統(tǒng)GFS、大數(shù)據(jù)分布式計(jì)算框架MapReduce和NoSQL數(shù)據(jù)庫系統(tǒng)BigTable。

你知道，搜索引擎主要就做兩件事情，一個(gè)是網(wǎng)頁抓取，一個(gè)是索引構(gòu)建，而在這個(gè)過程中，有大量的數(shù)據(jù)需要存儲和計(jì)算。這“三駕馬車”其實(shí)就是用來解決這個(gè)問題的，你從介紹中也能看出來，一個(gè)文件系統(tǒng)、一個(gè)計(jì)算框架、一個(gè)數(shù)據(jù)庫系統(tǒng)。

現(xiàn)在你聽到分布式、大數(shù)據(jù)之類的詞，肯定一點(diǎn)兒也不陌生。但你要知道，在2004年那會兒，整個(gè)互聯(lián)網(wǎng)還處于懵懂時(shí)代，Google發(fā)布的論文實(shí)在是讓業(yè)界為之一振，大家恍然大悟，原來還可以這么玩。

因?yàn)槟莻€(gè)時(shí)間段，大多數(shù)公司的關(guān)注點(diǎn)其實(shí)還是聚焦在單機(jī)上，在思考如何提升單機(jī)的性能，尋找更貴更好的服務(wù)器。而Google的思路是部署一個(gè)大規(guī)模的服務(wù)器集群，通過分布式的方式將海量數(shù)據(jù)存儲在這個(gè)集群上，然后利用集群上的所有機(jī)器進(jìn)行數(shù)據(jù)計(jì)算。這樣，Google其實(shí)不需要買很多很貴的服務(wù)器，它只要把這些普通的機(jī)器組織到一起，就非常厲害了。

當(dāng)時(shí)的天才程序員，也是Lucene開源項(xiàng)目的創(chuàng)始人Doug Cutting正在開發(fā)開源搜索引擎Nutch，閱讀了Google的論文后，他非常興奮，緊接著就根據(jù)論文原理初步實(shí)現(xiàn)了類似GFS和MapReduce的功能。

兩年后的2006年，Doug Cutting將這些大數(shù)據(jù)相關(guān)的功能從Nutch中分離了出來，然后啟動了一個(gè)獨(dú)立的項(xiàng)目專門開發(fā)維護(hù)大數(shù)據(jù)技術(shù)，這就是后來赫赫有名的Hadoop，主要包括Hadoop分布式文件系統(tǒng)HDFS和大數(shù)據(jù)計(jì)算引擎MapReduce。

當(dāng)我們回顧軟件開發(fā)的歷史，包括我們自己開發(fā)的軟件，你會發(fā)現(xiàn)，有的軟件在開發(fā)出來以后無人問津或者寥寥數(shù)人使用，這樣的軟件其實(shí)在所有開發(fā)出來的軟件中占大多數(shù)。而有的軟件則可能會開創(chuàng)一個(gè)行業(yè)，每年創(chuàng)造數(shù)百億美元的價(jià)值，創(chuàng)造百萬計(jì)的就業(yè)崗位，這些軟件曾經(jīng)是Windows、Linux、Java，而現(xiàn)在這個(gè)名單要加上Hadoop的名字。

如果有時(shí)間，你可以簡單瀏覽下Hadoop的代碼，這個(gè)純用Java編寫的軟件其實(shí)并沒有什么高深的技術(shù)難點(diǎn)，使用的也都是一些最基礎(chǔ)的編程技巧，也沒有什么出奇之處，但是它卻給社會帶來巨大的影響，甚至帶動一場深刻的科技革命，推動了人工智能的發(fā)展與進(jìn)步。

我覺得，我們在做軟件開發(fā)的時(shí)候，也可以多思考一下，我們所開發(fā)軟件的價(jià)值點(diǎn)在哪里？真正需要使用軟件實(shí)現(xiàn)價(jià)值的地方在哪里？你應(yīng)該關(guān)注業(yè)務(wù)、理解業(yè)務(wù)，有價(jià)值導(dǎo)向，用自己的技術(shù)為公司創(chuàng)造真正的價(jià)值，進(jìn)而實(shí)現(xiàn)自己的人生價(jià)值。而不是整天埋頭在需求說明文檔里，做一個(gè)沒有思考的代碼機(jī)器人。

Hadoop發(fā)布之后，Yahoo很快就用了起來。大概又過了一年到了2007年，百度和阿里巴巴也開始使用Hadoop進(jìn)行大數(shù)據(jù)存儲與計(jì)算。

2008年，Hadoop正式成為Apache的頂級項(xiàng)目，后來Doug Cutting本人也成為了Apache基金會的主席。自此，Hadoop作為軟件開發(fā)領(lǐng)域的一顆明星冉冉升起。

同年，專門運(yùn)營Hadoop的商業(yè)公司Cloudera成立，Hadoop得到進(jìn)一步的商業(yè)支持。

這個(gè)時(shí)候，Yahoo的一些人覺得用MapReduce進(jìn)行大數(shù)據(jù)編程太麻煩了，于是便開發(fā)了Pig。Pig是一種腳本語言，使用類SQL的語法，開發(fā)者可以用Pig腳本描述要對大數(shù)據(jù)集上進(jìn)行的操作，Pig經(jīng)過編譯后會生成MapReduce程序，然后在Hadoop上運(yùn)行。

編寫Pig腳本雖然比直接MapReduce編程容易，但是依然需要學(xué)習(xí)新的腳本語法。于是Facebook又發(fā)布了Hive。Hive支持使用SQL語法來進(jìn)行大數(shù)據(jù)計(jì)算，比如說你可以寫個(gè)Select語句進(jìn)行數(shù)據(jù)查詢，然后Hive會把SQL語句轉(zhuǎn)化成MapReduce的計(jì)算程序。

這樣，熟悉數(shù)據(jù)庫的數(shù)據(jù)分析師和工程師便可以無門檻地使用大數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和處理了。Hive出現(xiàn)后極大程度地降低了Hadoop的使用難度，迅速得到開發(fā)者和企業(yè)的追捧。據(jù)說，2011年的時(shí)候，F(xiàn)acebook大數(shù)據(jù)平臺上運(yùn)行的作業(yè)90%都來源于Hive。

隨后，眾多Hadoop周邊產(chǎn)品開始出現(xiàn)，大數(shù)據(jù)生態(tài)體系逐漸形成，其中包括：專門將關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入導(dǎo)出到Hadoop平臺的Sqoop；針對大規(guī)模日志進(jìn)行分布式收集、聚合和傳輸?shù)腇lume；MapReduce工作流調(diào)度引擎Oozie等。

在Hadoop早期，MapReduce既是一個(gè)執(zhí)行引擎，又是一個(gè)資源調(diào)度框架，服務(wù)器集群的資源調(diào)度管理由MapReduce自己完成。但是這樣不利于資源復(fù)用，也使得MapReduce非常臃腫。于是一個(gè)新項(xiàng)目啟動了，將MapReduce執(zhí)行引擎和資源調(diào)度分離開來，這就是Yarn。2012年，Yarn成為一個(gè)獨(dú)立的項(xiàng)目開始運(yùn)營，隨后被各類大數(shù)據(jù)產(chǎn)品支持，成為大數(shù)據(jù)平臺上最主流的資源調(diào)度系統(tǒng)。

同樣是在2012年，UC伯克利AMP實(shí)驗(yàn)室（Algorithms、Machine和People的縮寫）開發(fā)的Spark開始嶄露頭角。當(dāng)時(shí)AMP實(shí)驗(yàn)室的馬鐵博士發(fā)現(xiàn)使用MapReduce進(jìn)行機(jī)器學(xué)習(xí)計(jì)算的時(shí)候性能非常差，因?yàn)闄C(jī)器學(xué)習(xí)算法通常需要進(jìn)行很多次的迭代計(jì)算，而MapReduce每執(zhí)行一次Map和Reduce計(jì)算都需要重新啟動一次作業(yè)，帶來大量的無謂消耗。還有一點(diǎn)就是MapReduce主要使用磁盤作為存儲介質(zhì)，而2012年的時(shí)候，內(nèi)存已經(jīng)突破容量和成本限制，成為數(shù)據(jù)運(yùn)行過程中主要的存儲介質(zhì)。Spark一經(jīng)推出，立即受到業(yè)界的追捧，并逐步替代MapReduce在企業(yè)應(yīng)用中的地位。

一般說來，像MapReduce、Spark這類計(jì)算框架處理的業(yè)務(wù)場景都被稱作批處理計(jì)算，因?yàn)樗鼈兺ǔａ槍σ浴疤臁睘閱挝划a(chǎn)生的數(shù)據(jù)進(jìn)行一次計(jì)算，然后得到需要的結(jié)果，這中間計(jì)算需要花費(fèi)的時(shí)間大概是幾十分鐘甚至更長的時(shí)間。因?yàn)橛?jì)算的數(shù)據(jù)是非在線得到的實(shí)時(shí)數(shù)據(jù)，而是歷史數(shù)據(jù)，所以這類計(jì)算也被稱為大數(shù)據(jù)離線計(jì)算。

而在大數(shù)據(jù)領(lǐng)域，還有另外一類應(yīng)用場景，它們需要對實(shí)時(shí)產(chǎn)生的大量數(shù)據(jù)進(jìn)行即時(shí)計(jì)算，比如對于遍布城市的監(jiān)控?cái)z像頭進(jìn)行人臉識別和嫌犯追蹤。這類計(jì)算稱為大數(shù)據(jù)流計(jì)算，相應(yīng)地，有Storm、Flink、Spark Streaming等流計(jì)算框架來滿足此類大數(shù)據(jù)應(yīng)用的場景。流式計(jì)算要處理的數(shù)據(jù)是實(shí)時(shí)在線產(chǎn)生的數(shù)據(jù)，所以這類計(jì)算也被稱為大數(shù)據(jù)實(shí)時(shí)計(jì)算。

在典型的大數(shù)據(jù)的業(yè)務(wù)場景下，數(shù)據(jù)業(yè)務(wù)最通用的做法是，采用批處理的技術(shù)處理歷史全量數(shù)據(jù)，采用流式計(jì)算處理實(shí)時(shí)新增數(shù)據(jù)。而像Flink這樣的計(jì)算引擎，可以同時(shí)支持流式計(jì)算和批處理計(jì)算。

除了大數(shù)據(jù)批處理和流處理，NoSQL系統(tǒng)處理的主要也是大規(guī)模海量數(shù)據(jù)的存儲與訪問，所以也被歸為大數(shù)據(jù)技術(shù)。 NoSQL曾經(jīng)在2011年左右非常火爆，涌現(xiàn)出HBase、Cassandra等許多優(yōu)秀的產(chǎn)品，其中HBase是從Hadoop中分離出來的、基于HDFS的NoSQL系統(tǒng)。

我們回顧軟件發(fā)展的歷史會發(fā)現(xiàn)，差不多類似功能的軟件，它們出現(xiàn)的時(shí)間都非常接近，比如Linux和Windows都是在90年代初出現(xiàn)，Java開發(fā)中的各類MVC框架也基本都是同期出現(xiàn)，Android和iOS也是前腳后腳問世。2011年前后，各種NoSQL數(shù)據(jù)庫也是層出不群，我也是在那個(gè)時(shí)候參與開發(fā)了阿里巴巴自己的NoSQL系統(tǒng)。

事物發(fā)展有自己的潮流和規(guī)律，當(dāng)你身處潮流之中的時(shí)候，要緊緊抓住潮流的機(jī)會，想辦法脫穎而出，即使沒有成功，也會更加洞悉時(shí)代的脈搏，收獲珍貴的知識和經(jīng)驗(yàn)。而如果潮流已經(jīng)退去，這個(gè)時(shí)候再去往這個(gè)方向上努力，只會收獲迷茫與壓抑，對時(shí)代、對自己都沒有什么幫助。

但是時(shí)代的浪潮猶如海灘上的浪花，總是一浪接著一浪，只要你站在海邊，身處這個(gè)行業(yè)之中，下一個(gè)浪潮很快又會到來。你需要敏感而又深刻地去觀察，略去那些浮躁的泡沫，抓住真正潮流的機(jī)會，奮力一搏，不管成敗，都不會遺憾。

正所謂在歷史前進(jìn)的邏輯中前進(jìn)，在時(shí)代發(fā)展的潮流中發(fā)展。通俗的說，就是要在風(fēng)口中飛翔。

上面我講的這些基本上都可以歸類為大數(shù)據(jù)引擎或者大數(shù)據(jù)框架。而大數(shù)據(jù)處理的主要應(yīng)用場景包括數(shù)據(jù)分析、數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)。數(shù)據(jù)分析主要使用Hive、Spark SQL等SQL引擎完成；數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)則有專門的機(jī)器學(xué)習(xí)框架TensorFlow、Mahout以及MLlib等，內(nèi)置了主要的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法。

此外，大數(shù)據(jù)要存入分布式文件系統(tǒng)（HDFS），要有序調(diào)度MapReduce和Spark作業(yè)執(zhí)行，并能把執(zhí)行結(jié)果寫入到各個(gè)應(yīng)用系統(tǒng)的數(shù)據(jù)庫中，還需要有一個(gè)大數(shù)據(jù)平臺整合所有這些大數(shù)據(jù)組件和企業(yè)應(yīng)用系統(tǒng)。

圖中的所有這些框架、平臺以及相關(guān)的算法共同構(gòu)成了大數(shù)據(jù)的技術(shù)體系，我將會在專欄后面逐個(gè)分析，幫你能夠?qū)Υ髷?shù)據(jù)技術(shù)原理和應(yīng)用算法構(gòu)建起完整的知識體系，進(jìn)可以專職從事大數(shù)據(jù)開發(fā)，退可以在自己的應(yīng)用開發(fā)中更好地和大數(shù)據(jù)集成，掌控自己的項(xiàng)目。

希望對您有所幫助！~

互聯(lián)網(wǎng)背景下，為什么用NoSql

本文將從單機(jī)MySQL的場景出發(fā)，簡述一下隨著網(wǎng)站的訪問量越來越大，數(shù)據(jù)庫部署的演進(jìn)過程，到為什么要用MySQL的必要性。

大數(shù)據(jù)時(shí)代的數(shù)據(jù)有3V的特點(diǎn)：海量Volume、多樣Variety、實(shí)時(shí)Velocity。

互聯(lián)網(wǎng)網(wǎng)站需求的3高的特點(diǎn)：高并發(fā)、高可擴(kuò)、高性能。

一、單機(jī)MySql

當(dāng)一個(gè)網(wǎng)站的訪問量不大時(shí)，用單個(gè)數(shù)據(jù)庫完全可以輕松應(yīng)付。

在那個(gè)時(shí)候，更多的都是靜態(tài)網(wǎng)頁，動態(tài)交互類型的網(wǎng)站不多。

上述架構(gòu)下，我們來看看數(shù)據(jù)存儲的瓶頸是什么？

1.數(shù)據(jù)量的總大小一個(gè)機(jī)器放不下時(shí)

2.數(shù)據(jù)的索引（B+ Tree）一個(gè)機(jī)器的內(nèi)存放不下時(shí)

3.訪問量(讀寫混合)一個(gè)實(shí)例不能承受

如果滿足了上述1 or 3個(gè)，進(jìn)化......

二、Memcached（緩存）+Mysql+垂直拆分

后來，隨著訪問量的上升，幾乎大部分使用MySQL架構(gòu)的網(wǎng)站在數(shù)據(jù)庫上都開始出現(xiàn)了性能問題，web程序不再僅僅專注在功能上，同時(shí)也在追求性能。程序員們開始大量的使用緩存技術(shù)來緩解數(shù)據(jù)庫的壓力，優(yōu)化數(shù)據(jù)庫的結(jié)構(gòu)和索引。開始比較流行的是通過文件緩存來緩解數(shù)據(jù)庫壓力，但是當(dāng)訪問量繼續(xù)增大的時(shí)候，多臺web機(jī)器通過文件緩存不能共享，大量的小文件緩存也帶了了比較高的IO壓力。在這個(gè)時(shí)候，Memcached就自然的成為一個(gè)非常時(shí)尚的技術(shù)產(chǎn)品。

Memcached作為一個(gè)獨(dú)立的分布式的緩存服務(wù)器，為多個(gè)web服務(wù)器提供了一個(gè)共享的高性能緩存服務(wù)，在Memcached服務(wù)器上，又發(fā)展了根據(jù)hash算法來進(jìn)行多臺Memcached緩存服務(wù)的擴(kuò)展，然后又出現(xiàn)了一致性hash來解決增加或減少緩存服務(wù)器導(dǎo)致重新hash帶來的大量緩存失效的弊端

三、MySql主從復(fù)制讀寫分離

由于數(shù)據(jù)庫的寫入壓力增加，Memcached只能緩解數(shù)據(jù)庫的讀取壓力。讀寫集中在一個(gè)數(shù)據(jù)庫上讓數(shù)據(jù)庫不堪重負(fù)，大部分網(wǎng)站開始使用主從復(fù)制技術(shù)來達(dá)到讀寫分離，以提高讀寫性能和讀庫的可擴(kuò)展性。Mysql的master-slave模式成為這個(gè)時(shí)候的網(wǎng)站標(biāo)配了。

四、分庫分表+水平拆分+Mysql集群

在Memcached的高速緩存，MySQL的主從復(fù)制，讀寫分離的基礎(chǔ)之上，這時(shí)MySQL主庫的寫壓力開始出現(xiàn)瓶頸，而數(shù)據(jù)量的持續(xù)猛增，由于MyISAM使用表鎖，在高并發(fā)下會出現(xiàn)嚴(yán)重的鎖問題，大量的高并發(fā)MySQL應(yīng)用開始使用InnoDB引擎代替MyISAM。

同時(shí)，開始流行使用分表分庫來緩解寫壓力和數(shù)據(jù)增長的擴(kuò)展問題。這個(gè)時(shí)候，分表分庫成了一個(gè)熱門技術(shù)，是面試的熱門問題也是業(yè)界討論的熱門技術(shù)問題。也就在這個(gè)時(shí)候，MySQL推出了還不太穩(wěn)定的表分區(qū)，這也給技術(shù)實(shí)力一般的公司帶來了希望。雖然MySQL推出了MySQL Cluster集群，但性能也不能很好滿足互聯(lián)網(wǎng)的要求，只是在高可靠性上提供了非常大的保證。

五、Mysql的擴(kuò)展性瓶頸

MySQL數(shù)據(jù)庫也經(jīng)常存儲一些大文本字段，導(dǎo)致數(shù)據(jù)庫表非常的大，在做數(shù)據(jù)庫恢復(fù)的時(shí)候就導(dǎo)致非常的慢，不容易快速恢復(fù)數(shù)據(jù)庫。比如1000萬4KB大小的文本就接近40GB的大小，如果能把這些數(shù)據(jù)從MySQL省去，MySQL將變得非常的小。關(guān)系數(shù)據(jù)庫很強(qiáng)大，但是它并不能很好的應(yīng)付所有的應(yīng)用場景。MySQL的擴(kuò)展性差（需要復(fù)雜的技術(shù)來實(shí)現(xiàn)），大數(shù)據(jù)下IO壓力大，表結(jié)構(gòu)更改困難，正是當(dāng)前使用MySQL的開發(fā)人員面臨的問題。

六、為什么用Nosql

今天我們可以通過第三方平臺（如：Google,Facebook等）可以很容易的訪問和抓取數(shù)據(jù)。用戶的個(gè)人信息，社交網(wǎng)絡(luò)，地理位置，用戶生成的數(shù)據(jù)和用戶操作日志已經(jīng)成倍的增加。我們?nèi)绻獙@些用戶數(shù)據(jù)進(jìn)行挖掘，那SQL數(shù)據(jù)庫已經(jīng)不適合這些應(yīng)用了, NoSQL數(shù)據(jù)庫的發(fā)展也卻能很好的處理這些大的數(shù)據(jù)。下面給大家看一下，web應(yīng)用數(shù)據(jù)量的增長圖：

七、Nosql是什么

NoSQL(NoSQL = Not Only SQL )，意即“不僅僅是SQL”，

泛指非關(guān)系型的數(shù)據(jù)庫。隨著互聯(lián)網(wǎng)web2.0網(wǎng)站的興起，傳統(tǒng)的關(guān)系數(shù)據(jù)庫在應(yīng)付web2.0網(wǎng)站，特別是超大規(guī)模和高并發(fā)的SNS類型的web2.0純動態(tài)網(wǎng)站已經(jīng)顯得力不從心，暴露了很多難以克服的問題，而非關(guān)系型的數(shù)據(jù)庫則由于其本身的特點(diǎn)得到了非常迅速的發(fā)展。NoSQL數(shù)據(jù)庫的產(chǎn)生就是為了解決大規(guī)模數(shù)據(jù)集合多重?cái)?shù)據(jù)種類帶來的挑戰(zhàn)，尤其是大數(shù)據(jù)應(yīng)用難題，包括超大規(guī)模數(shù)據(jù)的存儲。

（例如谷歌或Facebook每天為他們的用戶收集萬億比特的數(shù)據(jù)）。這些類型的數(shù)據(jù)存儲不需要固定的模式，無需多余操作就可以橫向擴(kuò)展。

八、Nosql的優(yōu)勢

1.易擴(kuò)展

NoSQL數(shù)據(jù)庫種類繁多，但是一個(gè)共同的特點(diǎn)都是去掉關(guān)系數(shù)據(jù)庫的關(guān)系型特性。

數(shù)據(jù)之間無關(guān)系，這樣就非常容易擴(kuò)展。也無形之間，在架構(gòu)的層面上帶來了可擴(kuò)展的能力。

2.大數(shù)據(jù)量，高性能

NoSQL數(shù)據(jù)庫都具有非常高的讀寫性能，尤其在大數(shù)據(jù)量下，同樣表現(xiàn)優(yōu)秀。

這得益于它的無關(guān)系性，數(shù)據(jù)庫的結(jié)構(gòu)簡單。一般MySQL使用Query Cache，每次表的更新Cache就失效，是一種大粒度的Cache，在針對web2.0的交互頻繁的應(yīng)用，Cache性能不高。而NoSQL的Cache是記錄級的，是一種細(xì)粒度的Cache，所以NoSQL在這個(gè)層面上來說就要性能高很多了。

3.多樣靈活的數(shù)據(jù)模型

NoSQL無需事先為要存儲的數(shù)據(jù)建立字段，隨時(shí)可以存儲自定義的數(shù)據(jù)格式。而在關(guān)系數(shù)據(jù)庫里，增刪字段是一件非常麻煩的事情。如果是非常大數(shù)據(jù)量的表，增加字段簡直就是一個(gè)噩夢。

九、Nosql數(shù)據(jù)庫的四大分類

鍵值(Key-Value)存儲

列存儲

文檔存儲

圖形存儲

常見的有：Redis、Memcache、MongoDB，這里就不一一介紹了。

文章標(biāo)題：nosql產(chǎn)生的時(shí)代背景,nosql的誕生背景和應(yīng)用場景
網(wǎng)站路徑：http://chinadenli.net/article19/dsesddh.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站導(dǎo)航、網(wǎng)站收錄、軟件開發(fā)、自適應(yīng)網(wǎng)站、網(wǎng)站維護(hù)、營銷型網(wǎng)站建設(shè)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区