欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

nosql存儲算法實現(xiàn),NOSQL數(shù)據(jù)庫主要存儲方式

Redis和Memcached的區(qū)別

Redis的作者Salvatore Sanfilippo曾經(jīng)對這兩種基于內(nèi)存的數(shù)據(jù)存儲系統(tǒng)進(jìn)行過比較:

成都創(chuàng)新互聯(lián)公司主營張北網(wǎng)站建設(shè)的網(wǎng)絡(luò)公司,主營網(wǎng)站建設(shè)方案,App定制開發(fā),張北h5微信小程序搭建,張北網(wǎng)站營銷推廣歡迎張北等地區(qū)企業(yè)咨詢

1、Redis支持服務(wù)器端的數(shù)據(jù)操作:Redis相比Memcached來說,擁有更多的數(shù)據(jù)結(jié)構(gòu)和并支持更豐富的數(shù)據(jù)操作,通常在Memcached里,你需要將數(shù)據(jù)拿到客戶端來進(jìn)行類似的修改再set回去。這大大增加了網(wǎng)絡(luò)IO的次數(shù)和數(shù)據(jù)體積。在Redis中,這些復(fù)雜的操作通常和一般的GET/SET一樣高效。所以,如果需要緩存能夠支持更復(fù)雜的結(jié)構(gòu)和操作,那么Redis會是不錯的選擇。

2、內(nèi)存使用效率對比:使用簡單的key-value存儲的話,Memcached的內(nèi)存利用率更高,而如果Redis采用hash結(jié)構(gòu)來做key-value存儲,由于其組合式的壓縮,其內(nèi)存利用率會高于Memcached。

3、性能對比:由于Redis只使用單核,而Memcached可以使用多核,所以平均每一個核上Redis在存儲小數(shù)據(jù)時比Memcached性能更高。而在100k以上的數(shù)據(jù)中,Memcached性能要高于Redis,雖然Redis最近也在存儲大數(shù)據(jù)的性能上進(jìn)行優(yōu)化,但是比起Memcached,還是稍有遜色。

具體為什么會出現(xiàn)上面的結(jié)論,以下為收集到的資料:

1、數(shù)據(jù)類型支持不同

與Memcached僅支持簡單的key-value結(jié)構(gòu)的數(shù)據(jù)記錄不同,Redis支持的數(shù)據(jù)類型要豐富得多。最為常用的數(shù)據(jù)類型主要由五種:String、Hash、List、Set和Sorted Set。Redis內(nèi)部使用一個redisObject對象來表示所有的key和value。redisObject最主要的信息如圖所示:

type代表一個value對象具體是何種數(shù)據(jù)類型,encoding是不同數(shù)據(jù)類型在redis內(nèi)部的存儲方式,比如:type=string代表value存儲的是一個普通字符串,那么對應(yīng)的encoding可以是raw或者是int,如果是int則代表實際redis內(nèi)部是按數(shù)值型類存儲和表示這個字符串的,當(dāng)然前提是這個字符串本身可以用數(shù)值表示,比如:”123″ “456”這樣的字符串。只有打開了Redis的虛擬內(nèi)存功能,vm字段字段才會真正的分配內(nèi)存,該功能默認(rèn)是關(guān)閉狀態(tài)的。

1)String

常用命令:set/get/decr/incr/mget等;

應(yīng)用場景:String是最常用的一種數(shù)據(jù)類型,普通的key/value存儲都可以歸為此類;

實現(xiàn)方式:String在redis內(nèi)部存儲默認(rèn)就是一個字符串,被redisObject所引用,當(dāng)遇到incr、decr等操作時會轉(zhuǎn)成數(shù)值型進(jìn)行計算,此時redisObject的encoding字段為int。

2)Hash

常用命令:hget/hset/hgetall等

應(yīng)用場景:我們要存儲一個用戶信息對象數(shù)據(jù),其中包括用戶ID、用戶姓名、年齡和生日,通過用戶ID我們希望獲取該用戶的姓名或者年齡或者生日;

實現(xiàn)方式:Redis的Hash實際是內(nèi)部存儲的Value為一個HashMap,并提供了直接存取這個Map成員的接口。如圖所示,Key是用戶ID, value是一個Map。這個Map的key是成員的屬性名,value是屬性值。這樣對數(shù)據(jù)的修改和存取都可以直接通過其內(nèi)部Map的Key(Redis里稱內(nèi)部Map的key為field), 也就是通過 key(用戶ID) + field(屬性標(biāo)簽) 就可以操作對應(yīng)屬性數(shù)據(jù)。當(dāng)前HashMap的實現(xiàn)有兩種方式:當(dāng)HashMap的成員比較少時Redis為了節(jié)省內(nèi)存會采用類似一維數(shù)組的方式來緊湊存儲,而不會采用真正的HashMap結(jié)構(gòu),這時對應(yīng)的value的redisObject的encoding為zipmap,當(dāng)成員數(shù)量增大時會自動轉(zhuǎn)成真正的HashMap,此時encoding為ht。

請點擊輸入圖片描述

3)List

常用命令:lpush/rpush/lpop/rpop/lrange等;

應(yīng)用場景:Redis list的應(yīng)用場景非常多,也是Redis最重要的數(shù)據(jù)結(jié)構(gòu)之一,比如twitter的關(guān)注列表,粉絲列表等都可以用Redis的list結(jié)構(gòu)來實現(xiàn);

實現(xiàn)方式:Redis list的實現(xiàn)為一個雙向鏈表,即可以支持反向查找和遍歷,更方便操作,不過帶來了部分額外的內(nèi)存開銷,Redis內(nèi)部的很多實現(xiàn),包括發(fā)送緩沖隊列等也都是用的這個數(shù)據(jù)結(jié)構(gòu)。

4)Set

常用命令:sadd/spop/smembers/sunion等;

應(yīng)用場景:Redis set對外提供的功能與list類似是一個列表的功能,特殊之處在于set是可以自動排重的,當(dāng)你需要存儲一個列表數(shù)據(jù),又不希望出現(xiàn)重復(fù)數(shù)據(jù)時,set是一個很好的選擇,并且set提供了判斷某個成員是否在一個set集合內(nèi)的重要接口,這個也是list所不能提供的;

實現(xiàn)方式:set 的內(nèi)部實現(xiàn)是一個 value永遠(yuǎn)為null的HashMap,實際就是通過計算hash的方式來快速排重的,這也是set能提供判斷一個成員是否在集合內(nèi)的原因。

5)Sorted Set

常用命令:zadd/zrange/zrem/zcard等;

應(yīng)用場景:Redis sorted set的使用場景與set類似,區(qū)別是set不是自動有序的,而sorted set可以通過用戶額外提供一個優(yōu)先級(score)的參數(shù)來為成員排序,并且是插入有序的,即自動排序。當(dāng)你需要一個有序的并且不重復(fù)的集合列表,那么可以選擇sorted set數(shù)據(jù)結(jié)構(gòu),比如twitter 的public timeline可以以發(fā)表時間作為score來存儲,這樣獲取時就是自動按時間排好序的。

實現(xiàn)方式:Redis sorted set的內(nèi)部使用HashMap和跳躍表(SkipList)來保證數(shù)據(jù)的存儲和有序,HashMap里放的是成員到score的映射,而跳躍表里存放的是所有的成員,排序依據(jù)是HashMap里存的score,使用跳躍表的結(jié)構(gòu)可以獲得比較高的查找效率,并且在實現(xiàn)上比較簡單。

2、內(nèi)存管理機制不同

在Redis中,并不是所有的數(shù)據(jù)都一直存儲在內(nèi)存中的。這是和Memcached相比一個最大的區(qū)別。當(dāng)物理內(nèi)存用完時,Redis可以將一些很久沒用到的value交換到磁盤。Redis只會緩存所有的key的信息,如果Redis發(fā)現(xiàn)內(nèi)存的使用量超過了某一個閥值,將觸發(fā)swap的操作,Redis根據(jù)“swappability = age*log(size_in_memory)”計算出哪些key對應(yīng)的value需要swap到磁盤。然后再將這些key對應(yīng)的value持久化到磁盤中,同時在內(nèi)存中清除。這種特性使得Redis可以保持超過其機器本身內(nèi)存大小的數(shù)據(jù)。當(dāng)然,機器本身的內(nèi)存必須要能夠保持所有的key,畢竟這些數(shù)據(jù)是不會進(jìn)行swap操作的。同時由于Redis將內(nèi)存中的數(shù)據(jù)swap到磁盤中的時候,提供服務(wù)的主線程和進(jìn)行swap操作的子線程會共享這部分內(nèi)存,所以如果更新需要swap的數(shù)據(jù),Redis將阻塞這個操作,直到子線程完成swap操作后才可以進(jìn)行修改。當(dāng)從Redis中讀取數(shù)據(jù)的時候,如果讀取的key對應(yīng)的value不在內(nèi)存中,那么Redis就需要從swap文件中加載相應(yīng)數(shù)據(jù),然后再返回給請求方。 這里就存在一個I/O線程池的問題。在默認(rèn)的情況下,Redis會出現(xiàn)阻塞,即完成所有的swap文件加載后才會相應(yīng)。這種策略在客戶端的數(shù)量較小,進(jìn)行批量操作的時候比較合適。但是如果將Redis應(yīng)用在一個大型的網(wǎng)站應(yīng)用程序中,這顯然是無法滿足大并發(fā)的情況的。所以Redis運行我們設(shè)置I/O線程池的大小,對需要從swap文件中加載相應(yīng)數(shù)據(jù)的讀取請求進(jìn)行并發(fā)操作,減少阻塞的時間。

對于像Redis和Memcached這種基于內(nèi)存的數(shù)據(jù)庫系統(tǒng)來說,內(nèi)存管理的效率高低是影響系統(tǒng)性能的關(guān)鍵因素。傳統(tǒng)C語言中的malloc/free函數(shù)是最常用的分配和釋放內(nèi)存的方法,但是這種方法存在著很大的缺陷:首先,對于開發(fā)人員來說不匹配的malloc和free容易造成內(nèi)存泄露;其次頻繁調(diào)用會造成大量內(nèi)存碎片無法回收重新利用,降低內(nèi)存利用率;最后作為系統(tǒng)調(diào)用,其系統(tǒng)開銷遠(yuǎn)遠(yuǎn)大于一般函數(shù)調(diào)用。所以,為了提高內(nèi)存的管理效率,高效的內(nèi)存管理方案都不會直接使用malloc/free調(diào)用。Redis和Memcached均使用了自身設(shè)計的內(nèi)存管理機制,但是實現(xiàn)方法存在很大的差異,下面將會對兩者的內(nèi)存管理機制分別進(jìn)行介紹。

Memcached默認(rèn)使用Slab Allocation機制管理內(nèi)存,其主要思想是按照預(yù)先規(guī)定的大小,將分配的內(nèi)存分割成特定長度的塊以存儲相應(yīng)長度的key-value數(shù)據(jù)記錄,以完全解決內(nèi)存碎片問題。Slab Allocation機制只為存儲外部數(shù)據(jù)而設(shè)計,也就是說所有的key-value數(shù)據(jù)都存儲在Slab Allocation系統(tǒng)里,而Memcached的其它內(nèi)存請求則通過普通的malloc/free來申請,因為這些請求的數(shù)量和頻率決定了它們不會對整個系統(tǒng)的性能造成影響Slab Allocation的原理相當(dāng)簡單。 如圖所示,它首先從操作系統(tǒng)申請一大塊內(nèi)存,并將其分割成各種尺寸的塊Chunk,并把尺寸相同的塊分成組Slab Class。其中,Chunk就是用來存儲key-value數(shù)據(jù)的最小單位。每個Slab Class的大小,可以在Memcached啟動的時候通過制定Growth Factor來控制。假定圖中Growth Factor的取值為1.25,如果第一組Chunk的大小為88個字節(jié),第二組Chunk的大小就為112個字節(jié),依此類推。

請點擊輸入圖片描述

當(dāng)Memcached接收到客戶端發(fā)送過來的數(shù)據(jù)時首先會根據(jù)收到數(shù)據(jù)的大小選擇一個最合適的Slab Class,然后通過查詢Memcached保存著的該Slab Class內(nèi)空閑Chunk的列表就可以找到一個可用于存儲數(shù)據(jù)的Chunk。當(dāng)一條數(shù)據(jù)庫過期或者丟棄時,該記錄所占用的Chunk就可以回收,重新添加到空閑列表中。從以上過程我們可以看出Memcached的內(nèi)存管理制效率高,而且不會造成內(nèi)存碎片,但是它最大的缺點就是會導(dǎo)致空間浪費。因為每個Chunk都分配了特定長度的內(nèi)存空間,所以變長數(shù)據(jù)無法充分利用這些空間。如圖 所示,將100個字節(jié)的數(shù)據(jù)緩存到128個字節(jié)的Chunk中,剩余的28個字節(jié)就浪費掉了。

請點擊輸入圖片描述

Redis的內(nèi)存管理主要通過源碼中zmalloc.h和zmalloc.c兩個文件來實現(xiàn)的。Redis為了方便內(nèi)存的管理,在分配一塊內(nèi)存之后,會將這塊內(nèi)存的大小存入內(nèi)存塊的頭部。如圖所示,real_ptr是redis調(diào)用malloc后返回的指針。redis將內(nèi)存塊的大小size存入頭部,size所占據(jù)的內(nèi)存大小是已知的,為size_t類型的長度,然后返回ret_ptr。當(dāng)需要釋放內(nèi)存的時候,ret_ptr被傳給內(nèi)存管理程序。通過ret_ptr,程序可以很容易的算出real_ptr的值,然后將real_ptr傳給free釋放內(nèi)存。

請點擊輸入圖片描述

Redis通過定義一個數(shù)組來記錄所有的內(nèi)存分配情況,這個數(shù)組的長度為ZMALLOC_MAX_ALLOC_STAT。數(shù)組的每一個元素代表當(dāng)前程序所分配的內(nèi)存塊的個數(shù),且內(nèi)存塊的大小為該元素的下標(biāo)。在源碼中,這個數(shù)組為zmalloc_allocations。zmalloc_allocations[16]代表已經(jīng)分配的長度為16bytes的內(nèi)存塊的個數(shù)。zmalloc.c中有一個靜態(tài)變量used_memory用來記錄當(dāng)前分配的內(nèi)存總大小。所以,總的來看,Redis采用的是包裝的mallc/free,相較于Memcached的內(nèi)存管理方法來說,要簡單很多。

3、數(shù)據(jù)持久化支持

Redis雖然是基于內(nèi)存的存儲系統(tǒng),但是它本身是支持內(nèi)存數(shù)據(jù)的持久化的,而且提供兩種主要的持久化策略:RDB快照和AOF日志。而memcached是不支持?jǐn)?shù)據(jù)持久化操作的。

1)RDB快照

Redis支持將當(dāng)前數(shù)據(jù)的快照存成一個數(shù)據(jù)文件的持久化機制,即RDB快照。但是一個持續(xù)寫入的數(shù)據(jù)庫如何生成快照呢?Redis借助了fork命令的copy on write機制。在生成快照時,將當(dāng)前進(jìn)程fork出一個子進(jìn)程,然后在子進(jìn)程中循環(huán)所有的數(shù)據(jù),將數(shù)據(jù)寫成為RDB文件。我們可以通過Redis的save指令來配置RDB快照生成的時機,比如配置10分鐘就生成快照,也可以配置有1000次寫入就生成快照,也可以多個規(guī)則一起實施。這些規(guī)則的定義就在Redis的配置文件中,你也可以通過Redis的CONFIG SET命令在Redis運行時設(shè)置規(guī)則,不需要重啟Redis。

Redis的RDB文件不會壞掉,因為其寫操作是在一個新進(jìn)程中進(jìn)行的,當(dāng)生成一個新的RDB文件時,Redis生成的子進(jìn)程會先將數(shù)據(jù)寫到一個臨時文件中,然后通過原子性rename系統(tǒng)調(diào)用將臨時文件重命名為RDB文件,這樣在任何時候出現(xiàn)故障,Redis的RDB文件都總是可用的。同時,Redis的RDB文件也是Redis主從同步內(nèi)部實現(xiàn)中的一環(huán)。RDB有他的不足,就是一旦數(shù)據(jù)庫出現(xiàn)問題,那么我們的RDB文件中保存的數(shù)據(jù)并不是全新的,從上次RDB文件生成到Redis停機這段時間的數(shù)據(jù)全部丟掉了。在某些業(yè)務(wù)下,這是可以忍受的。

2)AOF日志

AOF日志的全稱是append only file,它是一個追加寫入的日志文件。與一般數(shù)據(jù)庫的binlog不同的是,AOF文件是可識別的純文本,它的內(nèi)容就是一個個的Redis標(biāo)準(zhǔn)命令。只有那些會導(dǎo)致數(shù)據(jù)發(fā)生修改的命令才會追加到AOF文件。每一條修改數(shù)據(jù)的命令都生成一條日志,AOF文件會越來越大,所以Redis又提供了一個功能,叫做AOF rewrite。其功能就是重新生成一份AOF文件,新的AOF文件中一條記錄的操作只會有一次,而不像一份老文件那樣,可能記錄了對同一個值的多次操作。其生成過程和RDB類似,也是fork一個進(jìn)程,直接遍歷數(shù)據(jù),寫入新的AOF臨時文件。在寫入新文件的過程中,所有的寫操作日志還是會寫到原來老的AOF文件中,同時還會記錄在內(nèi)存緩沖區(qū)中。當(dāng)重完操作完成后,會將所有緩沖區(qū)中的日志一次性寫入到臨時文件中。然后調(diào)用原子性的rename命令用新的AOF文件取代老的AOF文件。

AOF是一個寫文件操作,其目的是將操作日志寫到磁盤上,所以它也同樣會遇到我們上面說的寫操作的流程。在Redis中對AOF調(diào)用write寫入后,通過appendfsync選項來控制調(diào)用fsync將其寫到磁盤上的時間,下面appendfsync的三個設(shè)置項,安全強度逐漸變強。

appendfsync no 當(dāng)設(shè)置appendfsync為no的時候,Redis不會主動調(diào)用fsync去將AOF日志內(nèi)容同步到磁盤,所以這一切就完全依賴于操作系統(tǒng)的調(diào)試了。對大多數(shù)Linux操作系統(tǒng),是每30秒進(jìn)行一次fsync,將緩沖區(qū)中的數(shù)據(jù)寫到磁盤上。

appendfsync everysec 當(dāng)設(shè)置appendfsync為everysec的時候,Redis會默認(rèn)每隔一秒進(jìn)行一次fsync調(diào)用,將緩沖區(qū)中的數(shù)據(jù)寫到磁盤。但是當(dāng)這一次的fsync調(diào)用時長超過1秒時。Redis會采取延遲fsync的策略,再等一秒鐘。也就是在兩秒后再進(jìn)行fsync,這一次的fsync就不管會執(zhí)行多長時間都會進(jìn)行。這時候由于在fsync時文件描述符會被阻塞,所以當(dāng)前的寫操作就會阻塞。所以結(jié)論就是,在絕大多數(shù)情況下,Redis會每隔一秒進(jìn)行一次fsync。在最壞的情況下,兩秒鐘會進(jìn)行一次fsync操作。這一操作在大多數(shù)數(shù)據(jù)庫系統(tǒng)中被稱為group commit,就是組合多次寫操作的數(shù)據(jù),一次性將日志寫到磁盤。

appednfsync always 當(dāng)設(shè)置appendfsync為always時,每一次寫操作都會調(diào)用一次fsync,這時數(shù)據(jù)是最安全的,當(dāng)然,由于每次都會執(zhí)行fsync,所以其性能也會受到影響。

對于一般性的業(yè)務(wù)需求,建議使用RDB的方式進(jìn)行持久化,原因是RDB的開銷并相比AOF日志要低很多,對于那些無法忍數(shù)據(jù)丟失的應(yīng)用,建議使用AOF日志。

4、集群管理的不同

Memcached是全內(nèi)存的數(shù)據(jù)緩沖系統(tǒng),Redis雖然支持?jǐn)?shù)據(jù)的持久化,但是全內(nèi)存畢竟才是其高性能的本質(zhì)。作為基于內(nèi)存的存儲系統(tǒng)來說,機器物理內(nèi)存的大小就是系統(tǒng)能夠容納的最大數(shù)據(jù)量。如果需要處理的數(shù)據(jù)量超過了單臺機器的物理內(nèi)存大小,就需要構(gòu)建分布式集群來擴展存儲能力。

Memcached本身并不支持分布式,因此只能在客戶端通過像一致性哈希這樣的分布式算法來實現(xiàn)Memcached的分布式存儲。下圖給出了Memcached的分布式存儲實現(xiàn)架構(gòu)。當(dāng)客戶端向Memcached集群發(fā)送數(shù)據(jù)之前,首先會通過內(nèi)置的分布式算法計算出該條數(shù)據(jù)的目標(biāo)節(jié)點,然后數(shù)據(jù)會直接發(fā)送到該節(jié)點上存儲。但客戶端查詢數(shù)據(jù)時,同樣要計算出查詢數(shù)據(jù)所在的節(jié)點,然后直接向該節(jié)點發(fā)送查詢請求以獲取數(shù)據(jù)。

請點擊輸入圖片描述

相較于Memcached只能采用客戶端實現(xiàn)分布式存儲,Redis更偏向于在服務(wù)器端構(gòu)建分布式存儲。最新版本的Redis已經(jīng)支持了分布式存儲功能。Redis Cluster是一個實現(xiàn)了分布式且允許單點故障的Redis高級版本,它沒有中心節(jié)點,具有線性可伸縮的功能。下圖給出Redis Cluster的分布式存儲架構(gòu),其中節(jié)點與節(jié)點之間通過二進(jìn)制協(xié)議進(jìn)行通信,節(jié)點與客戶端之間通過ascii協(xié)議進(jìn)行通信。在數(shù)據(jù)的放置策略上,Redis Cluster將整個key的數(shù)值域分成4096個哈希槽,每個節(jié)點上可以存儲一個或多個哈希槽,也就是說當(dāng)前Redis Cluster支持的最大節(jié)點數(shù)就是4096。Redis Cluster使用的分布式算法也很簡單:crc16( key ) % HASH_SLOTS_NUMBER。

請點擊輸入圖片描述

為了保證單點故障下的數(shù)據(jù)可用性,Redis Cluster引入了Master節(jié)點和Slave節(jié)點。在Redis Cluster中,每個Master節(jié)點都會有對應(yīng)的兩個用于冗余的Slave節(jié)點。這樣在整個集群中,任意兩個節(jié)點的宕機都不會導(dǎo)致數(shù)據(jù)的不可用。當(dāng)Master節(jié)點退出后,集群會自動選擇一個Slave節(jié)點成為新的Master節(jié)點。

請點擊輸入圖片描述

創(chuàng)建數(shù)據(jù)庫的五個屬性

創(chuàng)建數(shù)據(jù)庫的五個屬性:比如學(xué)生表存學(xué)號,姓名、年齡、性別、班級等。

選擇開始菜單中→程序→【Management SQL Server 2008】→【SQL Server Management Studio】命令,打開【SQL Server Management Studio】窗口,并使用Windows或 SQL Server身份驗證建立連接。

在【對象資源管理器】窗口中展開服務(wù)器,然后選擇【數(shù)據(jù)庫】節(jié)點,右鍵單擊【數(shù)據(jù)庫】節(jié)點,從彈出來的快捷菜單中選擇【新建數(shù)據(jù)庫】命令。

非關(guān)系型數(shù)據(jù)庫:

隨著近些年技術(shù)方向的不斷拓展,大量的NoSql數(shù)據(jù)庫如MongoDB、Redis、Memcache出于簡化數(shù)據(jù)庫結(jié)構(gòu)、避免冗余、影響性能的表連接、摒棄復(fù)雜分布式的目的被設(shè)計。

指的是分布式的、非關(guān)系型的、不保證遵循ACID原則的數(shù)據(jù)存儲系統(tǒng)。NoSQL數(shù)據(jù)庫技術(shù)與CAP理論、一致性哈希算法有密切關(guān)系。所謂CAP理論,簡單來說就是一個分布式系統(tǒng)不可能滿足可用性、一致性與分區(qū)容錯性這三個要求。

以上內(nèi)容參考:百度百科-數(shù)據(jù)庫

nosql數(shù)據(jù)庫的幾大類型

1. 鍵值數(shù)據(jù)庫

相關(guān)產(chǎn)品:Redis、Riak、SimpleDB、Chordless、Scalaris、Memcached

應(yīng)用:內(nèi)容緩存

優(yōu)點:擴展性好、靈活性好、大量寫操作時性能高

缺點:無法存儲結(jié)構(gòu)化信息、條件查詢效率較低

使用者:百度云(Redis)、GitHub(Riak)、BestBuy(Riak)、Twitter(Ridis和Memcached)

2. 列族數(shù)據(jù)庫

相關(guān)產(chǎn)品:BigTable、HBase、Cassandra、HadoopDB、GreenPlum、PNUTS

應(yīng)用:分布式數(shù)據(jù)存儲與管理

優(yōu)點:查找速度快、可擴展性強、容易進(jìn)行分布式擴展、復(fù)雜性低

使用者:Ebay(Cassandra)、Instagram(Cassandra)、NASA(Cassandra)、Facebook(HBase)

3. 文檔數(shù)據(jù)庫

相關(guān)產(chǎn)品:MongoDB、CouchDB、ThruDB、CloudKit、Perservere、Jackrabbit

應(yīng)用:存儲、索引并管理面向文檔的數(shù)據(jù)或者類似的半結(jié)構(gòu)化數(shù)據(jù)

優(yōu)點:性能好、靈活性高、復(fù)雜性低、數(shù)據(jù)結(jié)構(gòu)靈活

缺點:缺乏統(tǒng)一的查詢語言

使用者:百度云數(shù)據(jù)庫(MongoDB)、SAP(MongoDB)

4. 圖形數(shù)據(jù)庫

圖形數(shù)據(jù)庫-使用圖作為數(shù)據(jù)模型來存儲數(shù)據(jù)。

相關(guān)產(chǎn)品:Neo4J、OrientDB、InfoGrid、GraphDB

應(yīng)用:大量復(fù)雜、互連接、低結(jié)構(gòu)化的圖結(jié)構(gòu)場合,如社交網(wǎng)絡(luò)、推薦系統(tǒng)等

優(yōu)點:靈活性高、支持復(fù)雜的圖形算法、可用于構(gòu)建復(fù)雜的關(guān)系圖譜

缺點:復(fù)雜性高、只能支持一定的數(shù)據(jù)規(guī)模

使用者:Adobe(Neo4J)、Cisco(Neo4J)、T-Mobile(Neo4J)

大數(shù)據(jù)方面核心技術(shù)有哪些?

大數(shù)據(jù)技術(shù)的體系龐大且復(fù)雜,基礎(chǔ)的技術(shù)包含數(shù)據(jù)的采集、數(shù)據(jù)預(yù)處理、分布式存儲、數(shù)據(jù)庫、數(shù)據(jù)倉庫、機器學(xué)習(xí)、并行計算、可視化等。

1、數(shù)據(jù)采集與預(yù)處理:FlumeNG實時日志收集系統(tǒng),支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);Zookeeper是一個分布式的,開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù),提供數(shù)據(jù)同步服務(wù)。

2、數(shù)據(jù)存儲:Hadoop作為一個開源的框架,專為離線和大規(guī)模數(shù)據(jù)分析而設(shè)計,HDFS作為其核心的存儲引擎,已被廣泛用于數(shù)據(jù)存儲。HBase,是一個分布式的、面向列的開源數(shù)據(jù)庫,可以認(rèn)為是hdfs的封裝,本質(zhì)是數(shù)據(jù)存儲、NoSQL數(shù)據(jù)庫。

3、數(shù)據(jù)清洗:MapReduce作為Hadoop的查詢引擎,用于大規(guī)模數(shù)據(jù)集的并行計算。

4、數(shù)據(jù)查詢分析:Hive的核心工作就是把SQL語句翻譯成MR程序,可以將結(jié)構(gòu)化的數(shù)據(jù)映射為一張數(shù)據(jù)庫表,并提供HQL(HiveSQL)查詢功能。Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。

5、數(shù)據(jù)可視化:對接一些BI平臺,將分析得到的數(shù)據(jù)進(jìn)行可視化,用于指導(dǎo)決策服務(wù)。

為什么要使用NoSQL?NOSQL的優(yōu)勢

這次的NoSQL專欄系列將先整體介紹NoSQL,然后介紹如何把NoSQL運用到自己的項目中合適的場景中,還會適當(dāng)?shù)胤治鲆恍┏晒Π咐M谐晒κ褂肗oSQL經(jīng)驗的朋友給我提供一些線索和信息。

NoSQL概念隨著web2.0的快速發(fā)展,非關(guān)系型、分布式數(shù)據(jù)存儲得到了快速的發(fā)展,它們不保證關(guān)系數(shù)據(jù)的ACID特性。NoSQL概念在2009年被提了出來。NoSQL最常見的解釋是“non-relational”,“Not Only SQL”也被很多人接受。(“NoSQL”一詞最早于1998年被用于一個輕量級的關(guān)系數(shù)據(jù)庫的名字。)

NoSQL被我們用得最多的當(dāng)數(shù)key-value存儲,當(dāng)然還有其他的文檔型的、列存儲、圖型數(shù)據(jù)庫、xml數(shù)據(jù)庫等。在NoSQL概念提出之前,這些數(shù)據(jù)庫就被用于各種系統(tǒng)當(dāng)中,但是卻很少用于web互聯(lián)網(wǎng)應(yīng)用。比如cdb、qdbm、bdb數(shù)據(jù)庫。

傳統(tǒng)關(guān)系數(shù)據(jù)庫的瓶頸

傳統(tǒng)的關(guān)系數(shù)據(jù)庫具有不錯的性能,高穩(wěn)定型,久經(jīng)歷史考驗,而且使用簡單,功能強大,同時也積累了大量的成功案例。在互聯(lián)網(wǎng)領(lǐng)域,MySQL成為了絕對靠前的王者,毫不夸張的說,MySQL為互聯(lián)網(wǎng)的發(fā)展做出了卓越的貢獻(xiàn)。

在90年代,一個網(wǎng)站的訪問量一般都不大,用單個數(shù)據(jù)庫完全可以輕松應(yīng)付。在那個時候,更多的都是靜態(tài)網(wǎng)頁,動態(tài)交互類型的網(wǎng)站不多。

到了最近10年,網(wǎng)站開始快速發(fā)展。火爆的論壇、博客、sns、微博逐漸引領(lǐng)web領(lǐng)域的潮流。在初期,論壇的流量其實也不大,如果你接觸網(wǎng)絡(luò)比較早,你可能還記得那個時候還有文本型存儲的論壇程序,可以想象一般的論壇的流量有多大。

Memcached+MySQL

后來,隨著訪問量的上升,幾乎大部分使用MySQL架構(gòu)的網(wǎng)站在數(shù)據(jù)庫上都開始出現(xiàn)了性能問題,web程序不再僅僅專注在功能上,同時也在追求性能。程序員們開始大量的使用緩存技術(shù)來緩解數(shù)據(jù)庫的壓力,優(yōu)化數(shù)據(jù)庫的結(jié)構(gòu)和索引。開始比較流行的是通過文件緩存來緩解數(shù)據(jù)庫壓力,但是當(dāng)訪問量繼續(xù)增大的時候,多臺web機器通過文件緩存不能共享,大量的小文件緩存也帶了了比較高的IO壓力。在這個時候,Memcached就自然的成為一個非常時尚的技術(shù)產(chǎn)品。

Memcached作為一個獨立的分布式的緩存服務(wù)器,為多個web服務(wù)器提供了一個共享的高性能緩存服務(wù),在Memcached服務(wù)器上,又發(fā)展了根據(jù)hash算法來進(jìn)行多臺Memcached緩存服務(wù)的擴展,然后又出現(xiàn)了一致性hash來解決增加或減少緩存服務(wù)器導(dǎo)致重新hash帶來的大量緩存失效的弊端。當(dāng)時,如果你去面試,你說你有Memcached經(jīng)驗,肯定會加分的。

Mysql主從讀寫分離

由于數(shù)據(jù)庫的寫入壓力增加,Memcached只能緩解數(shù)據(jù)庫的讀取壓力。讀寫集中在一個數(shù)據(jù)庫上讓數(shù)據(jù)庫不堪重負(fù),大部分網(wǎng)站開始使用主從復(fù)制技術(shù)來達(dá)到讀寫分離,以提高讀寫性能和讀庫的可擴展性。Mysql的master-slave模式成為這個時候的網(wǎng)站標(biāo)配了。

分表分庫隨著web2.0的繼續(xù)高速發(fā)展,在Memcached的高速緩存,MySQL的主從復(fù)制,讀寫分離的基礎(chǔ)之上,這時MySQL主庫的寫壓力開始出現(xiàn)瓶頸,而數(shù)據(jù)量的持續(xù)猛增,由于MyISAM使用表鎖,在高并發(fā)下會出現(xiàn)嚴(yán)重的鎖問題,大量的高并發(fā)MySQL應(yīng)用開始使用InnoDB引擎代替MyISAM。同時,開始流行使用分表分庫來緩解寫壓力和數(shù)據(jù)增長的擴展問題。這個時候,分表分庫成了一個熱門技術(shù),是面試的熱門問題也是業(yè)界討論的熱門技術(shù)問題。也就在這個時候,MySQL推出了還不太穩(wěn)定的表分區(qū),這也給技術(shù)實力一般的公司帶來了希望。雖然MySQL推出了MySQL Cluster集群,但是由于在互聯(lián)網(wǎng)幾乎沒有成功案例,性能也不能滿足互聯(lián)網(wǎng)的要求,只是在高可靠性上提供了非常大的保證。

MySQL的擴展性瓶頸

在互聯(lián)網(wǎng),大部分的MySQL都應(yīng)該是IO密集型的,事實上,如果你的MySQL是個CPU密集型的話,那么很可能你的MySQL設(shè)計得有性能問題,需要優(yōu)化了。大數(shù)據(jù)量高并發(fā)環(huán)境下的MySQL應(yīng)用開發(fā)越來越復(fù)雜,也越來越具有技術(shù)挑戰(zhàn)性。分表分庫的規(guī)則把握都是需要經(jīng)驗的。雖然有像淘寶這樣技術(shù)實力強大的公司開發(fā)了透明的中間件層來屏蔽開發(fā)者的復(fù)雜性,但是避免不了整個架構(gòu)的復(fù)雜性。分庫分表的子庫到一定階段又面臨擴展問題。還有就是需求的變更,可能又需要一種新的分庫方式。

MySQL數(shù)據(jù)庫也經(jīng)常存儲一些大文本字段,導(dǎo)致數(shù)據(jù)庫表非常的大,在做數(shù)據(jù)庫恢復(fù)的時候就導(dǎo)致非常的慢,不容易快速恢復(fù)數(shù)據(jù)庫。比如1000萬4KB大小的文本就接近40GB的大小,如果能把這些數(shù)據(jù)從MySQL省去,MySQL將變得非常的小。

關(guān)系數(shù)據(jù)庫很強大,但是它并不能很好的應(yīng)付所有的應(yīng)用場景。MySQL的擴展性差(需要復(fù)雜的技術(shù)來實現(xiàn)),大數(shù)據(jù)下IO壓力大,表結(jié)構(gòu)更改困難,正是當(dāng)前使用MySQL的開發(fā)人員面臨的問題。

NOSQL的優(yōu)勢易擴展NoSQL數(shù)據(jù)庫種類繁多,但是一個共同的特點都是去掉關(guān)系數(shù)據(jù)庫的關(guān)系型特性。數(shù)據(jù)之間無關(guān)系,這樣就非常容易擴展。也無形之間,在架構(gòu)的層面上帶來了可擴展的能力。

大數(shù)據(jù)量,高性能

NoSQL數(shù)據(jù)庫都具有非常高的讀寫性能,尤其在大數(shù)據(jù)量下,同樣表現(xiàn)優(yōu)秀。這得益于它的無關(guān)系性,數(shù)據(jù)庫的結(jié)構(gòu)簡單。一般MySQL使用Query Cache,每次表的更新Cache就失效,是一種大粒度的Cache,在針對web2.0的交互頻繁的應(yīng)用,Cache性能不高。而NoSQL的Cache是記錄級的,是一種細(xì)粒度的Cache,所以NoSQL在這個層面上來說就要性能高很多了。

靈活的數(shù)據(jù)模型

NoSQL無需事先為要存儲的數(shù)據(jù)建立字段,隨時可以存儲自定義的數(shù)據(jù)格式。而在關(guān)系數(shù)據(jù)庫里,增刪字段是一件非常麻煩的事情。如果是非常大數(shù)據(jù)量的表,增加字段簡直就是一個噩夢。這點在大數(shù)據(jù)量的web2.0時代尤其明顯。

高可用NoSQL在不太影響性能的情況,就可以方便的實現(xiàn)高可用的架構(gòu)。比如Cassandra,HBase模型,通過復(fù)制模型也能實現(xiàn)高可用。

總結(jié)NoSQL數(shù)據(jù)庫的出現(xiàn),彌補了關(guān)系數(shù)據(jù)(比如MySQL)在某些方面的不足,在某些方面能極大的節(jié)省開發(fā)成本和維護(hù)成本。

MySQL和NoSQL都有各自的特點和使用的應(yīng)用場景,兩者的緊密結(jié)合將會給web2.0的數(shù)據(jù)庫發(fā)展帶來新的思路。

nosql數(shù)據(jù)庫的四種類型

nosql數(shù)據(jù)庫的四種類型如下:

1.key-value鍵值存儲數(shù)據(jù)庫:

相關(guān)產(chǎn)品: Redis、Riak、SimpleDB、Chordless、Scalaris、Memcached.

主要應(yīng)用: 內(nèi)容緩存,處理大量數(shù)據(jù)的高負(fù)載訪問,也用于系統(tǒng)日志。

優(yōu)點:查找速度快,大量操作時性能高。

2.列存儲數(shù)據(jù)庫:

相關(guān)產(chǎn)品: BigTable、HBase、Cassandra、HadoopDB、GreenPlum、PNUTS.

主要應(yīng)用: 分布式數(shù)據(jù)的儲存與管理。

優(yōu)點:查找速度快,可擴展性強,容易進(jìn)行分布式擴展。

缺點:功能相對局限。

3.文檔型數(shù)據(jù)庫

相關(guān)產(chǎn)品:MongoDB、CouchDB、ThruDB、CloudKit、Perservere、Jackrabbit.

主要應(yīng)用: web應(yīng)用,管理面向文檔的數(shù)據(jù)或者類似的半結(jié)構(gòu)化數(shù)據(jù)。

優(yōu)點:數(shù)據(jù)結(jié)構(gòu)靈活,表結(jié)構(gòu)可變,復(fù)雜性低。

缺點:查詢效率低,且缺乏統(tǒng)一的查詢語言。

4.Graph圖形數(shù)據(jù)庫

相關(guān)產(chǎn)品: Neo4J、OrientDB、InfoGrid、GraphDB.

主要應(yīng)用: 復(fù)雜,互連接,低結(jié)構(gòu)化的圖結(jié)構(gòu)場合, 專注構(gòu)建關(guān)系圖譜。

優(yōu)點: 利用圖結(jié)構(gòu)相關(guān)算法, 可用于構(gòu)建復(fù)雜的關(guān)系圖譜。

缺點: 復(fù)雜度高。

當(dāng)前文章:nosql存儲算法實現(xiàn),NOSQL數(shù)據(jù)庫主要存儲方式
分享路徑:http://chinadenli.net/article24/dsgjjce.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)頁設(shè)計公司網(wǎng)站導(dǎo)航網(wǎng)站收錄網(wǎng)站改版營銷型網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設(shè)公司