怎樣從Elasticsearch來看分布式系統(tǒng)架構(gòu)設(shè)計(jì)

本篇文章給大家分享的是有關(guān)怎樣從Elasticsearch來看分布式系統(tǒng)架構(gòu)設(shè)計(jì)，小編覺得挺實(shí)用的，因此分享給大家學(xué)習(xí)，希望大家閱讀完這篇文章后可以有所收獲，話不多說，跟著小編一起來看看吧。

我們提供的服務(wù)有：成都網(wǎng)站建設(shè)、網(wǎng)站制作、微信公眾號開發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認(rèn)證、灌陽ssl等。為上千多家企事業(yè)單位解決了網(wǎng)站和推廣的問題。提供周到的售前咨詢和貼心的售后服務(wù)，是有科學(xué)管理、有技術(shù)的灌陽網(wǎng)站制作公司

分布式系統(tǒng)類型多，涉及面非常廣，不同類型的系統(tǒng)有不同的特點(diǎn)，批量計(jì)算和實(shí)時(shí)計(jì)算就差別非常大。這篇文章中，重點(diǎn)會討論下分布式數(shù)據(jù)系統(tǒng)的設(shè)計(jì)，比如分布式存儲系統(tǒng)，分布式搜索系統(tǒng)，分布式分析系統(tǒng)等。

我們先來簡單看下Elasticsearch的架構(gòu)。

Elasticsearch 集群架構(gòu)

<p _hover-ignore="1" white-space:normal;background-color:#ffffff;"=""> Elasticsearch是一個(gè)非常著名的開源搜索和分析系統(tǒng)，目前被廣泛應(yīng)用于互聯(lián)網(wǎng)多種領(lǐng)域中，尤其是以下三個(gè)領(lǐng)域特別突出。一是搜索領(lǐng)域，相對于solr，真正的后起之秀，成為很多搜索系統(tǒng)的不二之選。二是Json文檔數(shù)據(jù)庫，相對于MongoDB，讀寫性能更佳，而且支持更豐富的地理位置查詢以及數(shù)字、文本的混合查詢等。三是時(shí)序數(shù)據(jù)分析處理，目前是日志處理、監(jiān)控?cái)?shù)據(jù)的存儲、分析和可視化方面做得非常好，可以說是該領(lǐng)域的引領(lǐng)者了。

Elasticsearch的詳細(xì)介紹可以到官網(wǎng)查看。我們先來看一下Elasticsearch中幾個(gè)關(guān)鍵概念：

節(jié)點(diǎn)(Node)：物理概念，一個(gè)運(yùn)行的Elasticearch實(shí)例，一般是一臺機(jī)器上的一個(gè)進(jìn)程。

索引(Index)，邏輯概念，包括配置信息mapping和倒排正排數(shù)據(jù)文件，一個(gè)索引的數(shù)據(jù)文件可能會分布于一臺機(jī)器，也有可能分布于多臺機(jī)器。索引的另外一層意思是倒排索引文件。

分片(Shard)：為了支持更大量的數(shù)據(jù)，索引一般會按某個(gè)維度分成多個(gè)部分，每個(gè)部分就是一個(gè)分片，分片被節(jié)點(diǎn)(Node)管理。一個(gè)節(jié)點(diǎn)(Node)一般會管理多個(gè)分片，這些分片可能是屬于同一份索引，也有可能屬于不同索引，但是為了可靠性和可用性，同一個(gè)索引的分片盡量會分布在不同節(jié)點(diǎn)(Node)上。分片有兩種，主分片和副本分片。

副本(Replica)：同一個(gè)分片(Shard)的備份數(shù)據(jù)，一個(gè)分片可能會有0個(gè)或多個(gè)副本，這些副本中的數(shù)據(jù)保證強(qiáng)一致或最終一致。

用圖形表示出來可能是這樣子的：

怎樣從Elasticsearch來看分布式系統(tǒng)架構(gòu)設(shè)計(jì)

Elasticsearch支持上述兩種方式：

混合部署(左圖)：

默認(rèn)方式。

不考慮MasterNode的情況下，還有兩種Node，Data Node和Transport Node，這種部署模式下，這兩種不同類型Node角色都位于同一個(gè)Node中，相當(dāng)于一個(gè)Node具備兩種功能：Data和Transport。

當(dāng)有index或者query請求的時(shí)候，請求隨機(jī)(自定義)發(fā)送給任何一個(gè)Node，這臺Node中會持有一個(gè)全局的路由表，通過路由表選擇合適的Node，將請求發(fā)送給這些Node，然后等所有請求都返回后，合并結(jié)果，然后返回給用戶。一個(gè)Node分飾兩種角色。

好處就是使用極其簡單，易上手，對推廣系統(tǒng)有很大價(jià)值。最簡單的場景下只需要啟動一個(gè)Node，就能完成所有的功能。

缺點(diǎn)就是多種類型的請求會相互影響，在大集群如果某一個(gè)Data Node出現(xiàn)熱點(diǎn)，那么就會影響途經(jīng)這個(gè)Data Node的所有其他跨Node請求。如果發(fā)生故障，故障影響面會變大很多。

Elasticsearch中每個(gè)Node都需要和其余的每一個(gè)Node都保持13個(gè)連接。這種情況下，每個(gè)Node都需要和其他所有Node保持連接，而一個(gè)系統(tǒng)的連接數(shù)是有上限的，這樣連接數(shù)就會限制集群規(guī)模。

還有就是不能支持集群的熱更新。

分層部署(右圖)：

通過配置可以隔離開Node。

設(shè)置部分Node為Transport Node，專門用來做請求轉(zhuǎn)發(fā)和結(jié)果合并。

其他Node可以設(shè)置為DataNode，專門用來處理數(shù)據(jù)。

缺點(diǎn)是上手復(fù)雜，需要提前設(shè)置好Transport的數(shù)量，且數(shù)量和Data Node、流量等相關(guān)，否則要么資源閑置，要么機(jī)器被打爆。

好處就是角色相互獨(dú)立，不會相互影響，一般Transport Node的流量是平均分配的，很少出現(xiàn)單臺機(jī)器的CPU或流量被打滿的情況，而DataNode由于處理數(shù)據(jù)，很容易出現(xiàn)單機(jī)資源被占滿，比如CPU，網(wǎng)絡(luò)，磁盤等。獨(dú)立開后，DataNode如果出了故障只是影響單節(jié)點(diǎn)的數(shù)據(jù)處理，不會影響其他節(jié)點(diǎn)的請求，影響限制在最小的范圍內(nèi)。

角色獨(dú)立后，只需要Transport Node連接所有的DataNode，而DataNode則不需要和其他DataNode有連接。一個(gè)集群中DataNode的數(shù)量遠(yuǎn)大于Transport Node，這樣集群的規(guī)?？梢愿?。另外，還可以通過分組，使Transport Node只連接固定分組的DataNode，這樣Elasticsearch的連接數(shù)問題就徹底解決了。

可以支持熱更新：先一臺一臺的升級DataNode，升級完成后再升級Transport Node，整個(gè)過程中，可以做到讓用戶無感知。

上面介紹了Elasticsearch的部署層架構(gòu)，不同的部署方式適合不同場景，需要根據(jù)自己的需求選擇適合的方式。

Elasticsearch 數(shù)據(jù)層架構(gòu)

接下來我們看看當(dāng)前Elasticsearch的數(shù)據(jù)層架構(gòu)。

數(shù)據(jù)存儲

Elasticsearch的Index和meta，目前支持存儲在本地文件系統(tǒng)中，同時(shí)支持niofs，mmap，simplefs，smb等不同加載方式，性能最好的是直接將索引LOCK進(jìn)內(nèi)存的MMap方式。默認(rèn)，Elasticsearch會自動選擇加載方式，另外可以自己在配置文件中配置。這里有幾個(gè)細(xì)節(jié)，具體可以看官方文檔。

索引和meta數(shù)據(jù)都存在本地，會帶來一個(gè)問題：當(dāng)某一臺機(jī)器宕機(jī)或者磁盤損壞的時(shí)候，數(shù)據(jù)就丟失了。為了解決這個(gè)問題，可以使用Replica(副本)功能。

副本(Replica)

可以為每一個(gè)Index設(shè)置一個(gè)配置項(xiàng)：副本(Replicda)數(shù)，如果設(shè)置副本數(shù)為2，那么就會有3個(gè)Shard，其中一個(gè)是PrimaryShard，其余兩個(gè)是ReplicaShard，這三個(gè)Shard會被Master盡量調(diào)度到不同機(jī)器，甚至機(jī)架上，這三個(gè)Shard中的數(shù)據(jù)一樣，提供同樣的服務(wù)能力。

副本(Replica)的目的有三個(gè)：

保證服務(wù)可用性：當(dāng)設(shè)置了多個(gè)Replica的時(shí)候，如果某一個(gè)Replica不可用的時(shí)候，那么請求流量可以繼續(xù)發(fā)往其他Replica，服務(wù)可以很快恢復(fù)開始服務(wù)。

保證數(shù)據(jù)可靠性：如果只有一個(gè)Primary，沒有Replica，那么當(dāng)Primary的機(jī)器磁盤損壞的時(shí)候，那么這個(gè)Node中所有Shard的數(shù)據(jù)會丟失，只能reindex了。

提供更大的查詢能力：當(dāng)Shard提供的查詢能力無法滿足業(yè)務(wù)需求的時(shí)候，可以繼續(xù)加N個(gè)Replica，這樣查詢能力就能提高N倍，輕松增加系統(tǒng)的并發(fā)度。

問題

上面說了一些優(yōu)勢，這種架構(gòu)同樣在一些場景下會有些問題。

Elasticsearch采用的是基于本地文件系統(tǒng)，使用Replica保證數(shù)據(jù)可靠性的技術(shù)架構(gòu)，這種架構(gòu)一定程度上可以滿足大部分需求和場景，但是也存在一些遺憾：

Replica帶來成本浪費(fèi)。為了保證數(shù)據(jù)可靠性，必須使用Replica，但是當(dāng)一個(gè)Shard就能滿足處理能力的時(shí)候，另一個(gè)Shard的計(jì)算能力就會浪費(fèi)。

Replica帶來寫性能和吞吐的下降。每次Index或者update的時(shí)候，需要先更新Primary Shard，更新成功后再并行去更新Replica，再加上長尾，寫入性能會有不少的下降。

當(dāng)出現(xiàn)熱點(diǎn)或者需要緊急擴(kuò)容的時(shí)候動態(tài)增加Replica慢。新Shard的數(shù)據(jù)需要完全從其他Shard拷貝，拷貝時(shí)間較長。

上面介紹了Elasticsearch數(shù)據(jù)層的架構(gòu)，以及副本策略帶來的優(yōu)勢和不足，下面簡單介紹了幾種不同形式的分布式數(shù)據(jù)系統(tǒng)架構(gòu)。

分布式系統(tǒng)

第一種：基于本地文件系統(tǒng)的分布式系統(tǒng)

怎樣從Elasticsearch來看分布式系統(tǒng)架構(gòu)設(shè)計(jì)

針對第一種架構(gòu)中的問題，另一種思路是：存儲和計(jì)算分離。

第一種思路的問題根源是數(shù)據(jù)量大，拷貝數(shù)據(jù)耗時(shí)多，那么有沒有辦法可以不拷貝數(shù)據(jù)?為了實(shí)現(xiàn)這個(gè)目的，一種思路是底層存儲層使用共享存儲，每個(gè)Shard只需要連接到一個(gè)分布式文件系統(tǒng)中的一個(gè)目錄/文件即可，Shard中不含有數(shù)據(jù)，只含有計(jì)算部分。相當(dāng)于每個(gè)Node中只負(fù)責(zé)計(jì)算部分，存儲部分放在底層的另一個(gè)分布式文件系統(tǒng)中，比如HDFS。

上圖中，Node 1 連接到第一個(gè)文件;Node 2連接到第二個(gè)文件;Node3連接到第三個(gè)文件。當(dāng)Node 3機(jī)器宕機(jī)后，只需要在Node 4機(jī)器上新建一個(gè)空的Shard，然后構(gòu)造一個(gè)新連接，連接到底層分布式文件系統(tǒng)的第三個(gè)文件即可，創(chuàng)建連接的速度是很快的，總耗時(shí)會非常短。

這種是一種典型的存儲和計(jì)算分離的架構(gòu)，優(yōu)勢有以下幾個(gè)方面：

在這種架構(gòu)下，資源可以更加彈性，當(dāng)存儲不夠的時(shí)候只需要擴(kuò)容存儲系統(tǒng)的容量;當(dāng)計(jì)算不夠的時(shí)候，只需要擴(kuò)容計(jì)算部分容量。

存儲和計(jì)算是獨(dú)立管理的，資源管理粒度更小，管理更加精細(xì)化，浪費(fèi)更少，結(jié)果就是總體成本可以更低。

負(fù)載更加突出，抗熱點(diǎn)能力更強(qiáng)。一般熱點(diǎn)問題基本都出現(xiàn)在計(jì)算部分，對于存儲和計(jì)算分離系統(tǒng)，計(jì)算部分由于沒有綁定數(shù)據(jù)，可以實(shí)時(shí)的擴(kuò)容、縮容和遷移，當(dāng)出現(xiàn)熱點(diǎn)的時(shí)候，可以第一時(shí)間將計(jì)算調(diào)度到新節(jié)點(diǎn)上。

這種架構(gòu)同時(shí)也有一個(gè)不足：

訪問分布式文件系統(tǒng)的性能可能不及訪問本地文件系統(tǒng)。在上一代分布式文件系統(tǒng)中，這是一個(gè)比較明顯的問題，但是目前使用了各種用戶態(tài)協(xié)議棧后，這個(gè)差距已經(jīng)越來越小了。

HBase使用的就是這種架構(gòu)方式。

Solr也支持這種形式的架構(gòu)。

上述兩種架構(gòu)，各有優(yōu)勢和不足，對于某些架構(gòu)中的不足或缺陷，思路不同，解決的方案也大相徑庭，但是思路跨度越大，收益一般也越大。

上面只是介紹了分布式數(shù)據(jù)(存儲/搜索/分析等等)系統(tǒng)在存儲層的兩種不同架構(gòu)方式。

以上就是怎樣從Elasticsearch來看分布式系統(tǒng)架構(gòu)設(shè)計(jì)，小編相信有部分知識點(diǎn)可能是我們?nèi)粘９ぷ鲿姷交蛴玫降?。希望你能通過這篇文章學(xué)到更多知識。更多詳情敬請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。

文章名稱：怎樣從Elasticsearch來看分布式系統(tǒng)架構(gòu)設(shè)計(jì)
文章來源：http://chinadenli.net/article36/podjpg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供建站公司、ChatGPT、網(wǎng)站策劃、網(wǎng)站設(shè)計(jì)公司、營銷型網(wǎng)站建設(shè)、網(wǎng)站導(dǎo)航

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

怎樣從Elasticsearch來看分布式系統(tǒng)架構(gòu)設(shè)計(jì)