作者 |?張曉宇(衷源)? 阿里云容器平臺技術(shù)專家
創(chuàng)新互聯(lián)建站是一家專注于網(wǎng)站設(shè)計、成都網(wǎng)站設(shè)計與策劃設(shè)計,慶云網(wǎng)站建設(shè)哪家好?創(chuàng)新互聯(lián)建站做網(wǎng)站,專注于網(wǎng)站建設(shè)十余年,網(wǎng)設(shè)計領(lǐng)域的專業(yè)建站公司;建站業(yè)務(wù)涵蓋:慶云等地區(qū)。慶云做網(wǎng)站價格咨詢:028-86922220導(dǎo)讀:資源利用率一直是很多平臺管理和研發(fā)人員關(guān)心的話題。本文作者通過阿里巴巴容器平臺團隊在這一領(lǐng)域的工作實踐,整理出了一套資源利用提升的方案,希望能夠帶給大家?guī)硪恍┯懻摵退伎肌?/p>
不知道大家有沒有過這樣的經(jīng)歷:當(dāng)我們擁有了一套 Kubernetes 集群,然后開始部署應(yīng)用的時候,我們應(yīng)該給容器分配多少資源呢?
這很難說。由于 Kubernetes 自己的機制,我們可以理解容器的資源實質(zhì)上是一個靜態(tài)的配置。
試問,我們能做到容器資源的按需分配嗎?接下來,我們將在本次分享中和大家一起進行探討這個問題的答案。
首先請允許我們根據(jù)我們的實際情況拋出我們實際生產(chǎn)環(huán)境的挑戰(zhàn)?;蛟S大家還記得 2018 年的天貓雙 11,這一天的總成交額達到了 2135 億。由此一斑可窺全豹,能夠支撐如此龐大規(guī)模的交易量背后的系統(tǒng),其應(yīng)用種類和數(shù)量應(yīng)該是怎樣的一種規(guī)模。
在這種規(guī)模下,我們常常聽到的容器調(diào)度,如:容器編排,負載均衡,集群擴縮容,集群升級,應(yīng)用發(fā)布,應(yīng)用灰度等等這些詞,在被“超大規(guī)模集群”這個詞修飾后,都不再是件容易處理的事情。規(guī)模本身也就是我們大的挑戰(zhàn)。如何運營和管理好這么一個龐大的系統(tǒng),并遵循業(yè)界 dev-ops 宣傳的那樣效果,猶如讓大象去跳舞。但是馬老師曾說過,大象就該干大象該干的事情,為什么要去跳舞呢。
大象是否可以跳舞,帶著這個問題,我們需要從淘寶、天貓等 APP 背后系統(tǒng)說起。
這套互聯(lián)網(wǎng)系統(tǒng)應(yīng)用部署大致可分為三個階段,傳統(tǒng)部署,虛擬機部署和容器部署。相比于傳統(tǒng)部署,虛擬機部署有了更好的隔離性和安全性,但是在性能上不可避免的產(chǎn)生了大量損耗。而容器部署又在虛擬機部署實現(xiàn)隔離和安全的背景下,提出了更輕量化的解決方案。我們的系統(tǒng)也是沿著這么一條主航道上運行的。假設(shè)底層系統(tǒng)好比一艘巨輪,面對巨量的集裝箱---容器,我們需要一個優(yōu)秀的船長,對它們進行調(diào)度編排,讓系統(tǒng)這艘大船可以避開層層險阻,操作難度降低,且具備更多靈活性,最終達成航行的目的。
在開始之初,想到容器化和 Kubernetes 的各種美好場景,我們理想中的容器編排效果應(yīng)該是這樣的:
然而理想很豐滿,現(xiàn)實很骨感。迎接我們的卻是雜亂和形態(tài)各異的窘迫。
雜亂,是因為作為一個異軍突起的新型技術(shù)棧,很多配套工具和工作流的建設(shè)處于初級階段。Demo 版本中運行良好的工具,在真實場景下大規(guī)模鋪開,各種隱藏的問題就會暴露無遺,層出不窮。從開發(fā)到運維,所有的工作人員都在各種被動地疲于奔命。另外,“大規(guī)模鋪開”還意味著,要直接面對形態(tài)各異的生產(chǎn)環(huán)境:異構(gòu)配置的機器、復(fù)雜的需求,甚至是適配用戶的既往的使用習(xí)慣等等。
除了讓人心力交瘁的混亂,系統(tǒng)還面臨著應(yīng)用容器的各種崩潰問題:內(nèi)存不足導(dǎo)致的 OOM,CPU quota 分配太少,導(dǎo)致進程被 throttle,還有帶寬不足,響應(yīng)時延大幅上升...甚至是交易量在面對訪問高峰時候由于系統(tǒng)不給力導(dǎo)致的斷崖式下跌等等。這些都使我們在大規(guī)模商用 Kubernetes 場景中積累非常多的經(jīng)驗。
問題總要進行面對的。正如某位高人說過:如果感覺哪里不太對,那么肯定有些地方出問題了。于是我們就要剖析,問題究竟出在哪里。針對于內(nèi)存的 OOM,CPU 資源被 throttle,我們可以推斷我們給與容器分配的初始資源不足。
資源不足就勢必造成整個應(yīng)用服務(wù)穩(wěn)定性下降。例如上圖的場景:雖然是同一種應(yīng)用的副本,或許是由于負載均衡不夠強大,或者是由于應(yīng)用自身的原因,甚至是由于機器本身是異構(gòu)的,相同數(shù)值的資源,可能對于同一種應(yīng)用的不同副本并具有相等的價值和意義。在數(shù)值上他們看似分配了相同的資源,然而在實際負載工作時,極有可能出現(xiàn)的現(xiàn)象是肥瘦不均的。
而在資源 overcommit 的場景下,應(yīng)用在整個節(jié)點資源不足,或是在所在的 CPU share pool 資源不足時,也會出現(xiàn)嚴(yán)重的資源競爭關(guān)系。資源競爭是對應(yīng)用穩(wěn)定性大的威脅之一。所以我們要盡力在生產(chǎn)環(huán)境中清除所有的威脅。
我們都知道穩(wěn)定性是件很重要的事情,尤其對于掌控上百萬容器生殺大權(quán)的一線研發(fā)人員?;蛟S不經(jīng)心的一個操作就有可能造成影響面巨大的生產(chǎn)事故。
因此,我們也按照一般流程做了系統(tǒng)預(yù)防和兜底工作。
但是對于陡然增加幾分鐘的突增流量,這么多組合拳的花費不菲,似乎有些不劃算?;蛟S我們可以提出一些解決方案,達到我們的預(yù)期。
回顧一下我們的應(yīng)用部署情況:節(jié)點上的容器一般分屬多種應(yīng)用,這些應(yīng)用本身不一定,也一般不會同時處于訪問的高峰。對于混合部署應(yīng)用的宿主機,如果能都錯峰分配上面運行容器的資源或許更科學(xué)。
應(yīng)用的資源需求可能就像月亮一樣有陰晴圓缺,有周期變化。例如在線業(yè)務(wù),尤其是交易業(yè)務(wù),它們在資源使用上呈現(xiàn)一定的周期性,例如:在凌晨、上午時,它的使用量并不是很高,而在午間、下午時會比較高。
打個比方:對于 A 應(yīng)用的重要時刻,對于 B 應(yīng)用可能不那么重要,適當(dāng)打壓 B 應(yīng)用,騰挪出資源給 A 應(yīng)用,這是個不錯的選擇。這聽起來有點像是分時復(fù)用的感覺。但是如果我們按照流量峰值時的需求配置資源就會產(chǎn)生大量的浪費。
除了對于實時性要求很高的在線應(yīng)用外,我們還有離線應(yīng)用和實時計算應(yīng)用等:離線計算對于 CPU 、Memory 或網(wǎng)絡(luò)資源的使用以及時間不那么敏感,所以在任何時間段它都可以運行;實時計算,可能對于時間敏感性就會很高。
早期,我們業(yè)務(wù)是在不同的節(jié)點按照應(yīng)用的類型獨立進行部署。從上面這張圖來看,如果它們進行分時復(fù)用資源,針對實時性這個需求層面,我們會發(fā)現(xiàn)它實際的大使用量不是 2+2+1=5,而是某一時刻重要緊急應(yīng)用需求量的大值,也就是 3 。如果我們能夠數(shù)據(jù)監(jiān)測到每個應(yīng)用的真實使用量,給它分配合理值,那么就能產(chǎn)生資源利用率提升的實際效果。
對于電商應(yīng)用,對于采用了重量級 Java 框架和相關(guān)技術(shù)棧的 Web 應(yīng)用,短時間內(nèi) HPA 或者 VPA 都不是件容易的事情。
先說 HPA,我們或許可以秒級拉起了 Pod,創(chuàng)建新的容器,然而拉起的容器是否真的可用呢。從創(chuàng)建到可用,可能需要比較久的時間,對于大促和搶購秒殺-這種訪問量“洪峰”可能僅維持幾分鐘或者十幾分鐘的實際場景,如果我們等到 HPA 的副本全部可用,可能市場活動早已經(jīng)結(jié)束了。
至于社區(qū)目前的 VPA 場景,刪掉舊 Pod,創(chuàng)建新 Pod,這樣的邏輯更難接受。所以綜合考慮,我們需要一個更實際的解決方案彌補 HPA 和 VPA 的在這一單機資源調(diào)度的空缺。
我們首先要對解決方案設(shè)定一個可以交付的標(biāo)準(zhǔn)那就是—— “既要穩(wěn)定性,也要利用率,還要自動化實施,當(dāng)然如果能夠智能化那就更好”,然后再交付標(biāo)準(zhǔn)進行細化:
上圖是我們最初的工具流程設(shè)計:當(dāng)一個應(yīng)用面臨很高的業(yè)務(wù)訪問需求時,體現(xiàn)在 CPU、Memory 或其他資源類型需求量變大,我們根據(jù) Data Collector 采集的實時基礎(chǔ)數(shù)據(jù),利用 Data Aggregator 生成某個容器或整個應(yīng)用的畫像,再將畫像反饋給 Policy engine。 Policy engine 會瞬時快速修改容器 Cgroup 文件目錄下的的參數(shù)。
我們最早的架構(gòu)和我們的想法一樣樸實,在 kubelet 進行了侵入式的修改。雖然我們只是加了幾個接口,但是這種方式確實不夠優(yōu)雅。每次 kubenrnetes 升級,對于 Policy engine 相關(guān)組件升級也有一定的挑戰(zhàn)。
為了做到快速迭代并和 Kubelet 解耦,我們對于實現(xiàn)方式進行了新的演進。那就是將關(guān)鍵應(yīng)用容器化。這樣可以達到以下功效:
當(dāng)然在后續(xù)演進中,我們也在嘗試和 HPA,VPA 進行打通,畢竟這些和 Policy engine 存在著互補的關(guān)系。因此我們架構(gòu)進一步演進成如下情形。當(dāng) Policy engine 在處理一些更多復(fù)雜場景搞到無力時,上報事件讓中心端做出更全局的決策。水平擴容或是垂直增加資源。
下面我們具體討論一下 Policy engine 的設(shè)計。Policy engine 是單機節(jié)點上進行智能調(diào)度并執(zhí)行 Pod 資源調(diào)整的核心組件。它主要包括 api server,指揮中心 command center 和執(zhí)行層 executor。
指揮中心定期從 data aggregator 獲取容器的實時畫像,包括聚合的統(tǒng)計數(shù)據(jù)和預(yù)測數(shù)據(jù),首先判斷節(jié)點狀態(tài),例如節(jié)點磁盤異常,或者網(wǎng)絡(luò)不通,表示該節(jié)點已經(jīng)發(fā)生異常,需要保護現(xiàn)場,不再對Pod進行資源調(diào)整,以免造成系統(tǒng)震蕩,影響運維和調(diào)試。如果節(jié)點狀態(tài)正常,指揮中心會策略規(guī)則,對容器數(shù)據(jù)進行再次過濾。比如容器 CPU 率飆高,或者容器的響應(yīng)時間超過安全閾值。如果條件滿足,則對滿足條件的容器集合給出資源調(diào)整建議,傳遞給executor。
在架構(gòu)設(shè)計上,我們遵循了以下原則:
插件化:所有的規(guī)則和策略被設(shè)計為可以通過配置文件來修改,盡量與核心控制流程的代碼解耦,與 data collector 和 data aggregator 等其他組件的更新和發(fā)布解耦,提升可擴展性;
穩(wěn)定,這包括以下幾個方面:
自愈:資源調(diào)整等動作的執(zhí)行可能會產(chǎn)生一些異常,我們在每個控制器內(nèi)都加入了自愈回滾機制,保證整個系統(tǒng)的穩(wěn)定性;
在資源調(diào)整方面,Cgroup 支持我們對各個容器的 CPU、內(nèi)存、網(wǎng)絡(luò)和磁盤 IO 帶寬資源進行隔離和限制,目前我們主要對容器的 CPU 資源進行調(diào)整,同時在測試中探索在時分復(fù)用的場景下動態(tài)調(diào)整 memory limit 和 swap usage 而避免 OOM 的可行性;在未來我們將支持對容器的網(wǎng)絡(luò)和磁盤 IO 的動態(tài)調(diào)整。
上圖展示了我們在測試集群得到的一些實驗結(jié)果。我們把高優(yōu)先級的在線應(yīng)用和低優(yōu)先級的離線應(yīng)用混合部署在測試集群里。SLO 是 250ms,我們希望在線應(yīng)用的 latency 的 95 百分位值低于閾值 250ms。
在實驗結(jié)果中可以看到:
這說明了我們的控制策略的有效性。
下面我們總結(jié)一下在整個項目的進行過程中,我們收獲的一些經(jīng)驗和教訓(xùn),希望這些經(jīng)驗教訓(xùn)能夠?qū)τ龅筋愃茊栴}和場景的人有所幫助。
總結(jié)起來,我們的工作主要實現(xiàn)了以下幾方面的收益:
展望未來,我們希望在以下幾個方面加強和擴展我們的工作:
Q1:直接修改 cgroup 容器一定會獲得資源嗎?
A1:容器技術(shù)隔離的技術(shù)基礎(chǔ)就是 cgroup 層面。在宿主機騰出足夠資源的情況下,給 cgroup 設(shè)置更大的值可以獲取更多的資源。同理,對于一般優(yōu)先級不高的應(yīng)用,設(shè)置較低的 cgroup 資源值就會達到抑制容器運行的效果。
Q2:底層是如何區(qū)分在線和離線優(yōu)先級的?
A2:底層是無法自動獲取誰是在線,誰是離線,或者誰的優(yōu)先級高,誰的優(yōu)先級低的。這個我們可以通過各種 Kubernetes 提供的擴展實現(xiàn)。最簡單的是通過 label,Annotation 標(biāo)識。當(dāng)然通過擴展 QoS class 也是一種思路。社區(qū)版本的 QoS class設(shè)置太過于保守,給予用戶發(fā)揮的空間不大。我們通過這些方面也進行了增強。在合適的時候或許會推向社區(qū)。自動感知是個方向,感知誰是干擾源,感知誰是某種資源型應(yīng)用,這塊我們還在研發(fā)中。做到真正的動態(tài),肯定是具備自動感知的智能系統(tǒng)。
Q3:“與社區(qū)版? Vertical-Pod-Autoscaler 不同,Policy engine 不主動驅(qū)逐騰挪容器,而是直接修改容器的 cgroup 文件”,想問一下,不主動驅(qū)逐的話,如果 Node 的資源達到上線了會怎么處理?
A3:這是一個好問題。首先這里要先區(qū)分是哪種資源,如果是 CPU 型的,我們可以調(diào)整低優(yōu)先級容器的 cgroup 下 cpu quota 的值,首先抑制低優(yōu)先級的容器對于 CPU 的爭搶。然后再適當(dāng)上調(diào)高優(yōu)先級容器的相關(guān)資源值。如果是內(nèi)存型資源,這個不能直接去縮小低優(yōu)先級容器的 cgroup 值,否則會造成 OOM,對于學(xué)習(xí)內(nèi)存型資源的調(diào)整,我們會在其他分享中繼續(xù)討論。這個技術(shù)比較特殊。
Q4:只修改 cgroup,怎么保證 K8s 對單個物理機能夠分配更多的容器?
A4:文字直播有了一定說明,容器的資源消耗并非是一成不變的,很多時候它們的資源消耗呈現(xiàn)潮汐現(xiàn)象,相同的資源條件下部署更多應(yīng)用,完成更多作業(yè)就是達到資源利用的大化的效果。資源出現(xiàn)超賣才是我們這個主題討論的大價值。
Q5:也就是說,低優(yōu)先級的容器,request 設(shè)置的比 limit 小很多,然后你們再動態(tài)的調(diào)整 cgroup?
A5:在現(xiàn)有 QoS 場景下,你可以理解被調(diào)整的 Pod 都是 burstable 的。但是我們并不是直接調(diào)整 Pod 元數(shù)據(jù)的 limit 的值,而是調(diào)整 limit 在 cgroup 反映的值,這個值在資源競爭緩和的時候還會被調(diào)整回去的。我們并不建議單機的 cgroup 數(shù)據(jù)和 etcd 的中心數(shù)據(jù)割裂太久。如果長期偏離,我們會像 VPA 發(fā)出警報,聯(lián)動 VPA 做調(diào)整。當(dāng)然在容器運行的高峰期,任何重建容器的操作都是不明智的。
Q6:整體的理解就是你們開始就讓物理機超配了一定比例的 pod,然后通過策略動態(tài)調(diào)整容器的 cgroup 值?
A6:如果資源完全是富足冗余的,這個動態(tài)調(diào)整也有一定意義。就是并非資源用滿場景下,高優(yōu)先級應(yīng)用會被干擾,實際上,當(dāng)主機的 CPU 達到一定比例,打個比方例如 50%,應(yīng)用的時延就變大。為了完全確保高優(yōu)先級應(yīng)用的 SLO,犧牲低優(yōu)先級的 CPU 正常運行也是有價值的。
Q7:Policy engine 有沒有考慮開源?
A7:有計劃進行開源,Policy engine 更多的是和自身的應(yīng)用屬性相關(guān),電商應(yīng)用或者大數(shù)據(jù)處理應(yīng)用的策略都是不相同的,我們開源會首先開源框架和附帶一些簡單的策略,更多的策略可以用戶自定義。
Q8:我之前遇到的大部分應(yīng)用都無法正確感知 cgroup 的配置,因此很多情況都需要在啟動參數(shù)里面根據(jù) cpu 或者 mem 設(shè)置參數(shù),那么也就是說即使改變了 cgroup 對于他們來說都無效,那么使用場景也就有限了
A8:限制容器的資源使用這個還是有價值的。限制低優(yōu)先級應(yīng)用本身也可以提升高優(yōu)先級應(yīng)用的 SLO,雖然效果沒有那么明顯。穩(wěn)定性的考量同樣也很重要。
Q9:Policy engine 目前在阿里的使用如何?在生產(chǎn)上有多上的規(guī)模使用這種方式進行動態(tài)調(diào)整?是否和社區(qū)的 HPA VPA 配合使用?
A9:?Policy engine 在阿里某些集群已經(jīng)使用。至于規(guī)模暫時無法透漏。涉及到很多組件之間的聯(lián)動,社區(qū)的 HPA 和 VPA 目前都不太能滿足我們的需求。因此阿里的 HPA 和 VPA 都是我們自行開發(fā)的,但是和社區(qū)的原理是一致的。阿里 HPA 的開源可以關(guān)注 Openkruise 社區(qū)。VPA 開源計劃我這里還沒有確切消息。
Q10:當(dāng)單機節(jié)點資源不足以提供容器擴容時,目前是否可以進行 HPA 或 VPA 擴容呢?
A10:單機節(jié)點不足的時候,應(yīng)用可以通過 HPA 進行增加副本應(yīng)對。但是 VPA 如果選擇原節(jié)點進行更新的話,是失敗的。只能調(diào)度到其他資源豐富的節(jié)點。在流量陡升的場景下,重建容器未必能滿足需求,很可能導(dǎo)致雪崩,即重建過程中,整個應(yīng)用其他未升級的副本接受更多流量,OOM 掉,新啟動的容器再瞬間被 OOM,所以重啟容器需要慎重??焖贁U容(HPA)或者快速提升高優(yōu)先級資源,抑制低優(yōu)先級容器資源的方式效果更明顯。
關(guān)注『阿里巴巴云原生』公眾號,回復(fù)關(guān)鍵詞“1010”,可獲取本文 PPT。
“ 阿里巴巴云原生微信公眾號(ID:Alicloudnative)關(guān)注微服務(wù)、Serverless、容器、Service Mesh等技術(shù)領(lǐng)域、聚焦云原生流行技術(shù)趨勢、云原生大規(guī)模的落地實踐,做最懂云原生開發(fā)者的技術(shù)公眾號?!?/strong>
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。
標(biāo)題名稱:超大規(guī)模商用K8s場景下,阿里巴巴如何動態(tài)解決容器資源的按需分配問題?-創(chuàng)新互聯(lián)
當(dāng)前URL:http://chinadenli.net/article46/dhjphg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站建設(shè)、全網(wǎng)營銷推廣、搜索引擎優(yōu)化、品牌網(wǎng)站制作、網(wǎng)頁設(shè)計公司、網(wǎng)站導(dǎo)航
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)