推動闆塊化運維,破解大規模分(fēn)布式服務(wù)框架下的運維難題

分(fēn)享到:
2023-05-04 浏覽:1411

作(zuò)者:工商銀行軟件開發中心副總經理(lǐ) 王旭光

近年來,工商銀行聚力創新(xīn)變革,全面實施智慧銀行生态建設工程(ECOS),實現了從傳統集中式向全分(fēn)布式的轉型突破,自主研發了全球銀行業規模最大的企業級雲計算平台,在大型銀行中率先通過全面分(fēn)布式架構承載主要業務(wù)系統運行,實現了傳統單一核心銀行系統向去核心化開放生态銀行系統的代際躍升。與此同時,工商銀行将防範IT系統風險作(zuò)為(wèi)防範系統性風險的重點課題之一。當前,工商銀行雲上節點數量超5萬個,容器規模超過30萬個,服務(wù)數量超過3萬個,日均服務(wù)調用(yòng)量達160億次。對于以“雲計算+分(fēn)布式”為(wèi)核心、涵蓋系列企業級新(xīn)技(jì )術平台的技(jì )術體(tǐ)系,其配套運維能(néng)力不斷提高,監管機構及客戶對銀行信息系統的安(ān)全性提出了更高的要求,這給信息系統高效、安(ān)全、穩定運行帶來新(xīn)的挑戰。

一、分(fēn)布式服務(wù)框架下運維工作(zuò)面臨的挑戰

以分(fēn)布式、微服務(wù)為(wèi)代表的新(xīn)架構,在部署節點數量以及服務(wù)交互複雜程度等方面都上升到了新(xīn)的等級,對基礎設施、網絡環境、基礎組件的穩定性有較高要求,同時所形成的網狀拓撲結構服務(wù)調用(yòng)鏈路為(wèi)生産運行穩定性也帶來新(xīn)的挑戰。

一是業務(wù)場景通常涉及多(duō)個應用(yòng)組合服務(wù)、多(duō)個技(jì )術組件調用(yòng),鏈路較為(wèi)複雜,服務(wù)組件體(tǐ)量巨大,進而大幅提升了鏈路分(fēn)析、跟蹤、故障診斷、根因定位等的運維管控難度,在發生基礎設施故障或服務(wù)異常時,往往難以快速準确地判斷業務(wù)影響範圍。

二是故障爆炸半徑難以控制。由于服務(wù)調用(yòng)關系複雜,且對基礎設施及技(jì )術組件的穩定性存在依賴,因此故障會随調用(yòng)鏈延長(cháng)而持續蔓延,技(jì )術基礎組件的局部故障可(kě)能(néng)造成其上層調用(yòng)的服務(wù)出現大面積故障。

三是業務(wù)場景全鏈路上應用(yòng)的運維能(néng)力參差不齊,木(mù)桶效應影響了鏈路所支撐重要業務(wù)的可(kě)靠性,如何快速識别和補齊短闆,确保關鍵業務(wù)鏈路穩定高效運轉成為(wèi)關鍵。

四是為(wèi)傳統運維組織協作(zuò)模式帶來很(hěn)大壓力。傳統的運維組織架構大多(duō)以應用(yòng)研發組織分(fēn)組進行适配管理(lǐ),實際運維過程中,問題的反映通常基于業務(wù)視角,同一重要業務(wù)鏈路上的應用(yòng)可(kě)能(néng)分(fēn)屬不同運維組織,這将增加上下遊協同的溝通和管理(lǐ)成本。 

二、分(fēn)布式服務(wù)框架下的運維破局之道 

面對上述挑戰,工商銀行結合業界最佳實踐及自身實際情況,開展了基于業務(wù)運維闆塊的運維轉型方案研究與實踐。按照企業級業務(wù)架構及技(jì )術架構頂層規劃,積極推動面向業務(wù)的闆塊化運維體(tǐ)系建設和轉型,将“以業務(wù)為(wèi)中心,構建安(ān)全、高效、穩定的技(jì )術運營服務(wù)”作(zuò)為(wèi)管理(lǐ)目标,以闆塊為(wèi)抓手,推進運維管控能(néng)力提升。

具體(tǐ)而言,運維體(tǐ)系的建設思路主要包括四個方面:一是基于業務(wù)和客戶視角,将更合理(lǐ)有效的端到端的業務(wù)運維闆塊作(zuò)為(wèi)運維單位,将運維視角從單體(tǐ)應用(yòng)延伸至業務(wù)的場景運營;二是推動各業務(wù)運維闆塊内應用(yòng)架構的優化及闆塊間的解耦,強化面向業務(wù)闆塊的基礎設施、資源部署和邊界管理(lǐ),實現闆塊間的風險隔離;三是提升基于業務(wù)闆塊和關鍵業務(wù)場景的鏈路級監控、應急、變更管控及容災等核心生産運維能(néng)力,補齊短闆,結合運維智能(néng)化轉型發展,賦能(néng)業務(wù)的數字化轉型;四是建立和完善與業務(wù)運維闆塊相适配的組織保障體(tǐ)系,進一步優化相關管理(lǐ)機制及工作(zuò)流程,形成面向業務(wù)的闆塊化運營管控機制。

三、推動闆塊化運維實施

一是定義與劃分(fēn)業務(wù)運維闆塊。業務(wù)運維闆塊是基于工商銀行企業級業務(wù)架構及IT架構,結合業務(wù)領域劃分(fēn)、業務(wù)應用(yòng)分(fēn)組及生産運維實際經驗,圍繞端到端的業務(wù)場景定義的,用(yòng)于承接生産運維、風險管控等運維工作(zuò)的一組應用(yòng)或服務(wù)群組。結合工商銀行IT架構分(fēn)層體(tǐ)系,明确業務(wù)運維闆塊的三大劃分(fēn)原則:

第一,面向業務(wù)的高内聚原則。将渠道、業務(wù)産品的應用(yòng)或群組以業務(wù)闆塊和場景為(wèi)邊界進行端到端聚合,形成渠道類、業務(wù)産品類業務(wù)運維闆塊。渠道類業務(wù)運維闆塊如融e行闆塊、遠(yuǎn)程銀行闆塊等;業務(wù)産品類業務(wù)運維闆塊如對公闆塊、信用(yòng)卡闆塊等。 

第二,将業務(wù)基礎的應用(yòng)或群組以面向業務(wù)的服務(wù)能(néng)力為(wèi)邊界進行聚合,形成業務(wù)基礎類業務(wù)運維闆塊,如快捷支付闆塊、e支付闆塊、清算管理(lǐ)闆塊等。

第三,将技(jì )術基礎的應用(yòng)或群組以所支撐的業務(wù)闆塊為(wèi)邊界進行從屬關系的劃分(fēn)和聚合,确保技(jì )術基礎服務(wù)資源相對隔離。不同類型的闆塊根據闆塊自身特點梳理(lǐ)關鍵業務(wù)場景,識别服務(wù)鏈路,明确闆塊建設目标。工商銀行業務(wù)運維闆塊劃分(fēn)示意如圖1所示。

1.png

圖1 工商銀行業務(wù)運維闆塊劃分(fēn)示意

二是優化運維組織架構。基于業務(wù)運維闆塊進行運維組織架構調整,改變原來參考應用(yòng)所屬IT架構分(fēn)層和研發組織歸屬以及各運維專業進行團隊組織劃分(fēn)的形式,轉為(wèi)按業務(wù)運維闆塊進行運維團隊的分(fēn)組并輻射至業務(wù)、研發、測試部門。如圖2所示,業務(wù)闆塊核心圈内的應用(yòng)歸屬同一實體(tǐ)物(wù)理(lǐ)團隊運維,以此減少同一業務(wù)場景的跨部門、跨專業溝通;虛線(xiàn)框内為(wèi)與闆塊核心業務(wù)緊密相關的技(jì )術及業務(wù)基礎應用(yòng),以配備專人配合的虛拟團隊為(wèi)闆塊提供穩定性保障。通過對闆塊化組織的調整,實現運維工作(zuò)本身的解耦和内聚,加速運維視角從科(kē)技(jì )應用(yòng)視角向業務(wù)視角轉換,強化科(kē)技(jì )與業務(wù)的聯動,提升問題處置的有效性和響應速度,挖掘運維數據價值,賦能(néng)業務(wù)運營。

2.png

圖2 工商銀行業務(wù)運維闆塊結構示意 

三是開展全鏈路服務(wù)治理(lǐ)及部署調優。明确各闆塊的核心場景及關鍵服務(wù)調用(yòng)鏈路,以闆塊為(wèi)邊界做好風險隔離,對标闆塊内應用(yòng)高内聚、松耦合的目标,做好服務(wù)調用(yòng)關系管控,非關鍵鏈路服務(wù)采取異步調用(yòng)、可(kě)熔斷、降級等措施與關鍵鏈路解耦,發生故障時能(néng)通過自動化應急手段避免對闆塊核心業務(wù)産生影響。闆塊之間的調用(yòng)比照系統内外調用(yòng)控制,合理(lǐ)劃分(fēn)和部署支撐闆塊業務(wù)的技(jì )術基礎平台資源,重點保障場景基礎設施、網絡資源相對隔離,有效控制技(jì )術基礎組件故障對業務(wù)産生的影響範圍,減少系統風險在闆塊間的擴散。

四是構建面向業務(wù)全鏈路的故障診斷中心。建立面向業務(wù)全鏈路的監控規範,基于流量染色等技(jì )術構建業務(wù)調用(yòng)鏈拓撲能(néng)力,自動實時生成業務(wù)場景實際調用(yòng)鏈的拓撲透視圖,為(wèi)闆塊全鏈路構建可(kě)觀測監控底座;對于闆塊内重要業務(wù)場景開展業務(wù)生死線(xiàn)指标監控,依托可(kě)觀測監控底座,加速建設智能(néng)基線(xiàn)、故障定位等智能(néng)化監控體(tǐ)系,打造一站式全鏈路可(kě)觀測中心,提升業務(wù)連續性保障能(néng)力。 

五是拉齊闆塊内各相關應用(yòng)的運維能(néng)水平。圍繞闆塊内重要業務(wù)場景做好全鏈路性能(néng)容量管控、壓測,構建闆塊的實際業務(wù)支撐能(néng)力,确保鏈路上各節點達到高可(kě)用(yòng)保障要求,并完善同城、異地的災備環境,構建快速容災切換能(néng)力;提升突發業務(wù)量激增、基礎設施或應用(yòng)節點故障情況下的系統自我保護能(néng)力;建立健全鏈路級應急預案、一鍵式應急處置能(néng)力,提升闆塊業務(wù)連續性水平。 

六是健全組織機制,挖掘運維價值,推動闆塊化業務(wù)運營。結合近年來工商銀行開展的站點可(kě)靠性工程師(SRE)運維模式,建立應用(yòng)運維團隊和業務(wù)部門、應用(yòng)研發團隊、測試團隊的組織匹配關系,圍繞各專業闆塊核心業務(wù)協同建設,共同對業務(wù)穩定性負責;同時,通過對運維領域的用(yòng)數賦智場景的挖掘,完善鏈路級的技(jì )術運營能(néng)力,支撐業務(wù)運營能(néng)力的數字化轉型,賦能(néng)面向業務(wù)的運維價值提升。

以快捷支付業務(wù)闆塊為(wèi)例,工商銀行建立了研發、測試、生産三中心跨專業保障團隊,通過SRE運維模式共同對系統穩定性負責,推動闆塊全鏈路接入全息監控、應用(yòng)畫像,構建動态展示服務(wù)拓撲鏈路圖,完善一鍵式應急工具,進一步提升面向業務(wù)的異常感知能(néng)力、故障定位和應急處置能(néng)力,推動落實闆塊内核心應用(yòng)基礎設施内聚部署和技(jì )術支撐平台應用(yòng)單獨群組闆塊劃分(fēn)等重大架構調整,實現對電(diàn)商大促等重要業務(wù)高峰時點備戰态資源和獨立PaaS資源池的部署調優。經過團隊全體(tǐ)成員的共同努力,工商銀行快捷支付業務(wù)在監管機構排名穩步提升并保持前列,電(diàn)商大促保障水平逐年提升。

四、闆塊化運維實施成效與展望

闆塊化運維是工商銀行對運維模式的新(xīn)探索,是工商銀行運維轉型的重要實踐。經過一年的建設,從試點到形成目前20餘個重要業務(wù)闆塊,工商銀行闆塊化運維體(tǐ)系逐步走向成熟,系統性風險防控能(néng)力、應急處置效能(néng)等各個方面都取得了階段性進展,影響較大的問題數量降到曆年最低水平,應急處置效率不斷提高,整體(tǐ)運維水平保持業内領先。後續,工商銀行将繼續在以下幾個方面尋求突破:一是進一步深化闆塊化運維工作(zuò),加強對智能(néng)化轉型成果的轉化和運用(yòng);二是進一步強化業務(wù)視角和全局視角,在實際工作(zuò)中保持全局觀,從業務(wù)價值和業務(wù)運營視角看待闆塊化運維;三是依托闆塊化運維實踐,在完善運維架構的同時反哺應用(yòng)架構,推動應用(yòng)架構與運維架構進一步适配。

當前,工商銀行正處于數字化轉型的關鍵期。工商銀行将以“優化場景聯動、數據驅動的生産運維管理(lǐ)體(tǐ)系,防範系統性風險”為(wèi)運維目标,不斷強化科(kē)技(jì )與業務(wù)的融合,使“科(kē)技(jì )”成為(wèi)驅動、賦能(néng)全行業務(wù)的“業務(wù)夥伴”,助力數字工行建設;繼續運用(yòng)好“目标導向、問題導向、結果導向”的科(kē)學(xué)方法,确保運維技(jì )術水平同業領先,堅守“金融為(wèi)民(mín)”的初心和使命,夯實風險抵禦能(néng)力,為(wèi)數字中國(guó)建設貢獻“工行力量”。 



本文(wén)來源:微信公衆号《中國(guó)金融電(diàn)腦》2023年第4期

免責聲明:所載内容來源互聯網、微信公衆号等公開渠道,我們對文(wén)中觀點保持中立,僅供參考、交流等非商業目的。轉載的稿件版權歸原作(zuò)者和機構所有,如有侵權,請聯系我們删除。