【編者按】為深入貫徹落實黨的二十大精神,引導基金行業機構踐行《證券期貨業科技發展“十四五”規劃》,共促基金行業數字化轉型,按照中國證監會總體工作部署,于2022年11月開展“證券期貨業數字化轉型主題宣傳月”活動。通過開展“證券期貨業數字化轉型主題宣傳月”活動,搭建交流平臺,展現數字化轉型成果案例,激發金融科技創新活力,營造金融科技長效發展新生態。該篇為“證券期貨業數字化轉型主題宣傳月”《我與金融科技的故事》征文之三。
固運維基座之本,提智能分析之效
——富國基金 張誠
加入富國基金八年,見證了運維保障組的監控系統,從最初單一的Nagios監控,到逐漸整合Zabbix、Splunk、Prometheus、Skywalking、APM等復合技術,在系統層面和應用層面的監控越來越完善。隨之而來的則是性能和容量監控,它是運維的必經之路,是向更高層發展的基礎。
經過幾年的探索研究,我們形成了以監控為核心,數據為基礎,業務為導向的性能容量分析體系,建立了跑批類系統趨勢分析、波動預測模型,業務連續性關鍵節點監控和實時交易接口性能監控為核心的匯總機制。
總結一下性能監控的成長歷程,個人認為一個良好的運維性能監控必須經歷過如下幾點:
1、系統的歸納整理能夠清晰的梳理出公司各類系統分級,從7*24業務流程圖中提煉出核心系統,關鍵任務節點。

2、數據的長期采集“一切用數據說話”合理利用工具定時收集相關數據,如zabbix的監控項作為收集器,收集跑批系統的記錄每日交易量、批量耗時(含明細步驟)、存儲空間統計;Splunk自定義指標儀表盤,監控實時交易系統的日均筆數、峰值筆數、單筆耗時、PV/UV;在前一步的基礎上,自研關鍵任務看板,每日完成情況和時間點,并推送相關統計報表。

3、定期、多維度評估找出核心系統的核心指標數據,如日平均處理量、平均處理速度、清算節點平均耗時、存儲預計消耗量、日均筆數、峰值筆數、單筆耗時、接口訪問量;評估任務及時率和重清算風險。

4、從統計中得出反饋連點成線,初步得出目前系統的性能容量狀態;從慢接口促進優化、從高峰提供壓測基準、從增長率預測壓力位;從異常指標進行問題分析;從平均完成時間反推業務流程的優化。

5、思考優化方向當形成標準的數據采集、分析和展現體系之后,可以向其他應用不斷去復制這套方案,遵循一致的數據標準,最后數據的采集、分析、展現和告警標準化完成??梢栽谶\維的故障定位、服務優化、架構改進、運維規劃等各方面找到應用場景,思考優化方向。
通過以上步驟,配合相關的系統搭建和深入使用,增加核心技術組件的深度分析能力,從更底層發現問題,在更多維度的故障快速發現和快速處置能力;通過監控不斷的正反饋循環,推動研發和廠商對接口升級、遷移、優化;提升生產運行的持續監測、高可用、雙活、快速擴容能力;預測數據增長趨勢,提前進行性能壓測;跑批監控、實時監控、任務監控繼續擴大范圍,相得益彰形成更全面的統一的性能評估,最后數據的采集、分析、展現和告警標準化完成。