最近有一則不太被大家關(guān)注的新聞,說農(nóng)行順利完成了分布式核心工程,穩(wěn)妥實(shí)現(xiàn)了大型機(jī)的關(guān)停下電工作。
這是銀行業(yè)規(guī)模最大、涉及客戶最多的大型主機(jī)切換及下線工作,為我國商業(yè)銀行核心系統(tǒng)架構(gòu)轉(zhuǎn)型提供了重要借鑒。
看到這些消息,我是很吃驚的,因?yàn)镮BM最核心的技術(shù),終于要被國產(chǎn)替代了!
很多人并不了解IBM大型機(jī),這種被簡稱為大機(jī)的服務(wù)器十分神秘,深藏在核心的機(jī)房中,保存著最核心的數(shù)據(jù),運(yùn)行著最核心的業(yè)務(wù),普通人根本沒機(jī)會見到它。
大機(jī)以高性能,高可用性,高可靠性著稱,它有一套自成體系的硬件和軟件,在服務(wù)器市場中鶴立雞群,價(jià)格也非常感人,只有超大型公司才能用得起。
我們拿2017年發(fā)布的z14來看看它的性能指標(biāo)吧:
CPU主頻5.2G Hz,10個核心
可以配置170個CPU
內(nèi)存32TB (不是GB!)
最多支持8000個虛擬機(jī)
可以橫向擴(kuò)展到200萬個Docker容器
為什么要設(shè)計(jì)出這樣的“怪物般”的機(jī)器呢?
因?yàn)檫@個世界上存在著一些關(guān)鍵業(yè)務(wù),對平臺要求極高。
幾年前,調(diào)研機(jī)構(gòu)Qualix Group曾有一組數(shù)字,服務(wù)器宕機(jī)1分鐘,平均使運(yùn)輸業(yè)損失15萬美元,銀行業(yè)損失27萬美元,通信業(yè)損失35萬美元,制造業(yè)損失42萬美元,證券業(yè)損失45萬美元……
尤其對于銀行業(yè),如果銀行系統(tǒng)中斷1小時,將直接影響該行的基本支付業(yè)務(wù);中斷1天,將對其聲譽(yù)造成極大傷害;中斷2-3天以上不能恢復(fù),將直接危及其他銀行乃至整個金融系統(tǒng)的穩(wěn)定。
必須有一種機(jī)器,在處理能力、穩(wěn)定性和安全性上,滿足這些需求,大型機(jī)就應(yīng)運(yùn)而生。
0 1
硬件
大型機(jī)一般都在系統(tǒng)內(nèi)集成了高程度的冗余和錯誤檢查技術(shù),防止系統(tǒng)發(fā)生災(zāi)難性問題。
大型機(jī)的每個處理器核心都有2個完全的執(zhí)行通道來同時執(zhí)行每一條指令。如果兩條通道的計(jì)算結(jié)果不一致,CPU的狀態(tài)就會復(fù)原,重新執(zhí)行該條指令,結(jié)果還是不一致的話,一個空閑狀態(tài)的CPU將會被激活替代當(dāng)前的CPU。
獨(dú)立磁盤冗余陣列(RAID)大家都聽說過,可以用冗余的磁盤和條帶化算法,防止數(shù)據(jù)的損壞和丟失。
2010年,IBM率先把類似的理念也引入到內(nèi)存當(dāng)中,用部分物理內(nèi)存實(shí)現(xiàn)磁盤RAID的功能,叫做RAIM(獨(dú)立冗余內(nèi)存陣列), 從而實(shí)現(xiàn)內(nèi)存的高可用性。
除了CPU和內(nèi)存外,其它的元件如內(nèi)存總線、I/O通道、電源等等,都有相應(yīng)的冗余設(shè)計(jì)。確保系統(tǒng)的高可靠性、高可用性。
即使出錯,許多組件的熱拔插特性也能確保系統(tǒng)的高服務(wù)性,在系統(tǒng)運(yùn)行的同時被更換。
在大機(jī)中把很多軟件模塊都被硬件化了,比如硬件壓縮卡、排序指令、向量運(yùn)算指令,隨機(jī)數(shù)生成器、加密硬件(AES、DES、TDES、SHA等),非常的霸氣。
大機(jī)的處理器用的是自己獨(dú)特z/Architecture主機(jī)架構(gòu)。
IBM z14 有170個處理單元(PU),每個PU中除了我們常說的中央處理器(CPU)之外,還有集成固件處理器,集成信息處理器,內(nèi)部耦合處理器等專用處理器。
這些專用處理器完成特定工作,卸下CPU的工作負(fù)載,讓它專注于操作系統(tǒng)和應(yīng)用程序。
0 2
軟件
大機(jī)的操作系統(tǒng)也是獨(dú)特的,叫z/OS,看看這復(fù)古的界面:
在上面可以運(yùn)行DB2, IMS(數(shù)據(jù)庫),CICS(交易中間件),JVM等應(yīng)用程序,當(dāng)然,它們也都是為大機(jī)定制的。
大機(jī)也提供了強(qiáng)大的虛擬化能力,可以創(chuàng)建多個虛擬機(jī)實(shí)例,每個虛擬機(jī)運(yùn)行不同的操作系統(tǒng)和應(yīng)用程序:
有意思的是無論操作系統(tǒng),還是上面的應(yīng)用程序,它們的收費(fèi)方式很獨(dú)特:用戶定期上傳一個報(bào)告,根據(jù)使用情況來計(jì)算軟件費(fèi)用。
比如MSU(Million Service Units),這是IBM z Systems上一個用于測量處理能力的度量單位,一個MSU相當(dāng)于系統(tǒng)每秒能夠執(zhí)行一百萬條指令。
在IBM z/OS操作系統(tǒng)中,許多IBM和第三方軟件都使用MSU來確定許可成本??蛻敉ǔP枰徺I足夠的MSU來覆蓋其應(yīng)用程序和工作負(fù)載的處理需求。
我原來所在的IBM部門,就是專門負(fù)責(zé)大機(jī)上軟件的銷售和費(fèi)用計(jì)算的,業(yè)務(wù)邏輯很有意思。
0 3
向后兼容性
單獨(dú)把向后兼容性拎出來說,是因?yàn)閷τ陉P(guān)鍵業(yè)務(wù)應(yīng)用來說,它實(shí)在太重要了。
它可以讓大型公司平穩(wěn)地升級硬件和軟件,而無需重寫或修改現(xiàn)有的應(yīng)用程序。
IBM大型機(jī)的歷史可以追溯到上世紀(jì)60年代,那個時候IBM通過System/360統(tǒng)治了計(jì)算機(jī)市場,后來雖然不斷進(jìn)化,但是一直保持了向后兼容性。
許多為早期系統(tǒng)編寫的應(yīng)用程序,在 50 年后仍然可以在最新的 IBM z系統(tǒng)上運(yùn)行,無需修改。
所以我們看到很多用COBOL寫的恐龍級古老應(yīng)用:稅收、社保、醫(yī)療保險(xiǎn)、保單、理賠等,在大機(jī)上穩(wěn)定運(yùn)行了幾十年,并且極有可能會繼續(xù)運(yùn)行下去。
0 4
國產(chǎn)化替代
早些年互聯(lián)網(wǎng)企業(yè)掀起了一場“去IOE”的運(yùn)動,利用分布式技術(shù),把IBM的小型機(jī),Oracle的數(shù)據(jù)庫,EMC的存儲給“干掉了”。
但是看了上面的科普,你就會明白,想替換掉大機(jī)難度遠(yuǎn)超“去IOE”。
更何況大型機(jī)主要是銀行、金融等行業(yè)在使用,保存著最核心的數(shù)據(jù),運(yùn)行著最核心的應(yīng)用,比如你的銀行賬戶數(shù)據(jù),這些不允許有一絲一毫的錯誤。
農(nóng)行是怎么做的呢?我去搜了一下,只找到了很少的信息,簡單來說就是用分布式的核心系統(tǒng)替代集中式的大型機(jī)。
1. 農(nóng)行分布式核心系統(tǒng)建設(shè)采用的數(shù)據(jù)庫是TDSQL。
2. 在核心架構(gòu)上,農(nóng)業(yè)銀行采用了高并發(fā)處理能力的分布式微服務(wù)架構(gòu),可以同時支持超過8億客戶的4011項(xiàng)綜合金融服務(wù)。
3. 根據(jù)測試數(shù)據(jù),系統(tǒng)響應(yīng)時間提升至毫秒級,交易處理能力由每秒5000筆提升至8000筆。
4. 系統(tǒng)具備了強(qiáng)大的數(shù)據(jù)備份恢復(fù)能力,可以在極短的時間內(nèi)恢復(fù)故障數(shù)據(jù),確??蛻粜畔⒌陌踩浴?/p>
5. 新版分布式核心系統(tǒng)實(shí)現(xiàn)了零停機(jī)、零問題、零差錯和零投訴的目標(biāo)。
6. 這是銀行業(yè)規(guī)模最大、涉及客戶最多的大型主機(jī)切換及下線工作,為我國商業(yè)銀行核心系統(tǒng)架構(gòu)轉(zhuǎn)型提供了重要借鑒。
一般來說,企業(yè)推出新產(chǎn)品/解決方案,實(shí)際的效果要在宣傳的效果上打個折扣,我相信大型機(jī)的關(guān)停下電工作不會像表面上看起來波瀾不驚,一帆風(fēng)順,有知道詳情的同學(xué)可以在評論區(qū)聊聊。
但是農(nóng)行把這件事搞成了,這本身就是一個巨大的突破。
這不由得讓我想起了IBM在中國的命運(yùn),20年多前,IBM的大型機(jī),小型機(jī),x86服務(wù)器可謂風(fēng)頭正勁,五大品牌軟件WebSphere、Db2、Lotus、Tivoli、Rational在企業(yè)軟件市場被眾人追捧,再加上咨詢服務(wù)業(yè)務(wù),IBM在中國真是賺得盆滿缽滿。
IBM在中國負(fù)責(zé)研發(fā)業(yè)務(wù)的公司叫做國際商業(yè)機(jī)器(中國)投資有限公司,下設(shè)中國研究院(CRL),中國開發(fā)實(shí)驗(yàn)室(CDL)和IBM中國系統(tǒng)中心(CSL)等機(jī)構(gòu),薪資高,活兒輕松,人性化管理,是諸多名校畢業(yè)生趨之若鶩的地方,
互聯(lián)網(wǎng)浪潮一浪接一浪打來,IBM被動成為“去IOE”運(yùn)動中的一員,硬件和軟件逐漸失勢,就剩下大型機(jī)還在苦苦支撐。
2021年CRL關(guān)閉,2024年CDL和CSL關(guān)閉,2025年國際商業(yè)機(jī)器(中國)投資有限公司停止運(yùn)營。
只剩下一個負(fù)責(zé)銷售、市場推廣的IBM(中國)有限公司了,如今銀行連大型機(jī)也要干掉了,它又能持續(xù)多久呢?
一個時代真的落幕了。
全文完,覺得不錯的話點(diǎn)個贊或者在看吧。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.