【全球云觀察 | 科技熱點關注】
一個好的數據庫不是寫出來的,而是用出來的。然而應用的過程,卻少不了成與敗的經驗與教訓。
失敗乃成功之母。這個大多數人認同的普遍規律,不僅適用于個人,也適用于數據庫的創新發展。
“在當前這個算法驅動商業的時代,選擇數據庫伙伴的本質,就是選擇未來5年業務擴展的基因編碼方式。”一位數據庫領域從業20多年,長期身在一線的架構總監,在談到跨國公司架構陷阱與云原生突圍時,深有感觸地說,沒有經歷過應用遭遇風險的驚心動魄,始終體會不到先進數據技術帶來的感動。
那么,他講述的跨大洲數據庫實戰真實故事,不妨讓我們看一看能否給“出海破局”帶來些許價值參考?
01
「法則一」彈性不是技術指標,是生存技能
或許,還有人記得差不多15年前震驚全球的一件美股大事件。
2010年5月6日半夜,作為IBM DB2/mainframe的一名值班技術經理,Demai(德邁)接到某券商公司跑批“Batch job”報警。
對于Batch Job的重要性,他當然熟知。Batch Job就是金融機構夜間批量處理業務的代名詞,通常會涉及數據清算、對賬、交易匯總、報表生成、風控計算等,因為夜間操作相對干擾少,可以集中處理大量類似業務請求。正因為Batch Job涉及數據量極大、時間窗口極短,一旦出現錯誤、失敗、超時等故障可能直接影響第二天交易。
引發“Batch job”報警的罪魁禍首,就是大名鼎鼎的5月6日閃電崩盤事件。事件起因源自一家交易機構的計算機自動執行賣出指令,觸發了41億美元的賣單,進一步引發侵略性高頻交易者的跟蹤賣出。道瓊斯工業指數在短短幾分鐘內暴跌近1000點,市值瞬間蒸發近1萬億美元,隨后又迅速反彈。
這就是2010年5月6日美國證券市場首次出現因計算機高頻交易引發的股市大事件,史稱為flash crash,即閃電崩盤事件。據Demai回憶,高頻交易引發大量數據待處理,給該券商的數據基礎架構造成了巨大峰值壓力。采用IBM DB2傳統數據庫與主機架構的該券商,無法很快實現系統擴容,幾乎直接影響到了第二天的交易。
吃一塹,必然長一智。在遭遇史上第一次股市flash crash后,眾多券商為了生存,為了進一步增強自己的行業競爭力,適應新型的交易應用,提高產品交易的速度,不斷提升計算機技術與數據技術,從而加速了高頻交易模式的爆發。據資料顯示,在2010年閃電崩盤(flash crash)事件爆發后的10年間,美國高頻交易的發展速度十分驚人,交易量占到了該時期美國證券市場交易總量的60-70%。
從中也很容易看出,傳統數據架構,早已無法適應高頻交易的新應用。正因為高頻交易的興起,進而驅使券商在分布式、數據庫、云原生等創新技術方面不斷發展,彈性架構悄然成為券商賴以生存的基本技能。
無獨有偶,flash crash大事件發生8年后,在東南亞發生了一件怪事,某跨境電子支付公司遭遇黑五流量災難,而Demai又是該事件的重要當事人。
據Demai介紹,帥小明(化名)是一個普通工程師,年輕帥氣,20多歲的他入職了某電子支付安全公司東南亞分支。成為該公司DBA后,很能吃苦,也很能干。
當年該電子支付安全公司處于東南亞市場的開拓早期時,規模還比較小,于是采用了某公有云的RDS MySQL數據庫。這是一個云上MySQL單機產品,雖然非常好用,簡潔穩定,但是它存在一個關鍵問題,即存儲容量是有上限的。一旦存儲達到上限后,MySQL必須做數據庫遷移才能支撐業務應用,并且不是簡單的文件遷移。而針對云上RDS MySQL數據庫遷移,當時基本上1TB存儲需要花費時間2到5小時。
2018年的一天,星期五,帥小明意外收到一條消息,說是企業數據架構突然出現了大狀況。這一天,東南亞購物者在網上花費創紀錄,猛烈在線消費增長對在線電子支付造成了高并發的巨大壓力與挑戰。
畢竟太年輕,帥小明沒有足夠閱歷與經驗,企業數據架構出了大狀況,給他打了個措手不及,也情有可原。也來不及想太多的問題,通過關系他找到了Demai所在的數據技術團隊。
“當存儲已經到了90%以上才開始認真對待,眼看這個系統就要死機了,怎么辦?”Demai回憶道,該電子支付安全公司總共5個集群,每個集群有3-6TB,在非原生架構下全部遷移需要花費時間很長,差不多得要一周左右的遷移時間,可以想象一下,這么長時間的數據庫遷移將對電子支付業務帶來怎樣打擊。
遭遇黑五流量,該電子支付安全公司在東南亞的業務增長非常快。為了暫時解決燃眉之急,最后在Demai所在的團隊協助下,完成了臨時的數據遷移。
危機得以解決,并非萬事大吉。事后,該電子支付安全公司CXO充分意識到,以現有的業務發展速度,6個月后同樣的問題還會發生,并且影響面會更大,那將怎么辦?在解決眼前問題后,立刻通過公司決策,采用更先進的云原生可擴展的數據庫,從此構建起了彈性數據架構。
這件事,讓DBA帥小明對數據架構的彈性有了徹底改變,后來每當提及此事,他便強調說:彈性不是技術指標,真是生存技能。
如今呢,數據技術與云計算、AI相結合,彈性能力得以長足發展。不僅如此,如PingCAP立足中國面向全球推出的TiDB Cloud 和serverless開源數據庫部署方案,擁有“精準預測×快速響應×成本封頂”的優勢,為業界帶來了數據架構彈性設計的深刻認知。不僅可以為出海企業實現秒級擴容,而且其成本只有之前采用公有云廠商RDS的十分之一左右。
02
「法則二」合規不是成本中心,是競爭壁壘
“為什么同樣是出海,有些企業能快速打入全球市場,而有些則在出海路上踩雷踩坑,甚至迷失?答案可能讓你大吃一驚。”
現在,Demai已任職PingCAP TiDB亞太技術總監,他饒有興趣地介紹道,企業在沒有出海之前,在國內本地區業務發展起來后,自然熟悉本地合規,日常業務運營合規性也就習以為常。畢竟各國各地區都有各自不同的習俗與法規,這樣的國內習慣,如何能適合海外的行業特點?一旦企業計劃出海,合規與審計就自然成為競爭壁壘。
某醫療科技公司歷經多年發展后,業務逐漸遍布全球,當初在拓展北美市場卻遭遇了一場數據審計72小時驚險的風波。
熟悉醫療科技行業的朋友,應當都知曉FDA數據審計的重要性。然而,當時初次計劃進入北美市場的該醫療科技公司,卻未能對FDA理解深刻。
作為美國食品藥品監督管理局(FDA)的重要檢查,FDA數據審計舉足輕重。要求醫療科技公司的整個生產質量管理體系符合cGMP(現行藥品生產質量管理規范)才能拓展美國市場業務,如果不合格將被拒絕進入美國市場。
其實,FDA審計就是藥品質量監管,對生產系統、質量系統、設施與設備、物料系統、包裝與標簽系統、質量控制等環節進行全面檢查,要求醫療科技公司的每一個數據都必須有確切的記錄與來源。同時,對相關數據的合規性也有著嚴格要求。
某醫療科技公司采用的數據架構有著缺陷,無法按時及時提供相關數據送予FDA審計,一旦超過了審計時間,首次申請被FDA拒批,必然會影響后續的業務落地。
然后該醫療科技公司通過合作伙伴的努力,改進數據管理系統,彌補檢測數據的完整性,進一步提升數據真實性,最終為FDA審計提交了一份安全有效的數據。
在此之后,該醫療科技公司的管理層深刻意識到,面向全球化戰場,數據庫架構缺陷不是技術債務,而是隨時可能引爆的戰略級地雷。在選擇數據技術伙伴上,必須重視國內與國際的全球合規要求。因為合規不是出海企業的成本中心,而是直接影響發展的競爭壁壘。
企業出海,合規先行。“出海企業對于合規和審計,是出海拓展業務碰到的第一大門檻。”Demai表示,作為立足中國拓展全球數據技術的PingCAP,旗下的TiDB數據庫已經拿到了海外多個合規認證,包括SOC2、ISO27001/27701、GDPR、PCI-DSS、HIPAA。而HIPAA作為一項美國的健康保險流通與責任法案,得到廣泛認可的醫療保健行業法規,為保護醫療保健數據提供數據隱私和安全條款。對于醫療保健和相關領域的組織,根據HIPAA要求,在與PingCAP正確執行業務合作協議(BAA)后,PingCAP支持用戶涉及HIPAA的相關數據。
不僅如此,作為數據庫提供商,PingCAP一直非常重視安全與數據隱私合規,建立了完善的安全及數據隱私合規管理體系,并為數據庫設計一系列的安全功能,從而為用戶提供安全可靠的數據庫產品。TiDB有內部設計和安全產品服務,可以協助用戶審查流程。如TiDB的合規機器人,可以幫助用戶自動生成數據和基礎設施管理相關的文檔,包括數據物理存儲、數據流動、數據血緣類信息。TiDB合規機器人可以自動生成200+頁審計材料,協助用戶跟隨各地法律法規的要求。 與此同時,TiDB還提供SQL審計插件,滿足合規審計的要求,便于安全、運維人員查看SQL操作日志,及時發現問題。
03
「法則三」AI基建不是實驗室,是戰場指揮部
AI正在變革一切。信則有,不信則無。這句話似乎也適合國際五大專業服務集團與本土八大會計師事務所正在發生的AI×Data大變革。
國際五大專業服務集團即:普華永道(PwC)、德勤(Deloitte)、安永(EY)、畢馬威(KPMG)和埃森哲(Accenture);本土八大會計師事務所即:瑞華、立信、天健、信永中和、大華、大信、致同、天職國際。
以埃森哲為例,在2023年6月就對外宣布未來三年投資30億美元,專注于數據和人工智能(AI)業務領域,推動企業全面重塑。不僅如此,埃森哲首席技術官Paul Daugherty之前也表示,未來十年,人工智能作為一個大趨勢,將不斷改變行業、企業、生活和工作,各行各業有四成的工作時間將得到生成式人工智能的助力。
Paul的表達還是非常委婉,將他話改變一個角度來理解,這將意味著全球各行各業將有四成的工作可能被AI所取代。至于這個取代的速度到底有多快,目前誰都說不清。即便埃森哲等國際IT咨詢公司對外一直強調以人為本,堅持提升員工與AI結合的能力,但是據Demai針對五大國際IT咨詢公司和本土八大會計師事務所的長期交流與觀察發現,被AI替代首當其沖的當屬技術密集型的審計工作。為什么?
據不完全統計,綜合目前業內消息從員工起薪來看,五大國際IT咨詢公司在一般在10000-15000元,而本土八大會計師事務所薪資水平都差不多平均在4000-6000元。員工成本足以說明其中的重要問題,五大國際IT咨詢公司用工成本明顯更高,這可能才是加速數智化咨詢的秘密所在。數智化帶來更高效的服務,更低成本的付出,更高價值的用戶回報,何樂而不為呢?
為什么同樣是針對技術密集型工作,五大國際IT咨詢公司在積極采用AI+數據做替代,而本土八大會計師事務所卻“雷聲大雨點小”,依然靠本土的人海戰術,需要員工到客戶現場苦哈哈工作,其中的秘密又在哪里呢?
本土八大會計師事務所的初級審計員工刷底單的技術工作,通過人工整理方式將客戶審計材料,轉換成審計軟件可以輸入輸出的方式,然后由資深的高級審計員通過人工再進一步審計。這主要在于國內的財務軟件類公司,當初從電子化逐漸發展走過來,老審計員習慣了老的財務軟件,因而國際接軌比較慢,比較難以適應先進的國際審計工具。之前習慣性的商業模式,在云計算、AI與數據技術的沖擊下,不改變就意味著什么,大家可想而知。
Demai再次分析指出,固化的流程工作最容易被AI替代,諸如咨詢公司中刷底單等類似這樣技術密集型工作將很快被AI替代,并逐漸消失。通過數據管理與AI的創新結合逐步替代人工,也將驅動新的SaaS出現,這就是五大國際IT咨詢公司為何如此重視數智化轉型的根源所在。不變革則岌岌可危,變則應勢而上,進而有為。
不僅如此,借助自己之前的工作機會,通過長期的溝通與調研,Demai發現在咨詢行業的審計業務場景中暗藏AI×Data的四大創新機會。
機會一,決策前的盡調報告,即AI×Data的洞察分析能力提升風險評估效率。一般可以通過互聯網的公開數據,對企業進行前期的行業分析,并為企業輸出具有一定規范要求模版的報告。這明顯比較符合現在大語言模型LLM的技術應用場景。AI×Data的創新應用,對企業內外多模數據實現搜索整合,并根據已有模版要求,可以高效率先完成企業決策報告的60~80%,然后在此基礎上由資深專業人員完成最終報告。
機會二,審計刷底稿,即AI×Data的開發應用通過軟件工具替代初級審計員的“苦力活”。刷底稿屬于審計工作流程中非常重要的基礎工作,其完成的質量高低直接影響后續審計結果的好壞,需要相關人員具有專業知識和責任心,因為刷底稿工作量大也需要配備大量的技術人力。但是目前本土八大會計師事務所的初級審計員因經驗、專業知識、責任心等影響,產出質量參差不齊。AI×Data結合起來,基于AI原生(AI-Ready)應用,針對企業具體審計刷底稿的工作進行應用開發與定制,形成自動化與工具化,提升刷底稿工作質量與效率。這其中暗藏了新SaaS軟件的發展契機。
機會三,底稿“測試”,即AI×Data相結合開發軟件工具輔助資深審計員的“經驗活”。經驗到底靠得住還是靠不住,答案不需要討論,經驗雖好但不能排除人工潛在的責任心影響。資深審計員做底稿“測試”,對此的專業要求很高,也是審計團隊把關的責任人。AI×Data融合應用,基于大語言LLM模型創新,可以開發輔助類工具copilot,提升底稿“測試”工作的高質量與高效率。
機會四,審計結果輸出報告,即AI×Data帶來審計結果的高效洞察。審計結果最終需要輸出文檔文字報告,然而從原始數據匯集成報告類數據, 常常需要數天的全手工匯集。作為審計工作最后的重要環節,由于操作細節和規范均較多,即耗時又容易出錯。AI×Data帶來自動化、工具化、智能化的幫助,將為審計最好的報告輸出工作帶來革命性的變化。
此外,從另外一角度來分析,本土八大會計師事務所想要走出中國市場,走向海外市場,依靠人工咨詢,做貼身服務,通過這樣傳統模式出海比較難以成功。五大國際咨詢公司開展全球業務,以歐美合規、流程等標準,覆蓋全球企業客戶,立足云+AI+數據技術不斷提升數智咨詢能力,借助智能工具輔助工作,減少人工現場依賴,不僅提升了工作效率,而且也可以減少人工的高成本,增強自身的行業競爭力。從而,兩個咨詢陣營的發展形成了鮮明對比,這或許就是本土八大會計師事務所難以走出國門與五大國際IT咨詢公司巨頭直接PK的原因所在。
為此,通過機器學習、自然語言處理、計算機視覺等AI技術,助推咨詢服務數智化轉型,實現數智咨詢必然成為國內國際所有IT咨詢公司的努力方向。數智技術的應用能夠使咨詢和審計工作更加智能化、自動化,減少人為錯誤和重復勞動,能夠更快地完成咨詢與審計工作,提高工作效率和準確性。為此,在咨詢行業中技術密集型工作因AI×Data的創新應用,正在悄然發生改變。
誠然,數智化咨詢是大勢所趨,通過數智化轉型,IT咨詢公司都可以開發新的服務模式和產品,滿足用戶不斷變化的需求。為此,如埃森哲等國際IT咨詢公司早已推出了基于云計算的SaaS產品,為企業提供實時的咨詢服務和解決方案。
面對AI與大模型發展狂潮來襲,Demai分析指出,如果說2023年是搶GPU卡構建智算基礎設施一年,那么2024就是智算云創新賣GPU卡的一年,由此而來2025必將是創新型開發者在數據平臺AI×Data領域不斷突破、百花齊放的一年。既然在審計業務場景中就蘊藏著四大創新機會,那么在其他業務場景中同樣也值得探索與研究。
對此,Demai也斷言,2025年大家定能見證AI×Data實際應用獲得新突破,將AI作為戰場指揮部,在AI就緒的數據庫領域,蘊藏著巨大的創新力,為百行百業數智化轉型提供了有力支撐,未來將朝著融合與智能的方向持續發展,為數據管理與應用帶來更多的可能性和價值。
一方面, 新AI SaaS蓬勃發展,驅動新型數據庫廠商加速創新。隨著取代技術密集型工作的全新AI應用不斷落地,將不斷驅動新的SaaS軟件開發迭代,也將帶來SaaS背后的數據庫技術新發展。之前如SAP那樣與Oracle強綁定模式,背負老朽沉重的傳統數據庫的包袱,難以支持關系型、非關系型、圖表等多種數據類型和更復雜的數據結構,更難以實現事務處理與復雜數據分析的融合。AI SaaS與傳統SaaS只需處理結構化交易數據不同,新一代AI應用面臨多模態數據、混合負載、彈性算力三重挑戰。
打破傳統關系型數據庫的模式束縛勢在必行,這個艱巨的任務必然帶給新型數據庫廠商更多發展機會,特別是擁有云原生保持云中立的分布式數據庫,如TiDB生逢其時。
TiDB通過創新的Hybrid Transactional/Analytical Processing (HTAP) 架構與多模數據處理能力,不僅實現萬億級數據的ACID事務保障與實時分析穿透,其Serverless形態更能讓AI SaaS開發商在3秒內完成從開發測試到生產流量的千倍擴容。在很大程度上,滿足了LLM應用應對瞬間流量洪峰的剛需。
由此可見,新SaaS后臺少不了舉足輕重的數據管理平臺,在AI加持SaaS軟件過程中,SaaS智能化也在促進新型數據庫加速發展,并且AI SaaS的爆發式增長正在重新定義數據庫的技術標尺。
另一方面,大語言模型2D(Developer開發者) 和2P(Professional專業服務) 的爆發。大語言模型LLM應用開發平臺Dify支持多種大型語言模型,如Claude3、OpenAI等,并與多個模型供應商合作,讓AI應用落地更簡單。開源大模型DeepSeek等興起,加上支持AI就緒(AI-Ready)的TiDB數據技術不斷創新,加速了開發者將大模型轉化為實際業務。
TiDB Next Gen是為AI時代打造的數據平臺,構建了數據新鮮度×查詢靈活性×資源協同性”的數據支撐能力,通過流批一體管道、混合負載隔離和Serverless彈性的三大技術創新破局。比如借助Change Data Capture(CDC)將OLTP事務數據實時注入訓練集群,對話日志到微調模型的延遲從小時級壓縮至10秒內。
采用HTAP架構使模型訓練所需的復雜查詢(AP)與用戶付費等關鍵事務(TP)共享同一數據集卻互不干擾,資源利用率提升8倍。
當Dify平臺上的AI應用因社交傳播突然獲得10萬日活,TiDB Cloud可自動在20秒內將計算節點從1個擴展到100個,開發者無需中斷服務即可消化流量脈沖。
從而讓開發者在構建RAG應用時,無需在PostgreSQL(事務)、Elasticsearch(檢索)、Snowflake(分析)之間反復ETL,而是通過統一接口同時完成用戶行為記錄、向量相似度計算、實時業務洞察三個動作,使LLM應用迭代周期從month級壓縮至day級。實現交易數據10秒內進入訓練管道,保障混合負載,確保模型訓練不影響在線交易,從而打破了AI應用對開發者不友好的那堵墻。
現在,一個普通開發人員,花費72小時時間就可以開發一個完整的AI應用,如流行的聊天對話機器人。借助TiDB的全棧AI就緒能力,開發者可以實現從創意到生產的72小時快速創新。值得注意的是,當AI應用突然爆紅時,TiDB的Serverless架構自動在90秒內將QPS容量從100擴展到10萬級,HTAP資源隔離確保突發數據分析不會影響在線交易SLA。TiDB生長式架構徹底改變了AI應用的演進路徑,出海企業的初創團隊用3張SQL表就能啟動MVP(存儲對話日志、用戶畫像、知識庫向量),而后無需重構即可平滑過渡到支持日均百億token的企業級系統。
融合了事務性能力(TP)與分析型能力(AP)的TiDB數據庫,不僅可以幫助AI應用進行計費/收費,而且可以實時匯總所有用戶搜索的重點詞。與此同時,TiDB向量(Vector)能力可以直接存儲和搜索嵌入式(Embedded)數據。TiDB Cloud 和serverless提供小數據小流量的完全免費,保證AI應用從3~5客戶到百萬客戶的秒/分鐘擴容。在流程管理方面,采用新數據庫技術管理多模數據,針對各類數據做分析,洞察數據價值,可以大大提升管理效率。
PingCAP TiDB亞太技術總監Demai
Demai分析指出,全球性IT咨詢公司推出SaaS咨詢軟件,其背后的力量離不開AI、數據技術與云的加持。并且,借助AI、數據技術與云的力量進行業務創新,成為當前全球IT咨詢行業的發展大趨勢。
普華永道(PwC)、德勤(Deloitte)、安永(EY)、畢馬威(KPMG)和埃森哲(Accenture)已經在這個賽道上快步流星向前沖了,然而本土八大會計師事務所的動作卻比較緩慢,這明顯與五大國際IT咨詢公司有著很大的發展差異性,在業務創新對AI、數據技術與云的利用上并沒有想象中那么熱衷,甚至明顯落后于五大國際IT咨詢公司。
全球云觀察分析認為,任何公司都逃離不了優勝劣汰的行業發展規律,落后就容易被競爭對手降維打擊。唯有創新才能保持基業長青,在咨詢行業中,五大國際IT咨詢公司都深諳此道。話又說回來了,一個出海企業想要取得成功而不被時代所淘汰,就離不開創新。創新是一個出海企業的靈魂,只有不斷創造出更好的產品與服務,才能贏得發展與進步。如何結合AI、數據技術與云,將是一個長期的持續創新過程。而把AI基建當成戰場指揮部,不是實驗室,咨詢行業正在發生AI×data的大變革值得再次深思。
04
「小結」法則在手,未來我有
當前,數據不再是簡單的信息,早已成為了企業的資產。全球AI技術也獲得了令人矚目的飛躍式發展,AI×data與業務場景的不斷深度融合,正在推動著商業模式重塑。每一個企業在大踏步邁入算法驅動商業時代之時,更需要明確其中的底層邏輯。
算法驅動商業的核心邏輯,在于打造“數據-算法-業務”的閉環,通過數據獲取、算法優化和業務創新,形成一個可持續的循環系統,比如利用算法來優化商業決策、運營流程和客戶體驗等,從而提升商業效益。因為業務環境和用戶行為等不是一塵不變的,而是動態變化的,只有不斷更新數據和算法,才能保證算法驅動商業的效果持續有效。從中可以看出,數據技術的創新能力支持,對這個閉環系統起到舉足輕重的作用。
彈性不是技術指標,是生存技能;合規不是成本中心,是競爭壁壘;AI基建不是實驗室,是戰場指揮部。彈性、合規與AI新基建,三個不可或缺的破局法則,為出海企業尋求數字基建的戰略抉擇之道,在算法驅動商業時代找到了發展的確定性。
而符合現代架構的數據庫,可以讓企業用一份預算獲得:“合規盾牌+彈性引擎+AI加速器”三位一體的數字基建航母。這可以說是一次全球化企業對抗不確定性的戰略重組。
法則在手,未來我有。企業出海立足數據庫實戰三大法則,何愁不能行穩致遠,進而有為呢?
你怎么看?
歡迎文末評論補充!
【全球云觀察|全球存儲觀察 |科技明說|阿明觀察】專注科技公司分析,用數據說話,帶你看懂科技。本文和作者回復僅代表個人觀點,不構成任何投資建議。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.