對話楊傳輝:國產數據庫新戰績背面,OceanBase堅持自研的初心與決心 |
發布時間:2022-08-12 文章來源:本站 瀏覽次數:2396 |
國產數據庫正在蓬勃開展,假勢分布式技能優勢,沖進了世界巨子的地盤。 作為管理數據的根底軟件,數據庫掌握著企業的命脈,牽一發而動全身,尤其是在中心事務中,稍有差錯便可能造成無可挽回的丟失。跟著國產化呼聲漸漲,這門長期被海外巨子壟斷的要害生意,已成為本土企業必然收復的“失地”。 就在近來,全球威望IT咨詢機構Forrester發布的2022年度Translytical方向的數據渠道廠商選型陳述,國產自研原生分布式數據庫OceanBase赫然在列。它也是全球唯三具有完成Forrester定義的分布式數據庫細分功用(單云、混合云、多云)全掩蓋才干的廠商。 OceanBase鉆研了長達12年的混合事務和剖析處理領域,如今正在數據庫職業熱度高漲。 憑仗能承載高并發事務實時處理與大規模數據實時事務決議計劃的才干,HTAP有望為企業更高效地發掘數據價值,大幅下降總本錢。跟著國內相應需求蓬勃而生,投入HTAP方向的數據庫從星星之火漸成燎原之勢。 作為創始成員之一,OceanBase CTO楊傳輝主導了歷代數據庫架構設計和技能研制,使其挺過支付寶買賣體系、“雙11”等極致并發量場景的檢測,服務超越400家金融、能源、交通等職業客戶,并主導OceanBase成為僅有一家在世界數據庫基準測驗TPC-C和TPC-H上都打破世界記錄的國產原生分布式數據庫。 在與咱們交流的進程中,楊傳輝對HTAP數據庫如數家珍,深化解讀了HTAP的中心技能、研制難點、落地應戰,并為企業怎樣做出適合事務的數據庫架構挑選提供了一些參閱建議。除此之外,作為深耕數據庫逾十年的專家,他也共享了對國產數據庫開展機會和中心瓶頸的觀察。 一、什么是真實的HTAP?HTAP≠OLTP+OLAP 全國大勢,合久必分,分久必合,數據庫的開展亦是如此。 早期數據庫大包大攬,到上世紀末,因使用場景日趨豐富,逐步分化成OLTP和OLAP兩大類型,前者主管買賣,后者專攻剖析。如今,這兩大功用又走向交融。 跟著大數據浪潮奔涌而至,數據量急劇脹大,許多事務場景需應對不斷增長的實時事務處理和剖析需求。一致支撐兩類功用的HTAP數據庫橫空出世,在企業級商場風頭漸盛。 HTAP有兩大顯著的優勢:低本錢、低延時。這不難理解,一套一起能做兩件事的體系,比較兩套體系具有更高的性價比;并且省去了繁瑣費時的ETL進程,下降延時,更好支撐實時剖析。 一時間,各路數據庫都開端貼上“HTAP”的標簽,云核算大廠也紛紛躍躍欲試。 但關于企業來說,給數據庫上新,不免要支付試錯本錢,因而弄清楚HTAP究竟怎樣用、怎樣選型、重點考量哪些要素至為要害。這就觸及一個數據庫熱門話題——什么是真實的HTAP? 楊傳輝的答案是:在高功能OLTP數據庫的根底上擴展OLAP的才干,能很好支撐實時剖析。 世界數據庫巨子Oracle、微軟SQL Server以及國產分布式數據庫龍頭OceanBase都選用這種做法,與前兩者不同的是,OceanBase底層是原生分布式架構,可擴展性強,因而能處理更大的數據量。 也有不少創企走的道路是在OLAP根底上引進實時寫入,形成一個實時數據倉庫。走這種道路,假如不具有OLTP中心事務閱歷,可能很難做到支撐完整的事物處理才干。楊傳輝解說說,業界有些“HTAP產品”的事務處理功能較差,不是HTAP的問題,而是其產品設計完成的問題。 無論走哪種HTAP道路,都應保證一個前提——一套體系,一份數據。 首先,將兩套體系簡略疊加、縫合的計劃,不只會導致本錢上升、存在固有延時,并且兩套體系語法會有差別,很難精密操控數據流通和數據一致性問題,到后續升級更會暴露出各種問題,約束企業級使用的開展。 其次,一些選用兩份數據的計劃,通過ETL機制將OLTP的數據拉到OLAP體系中。這會存在天然的設計缺陷,由于避不開數據轉移,無論是性價比還是延遲都無法做到優。 這也是為什么從一開端,OceanBase團隊就決定做根據“一個體系,一份數據”的HTAP數據庫,以將性價比做到極致。 楊傳輝說,“一份數據”是從用戶角度看的,實際履行中,只需能在滿足HTAP處理需求數據的前提下大程度下降冗余,多個副本或許多種形狀都可以被認為是“一份數據”。 為了讓OLTP具有大數據量OLAP的才干,HTAP需引進原生分布式架構和低本錢存儲引擎,支撐 OLTP與OLAP間的資源隔離、復雜查詢和大數據量查詢,以及OLAP的數據開發和建模才干。 須注意的是,魚和熊掌不可兼得,真實的HTAP體系也不是全能的。 理論上,它不會獻身剖析才干。但由于工程復雜度和產品老練度問題,根據OLTP研制的HTAP數據庫,其OLAP才干會弱于專門的OLAP體系,因而更適合OLTP、OLTP與實時OLAP混合負載處理場景,不適合離線數據倉庫或大數據無結構化數據處理場景。 楊傳輝建議,企業開端做新事務,或是已有事務遇到一些傳統數據庫計劃難以處理的痛點時,或許正是切入HTAP的好時機。 那么企業挑選HTAP時,怎樣判別這個數據庫計劃,值不值得投入試錯本錢,能不能未來長期用下去,為事務帶來價值? 他給出了一些參閱維度:首先是看落地閱歷,在標桿客戶中心事務場景中完成規模使用的HTAP計劃,闡明滿足老練安穩;還要關注中心才干,比方在公開基準測驗benchmark中的功能體現怎樣,生態東西是否齊備好用。假如未來事務將開展至較大規模,那么企業還需考慮HTAP選用的技能架構是否存在缺陷、安穩性和容災才干怎樣樣、能否完成事務的佳性價比等。 從這兩個角度來看,OceanBase儼然是不可多得的挑選。一方面,它是金融場景中受歡迎的國產分布式數據庫,如今已堆集涵蓋銀行、能源、電力、社保等職業的400多個外部企業客戶,其金融級容災、老練安穩性現已得到充沛驗證;另一方面,它在曩昔三年接連打破世界在線事務處理基準測驗TPC-C和數據剖析型基準測驗TPC-H的世界紀錄,證明了本身的技能領先性。 獲得這些成就的背面,作為分布式HTAP數據庫的先行者,自2010年誕生以來,OceanBase一直在摸著石頭過河。 二、12年磨一劍,明年煉出HTAP老練體 在HTAP這條路上,國產自研原生分布式數據庫OceanBase現已努力了12年。 楊傳輝認為,堅持自研與落地中心事務場景,是OceanBase能將同行甩在身后的“殺手锏”。 只有自主研制,才干徹底掌握數據庫的內核,真實做出“一套體系,一份數據”的計劃。因而OceanBase的每一行代碼都由其團隊自主編寫。其經年累月在各種中心事務場景中持續沉積的know-how才干,也為OceanBase構筑了益發鞏固的技能及商場競爭壁壘。 在楊傳輝看來,其他企業要想仿照OceanBase的道路并追平其才干,會存在一個時間差。 但關于許多國產數據庫來說,它們乃至連“仿照”的條件都不具有——有多少像支付寶買賣、雙11這樣要害又具有超高并發應戰的事務,敢讓初出茅廬、未經很多實踐檢驗的新式數據庫試練? 回想OceanBase曩昔12年的歷練,用楊傳輝的話來說,簡直是“步步難關”。 OceanBase研制分布式HTAP數據庫,是一個從0到1的進程,一開端底子沒有事務。就在團隊焦思苦慮之際,2011年,淘寶收藏夾首先建議落地邀請——數百萬、數千萬用戶一起讀取商品信息,導致原有數據庫動不動就崩盤,他們需求新的數據庫取而代之。所以,OceanBase團隊立即為其量身定制了一個特殊架構,第一次證明了其數據庫的落地價值。 此刻OceanBase團隊仍頂著巨大的壓力。淘寶收藏夾畢竟不算中心事務,對數據庫的要求沒那么高,要想長遠走下去,OceanBase必須進入中心事務場景,并飽嘗住嚴苛的檢測。 直到2012年11月,OceanBase獲得了一個新的機會——具有巨大事務數據量、高并發量并對毛病簡直零忍受的支付寶打算“去O”(替換Oracle數據庫)了。只需OceanBase能接過這個重擔,爾后它的金融事務之路,將是可預見的暢通。 通過兩年的歷練,OceanBase在2014年終于迎來中心事務場景的大考——替換支付寶買賣體系,扛住全國大規模流量洪峰“雙11”的壓力,做到整個體系的“絲般順滑”。 成果,OceanBase一戰成名。 爾后就是坦途一片:從螞蟻集團內部中心事務全面使用,到第一次被外部客戶選用,從支撐銀行、保險、證券等金融事務,到進入政府、公共事業、國家電網等更多非金融事務的中心偏買賣事務場景,OceanBase的落地之路越走越寬。 “做數據庫是要靠堆集的。”楊傳輝說,“這是一切其他國產數據庫都拿不到的、無價的閱歷,對OceanBase今天可以成為分布式數據庫領域的引領者,起到了重要的效果。” 從0起步到服務400多個外部客戶,這些閱歷起到了滾雪球般的正向循環,有了越來越多的客戶背書后,OceanBase獲得了更多實戰歷練的土壤,其閱歷融入到數據庫產品的迭代中,使其進一步拉大與同行在功能、安穩性方面的距離。 楊傳輝告訴智東西,曩昔半年,OceanBase又獲得一些新的發展,在研制新版本方面進一步優化了剖析、資源隔離等才干,在落地方面也收獲更多新的職業要害客戶。“到明年年底,差不多咱們就能有HTAP的老練體了。” 三、國產數據庫當打之年,奔赴“分布式”星斗大海 作為“卡脖子”的要害根底軟件賽道,國產數據庫的興起已是必然。在楊傳輝看來,分布式數據庫正承載著其中大的“彎道超車”機會。 在集中式數據庫賽道,微軟、Oracle等數據庫巨子寶刀未老,開源數據庫亦氣勢如虹,留給國產數據庫玩家的商場空間所剩無幾。但在分布式數據庫賽道,國內外企業起點距離附近,乃至國內面臨的事務場景要求比海外更為嚴苛,而越是具有應戰的事,也往往能帶來倍速的成長。 “曾經集中式做得很好,老練安穩,但這有時候也會成為他們做下一代技能的包袱。”楊傳輝說,當分布式成為下一代數據庫的干流方向,那么國產數據庫廠商的優勢就會體現出來。 他談道,包含OceanBase在內,國產分布式數據庫現已由外圍場地邁入中心事務場景,其中OceanBase是在中心買賣場景使用多的。在處理一些小數據量問題中,OceanBase也現已能做到跟MySQL、Oracle差不多的性價比。 曾經企業可能更多將分布式數據庫用在邊際場景作為彌補,但近年來,OceanBase現已做到將分布式HTAP用在不同職業的要害客戶中心事務場景中,并安穩上線、持續運行。楊傳輝信任:“分布式數據庫未來商場會特別大,簡直一切的客戶都會優先挑選分布式。” 跟著更多企業走向數字化轉型、對實時性發生更高要求,在云原生與分布式疊加趨勢的推動下,楊傳輝對分布式HTAP的未來預期非常樂觀。 他觀察到這兩年分布式數據庫的用戶認可度越來越高,但與Oracle、MySQL顯然還有很大距離。“比方MySQL Oracle的用戶數可能是百萬級、千萬級,分布式可能是幾百級、幾千級,這不是一個量級的。” 因而,當時分布式數據庫的受認可程度還有待提升,HTAP仍處于開展初期,中心應戰就是生態問題。這畢竟是個新式技能道路,很多企業或開發者可能對此感到生疏,需求通過開源、社區運營、高校協作等方式來持續培養更多的用戶習慣。國產分布式數據庫產品,還需處理言語、文檔等問題。 也正因而,OceanBase在上一年6月宣告開源,一次性將包含300萬行代碼的全部中心才干開放出來,讓更多人成為分布式HTAP數據庫的開發者。他們還將持續在公眾號上宣布解讀HTAP技能的系列文章,共享其現已完成的HTAP技能計劃和場景價值。“咱們有自信OceanBase在分布式職業里的技能遙遙領先,咱們需求的是這個職業變得更好。”楊傳輝說。 他信任,跟著分布式數據庫被越來越多的人選用,它又能處理單機問題,未來分布式數據庫會在絕大部分場景中取代集中式數據庫,他期望未來企業“選數據庫就選分布式數據庫,選分布式數據庫就優先選OceanBase”。 結語:路雖遠,行則將至 做國產數據庫,是一件需求情懷,也需求敬畏之心的事。OceanBase能揮灑自如地支撐更多職業客戶的中心買賣事務,絕不是僅靠技能優勢拉開距離,錨定分布式HTAP賽道、假勢移動互聯網年代浪潮、持續堆集職業know-how等多重要素疊加,才造就了它今天的階段性成功。 現階段,國產數據庫正步入快車道,在大數據及人工智能年代大展拳腳。據中國信通院測算,2020年中國數據庫商場規模約為241億元,到2025年估計將增至688億元,商場空間巨大。 但風口之中,不免泥沙俱下,這既需求真實有中心技能的企業在混戰中保持定力、堅持自主研制與創新,也需求業界擬定更嚴格的把關標準,為真實有實力的國產數據庫廠商保駕護航。 “我覺得一切國產數據庫廠商應追求的,是去做一些代替中心體系的工作,”在楊傳輝眼中,這可能是難的、有社會含義的事,但其商業價值不一定高,由于代替中心技能的投入特別大,與代替一個外圍體系不是一個量級。 ”但是這件工作不能說等老練了再去做,永久都不會有老練的那天,”楊傳輝的語調驟然舉高,“就應該跟一些有情懷的企業合在一起,趕忙把這個工作給干出來。” |