中国联通:用国产技术,构筑数字时代安全堡垒

2024-04-15 09:28:25 来源: 《环球》杂志

客商在广交会展馆内设置的通讯服务点选购电话卡

 文|张海鑫 黄红华

  2022年10月15日下午3点19分,位于韩国京畿道城南市盆唐区三平洞的SK C&C板桥数据中心发生火灾。

  尽管数据中心于次日上午9时恢复了90%的服务器电力供应,但在断电的大半天内,韩国互联网仍然蒙受了巨大损失。Kakao首当其冲,这款软件是韩国应用最广泛的移动通信工具,涵盖即时通讯、移动支付、在线交易、在线地图和打车等业务。分析师估计,受火灾影响,Kakao第四季度的收入因此遭受220亿韩元的损失。

  无独有偶,2021年3月位于法国斯特拉斯堡的OVH数据中心被大火烧毁。火灾导致多个数据中心无法提供服务,大量客户网站瘫痪,部分客户数据完全丢失且无法恢复。这成为数据中心史无前例的灾难性事件。

  在全球,每天都会有因自然灾害或人为因素导致的数据丢失事件发生,特别是近几年随着极端天气、气候事件频发,数据安全面临前所未有的挑战。研究显示,灾害后,如果无法在14天内恢复信息作业,有75%的公司业务会完全停顿,43%的公司再也无法重新开业,20%的企业在两年内将被迫宣告破产。

  为了避免类似灾难,在中国,运营商与国产数据库一起,另辟蹊径,在极端条件下为国民数据安全建起了一座堡垒。

一场容灾实战

  “王平镇、大台街道、妙峰山镇的乡亲们,因暴雨致通信中断,中国联通紧急调派无人机抵达你镇上空,可暂时恢复中国联通移网通信。受无人机滞空时间限制,移网恢复时间只有3小时,请尽快告知情况、联系家人。祝平安!”2023年8月4日,当台风“杜苏芮”裹挟着140年来最大降雨登陆北京,这样一则信息出现在了许多受灾民众的手机中,让他们可以向外界报平安。

  救灾一线,中国联通的空中基站无人机、应急通信车、工程抢险车第一时间到达现场,抢修队伍艰难作业,失联区域的信号条被一个个点亮。“永定镇,共44个行政村/规模小区,已通!”“龙泉镇,共33个行政村/规模小区,已通!”“军庄镇,共11个行政村/规模小区,已通!”……几天时间,前线抢通铺设的光纤芯公里数相当于从北京到阿根廷首都布宜诺斯艾利斯的距离。

  而在后方,也有一群联通人日夜坚守,确保数据安全万无一失。“面临地震、洪水等自然灾害带来的机房断电、被毁或光纤断裂等极端情况时,分布式数据库的弹性伸缩能力可以很好地进行发生故障时自动迁移,通过自愈来保障业务连续性以及数据的高可用和高安全。”中国联通软件研究院公共平台与架构研发事业部副总经理王晓峰说,联通将数据库集群进行“两地三中心五副本”部署,数据副本分别存储在西安和无锡的两个数据库资源池。比如当一个计算节点发生严重灾难,我们的双活管控台就会在不同的数据中心之间进行切换,异地灾备中心的数据库集群往往可以在秒级内完成节点的故障转移,基于强同步机制的数据库服务可以实现数据无丢失。基本上可以做到让用户无感,用户重新连接网络后便可立即恢复使用。

  国产分布式数据库OceanBase的多地多副本架构,在很大程度上可以支撑联通这种异地双活的城市级容灾需求,这也是联通选择分布式数据库的关键理由之一。王晓峰说,“分布式数据库相比集中式单机主备架构,具有原生的分布式一致性事务和写负载分发的优势,从而可以更高程度地保障数据库的多副本同步,提高数据的安全性。我们联通的业务分为关键核心业务、核心业务和一般业务。关键核心业务的数据肯定是要保障数据高可用、高安全,不仅在数据层面进行异地的容灾,在业务层面我们也是异地双活,以保障在异常场景下为联通客户提供持续有效的服务。”

  “当然这种城市级的灾难并不多见,但我们平时也会时常开展这种容灾倒换演练,根据演练经验,对操作规程和调度时间等不断进行优化,缩短容灾倒换的时间,更好地应对未来可能面临的风险。”王晓峰说,对数字时代的数据容灾来说,“亡羊补牢,犹未迟也”的观念显然已经过时,“防患于未然”才是必须要做到的。

当史无前例的新需求遇上自主创新的大突破

  除了数据安全方面的考量,中国5G市场爆发带来的一个新问题,成了运营商们进行数据库替换的直接诱因。

  在2023年6月初举行的第31届中国国际信息通信展览会上,工业和信息化部党组书记、部长金壮龙指出,近10年来,我国信息通信业取得了跨越式发展,建成全球规模最大、技术领先的网络基础设施,移动通信网络实现从“3G突破”“4G同步”到“5G引领”的跨越。

  目前,中国已经建成全球规模最大的5G网络,拥有的5G用户数量全球最多。2023年上半年,三大运营商的成绩亮眼,5G套餐用户持续保持快速增长,6月份,三大运营商5G套餐用户数达到12.48亿户。如此巨大的5G用户需求,对于运营商来说意味着充满机遇,却也将世界其他国家从未遇到过的难题摆在它们面前。

  用户量、业务量的短时骤增,对通信行业的数据库支撑系统提出了几近苛刻的要求,尤其是核心计费账务系统:话单积压不能超过5分钟、系统需要负载至少5到6倍的当前业务总量……这样的数据和信息处理需求,在世界上史无前例、独具中国特色。然而,Oracle、SQL Server和DB2等传统数据库孕育于欧美市场,并不能很好地满足这样体量的数据管理需求。

  “以联通为例,现在联通全国活跃用户超4亿,在月初交费的高峰期,用户通过PC端、手机端和联通App等大量涌入,如此高并发的业务需求早已超出了国外集中式数据库的性能上限。”王晓峰说,“以前业内基本上都用的是国外的集中式数据库,5000万用户数基本上就到达集中式的瓶颈了。它或许可以支撑一个省的业务发展,但面对全国业务却显得力不从心,必须用分布式数据库来解决这个问题。”

  “比如说联通核心支撑系统cBSS,它将CRM、Billing等BSS域的核心系统全部集中起来,对数据库的要求就是存储量巨大,并发度非常高,还要有一定的可扩展性。有时候我们可能会推出一些秒杀活动,数据库必须要能经受住这些活动带来的大流量的突然冲击。”王晓峰说,自主可控和高性能、高可用,这些是电信行业对数据库的重要要求。

  也正是基于上述两点考量,中国联通早早便把目光投向了国产数据库。正在这时,国际市场也传来了国产数据库的好消息。2019年数据库领域权威机构国际事务处理性能委员会(TPC)在官网发表TPC-C基准测试结果。蚂蚁集团自主研发的原生分布式数据库OceanBase以两倍于Oracle(甲骨文)的成绩,打破数据库基准性能测试的世界纪录,成为全球数据库演进史上的重要里程碑。次年,性能数据又创下7.07亿tpmC的新纪录,卫冕世界第一数据库,实现我国基础软件领域的重大突破。

  于是,中国联通与OceanBase顺理成章地走到了一起。

使用者也是开发者

  王晓峰坦言,在整个数据库国产升级项目之初也遭遇了一些挑战。“主要来自数据库产品的兼容性带来的业务系统改造、语法和性能的不匹配,以及运维支撑问题。电信业务非常复杂,国外的集中式数据库跟随我们的业务系统运行了很多年,有些系统的开发时间很长,有一些非常复杂的存储过程其代码写得也很繁杂,还会用到一些非常冷僻的SQL语句,这需要我们看懂语句逻辑,按照新的数据库的要求把它重新改写才行。”

  为了提高国产数据库的整体可用性和易用性,降低使用门槛,联通软研院平台架构部数据库研发团队,历时13个月完成了对社区版OceanBase的优化改进,打造了ChinaUnicom Database for OceanBase(以下简称CUDB for OB)分布式HTAP数据库产品。王晓峰介绍,比如我们自研了MySQL和CUDB的双向数据迁移,迁移速度10万行/秒以上,是社区版OMS的3倍,同类产品DataX的5倍,并且迁移兼容性也远超同类产品;同时,我们的配套生态工具也支持SQL阻断限流、连接自动查杀、锁事务管理、索引分析、SQL建议、一键巡检等运维能力。通过工具,降低DBA门槛,我们希望可以做到人人都可以是DBA。

  初略统计,目前中国联通迁移到CUDB for OB上的业务应用已有270多个、部署规模200多、原始数据量近300TB压缩后仅50TB。

  由此,中国联通在国产数据库的使用过程中也完成了从使用者到开发者的身份转变。“中国联通的生产环境足够复杂,系统运行多种多样,OceanBase能够在这样的环境下历练,会加速我们产品的成熟。”OceanBase运营商行业解决方案负责人李楠表示,后期我们也会与联通软研院的研发人员一起发现问题、解决问题,同用户一起成长。

  “我们还计划将联通自研OceanBase数据迁移工具对外开源。”王晓峰说,我们将好的开源项目、开源技术引入到联通中进行实践,并将实践效果、改进思路回馈到开源社区,让更多用户不必再重复攻克我们在迁移过程中遇到的难题,降低国产数据库的使用门槛,“这也是我们作为央企应该承担的责任”。

  除了已经在实战中得到检验的高容灾能力和高性能之外,王晓峰介绍,“OceanBase还有一个优势是,它采用了数据压缩存储的方案,在保障多副本份额的同时可以对数据进行压缩,基本上能够压缩到原来的1/3。换句话说,用1/3的服务器就能够支撑原本同等的业务,这释放了我们很多机器,整个系统的运营成本也明显降低。”

  王晓峰希望,数据库作为关键基础软件,未来要在技术、人才、生态等多方面长期持续投入和创新,下大力气,优化系统、扩大规模、降低成本、培养人才,产学研用共同合作,形成良性循环,让更多人分享国研软件的“甜”。

手机版