B站半夜崩溃 企业云容灾预警没做好?

2021-07-15 06:33:21 第一财经日报 

  副题: 面对极端情况,如果云上的应用没有合理规划灾备,一定会造成业务中断甚至数据丢失。多云战略也是未来的重要方向。

  作者: 吕倩 来莎莎

   7月13日深夜,微博、朋友圈等社交平台纷纷在热议一个话题——B站怎么崩了?“B站崩了”话题一度在微博热搜第一名上,并呈现“爆了”的状态。

   与此同时,很多网友反映,A站、豆瓣、晋江……都崩了。

   互联网企业难免宕机。尴尬的是,B站的修复进展缓慢,让网友十分着急上火。子夜时分,“后浪”们的吐槽在社交媒体上发酵。

   7月14日凌晨0时20分,A站发微博称,“在修复了”。4分钟后,即0时24分称“已修复,欢迎来玩”。

   在宕机约三个小时后,7月14日凌晨2时20分,B站(09626.HK)通过其官方微博就“部分服务器机房发生故障造成无法访问”致歉,称:“昨晚,B站的部分服务器机房发生故障,造成无法访问。技术团队随即进行了问题排查和修复,现在服务已经陆续恢复正常。耽误大家看视频了,对不起。”

   但至于服务器机房发生故障的具体原因,B站并未进一步详细说明。尽管遭遇突发事件,B站港股股价表现尚可,14日微跌收于863.5港元。

   具体宕机原因不明

   “B站崩了”引发热议后,其背后原因也引发多方猜测。当晚,上海消防第一时间回应称,“经了解,位于上海市政立路485号国正中心内的哔哩哔哩弹幕网B站(总部)未出现火情,未接到相关报警。”

   此前,B站技术总监毛剑在公开分享中表示,在应对连锁故障时,要做到——尽可能避免过载;通过一些手段去做限流,以及在无法正常服务时,通过有损服务牺牲掉一些非核心服务去保证关键服务做到优雅降级;重试策略上,在微服务内尽可能做退避,尽可能考虑到重试放大的流量倍数对下游的冲击;考虑在移动端用户无法使用某个功能的情况下,通常频繁刷新页面产生流量冲击,在移动端进行配合来做流控等方式。

   但是在现实案例里,B站对突发事件的应对显然不够迅速,有网友在分享帖子下评论称“三个多小时才陆续恢复,这次绝对是一级事故”。

   更多猜测聚焦在技术层面。多位接受第一财经记者采访的技术人员表示,B站采用混合云模式,内容分发网络(CDN)也是采用的腾讯云而非自建,因此目前从B站自身角度来考虑的话,更大可能是物理层面的问题,如网络问题、数据中心光纤被挖断、光缆被损害等。

   腾讯云在官网客户案例中介绍称,B站采用腾讯云自研GSLB调度体系,结合全网实时监控数据,将用户请求精准调度至最优接入节点,最大程度降低用户访问时延和减少视频卡顿,最终用户用相同的带宽可以流畅地观看更高清的直播视频,提升用户体验,建立平台品牌形象。

   实际上除了B站,此前诸多网站均发生过网络事故。

   2019年6月1日,亚马逊旗下云服务商AWS中国区的许多互联网公司发生宕机,受影响的包括亚马逊中国官网、VIPKID、流利说、三星应用商店等。后根据AWS的官方调查,AWS北京区域一处道路施工中有几处光缆被切断,导致可用区无法链接网络。

   行业人士认为,AWS因光缆被切断便导致近12小时大面积服务瘫痪,是没有做好网络冗余设计,即为确保业务正常运转,除配置主线路外,同时做好第二种、第三种线路的部署。

   2020年,AWS宕机又来。去年12月25日,AWS出现大范围宕机,影响软件企业Adobe、流媒体终端商Roku等服务。AWS称,由于处理大量串流数据的Kinesis服务遭遇问题,导致好几个网站错误率提高,并影响更新网站页面的能力,已着手紧急修复。

   2020年2月,微盟(02013.HK)收到系统监控警报,经排查后获悉是微盟研发中心运维部核心运维人员贺某通过个人VPN登入公司内网跳板机,对微盟线上生产环境进行了恶意的破坏。随后,微盟诸多客户的小程序电商商城均处于宕机状态,当时恰逢线上购物高峰期,宕机与数据丢失对微盟及其合作商家产生了极为负面的影响。

   警醒容灾准备必要性

   不论是AWS还是B站、微盟,其宕机事故所带来的负面影响均需引发警惕。

   另外,目前企业数字化转型渐成大趋势,5G、物联网、工业互联网、云计算、人工智能等新技术在各行各业中的应用越来越多,所产生的海量数据(603138,股吧)正呈指数级增长。一旦发生数据丢失与网站崩溃,对业务极有可能产生致命性危机。

   对于每家公司的运维团队来说,降低容灾TCO、简化容灾方案、业务快速恢复,都是极大挑战。

   万博智云首席技术官(CTO)孙琦对第一财经记者表示,虽然互联网应用架构已经从应用层实现了高可靠和冗余的特性,但是面对物理层面或应用逻辑的异常时,也无法全身而退。近几年,云上构建的应用架构的最佳实践已经非常完善,多可用区、弹性可扩展的方式为应用构建提供了便捷。

   除了阿里云、腾讯云,主流云服务厂商均提供各种灾备方案。中国电信天翼云的方案为“2+31+X”资源部署,以内蒙古、贵州两大数据中心为核心,定位为冷数据存储、海量密集计算、远程灾备基地;在全国31个省份进行一省一池的核心部署,定位为温数据存储、属地集中计算、专属云等业务;X指下沉到地市甚至区县的边缘节点,定位为热数据高速缓存,边缘计算等业务,承载属地化要求极高的业务。

   UCloud优刻得的容灾解决方案显示,在国内,该公司以北京、上海、广州为中心节点,中心之间的网络实现双环、异路、全互联,每个中心下会分布多个可用区、可用区下又有多个数据中心,可以实现同城多活,异地容灾。

   UCloud创始人兼CEO季昕华曾在接受记者采访时表示:“云计算公司有四大谎言,分别是云计算先服务于内部客户,再服务于外部客户;云计算能保证100%的安全;云计算消耗大量资金;云计算是不盈利的。”

   季昕华称:“云计算虽然比本地研发更安全,但不可能是100%。就算微软、亚马逊、谷歌、阿里、腾讯一样都会出问题。所以用户更愿意使用多家云来服务,多云战略是未来的重要方向。”

   在具体容灾落地过程中,腾讯云技术运营服务工程师康开元在腾讯大讲堂上表示,做容灾首先要梳理当前系统“灾”主要有哪些痛点,并对其优先级排序。如单点隐患、难扩展性、运维成本高等现状。而异地容灾的核心特征在于——范围上地域粒度的容灾;流量分布上单地域承载100%业务流量;数据存储方面在数据库及存储均在异地做冷备,数据单向同步;常见使用场景主要在数据层安全级别容灾,业务层较少异地部署。

   孙琦告诉第一财经,面对极端情况,如果云上的应用没有合理规划灾备,也一定会造成业务中断,甚至数据丢失,造成更大的损失。所以,云上的应用架构除了利用云原生的服务能力为应用创造更快的迭代速度,还要考虑云原生服务在单元多区域,甚至多云多区域之间的灾备,才能实现最高级别的业务连续性。

  

(责任编辑:李佳佳 HN153)
看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读

        和讯热销金融证券产品