2023年互联网公司年度崩盘报告

B站崩了两次

2023年3月5日晚20:20左右,许多网友表示在使用B站时,手机和电脑端都无法访问视频详情页,且手机端无法查看收藏夹与历史记录。

8月4日晚间,距离上次事故5个月后,又有许多网友反馈B站图片(视频封面)无法加载、视频无法打开、视频一直在缓冲。

image

image

唯品会“329”事故

2023年 3月29日,“唯品会崩了”登上热搜,由于崩溃时间太长,影响了很多消费者无法正常下单。

6月5日,唯品会发布处理公告,将此次故障判定为最高级别的P0级故障,对应部门的直接管理者承担此次事故责任,基础平台部负责人予以免职作相应处理。

image

微软Azure故障,17个生产级数据库被删

2023年5月24日,微软Azure DevOps在巴西的一处scale-unit发生故障,导致宕机约10.5 个小时,导致该中断的原因为一个简单的拼写错误,最终导致17个生产级数据库被删除。

img

中国电信大规模无服务

2023年6月8日,中国电信的网络和通信服务出现无信号等失灵现象,绝大部分反馈的用户都在广东区域,疑似广东省内故障,历时4个小时左右,广东省内电信网络全面恢复。

img

10月23日语雀崩盘

故障原因及处理过程

10 月 23 日下午,服务语雀的数据存储运维团队在进行升级操作时,由于新的运维升级工具 bug,导致华东地区生产环境存储服务器被误下线。受其影响,语雀数据服务发生严重故障,造成大面积的服务中断。

为了尽快恢复服务,我们和数据存储运维团队全力进行数据恢复工作,但受限于恢复方案、数据量级等因素,整体用时较长。

具体过程如下:

  • 14:07 数据存储运维团队收到监控系统报警,定位到原因是存储在升级中因新的运维工具 bug 导致节点机器下线;
  • 14:15 联系硬件团队尝试将下线机器重新上线;
  • 15:00 确认因存储系统使用的机器类别较老,无法直接操作上线,立即调整恢复方案为从备份系统中恢复存储数据。
  • 15:10 开始新建存储系统,从备份中开始恢复数据,由于语雀数据量庞大,此过程历时较长
  • 19:00 完成数据恢复;同时为保障数据完整性,在完成恢复后,用时 2 个小时进行数据校验;
  • 21:00 存储系统通过完整性校验,开始和语雀团队联调,最终在 22 点恢复语雀全部服务。用户所有数据均未丢失。

语雀团队声称,“通过这次故障我们深刻认识到,语雀作为一款服务千万级客户的文档产品,应该做到更完善的技术风险保障和高可用架构设计,尤其是面向技术变更操作的‘可监控,可灰度,可回滚’的系统化建设和流程审计,从同 Region 多副本容灾升级为两地三中心的高可用能力,设计足够的数据和系统冗余实现快速恢复,并进行定期的容灾应急演练。只有这样,才能提升严重基础设施故障时的恢复速度,并从根本上避免这类故障再次出现。”

为此,语雀团队制定了如下改进措施:

  • 1、升级硬件版本和机型,实现离线后的快速上线。该措施在本次故障修复中已完成;
  • 2、运维团队加强运维工具的质量保障与测试,杜绝此类运维 bug 再次发生;
  • 3、缩小运维动作灰度范围,增加灰度时间,提前发现 bug;
  • 4、从架构和高可用层面改进服务,为语雀增加存储系统的异地灾备。

语雀团队表示,为了表达歉意,团队将向所有受到故障影响的用户提供如下赔偿方案:

  • 针对语雀个人用户,我们赠送 6 个月的会员服务。操作流程:进入工作台「账户设置」,点击左侧「会员信息」,在会员信息页面点击「立即领取」,即可获得赠送服务。
  • 针对语雀空间用户,由于情况比较复杂,我们会单独制定赔偿方案。请空间管理员留意语雀站内信。

11月12日阿里云史诗级崩盘

11月12日晚间,中国市场份额排名第一的阿里云崩溃了,和以往相比,这次崩溃的时间点有点特殊。

一、此次崩溃,阿里巴巴集团新团队刚刚上任两个月,就出现了如此重大的事故。

二、10月31日,阿里巴巴新任董事会主席蔡崇信刚刚“表扬”完阿里云,刚过了十一天,就出现了大问题。

三、本次崩溃出现在“双十一”第二天,阿里巴巴旗下各集团以及使用阿里云服务的很多公司业务都异常繁忙,但阿里云崩溃了。

image

有人说,阿里云崩溃,只是一次技术问题,实则不然。

云计算被称为数字经济乃至全社会重要的基础设施。蔡崇信此前表示,阿里巴巴就希望让计算成为像水和电一样的公共服务。

毫不夸张的说,阿里云崩溃,对于互联网企业来说,就有点类似于国家电网停电,天然气公司断气、自来水公司停水。

因为云服务的重要性,曾有人建议,应该让国企来提供服务。不过,阿里云目前在国内是“巨无霸”式的存在。

蔡崇信在10月31日举行的2023云栖大会上介绍说,目前全国80%的科技企业和超过一半的AI大模型公司跑在阿里云上。包括10月闭幕的杭州亚运会核心系统100%跑在云上。

7月21日,阿里巴巴发布的2023财年年报显示,阿里云营收达到772.03亿元,占公司整体营收的9%。阿里云目前是全球第三、亚太第一的云计算公司。

2023财年,阿里云服务全球400多万客户,包括80%的中国科技创新企业、60%的国家级专精特新“小巨人“企业。阿里云的服务覆盖油气、电力、交通、金融、酒旅、企服、通信等实体产业。

本次阿里云崩溃,旗下淘宝、闲鱼、阿里云盘、饿了么、钉钉在内的多款产品均出现了服务器故障问题。

还有网友称,智慧笑联APP因为受到阿里云服务影响也不能使用。“就连充电桩和学校里的洗衣机、饮水机机器都‘崩’了。”

image

image

由此可见,阿里云的崩溃绝不简单,小到某个互联网公司无法运行,大到关系国计民生的项目无法正常运转。

推特宕机

2023年2月,推特严重宕机,马斯克暴怒,因其关于超级碗的推文曝光度不如美国总统,深夜紧急召集约80名员工解决算法问题。

3月份,因一名工程师修改配置导致推特出现严重的宕机故障,马斯克扬言要将这堆“shit code”全部进行重构。

ChatGPT故障

2023年11月8日晚22点左右,OpenAI旗下ChatGPT及相关API出现中断故障,导致面向用户和开发者的服务近2小时无法正常使用。

随后OpenAI CEO公开致歉称,本周发布的新功能遇到远超预期的使用量,由于负载的原因,短期内可能会出现服务不稳定的情况。

滴滴11.27系统服务故障:

2023年11月27日晚间,滴滴因系统故障导致App服务异常,不显示定位且无法打车;11月28日早间,滴滴出行称网约车等服务已恢复,骑车等在陆续修复中。

11月29日,滴滴再次发文致歉,称初步确定事故起因是底层系统软件发生故障。

image

这次事故发生时,上海、北京、广州等多地滴滴用户反馈,滴滴出行 APP 无法使用,地图无法加载。有网友称,使用滴滴呼叫了网约车后,APP 突然无法使用,司机找不到乘客。有网约车司机在社交平台表示,正在送乘客途中,出现导航无法使用,地图无法加载等情况。image-20240103211614355

12月29日上午11左右CSDN崩溃

image

image

image

写在最后

编程严选网(www.javaedge.cn),程序员的终身学习网站已上线!

如果这篇【文章】有帮助到你,希望可以给【JavaGPT】点个赞👍,创作不易,如果有对【后端技术】、【前端领域】感兴趣的小可爱,也欢迎关注❤️❤️❤️ 【JavaGPT】❤️❤️❤️,我将会给你带来巨大的【收获与惊喜】💝💝💝!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/318474.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

8K自动化测试面试题分享(有答案,非常详细)

关于自动化测试面试,会问到哪些问题呢?给大家简单总结了一下,每一个都是学员反馈过来的企业真题,相信对大家有帮助,最近有面试机会的,快来背一下答案吧 1、你会封装自动化测试框架吗? 这个问得…

软件测试基础篇(超详细整理)

1、软件测试的生命周期 回顾:需求分析、计划、设计、编码、测试、运行维护 软件测试的生命周期: 需求分析→测试计划→ 测试设计→ 测试开发→ 测试执行→ 测试评估 需求分析:分析需求的正确性,合理性。细化需求,得…

TB-C/C++

1.main函数之前之后执行的代码 设置栈指针初始化静态变量和全局变量(.data段内容,已初始化且不为0)赋初值(.bss段内容,未初始化的全局变量和静态变量)传参(argc,argv)atexit() 在…

12.Harbor构建私有镜像仓库

1、阿里云容器镜像服务-个人版 细心的同学可能已经发现,在前面的部署过程中,前面所有的部署步骤中需要的镜像都是从阿里云的镜像仓库中下载。 因为网络原因,有的镜像可能下载比较慢,有点可能下载不了,所以为了加速镜像下载,我都统一将镜像推送到阿里云的镜像仓库(个人…

编译器功能__attribute__介绍和官方资料来源

1、__attribute__简介 __attribute__不是C语言本身的关键字,而是属于编译器扩展的C语言的功能,C Extensions (Using the GNU Compiler Collection (GCC))中可以找到关于attribute的几个章节,Function Attributes【函数属性】、Variable Attr…

基于深度学习的交通标志图像分类识别系统

温馨提示:文末有 CSDN 平台官方提供的学长 QQ 名片 :) 1. 项目简介 本文详细探讨了一基于深度学习的交通标志图像识别系统。采用TensorFlow和Keras框架,利用卷积神经网络(CNN)进行模型训练和预测,并引入VGG16迁移学习…

基于YOLOv7算法的高精度实时海上船只目标检测识别系统(PyTorch+Pyside6+YOLOv7)

摘要:基于YOLOv7算法的高精度实时海上船只目标检测系统可用于日常生活中检测与定位海上船只,此系统可完成对输入图片、视频、文件夹以及摄像头方式的目标检测与识别,同时本系统还支持检测结果可视化与导出。本系统采用YOLOv7目标检测算法来训…

基于华为ENSP模拟器-vlan划分网络

需求 不连外网的内网。需求隔离故障和隔离广播风暴,并要保证网络的连通。 解决方案使用三层交互机,设置vlan用于隔离网络,并在三层交互机为网关保证各个vlan之间的通讯。 实现 使用三层交互机,设置vlan用于隔离网络&#xff0…

全国计算机等级考试| 二级Python | 真题及解析(11)

一、选择题 1.有关循环结构的说法不正确的是( )。 A.循环结构是算法的基本结构之一 B.有的的程序设计中没有循环结构 C.循环结构在程序设计有可能会有嵌套出现 D.在PYTHON 程序设计语言中循环结构一般使用IF语句实现。 2.在Python中要交换变量a和b中的值,应使…

Nacos学习思维导图

一、服务注册 参考文档:http://www.bryh.cn/a/118936.html https://blog.csdn.net/Saintmm/article/details/121981184 二、服务续约 参考文档:http://www.bryh.cn/a/118936.html https://blog.csdn.net/Saintmm/article/details/121981184 三、服务…

CMake入门教程【核心篇】引用子模块.cmake文件(include)

😈「CSDN主页」:传送门 😈「Bilibil首页」:传送门 😈「本文的内容」:CMake入门教程 😈「动动你的小手」:点赞👍收藏⭐️评论📝 文章目录 include子模块举个例…

多元统计分析(4):判别分析

4.1 判别分析的目标 主要目的:判别一个个体所属类别 4.2 距离判别 都选用用马氏距离 4.2.1 判别准则 化简的证明: 称为判别函数,为判别系数。 4.2.2 误判概率 【1】当两个正态总体的协方差相同 证明: 当两个正态总体重合的时…